بررسی صحبت با هوش مصنوعی در پادکست نوآوری جدید گوگل
در این مقاله به بررسی صحبت با هوش مصنوعی در پادکست نوآوری جدید گوگل میپردازیم. در دنیای امروز، تولید محتوای صوتی باکیفیت به یکی از ابزارهای کلیدی برای ارتباط با مخاطبان تبدیل شده است. فناوریهای پیشرفته مانند Gemini 1.5 Pro و API تبدیل متن به گفتاراز Google Cloud، راههای جدیدی برای تبدیل متن به گفتار طبیعی و تولید مکالمات صوتی حرفهای ارائه میدهند.
این ابزارها به تولیدکنندگان محتوا، کسبوکارها و حتی افراد عادی کمک میکنند تا پادکستها، مکالمات و تجربههای صوتی منحصربهفردی را برای مخاطبان خود ایجاد کند. این مقاله نگاهی دارد به روشهای استفاده از این فناوریها، از جمله ایجاد اسکریپتهای جذاب، شخصیسازی لحن و سبک، و گسترش دسترسی به محتوای صوتی. برای اطلاعات بیشتر در این مورد میتوانید مقاله آیا پادکستهای هوش مصنوعی واقعاً جذاب هستند ؟ را مطالعه نمایید.
ابزار هوش مصنوعی که از هر اطلاعاتی که وارد میکنید، پادکست تولید میکند، در حال اضافه کردن یک حالت «تعاملی» و همچنین یک سطح جدید اشتراکی پولی است که ویژگیهای بیشتری را ارائه میدهد. NotebookLM گوگل و ویژگی «نمای کلی صوتی» که شبیه پادکست است، امسال به طور غیرمنتظرهای موفق ظاهر شدهاند. اکنون گوگل یک ویژگی جدید و بزرگ را عرضه میکند: امکان صحبت کردن با «میزبانهای» هوش مصنوعی این نمای کلی.
طبق یک پست وبلاگی، زمانی که این ویژگی در دسترس شما قرار گیرد، میتوانید آن را با نمای کلی صوتی جدید امتحان کنید. (این ویژگی با نمای کلیهای قدیمی کار نخواهد کرد.) مراحل استفاده به این صورت است:
- یک نمای کلی صوتی جدید ایجاد کنید.
- دکمه حالت تعاملی (ورژن آزمایشی) را بزنید.
- هنگام گوش دادن، گزینه «پیوستن» را انتخاب کنید. میزبان با شما تماس خواهد گرفت.
- سؤال خود را بپرسید. میزبانها پاسخی شخصیسازیشده بر اساس منابع شما ارائه میدهند.
- پس از پاسخ دادن، نمای کلی صوتی اصلی ادامه پیدا میکند.
قابلیت صحبت کردن با NotebookLM میتواند روشی مفید برای درک بهتر اطلاعات جمعآوریشده در اپلیکیشن باشد. اما گوگل هشدار میدهد که این یک «ویژگی آزمایشی» است و «ممکن است میزبانها قبل از پاسخگویی مکثهای ناخوشایندی داشته باشید یا گاهی اطلاعات نادرستی ارائه دهند»، بنابراین در آغاز ممکن است تجربه کاملاً بینقصی نباشد.
علاوه بر نمای کلی صوتی تعاملی، گوگل یک رابط کاربری جدید برای NotebookLM معرفی کرده است که همه چیز را در سه بخش سازماندهی میکند:
- پنل منابع: برای مدیریت اطلاعات شما.
- پنل گفتگو: برای صحبت با چتبات هوش مصنوعی درباره منابع.
- پنل استودیو: برای ایجاد ابزارهایی مانند نمای کلی صوتی و راهنماهای مطالعه.
به نظر میرسد این طراحی جدید جذاب و کاربردی باشد. گوگل اشتراک جدیدی برای NotebookLM با نام NotebookLM Plus معرفی کرده است. این اشتراک امکانات زیر را فراهم میکند: پنج برابر بیشتر نمای کلی صوتی، دفترچهها و منابع در هر دفترچه.
- امکان شخصیسازی سبک و لحن پاسخهای دفترچه.
- قابلیت ایجاد دفترچههای مشترک برای تیمها.
- ارائه حریم خصوصی و امنیت بیشتر.
این اشتراک از امروز برای کسبوکارها، مدارس، دانشگاهها و مشتریان سازمانی و شرکتی در دسترس است. همچنین، این اشتراک در اوایل سال 2025 به عنوان بخشی از Google One AI Premium اضافه خواهد شد.
علاوه بر این، گوگل پلتفرم جدیدی به نام Agentspace را برای ایجاد عوامل هوش مصنوعی سفارشی برای شرکتها معرفی کرده است. بر اساس اعلام گوگل، Agentspace میتواند:
- دستیار مکالمهای ارائه دهد.
- به سؤالات پیچیده پاسخ دهد.
- پیشنهادهای پیشگیرانه ارائه دهد.
- اقدامات لازم را بر اساس اطلاعات خاص شرکت شما انجام دهد.
همچنین این پلتفرم دارای کانکتورهایی برای اپلیکیشنهایی مانند Microsoft SharePoint، Jira و ServiceNow است، که ادغامپذیری بالایی را ارائه میدهد.
هوش مصنوعی مولد روشهای جدیدی برای تجربه محتوای صوتی ایجاد کرده است، از پادکستها گرفته تا خلاصههای صوتی. بهعنوان مثال، شما استقبال زیادی از ویژگی جدیدنمای کلی صوتی NotebookLM کردهاند که اسناد را به مکالمات صوتی تبدیل میکند. با یک کلیک، دو میزبان هوش مصنوعی یک بحث جذاب و عمیق را بر اساس منابع شما آغاز میکنند. این میزبانها مطالب شما را خلاصه کرده، بین موضوعات ارتباط برقرار میکنند و با هم گفتوگو میکنند.
در حالی که NotebookLM مزایای فوقالعادهای برای درک اطلاعات پیچیده ارائه میدهد، برخی شما به دنبال کنترل بیشتری برای ایجاد تجربههای صوتی منحصربهفرد، مانند ساخت پادکستهای شخصی، هستند. پادکستها بهعنوان یک رسانه محبوب برای خالقان محتوا، رهبران کسبوکار و شما برای شنیدن موضوعات مورد علاقهشان روزبهروز محبوبتر میشوند. امروز، ما توضیح میدهیم که چگونه Gemini 1.5 Pro و TexttoSpeech API در Google Cloud میتوانند به شما کمک کند مکالماتی با صداهای متنوع ایجاد کنید و اسکریپتهای پادکست را با درخواستهای سفارشی تولید کنید.
گسترش دسترسی با فرمتهای صوتی متنوع
یک پادکست عالی با محتوای صوتی قابلدسترس آغاز میشود. تواناییهای چندوجهی Gemini در کنار API پیشرفته تبدیل متن به گفتار(TexttoSpeech) با بیش از 380 صدا در بیش از 50 زبان و امکان ایجاد صدای سفارشی، روشهای جدیدی برای تجربه محتوا فراهم میکند و به شما امکان میدهد دسترسی خود را از طریق فرمتهای صوتی متنوع گسترش دهند.
این رویکرد به تولیدکنندگان محتوا کمک میکند تا به مخاطبان بیشتری دسترسی پیدا کند و فرآیند تولید محتوا را سادهتر کند. از جمله:
- گسترش دسترسی: ارتباط با بخشهایی از مخاطبان که محتوای صوتی را ترجیح میدهند.
- افزایش تعامل: ایجاد ارتباطات عمیقتر با شنوندگان از طریق محتوای صوتی شخصیسازیشده.
- بازآفرینی محتوا: افزایش ارزش محتوای متنی موجود با تبدیل آن به فرمت صوتی جدید، بدون نیاز به تولید محتوا از ابتدا، و دسترسی به مخاطبان گستردهتر.
- معماری: Gemini 1.5 Pro و API تبدیل متن به گفتار
معماری ایجاد نمای کلی صوتی ما از دو سرویس قدرتمند Google Cloud استفاده میکند:
Gemini 1.5 Pro
این مدل پیشرفته هوش مصنوعی مولد در درک و تولید متن انسانی فوقالعاده عمل میکند. با استفاده از Gemini 1.5 Pro میتوانید:
تولید اسکریپتهای جذاب: محتوای خلاصهشده پادکست خود را به Gemini 1.5 Pro ارائه دهید تا اسکریپتهای گفتوگویی جذاب با معرفیها، انتقالهای روان و فراخوانها برای اقدام تولید کند.
بهینهسازی محتوا برای فرمت صوتی: این مدل میتواند محتوای متنی را برای استفاده در فرمت صوتی بهینه کند و جریان طبیعی و تجربه شنیداری جذابی را تضمین کند. همچنین، میتواند لحن و سبک را برای تطبیق با هر فرمتی مانند پادکستها تنظیم کند.
TexttoSpeech API
این API متن را به گفتار طبیعی تبدیل میکند و به اسکریپتهای شما جان میبخشد. شما میتوانید از بین صداها و زبانهای متنوع انتخاب کنید تا با برند و مخاطبان هدف شما همخوانی داشته باشد. این معماری ترکیبی، ابزاری قدرتمند برای ایجاد تجربههای صوتی حرفهای و شخصیسازیشده در اختیار تولیدکنندگان محتوا قرار میدهد.
در ادامه نحوه آموزش چگونه یک پادکست جذاب تولید کنیم ب صورت گامبهگام آمده است.
آمادهسازی محتوا
- محتوای پادکست خود را بهدقت آماده کنید. ساختار آن را بهینه کرده و برای وضوح بیشتر، ویرایش کنید.
- اگر محتوای طولانی دارید، آن را به چندین قسمت تقسیم کنید تا مدت زمان هر قسمت برای شنوندگان مناسب باشد.
استفاده از Gemini 1.5 Pro
- از Gemini 1.5 Pro برای تولید اسکریپت گفتوگویی برای پادکست خود استفاده کنید.
- با امتحان کردن درخواستها (prompts) مختلف، خروجی را تنظیم کنید تا سبک و لحن دلخواه خود را به دست آورید.
نمونه درخواست:
“یک اسکریپت نمای کلی صوتی جذاب از این پادکست تولید کن که شامل یک معرفی، انتقالهای روان و یک فراخوان برای اقدام باشد. مخاطب هدف توسعهدهندگان فنی، مهندسان و معماران کلاد هستند.”
استخراج بخشها
- برای پادکستهای پیچیده یا طولانی، از Gemini 1.5 Pro برای استخراج بخشها و زیربخشهای کلیدی استفاده کنید.
- این بخشها را بهصورت JSON ذخیره کنید تا ساختاری واضح و منظم داشته باشید که تولید اسکریپت نهایی را آسانتر کند.
با دنبال کردن این مراحل و استفاده از ابزارهای پیشرفته مانند Gemini 1.5 Pro، میتوانید پادکستهایی حرفهای و جذاب تولید کنید که تأثیر زیادی بر مخاطبان شما بگذارد.
خودتان بشنوید
در حالی که API تبدیل متن به گفتار صدای باکیفیتی تولید میکند، میتوانید مکالمه صوتی خود را با افزودن موسیقی پسزمینه، افکتهای صوتی و ویرایش حرفهای با ابزارهای مختلف بهبود بخشید. خودتان امتحان کنید – مکالمه صوتیای را که با استفاده از Gemini 1.5 Pro و API تبدیل متن به گفتار از این وبلاگ ایجاد کردهام، دانلود کنید. برای شروع تولید محتوای صوتی، مجموعه کامل ویژگیهای تولید صوتی ما را با استفاده از خدمات Google Cloud، از جمله API تبدیل متن به گفتار و مدلهای Gemini در ورژن رایگان بررسی کنید. پیشنهاد میکنیم با حالتهای مختلف مانند درخواستهای متنی و تصویری آزمایش کنید تا پتانسیل Gemini را در تولید محتوا تجربه کنید.
برای تجربه بهتر محتوای صوتی تولیدشده با ابزارهایی مانند Gemini 1.5 Pro، استفاده از تجهیزات مناسب اهمیت بالایی دارد. هدفون انکر مدل Soundcore H30i با کیفیت صدای شفاف و طراحی راحت، تجربه شنیداری شما را به سطح جدیدی ارتقا میدهد و جزئیات هر مکالمه را با وضوح کامل به گوش میرساند.
کلام آخر
با استفاده از ابزارهایی مانند Gemini 1.5 Pro و TexttoSpeech API، تولیدکنندگان محتوا میتوانند تجربههای صوتی منحصربهفرد و حرفهای ایجاد کند که به مخاطبان گستردهتری دسترسی داشته باشد. این فناوریها نه تنها فرآیند تولید را سادهتر میکنند، بلکه امکان شخصیسازی محتوا، بهینهسازی برای فرمتهای صوتی و افزایش تعامل با شنوندگان را فراهم میکنند.
با آزمایش و خلاقیت در استفاده از این ابزارها، میتوانید ارزش بیشتری از محتوای موجود خود استخراج کنید و تجربههای شنیداری بهتری برای مخاطبان خود ارائه دهید. فناوریهای پیشرفته Google Cloud، فرصتی بینظیر برای ورود به دنیای جدید محتوای صوتی ایجاد کردهاند.
پاسخگوی سوالات شما هستیم
دیدگاهی وجود ندارد!