صحبت با هوش مصنوعی در پادکست‌ نوآوری جدید گوگل

بررسی صحبت با هوش مصنوعی در پادکست‌ نوآوری جدید گوگل

در این مقاله به بررسی صحبت با هوش مصنوعی در پادکست‌ نوآوری جدید گوگل میپردازیم. در دنیای امروز، تولید محتوای صوتی باکیفیت به یکی از ابزارهای کلیدی برای ارتباط با مخاطبان تبدیل شده است. فناوری‌های پیشرفته مانند Gemini 1.5 Pro و API تبدیل متن به گفتاراز Google Cloud، راه‌های جدیدی برای تبدیل متن به گفتار طبیعی و تولید مکالمات صوتی حرفه‌ای ارائه میدهند.

این ابزارها به تولیدکنندگان محتوا، کسب‌وکارها و حتی افراد عادی کمک میکنند تا پادکست‌ها، مکالمات و تجربه‌های صوتی منحصربه‌فردی را برای مخاطبان خود ایجاد کند. این مقاله نگاهی دارد به روش‌های استفاده از این فناوری‌ها، از جمله ایجاد اسکریپت‌های جذاب، شخصی‌سازی لحن و سبک، و گسترش دسترسی به محتوای صوتی. برای اطلاعات بیشتر در این مورد میتوانید مقاله آیا پادکست‌های هوش مصنوعی واقعاً جذاب هستند ؟ را مطالعه نمایید.

ابزار هوش مصنوعی که از هر اطلاعاتی که وارد میکنید، پادکست تولید میکند، در حال اضافه کردن یک حالت «تعاملی» و همچنین یک سطح جدید اشتراکی پولی است که ویژگی‌های بیشتری را ارائه میدهد. NotebookLM گوگل و ویژگی «نمای کلی صوتی» که شبیه پادکست است، امسال به طور غیرمنتظره‌ای موفق ظاهر شده‌اند. اکنون گوگل یک ویژگی جدید و بزرگ را عرضه میکند: امکان صحبت کردن با «میزبان‌های» هوش مصنوعی این نمای کلی.

صحبت با هوش مصنوعی در پادکست‌ نوآوری جدید گوگل

طبق یک پست وبلاگی، زمانی که این ویژگی در دسترس شما قرار گیرد، میتوانید آن را با نمای کلی صوتی جدید امتحان کنید. (این ویژگی با نمای کلی‌های قدیمی کار نخواهد کرد.) مراحل استفاده به این صورت است:

  1. یک نمای کلی صوتی جدید ایجاد کنید.
  2. دکمه حالت تعاملی (ورژن آزمایشی) را بزنید.
  3. هنگام گوش دادن، گزینه «پیوستن» را انتخاب کنید. میزبان با شما تماس خواهد گرفت.
  4. سؤال خود را بپرسید. میزبان‌ها پاسخی شخصی‌سازی‌شده بر اساس منابع شما ارائه میدهند.
  5. پس از پاسخ دادن، نمای کلی صوتی اصلی ادامه پیدا میکند.

قابلیت صحبت کردن با NotebookLM میتواند روشی مفید برای درک بهتر اطلاعات جمع‌آوری‌شده در اپلیکیشن باشد. اما گوگل هشدار میدهد که این یک «ویژگی آزمایشی» است و «ممکن است میزبان‌ها قبل از پاسخ‌گویی مکث‌های ناخوشایندی داشته باشید یا گاهی اطلاعات نادرستی ارائه دهند»، بنابراین در آغاز ممکن است تجربه کاملاً بی‌نقصی نباشد.

علاوه بر نمای کلی صوتی تعاملی، گوگل یک رابط کاربری جدید برای NotebookLM معرفی کرده است که همه چیز را در سه بخش سازمان‌دهی میکند:

  1. پنل منابع: برای مدیریت اطلاعات شما.
  2. پنل گفتگو: برای صحبت با چت‌بات هوش مصنوعی درباره منابع.
  3. پنل استودیو: برای ایجاد ابزارهایی مانند نمای کلی صوتی و راهنماهای مطالعه.

به نظر میرسد این طراحی جدید جذاب و کاربردی باشد. گوگل اشتراک جدیدی برای NotebookLM با نام NotebookLM Plus معرفی کرده است. این اشتراک امکانات زیر را فراهم میکند: پنج برابر بیشتر نمای کلی صوتی، دفترچه‌ها و منابع در هر دفترچه.

  • امکان شخصی‌سازی سبک و لحن پاسخ‌های دفترچه.
  • قابلیت ایجاد دفترچه‌های مشترک برای تیم‌ها.
  • ارائه حریم خصوصی و امنیت بیشتر.

این اشتراک از امروز برای کسب‌وکارها، مدارس، دانشگاه‌ها و مشتریان سازمانی و شرکتی در دسترس است. همچنین، این اشتراک در اوایل سال 2025 به عنوان بخشی از Google One AI Premium اضافه خواهد شد.

علاوه بر این، گوگل پلتفرم جدیدی به نام Agentspace را برای ایجاد عوامل هوش مصنوعی سفارشی برای شرکت‌ها معرفی کرده است. بر اساس اعلام گوگل، Agentspace میتواند:

  • دستیار مکالمه‌ای ارائه دهد.
  • به سؤالات پیچیده پاسخ دهد.
  •  پیشنهادهای پیش‌گیرانه ارائه دهد.
  • اقدامات لازم را بر اساس اطلاعات خاص شرکت شما انجام دهد.

همچنین این پلتفرم دارای کانکتورهایی برای اپلیکیشن‌هایی مانند Microsoft SharePoint، Jira و ServiceNow است، که ادغام‌پذیری بالایی را ارائه میدهد.

هوش مصنوعی مولد روش‌های جدیدی برای تجربه محتوای صوتی ایجاد کرده است، از پادکست‌ها گرفته تا خلاصه‌های صوتی. به‌عنوان مثال، شما استقبال زیادی از ویژگی جدیدنمای کلی صوتی NotebookLM کرده‌اند که اسناد را به مکالمات صوتی تبدیل میکند. با یک کلیک، دو میزبان هوش مصنوعی یک بحث جذاب و عمیق را بر اساس منابع شما آغاز میکنند. این میزبان‌ها مطالب شما را خلاصه کرده، بین موضوعات ارتباط برقرار میکنند و با هم گفت‌وگو میکنند.

در حالی که NotebookLM مزایای فوق‌العاده‌ای برای درک اطلاعات پیچیده ارائه میدهد، برخی شما به دنبال کنترل بیشتری برای ایجاد تجربه‌های صوتی منحصربه‌فرد، مانند ساخت پادکست‌های شخصی، هستند. پادکست‌ها به‌عنوان یک رسانه محبوب برای خالقان محتوا، رهبران کسب‌وکار و شما برای شنیدن موضوعات مورد علاقه‌شان روزبه‌روز محبوب‌تر میشوند. امروز، ما توضیح میدهیم که چگونه Gemini 1.5 Pro و TexttoSpeech API در Google Cloud میتوانند به شما کمک کند مکالماتی با صداهای متنوع ایجاد کنید و اسکریپت‌های پادکست را با درخواست‌های سفارشی تولید کنید.

صحبت با هوش مصنوعی در پادکست‌ نوآوری جدید گوگل

گسترش دسترسی با فرمت‌های صوتی متنوع

یک پادکست عالی با محتوای صوتی قابل‌دسترس آغاز میشود. توانایی‌های چندوجهی Gemini در کنار API پیشرفته تبدیل متن به گفتار(TexttoSpeech) با بیش از 380 صدا در بیش از 50 زبان و امکان ایجاد صدای سفارشی، روش‌های جدیدی برای تجربه محتوا فراهم میکند و به شما امکان میدهد دسترسی خود را از طریق فرمت‌های صوتی متنوع گسترش دهند.

این رویکرد به تولیدکنندگان محتوا کمک میکند تا به مخاطبان بیشتری دسترسی پیدا کند و فرآیند تولید محتوا را ساده‌تر کند. از جمله:

  • گسترش دسترسی: ارتباط با بخش‌هایی از مخاطبان که محتوای صوتی را ترجیح میدهند.
  • افزایش تعامل: ایجاد ارتباطات عمیق‌تر با شنوندگان از طریق محتوای صوتی شخصی‌سازی‌شده.
  • بازآفرینی محتوا: افزایش ارزش محتوای متنی موجود با تبدیل آن به فرمت صوتی جدید، بدون نیاز به تولید محتوا از ابتدا، و دسترسی به مخاطبان گسترده‌تر.
  • معماری: Gemini 1.5 Pro و API تبدیل متن به گفتار

معماری ایجاد نمای کلی صوتی ما از دو سرویس قدرتمند Google Cloud استفاده میکند:

Gemini 1.5 Pro

این مدل پیشرفته هوش مصنوعی مولد در درک و تولید متن انسانی فوق‌العاده عمل میکند. با استفاده از Gemini 1.5 Pro میتوانید:

تولید اسکریپت‌های جذاب: محتوای خلاصه‌شده پادکست خود را به Gemini 1.5 Pro ارائه دهید تا اسکریپت‌های گفت‌وگویی جذاب با معرفی‌ها، انتقال‌های روان و فراخوان‌ها برای اقدام تولید کند.

بهینه‌سازی محتوا برای فرمت صوتی: این مدل میتواند محتوای متنی را برای استفاده در فرمت صوتی بهینه کند و جریان طبیعی و تجربه شنیداری جذابی را تضمین کند. همچنین، میتواند لحن و سبک را برای تطبیق با هر فرمتی مانند پادکست‌ها تنظیم کند.

صحبت با هوش مصنوعی در پادکست‌ نوآوری جدید گوگل

TexttoSpeech API

این API متن را به گفتار طبیعی تبدیل میکند و به اسکریپت‌های شما جان میبخشد. شما میتوانید از بین صداها و زبان‌های متنوع انتخاب کنید تا با برند و مخاطبان هدف شما همخوانی داشته باشد. این معماری ترکیبی، ابزاری قدرتمند برای ایجاد تجربه‌های صوتی حرفه‌ای و شخصی‌سازی‌شده در اختیار تولیدکنندگان محتوا قرار میدهد.

در ادامه نحوه آموزش چگونه یک پادکست جذاب تولید کنیم ب صورت گام‌به‌گام آمده است.

آماده‌سازی محتوا

  • محتوای پادکست خود را به‌دقت آماده کنید. ساختار آن را بهینه کرده و برای وضوح بیشتر، ویرایش کنید.
  • اگر محتوای طولانی دارید، آن را به چندین قسمت تقسیم کنید تا مدت زمان هر قسمت برای شنوندگان مناسب باشد.

استفاده از Gemini 1.5 Pro

  • از Gemini 1.5 Pro برای تولید اسکریپت گفت‌وگویی برای پادکست خود استفاده کنید.
  • با امتحان کردن درخواست‌ها (prompts) مختلف، خروجی را تنظیم کنید تا سبک و لحن دلخواه خود را به دست آورید.

نمونه درخواست:

“یک اسکریپت نمای کلی صوتی جذاب از این پادکست تولید کن که شامل یک معرفی، انتقال‌های روان و یک فراخوان برای اقدام باشد. مخاطب هدف توسعه‌دهندگان فنی، مهندسان و معماران کلاد هستند.”

استخراج بخش‌ها

  • برای پادکست‌های پیچیده یا طولانی، از Gemini 1.5 Pro برای استخراج بخش‌ها و زیربخش‌های کلیدی استفاده کنید.
  • این بخش‌ها را به‌صورت JSON ذخیره کنید تا ساختاری واضح و منظم داشته باشید که تولید اسکریپت نهایی را آسان‌تر کند.

با دنبال کردن این مراحل و استفاده از ابزارهای پیشرفته مانند Gemini 1.5 Pro، میتوانید پادکست‌هایی حرفه‌ای و جذاب تولید کنید که تأثیر زیادی بر مخاطبان شما بگذارد.

خودتان بشنوید

در حالی که API تبدیل متن به گفتار صدای باکیفیتی تولید میکند، میتوانید مکالمه صوتی خود را با افزودن موسیقی پس‌زمینه، افکت‌های صوتی و ویرایش حرفه‌ای با ابزارهای مختلف بهبود بخشید. خودتان امتحان کنید – مکالمه صوتی‌ای را که با استفاده از Gemini 1.5 Pro و API تبدیل متن به گفتار از این وبلاگ ایجاد کرده‌ام، دانلود کنید. برای شروع تولید محتوای صوتی، مجموعه کامل ویژگی‌های تولید صوتی ما را با استفاده از خدمات Google Cloud، از جمله API تبدیل متن به گفتار و مدل‌های Gemini در ورژن رایگان بررسی کنید. پیشنهاد میکنیم با حالت‌های مختلف مانند درخواست‌های متنی و تصویری آزمایش کنید تا پتانسیل Gemini را در تولید محتوا تجربه کنید.

برای تجربه بهتر محتوای صوتی تولیدشده با ابزارهایی مانند Gemini 1.5 Pro، استفاده از تجهیزات مناسب اهمیت بالایی دارد. هدفون انکر مدل Soundcore H30i با کیفیت صدای شفاف و طراحی راحت، تجربه شنیداری شما را به سطح جدیدی ارتقا میدهد و جزئیات هر مکالمه را با وضوح کامل به گوش میرساند.

صحبت با هوش مصنوعی در پادکست‌ نوآوری جدید گوگل

کلام آخر

با استفاده از ابزارهایی مانند Gemini 1.5 Pro و TexttoSpeech API، تولیدکنندگان محتوا میتوانند تجربه‌های صوتی منحصربه‌فرد و حرفه‌ای ایجاد کند که به مخاطبان گسترده‌تری دسترسی داشته باشد. این فناوری‌ها نه تنها فرآیند تولید را ساده‌تر میکنند، بلکه امکان شخصی‌سازی محتوا، بهینه‌سازی برای فرمت‌های صوتی و افزایش تعامل با شنوندگان را فراهم میکنند.

با آزمایش و خلاقیت در استفاده از این ابزارها، میتوانید ارزش بیشتری از محتوای موجود خود استخراج کنید و تجربه‌های شنیداری بهتری برای مخاطبان خود ارائه دهید. فناوری‌های پیشرفته Google Cloud، فرصتی بی‌نظیر برای ورود به دنیای جدید محتوای صوتی ایجاد کرده‌اند.