بررسی هوش مصنوعی گوگل و استفاده از تصویر به جای متن
در این مقاله به معرفی هوش مصنوعی گوگل و استفاده از تصویر به جای متن میپردازیم. ابزار جدید هوش مصنوعی گوگل به نام Whisk به شما این امکان را میدهد که عکسهایی را آپلود کرده و یک تصویر ترکیبی تولید شده توسط هوش مصنوعی دریافت کنید، حتی بدون اینکه نیازی به وارد کردن متن برای توضیح درخواست خود داشته باشید.
شما میتوانید تصاویری از موضوعات، محیط و سبک را وارد کنند، سپس Whisk همه این موارد را به یک تصویر واحد ترکیب میکند. گوگل در یک پست وبلاگ اعلام کرد که Whisk یک ابزار خلاقانه برای الهامگیری سریع است، برخلاف ویرایشگر تصویر سنتی. به طور کلی، هدف Whisk ارائه یک ویژگی سرگرمکننده مبتنی بر هوش مصنوعی است و قرار نیست به عنوان یک ابزار حرفهای و دقیق باشد.
ابزار هوش مصنوعی گوگل و استفاده از تصویر به جای متن
ابزار هوش مصنوعی گوگل و استفاده از تصویر به جای متن تحول بزرگی را ایجاد کرده است. شرکتهای بزرگ فناوری مانند گوگل و OpenAI در حال رقابت برای عرضه محصولات مصرفی هستند که کاربردهای این فناوری جدید و جذاب را نشان دهند، در حالی که منتقدان هشدار میدهند که عدم وجود چارچوبهای محافظتی در توسعه هوش مصنوعی برای بشریت خطرناک است. از زمانی که OpenAI ابزار خلق تصویر از متن خود به نام DallE را در سال 2021 معرفی کرد، مفهوم هنر تولید شده توسط هوش مصنوعی در شبکههای اجتماعی شایع شده و به یکی از تمرکزهای محصولات مصرفی تبدیل شده است.
هوش مصنوعی گوگل و استفاده از تصویر به جای متن یا Whisk گوگل یک مولد تصویر به تصویر است که بر اساس مفهوم محبوب مولدهای تصویر از متن ساخته شده است. کاربران Whisk میتوانند تصویر نهایی را با ویرایش ورودیهای خود و ترکیب دستهها به روشهای مختلف و خلق تصاویری مانند اسباببازی نرم، پین میناکاری یا برچسب، “بازآفرینی” کنند. همچنین، آنها میتوانند متن اضافه کنند اگر بخواهند جزئیات خاصی را هدایت کنند، اما این کار برای ایجاد تصویر ضروری نیست.
توماس ایلیجیک، مدیر مدیریت محصول در گوگل لبز، در بیانیهای گفت که Whisk طراحی شده است تا به افراد این امکان را دهد که یک موضوع، صحنه و سبک را به شیوههای جدید و خلاقانه ترکیب کنند، ارائه کاوش بصری سریع به جای ویرایشهای دقیق و پیکسل به پیکسل. Whisk بر اساس هوش مصنوعی مولدی است که توسط DeepMind، آزمایشگاه هوش مصنوعی که گوگل در سال 2014 آن را خریداری کرد، توسعه یافته است.
Whisk گوگل
هوش مصنوعی گوگل و استفاده از تصویر به جای متن معرفی شد. Whisk گوگل از طریق استفاده از ارائهدهنده هوش مصنوعی اصلی گوگل، Gemini که در دسامبر 2023 معرفی شد، و ترکیب آن با Imagen 3، جدیدترین مولد تصویر از متن منتشر شده توسط DeepMind در دسامبر، کار میکند. هنگامی که شما تصاویر خود را آپلود میکنید، Gemini یک توضیح تولید میکند که به Imagen 3 داده میشود.
این فرایند ماهیت موضوع را به جای یک نسخه دقیق بازتولید میکند که این امکان را برای بازآفرینی تصویر نهایی فراهم میکند، اما به این معنی است که محصول نهایی ممکن است از تصویر درخواستشده فاصله بگیرد. برای مثال، تصویر تولید شده ممکن است ارتفاع، مدل مو یا رنگ پوست متفاوتی نسبت به تصاویر درخواستشده داشته باشد.
وقتی گوگل اولین بار سازنده تصویر از متن Gemini را در فوریه معرفی کرد، شرکت با واکنشهای اولیه مواجه شد زیرا این ابزار تصاویری با دقت تاریخی پایین تولید میکرد. Whisk ابتدا به عنوان یک وبسایت در گوگل لبز برای کاربران در ایالات متحده در دسترس است و در مراحل ابتدایی توسعه قرار دارد.
OpenAI اخیراً مولد تصویر به ویدیو به نام Sora را معرفی کرده است که رقابت برای محصولات مصرفی را برجسته میکند. دن ایوز، مدیرعامل و تحلیلگر ارشد سهام در Wedbush Securities، به CNN گفت که Whisk یک لحظه قدرتنمایی دیگر برای گوگل در رقابت هوش مصنوعی و فناوری است و اشاره کرد که محصولات هوش مصنوعی بخشی از گنجینه محصولات جدید گوگل برای سال 2025 هستند که همچنین شامل سیستمعامل جدید اندروید است که با همکاری سامسونگ و کوالکوم ساخته شده است.
بعلاوه، همانطور که Whisk به شما این امکان را میدهد که تصاویر خود را ویرایش و بازآفرینی کنند، در صنعت صدا نیز تکنولوژیهای مشابهی مانند اصلاح صدا (Sound Editing) یا حتی پردازش صدا به کمک هوش مصنوعی وجود دارند که به شما اجازه میدهند کیفیت صدا یا ویژگیهای صوتی خاصی را به طور خودکار تغییر دهید و یا صداهای جدید ایجاد کنید.
این پیشرفتها در هر دو حوزه صدا و تصویر نشاندهنده روندی مشابه هستند که در آن هوش مصنوعی ابزارهای خلاقانه جدیدی را برای شما فراهم میآورد تا تجربههای شخصیسازیشده و منحصر به فردی از دنیای صدا و تصویر بهدست آورید. در صنعت صدا، این فناوری میتواند به انواع هدفون و اسپیکر هوشمند اجازه دهد تا بهطور خودکار ویژگیهای صدا را با توجه به محیط و خواستههای فرد تنظیم کنند، مشابه به کارکرد Whisk در خلق تصاویر.
کلام آخر
ابزار جدید گوگل به نام Whisk نشاندهنده گامی پیشرفته در دنیای هوش مصنوعی است که به شما این امکان را میدهد با استفاده از تصاویر به جای متن، تصاویر ترکیبی و خلاقانهای ایجاد کنید.
این ابزار، به عنوان یک ویژگی سرگرمکننده و الهامبخش، به شما اجازه میدهد تا به سرعت در دنیای بصری کاوش کنید و تصاویری منحصر به فرد خلق کنید. رقابتهای فزاینده بین شرکتهای بزرگی مانند گوگل و OpenAI در توسعه فناوریهای هوش مصنوعی، نویددهنده تحولاتی جدید در صنایع مختلف است که میتواند به شما تجربههای نوآورانه و جذاب ارائه دهد.
پاسخگوی سوالات شما هستیم
دیدگاهی وجود ندارد!