هوش مصنوعی گوگل و استفاده از تصویر به جای متن

بررسی هوش مصنوعی گوگل و استفاده از تصویر به جای متن

در این مقاله به معرفی هوش مصنوعی گوگل و استفاده از تصویر به جای متن میپردازیم. ابزار جدید هوش مصنوعی گوگل به نام Whisk به شما این امکان را میدهد که عکس‌هایی را آپلود کرده و یک تصویر ترکیبی تولید شده توسط هوش مصنوعی دریافت کنید، حتی بدون اینکه نیازی به وارد کردن متن برای توضیح درخواست خود داشته باشید.

شما میتوانید تصاویری از موضوعات، محیط و سبک را وارد کنند، سپس Whisk همه این موارد را به یک تصویر واحد ترکیب میکند. گوگل در یک پست وبلاگ اعلام کرد که Whisk یک ابزار خلاقانه برای الهام‌گیری سریع است، برخلاف ویرایشگر تصویر سنتی. به طور کلی، هدف Whisk ارائه یک ویژگی سرگرم‌کننده مبتنی بر هوش مصنوعی است و قرار نیست به عنوان یک ابزار حرفه‌ای و دقیق باشد.

هوش مصنوعی گوگل و استفاده از تصویر به جای متن

ابزار هوش مصنوعی گوگل و استفاده از تصویر به جای متن

ابزار هوش مصنوعی گوگل و استفاده از تصویر به جای متن تحول بزرگی را ایجاد کرده است. شرکت‌های بزرگ فناوری مانند گوگل و OpenAI در حال رقابت برای عرضه محصولات مصرفی هستند که کاربردهای این فناوری جدید و جذاب را نشان دهند، در حالی که منتقدان هشدار میدهند که عدم وجود چارچوب‌های محافظتی در توسعه هوش مصنوعی برای بشریت خطرناک است. از زمانی که OpenAI ابزار خلق تصویر از متن خود به نام DallE را در سال 2021 معرفی کرد، مفهوم هنر تولید شده توسط هوش مصنوعی در شبکه‌های اجتماعی شایع شده و به یکی از تمرکزهای محصولات مصرفی تبدیل شده است.

هوش مصنوعی گوگل و استفاده از تصویر به جای متن یا Whisk گوگل یک مولد تصویر به تصویر است که بر اساس مفهوم محبوب مولدهای تصویر از متن ساخته شده است. کاربران Whisk میتوانند تصویر نهایی را با ویرایش ورودی‌های خود و ترکیب دسته‌ها به روش‌های مختلف و خلق تصاویری مانند اسباب‌بازی نرم، پین میناکاری یا برچسب، “بازآفرینی” کنند. همچنین، آنها میتوانند متن اضافه کنند اگر بخواهند جزئیات خاصی را هدایت کنند، اما این کار برای ایجاد تصویر ضروری نیست.

توماس ایلیجیک، مدیر مدیریت محصول در گوگل لبز، در بیانیه‌ای گفت که Whisk طراحی شده است تا به افراد این امکان را دهد که یک موضوع، صحنه و سبک را به شیوه‌های جدید و خلاقانه ترکیب کنند، ارائه کاوش بصری سریع به جای ویرایش‌های دقیق و پیکسل به پیکسل. Whisk بر اساس هوش مصنوعی مولدی است که توسط DeepMind، آزمایشگاه هوش مصنوعی که گوگل در سال 2014 آن را خریداری کرد، توسعه یافته است.

هوش مصنوعی گوگل و استفاده از تصویر به جای متن

Whisk گوگل

هوش مصنوعی گوگل و استفاده از تصویر به جای متن معرفی شد. Whisk گوگل از طریق استفاده از ارائه‌دهنده هوش مصنوعی اصلی گوگل، Gemini که در دسامبر 2023 معرفی شد، و ترکیب آن با Imagen 3، جدیدترین مولد تصویر از متن منتشر شده توسط DeepMind در دسامبر، کار میکند. هنگامی که شما تصاویر خود را آپلود میکنید، Gemini یک توضیح تولید میکند که به Imagen 3 داده میشود.

این فرایند ماهیت موضوع را به جای یک نسخه دقیق بازتولید میکند که این امکان را برای بازآفرینی تصویر نهایی فراهم میکند، اما به این معنی است که محصول نهایی ممکن است از تصویر درخواست‌شده فاصله بگیرد. برای مثال، تصویر تولید شده ممکن است ارتفاع، مدل مو یا رنگ پوست متفاوتی نسبت به تصاویر درخواست‌شده داشته باشد.

وقتی گوگل اولین بار سازنده تصویر از متن Gemini را در فوریه معرفی کرد، شرکت با واکنش‌های اولیه مواجه شد زیرا این ابزار تصاویری با دقت تاریخی پایین تولید میکرد. Whisk ابتدا به عنوان یک وب‌سایت در گوگل لبز برای کاربران در ایالات متحده در دسترس است و در مراحل ابتدایی توسعه قرار دارد.

OpenAI اخیراً مولد تصویر به ویدیو به نام Sora را معرفی کرده است که رقابت برای محصولات مصرفی را برجسته میکند. دن ایوز، مدیرعامل و تحلیلگر ارشد سهام در Wedbush Securities، به CNN گفت که Whisk یک لحظه قدرت‌نمایی دیگر برای گوگل در رقابت هوش مصنوعی و فناوری است و اشاره کرد که محصولات هوش مصنوعی بخشی از گنجینه محصولات جدید گوگل برای سال 2025 هستند که همچنین شامل سیستم‌عامل جدید اندروید است که با همکاری سامسونگ و کوالکوم ساخته شده است.

بعلاوه، همانطور که Whisk به شما این امکان را میدهد که تصاویر خود را ویرایش و بازآفرینی کنند، در صنعت صدا نیز تکنولوژی‌های مشابهی مانند اصلاح صدا (Sound Editing) یا حتی پردازش صدا به کمک هوش مصنوعی وجود دارند که به شما اجازه میدهند کیفیت صدا یا ویژگی‌های صوتی خاصی را به طور خودکار تغییر دهید و یا صداهای جدید ایجاد کنید.

این پیشرفت‌ها در هر دو حوزه‌ صدا و تصویر نشان‌دهنده‌ روندی مشابه هستند که در آن هوش مصنوعی ابزارهای خلاقانه جدیدی را برای شما فراهم می‌آورد تا تجربه‌های شخصی‌سازی‌شده و منحصر به فردی از دنیای صدا و تصویر به‌دست آورید. در صنعت صدا، این فناوری میتواند به انواع هدفون‌ و اسپیکر هوشمند اجازه دهد تا به‌طور خودکار ویژگی‌های صدا را با توجه به محیط و خواسته‌های فرد تنظیم کنند، مشابه به کارکرد Whisk در خلق تصاویر.

هوش مصنوعی گوگل و استفاده از تصویر به جای متن

کلام آخر

ابزار جدید گوگل به نام Whisk نشان‌دهنده گامی پیشرفته در دنیای هوش مصنوعی است که به شما این امکان را میدهد با استفاده از تصاویر به جای متن، تصاویر ترکیبی و خلاقانه‌ای ایجاد کنید.

این ابزار، به عنوان یک ویژگی سرگرم‌کننده و الهام‌بخش، به شما اجازه میدهد تا به سرعت در دنیای بصری کاوش کنید و تصاویری منحصر به فرد خلق کنید. رقابت‌های فزاینده بین شرکت‌های بزرگی مانند گوگل و OpenAI در توسعه فناوری‌های هوش مصنوعی، نویددهنده تحولاتی جدید در صنایع مختلف است که میتواند به شما تجربه‌های نوآورانه و جذاب ارائه دهد.