هوش مصنوعی Whisk یکی دیگر از شگفتی های هوش مصنوعی است که گوگل آن را عرضه کرده است. در این مقاله از پلازا، در مورد ویژگی هایی که این هوش مصنوعی می تواند داشته باشد صحبت خواهیم کرد.
در بازار داغ هوش مصنوعی و خبر های عجیب و غریبی که از آن در دو سه سال گذشته منتشر شده است، کمتر شرکتی را می توان مانند گوگل سهیم و تاثیر گذار دانست. این کهنه کار دنیای کامپیوتر، با ارائه مدل های زبانی GPT باعث شد شرکت هایی مانند اوپن ای آی وارد این حوزه شده و بعد از آن هم با ارائه دستیار هوش مصنوعی خود یعنی گوگل بارد، که این روز ها آن را به نام جمینای می شناسیم، استاندارد های جدیدی برای کاربرد این هوش مصنوعی رقم بخورد. اکنون این شرکت هوش مصنوعی Whisk را معرفی کرده که در صورتی که بتواند از آزمایش های خود سر بلند بیرون بیاید، نوید تصویر با هوش مصنوعی را برای همیشه متحول خواهد کرد. در ادامه در مورد اینکه این میوه درخت هوش مصنوعی چه ویژگی هایی دارد صحبت خواهیم کرد.
فهرست مطالب:
هوش مصنوعی Whisk چیست؟
ابزار های ساخت تصویر به کمک هوش مصنوعی یکی از محبوبترین ویژگی های هوش مصنوعی هستند که خیلی از طراحان برای کار خود از آنها کمک می گیرند، اما حقیقت این است که بعد از ارائه هوش مصنوعی هایی مانند میدجرنی و دال ای، به نظر می رسید که رشد و توسعه آنها سرعت کمی داشته و به این زودی ها شاهد یک هوش مصنوعی انقلابی در این حوزه نباشیم، اما ویسک قرار است این موضوع را تغییر دهد. هوش مصنوعی Whisk توسط گوگل در ماه می سال ۲۰۲۳ معرفی شد. این ابزار به عنوان یکی از پروژه های جدید گوگل در زمینه هوش مصنوعی، ابتدا در کنفرانس Google I/O 2023 رونمایی شد و اکنون خبر هایی از ارائه آن به صورت محدود به کاربران برای تست و بررسی های بیشتر منتشر شده است.
این فناوری به کاربران این امکان را می دهد که با استفاده از توضیحات متنی، تصاویر دقیقی ایجاد کنند. برخلاف برخی دیگر از ابزارهای هوش مصنوعی که تنها می توانند با ورودی های متنی تصاویر تولید کنند، Whisk به گونه ای طراحی شده که به طور دقیق تر به جزئیات و ویژگی های وارد شده پاسخ دهد و تصاویر خلاقانه و با کیفیت بالایی را تولید کند. هوش مصنوعی Whisk از یک الگوریتم پیشرفته برای تجزیه و تحلیل و پردازش ورودی های مختلف استفاده می کند. این هوش مصنوعی قادر است که داده ها و دستورات متنی ورودی را به تصاویر با جزئیات دقیق و شبیه به واقعیت تبدیل کند.
اصلی ترین قابلیتی که هوش مصنوعی Whisk را به یک نمونه خاص تبدیل کرده این است که می تواند علاوه بر تولید تصاویر از توضیحات نوشتاری، از تصاویر موجود به عنوان ورودی استفاده کند و بر اساس آنها تصاویر جدیدی خلق کند. این ویژگی باعث می شود که ویسک در طراحی های گرافیکی و هنری برای طراحان و هنرمندان ابزار قدرتمندی به شمار بیاید. عملکرد هوش مصنوعی Whisk به گونه ای است که دقت بالایی در تولید تصاویر دارد و می تواند در صنایع مختلف از جمله تبلیغات، طراحی گرافیک، بازی های ویدئویی و فیلم سازی کاربردهای زیادی پیدا کند.
همینطور، این ابزار با استفاده از هوش مصنوعی می تواند به طور خودکار ویژگی های مختلفی مانند رنگ، بافت، نور و سایه ها را در تصاویر به کار گیرد و به طراحان کمک کند تا در زمان کوتاه تری تصاویر با کیفیت بالا بسازند. در ادامه در مورد اینکه هسته اصلی هوش مصنوعی Whisk چیست و چطور این کار ها را انجام می دهد با هم صحبت خواهیم کرد.
مدل زبانی استفاده شده در هوش مصنوعی Whisk
هوش مصنوعی Whisk از ترکیب دو مدل پیشرفته گوگل، یعنی Gemini و Imagen 3، برای تولید تصاویر استفاده می کند. این سیستم به طور خاص طراحی شده تا فرآیند تولید تصاویر را به سطح جدیدی از دقت و کیفیت برساند. مدل Gemini، که احتمالا با آن آشنایی دارید (در غیر این صورت می توانید سری به مقاله پروژه آسترا بزنید)، در این سیستم نقش تحلیلگر را بازی می کند و توضیحات دقیقی از تصاویر ورودی ارائه می دهد. سپس این توضیحات به مدل Imagen 3 منتقل می شوند، که وظیفه آن تولید تصاویر خلاقانه و جدید بر اساس این توضیحات است. این همکاری مدل ها باعث می شود که تصاویر تولید شده توسط ویسک نه تنها با ورودی اولیه هماهنگ باشند، بلکه دارای جنبه های هنری و سبک های متنوعی نیز باشند.
این روش به هوش مصنوعی ویسک اجازه می دهد تا تصاویری بسیار دقیق، باکیفیت و خلاقانه تولید کند که توانایی شبیه سازی سبک های مختلف هنری را نیز دارد. ترکیب دو مدل Gemini و Imagen 3 به Whisk امکان می دهد تا جزئیات تصاویر ورودی را به خوبی تحلیل کند و آنها را به گونه ای بازسازی کند که هم خلاقانه باشد و هم به نیازهای کاربران پاسخ دهد. این ویژگی ها Whisk را به یکی از پیشرفته ترین ابزارهای تولید تصویر با استفاده از هوش مصنوعی تبدیل کرده است. در ادامه در مورد کارهایی که از این هوش مصنوعی بر می آید صحبت خواهیم کرد.
ویژگی های کلیدی هوش مصنوعی Whisk
با معرفی هوش مصنوعی Whisk انتظار می رود که این ابزار انقلابی در زمینه تولید تصاویر ایجاد کند. این هوش مصنوعی با ترکیب فناوری های پیشرفته گوگل، از جمله مدل های زبانی و تصویری، قابلیت های منحصر به فردی ارائه می دهد که آن را از دیگر ابزارهای مشابه متمایز می کند. اگر بخواهیم لیستی از ویژگی های خاص این هوش مصنوعی که نظر طراحان را به خود جلب کرده است و خیلی از افراد را در لیست انتظار برای کار کردن با این ابزار نگه داشته است را بررسی کنیم، می توانیم این موارد را نام ببریم:
کیفیت تصاویر در هوش مصنوعی Whisk
یکی از ویژگی های بارز هوش مصنوعی Whisk، توانایی آن در تولید تصاویری با کیفیت بالا و جزئیات دقیق است. این ابزار به کمک مدل Imagen 3، تصاویری با وضوح بسیار بالا ایجاد می کند که حتی برای کاربردهای حرفه ای نظیر تبلیغات، طراحی گرافیکی و پروژه های هنری نیز مناسب هستند. این کیفیت به کاربر این امکان را می دهد که تصاویر تولید شده را بدون نیاز به ویرایش اضافی مستقیماً مورد استفاده قرار دهد. در مقایسه با ابزار هایی مانند میدجرنی و دال ای که کیفیت های پایین تری ارائه می دهند، این موضوع می تواند یک نقطه قوت بزرگ به حساب بیاید!
قابلیت درک متن و تبدیل آن به تصویر
این ویژگی یکی از پایه ای ترین موارد در انواع هوش مصنوعی مولد تصویر است که به نام Text to Image شناخته می شود. البته باید گفت که در هوش مصنوعی Whisk با بهره گیری از مدل Gemini پیشرفت بسزایی را در آن شاهد هستیم و این هوش مصنوعی قادر است متن ها و توصیفات پیچیده را به تصاویر واقعی و خلاقانه تبدیل کند. این ویژگی برای کاربرانی که ایده های خاصی دارند اما توانایی طراحی دستی ندارند، بسیار کاربردی است؛ برای مثال، کاربر می تواند تنها با توضیح دادن صحنه ای، تصویری دقیق و نزدیک به خواسته خود دریافت کند.
تولید تصویر بدون نیاز به دستور متنی
یکی از ویژگی های منحصر به فرد هوش مصنوعی Whisk که نام آن را سر زبان ها انداخته است، قابلیت تولید تصاویر بدون نیاز به استفاده از دستورات متنی است. این ویژگی باعث می شود کاربران بتوانند بدون تسلط بر زبان های برنامه نویسی یا تکنیک های خاص، تنها با ارائه یک یا چند تصویر نمونه، خروجی های دلخواه خود را دریافت کنند. این فرآیند به کمک تحلیل دقیق تصاویر ورودی و استخراج اطلاعات بصری آن ها صورت می گیرد. ابزار Whisk با درک عمیق از عناصر بصری تصاویر، خروجی هایی خلاقانه و متناسب با نیاز کاربران ارائه می دهد، که می تواند در طراحی های بصری و خلاقانه بسیار کاربردی باشد.
این ویژگی به ویژه برای کاربرانی که تمایلی به کار با دستورات پیچیده متنی ندارند، تجربه ای ساده تر و کارآمدتر ایجاد می کند؛ برای مثال، طراحان گرافیکی یا هنرمندانی که به دنبال الهام بخشی از چند تصویر مختلف هستند، می توانند از این ابزار استفاده کرده و آثار جدید و منحصر به فردی تولید کنند. این قابلیت، هوش مصنوعی Whisk را از سایر ابزارهای تولید تصویر متمایز کرده و آن را به ابزاری مناسب برای استفاده گسترده، از کاربران مبتدی تا حرفه ای، تبدیل کرده است.
ترکیب تصاویر در هوش مصنوعی Whisk
ترکیب تصاویر برای خلق آثار جدید و منحصر به فرد نیز از دیگر موارد خوب و حرفه ای در هوش مصنوعی Whisk است. این ابزار با تحلیل دقیق ویژگی های بصری چندین تصویر ورودی، می تواند آنها را به صورت خلاقانه ترکیب کند و نتیجه ای هماهنگ و جذاب ارائه دهد. این ویژگی به ویژه برای طراحان و هنرمندان که به دنبال الهام بخشی یا خلق آثار نوآورانه هستند، بسیار کارآمد است. از طراحی گرافیک گرفته تا ایجاد تصاویر هنری پیچیده، Whisk توانایی ترکیب المان های مختلف را به گونه ای دارد که نتیجه ای همگن و متناسب با نیاز کاربر ارائه کند.
این مساله از ویژگی هایی است که برای اولین بار روی یک هوش مصنوعی سازنده تصویر ارائه می شود و Whisk می تواند آن را به خوبی هندل کند. در صورتی که تجربه کار با سایر تولید کننده های تصویر را داشته باشید، متوجه این موضوع شده اید که چندان دقتی در نگهداری المان های تصویری که به آنها می دهید و یا درخواست های ترکیب تصویر نداشته و می توانند نیاز های کاربران را برآورده کنند، تا اینجا هوش مصنوعی Whisk نشان داده است که می تواند این خطا را به خوبی هندل کرده و کیفیت قابل قبولی را ارائه دهد.
پشتیبانی از سبک های هنری متنوع
مورد دیگری که در بین ویژگی های ریز و درشت هوش مصنوعی Whisk به چشم می خورد، پشتیبانی از انواع سبک های هنری است که برای خیلی از طراحان می تواند مهم باشد. این ابزار می تواند تصاویر را در سبک های مختلف هنری خاص مانند رئالیسم، امپرسیونیسم، کوبیسم، و حتی طراحی های دیجیتال مدرن مانند ایلوستریشن های سه بعدی، تصاویر وکتوری و یا ایزومتریک تولید کند. چنین قابلیتی به کاربران این امکان را می دهد تا بسته به نیاز و سلیقه خود، تصاویر هنری را با کیفیت و دقت بالا ایجاد کنند. این ویژگی به ویژه برای هنرمندان، گرافیست ها و تولیدکنندگان محتوا که به دنبال الهام بخشی از سبک های هنری خاص هستند، بسیار ارزشمند است.
علاوه بر این، ویسک می تواند سبک های هنری را در تصاویر ترکیب کرده و آثار جدیدی خلق کند؛ برای مثال، کاربران می توانند یک صحنه رئالیستی را با المان های سورئال ترکیب کنند یا طرحی به سبک کلاسیک را با ویژگی های دیجیتال معاصر بیامیزند. این انعطاف پذیری باعث شده است که ویسک به ابزاری پیشرفته و خلاقانه در تولید محتوا و طراحی تبدیل شود و در صنایع مختلف از جمله تبلیغات، رسانه و آموزش به خوبی مورد استفاده قرار گیرد.
ویرایش و بهبود تصاویر تولید شده
یکی از قابلیت های برجسته هوش مصنوعی Whisk، امکان ویرایش و بهبود تصاویر تولید شده است. این ابزار به کاربران اجازه می دهد تا پس از تولید تصویر اولیه، جزئیات مختلف آن را تغییر داده یا اصلاح کنند؛ برای مثال، می توان نورپردازی، رنگ ها، بافت ها یا حتی ترکیب بندی تصویر را مطابق با نیاز کاربر تغییر داد. این ویژگی به ویژه برای طراحان و گرافیست ها مفید است، زیرا می توانند به جای تولید مجدد تصویر، تنها بخش های مورد نظر خود را بهبود دهند و در زمان و انرژی صرفه جویی کنند.
اینم ویرایش ها در سایر ابزار های تولید تصویر می تواند با ویران شدن کگل تصویر و از دست رفتن المان های اصلی همراه باشد و صرفا می شد آن را در ویژگی هایی مانند هوش مصنوعی ادوبی فایر فلای، که به صورت ترکیب شده با فتوشاپ در اختیار کاربران قرار می گرفت، مشاهده کرد. این انعطاف پذیری، هوش مصنوعی Whisk را به ابزاری خلاقانه و کاربردی برای تولید تصاویر حرفه ای تبدیل کرده است.
تا به اینجا ویژگی های خارق العاده ای که این هوش مصنوعی می تواند برای کاربران داشته باشد را با هم بررسی کردیم. در ادامه در مورد اینکه این هوش مصنوعی تازه وارد می تواند در برابر رقبای قدرتمند خود شانسی داشته باشد بیشتر صحبت خواهیم کرد.
هوش مصنوعی ویسک در برابر رقبا
همانطور که از ابتدای مقاله اشاره کردیم، بزرگترین رقبایی که هوش مصنوعی Whisk می تواند با آنها روبرو شود، DALL·E و MidJourney هستند. البته این در صورتی است که است هوش مصنوعی Stable Diffusion، که به صورت پراکنده مورد استفاده قرار می گیرد و مانند دو مورد دیگر از پشتیبانی سازمانی قوی برخوردار نیست، فاکتور بگیریم. در مورد اینکه آیا هوش مصنوعی Whisk می تواند در این بازار شلوغ جایی برای خود دست و پا کند، باید گفت که با توجه به تفاوت هایی که در اینجا شاهد آن هستیم و همینطور قدرتی که گوگل برای عرضه این سرویس دارد، قطعا ویسک یکی از بازیگران بزرگ این خوزه در آینده ای نه چندان دور خواهد بود!
همین موضوع که ویسک به طور خاص برای پاسخگویی به نیازهای مرتبط با تولید بدون پرامپت، ویرایش و بهبود تصاویر طراحی شده است آن را در مقابل، ابزارهایی مانند DALL·E و MidJourney دارای برتری های قابل توجهی می کند. مورد دیگری که در مورد هوش مصنوعی Whisk وجود دارد این است که بر اساس توضیحات ارائه شده تا به اینجا این ابزار به کاربران آزادی عمل بیشتری می دهد و آن را به ابزاری متمایز در دنیای طراحی تبدیل کند.
در نهایت Whisk با قابلیت هایی مانند ترکیب تصاویر، پشتیبانی از سبک های هنری متنوع و ویرایش پیشرفته، پتانسیل این را دارد که رقیب جدی برای ابزارهای مشابه باشد. اما از آنجا که این ابزار هنوز به طور کامل عرضه نشده است، نمی توان قضاوت نهایی درباره برتری آن داشت. با این حال می توان گفت که اوضاع طراحی با هوش مصنوعی قرار است دستخوش تغییراتی گسترده شود و با عرضه کامل و نهایی ویسک، اوضاع به صورت قبل نخواهد بود.
نتیجه گیری
در این مقاله با هم هوش مصنوعی Whisk را بررسی کردیم و دیدیم که این محصول جدید گوگل می تواند چه ویژگی هایی را برای کاربران ارائه دهد. ویسک به نوعی یک هوش مصنوعی ساخت تصویر است که در آن ارتباط با کاربر برای تولید تصویر به حداکثر خود رسیده و به جای پرامپت نویسی می تواند به کمک ارائه تصاویر دیگر، کار تولید عکس خود را انجام دهد. ویسک هرچند که هنوز به صورت عمومی منتشر نشده است و در حال آزمایش است، اما با ارائه ویژگی هایی مثل امکان ویرایش جزئی تصاویر ساخته شده، ترکیب تصاویر با هم، ارائه تصاویر با کیفیت بالا و همینطور پشتیبانی از سبک های مختلف هنری برای تولید تصاویر توانسته توجه زیادی را به خود جلب کند. در صورتی که در مورد این هوش مصنوعی نظری داشتید، خوشحال می شویم آن را با ما و سایر کاربران در میان بگذارید.