هوش مصنوعی Sora یکی دیگر از پدیدههای جدید در دنیای هوش مصنوعی است که از شرکت با سابقه OpenAI ارائه شده است. در این مقاله از پلازا میخواهیم تمامی اطلاعاتی که تا به اینجا از این هوش مصنوعی میدانیم را بررسی نماییم.
از اولین باری که شرکت OpenAI چت بات هوش مصنوعی خود یعنی چت جی پی تی را منتشر کرد و در دسترس عموم قرار دارد و بعد از آن رباتهای مختلف یکی پس از دیگری شروع به فعالیت کردند مدت زیادی نمیگذرد و در همین مدت کوتاه باید گفت که هوش مصنوعی و تمامی زیر شاخههای مختلف آن تبدیل به یکی از مهمترین ترندهای روز دنیا در زمینه فناوری شده اند. اول چت باتها و بعد از آن هم سایتها و برنامههای هوش مصنوعی تصویر ساز و در آخر هم سازندگان ویدیو از روی متن یکی پس از دیگری ارائه میشوند ولی مواردی که بتوانند نظرات کاربران را به خود جذب کنند، واقعا کم هستند. هوش مصنوعی Sora یکی از این تکنولوژی هاست که شرکت پیشرو OpenAI آن را عرضه کرده است.
تا به اینجا این شرکت هر محصولی که منتشر کرده است از بهترینها بوده و به نوعی توانسته خود را به یک استاندارد گذار در دنیای هوش مصنوعی تبدیل کند. در ادامه با هم خواهیم دید بر اساس آنچه که از هوش مصنوعی Sora میدانیم، آیا این ابزار هم میتوانند مانند سایر محصولات آن خوب باشد یا نه؟
فهرست مطالب:
هوش مصنوعی Sora چیست؟
اگر بخواهیم تعریفی صریح و کتابی در پاسخ به این سوال بدهیم باید بگوییم: «هوش مصنوعی Sora یک تبدیل کننده متن به ویدیو یا همان Text-to-Video است که توسط اوپن ای آی ارائه شده و میتواند بر اساس متنی که در اختیار آن قرار داده میشود، یک ویدیو کوتاه را ساخته و در اختیار کاربران بگذارد.»
این تعریف به این معناست که میتوان هر داستان و قصه ای را برای این هوش مصنوعی تعریف کرد و آن را به صورت انیمیشن یا یک فیلم واقعی از این هوش مصنوعی تحویل گرفت. کسانی که تجربه کار کردن با هوش مصنوعی ساخت تصویر از روی متن این شرکت، یعنی هوش مصنوعی DALL-E 2 را دارند، میدانند که اوپن ای آی در این زمینه چقدر قدرتمند عمل کرده است. در مورد هوش مصنوعی Sora هم قرار است همان اتفاق بیفتد، اما خروجی نهایی که جای تصاویر ویدئو خواهد بود.
به طور مثال در صورتی که به این هوش مصنوعی بگوییم این ویدئو را برای ما بسازد: «یک خانم خوش لباس در حال قدم زدن در خیابانهای توکیو همراه با نورهای گرم و در شب، که یک ژاکت چرمی پوشیده و زیر آن لباسی بلند و قرمز دارد.» نتیجه ای که به ما تحویل میدهد مانند تصویر زیر خواهند بود:
البته در نماهای نزدیک تر ناکارآمدیهای هوش مصنوعی باز هم مشاهده میشود، به طور مثال در تصویر زیر لوگوی عینک ریبن و ساختار داخلی گوش به طور کلی اشتباه و درهم و برهم است:
ویژگی های هوش مصنوعی Sora
بر اساس اطلاعاتی که از خروجیهای فعلی هوش مصنوعی Sora ارائه میشود، این هوش مصنوعی میتواند با توجه به متنی که به آن داده میشود، یک محتوای ویدئویی را با ویژگیهایی خاص تولید کند که مهمترین آنها از این قرارند:
- سرعت بالا (کمتر از یک دقیقه): بر اساس ادعای اوپن ای آی، هوش مصنوعی Sora میتواند آنچه که از آن خواسته شده است را در کمتر از یک دقیقه آماده کند. هر چند باید تا عرضه عمومی این ابزار صبر کنیم و بعد از امتحان این بازار زیر فشار میتوان گفت که این موضوع تا چه حد صحت دارد.
- نمایش جزئیات به صورت بالا: ویژگی دیگر که روی آن مانور داده میشود، امکان اضافه کردن جزئیاتی دقیق است، که یکی از نقصهای هوش مصنوعی است. در واقع باید گفت خیلی از هوش مصنوعیهای سازنده تصویر حتی نمیتوانند تعداد انگشتهای دست و یا دندانها را درست در بیاورند، اما به نظر میرسد در سورا این موضوع کاملا حل شده است!
- حرکت دوربین به صورت پیشرفته و وجود زوایای مختلف: شاد بتوان گفت مهمترین ویژگی هوش مصنوعی Sora که همه را خیره کرده است همین مسئله است. در واقع در اینجا ما با یک ویدئوی ساده دو بعدی طرف نیستیم، سورا میتواند چیزی که به آن گفته شده را مجسم کرده و زاویه دید ما نسبت به آن را تغییر دهد. به صورت مثال آن را با همان نوع حرکت از بالا، پشت سر، و روبرو به ما نمایش دهد.
- ساخت ویدئو بر اساس عکس: ویژگی خوب دیگر این است که شما میتوانید عکسی را به هوش مصنوعی Sora بدهید و از آن بخواهید که آن را برای شما متحرک کرده و یا از کاراکترهای داخل عکس برای ویدئویی دیگر استفاده کند.
- امکان ویرایش فوتیجهای موجود: علاوه بر تصاویر این هوش مصنوعی میتواند فوتیجهای ویدئویی را هم از شما بگیرد و تغییراتی را روی آنها ایجاد کند. این کار میتواند کار ادیت ویدئو را تا حد زیادی ساده کند و ساعتها کار تخصصی در برنامههای پیشرفته ادیت فیلم مانند افترافکت را به تنها یک خط توضیحات کاهش دهد.
- رزولوشن بالای ویدئوی نهایی: هوش مصنوعی Sora میتواند ویدئوهای خود را با کیفیت ۱۹۲۰ در ۱۰۸۰ تولید کرده و در اختیار کاربران قرار دهد. این میزان از کیفیت میتواند برای کسانی که از کیفیت پایین تصاویر و ویدئوهای تولید شده توسط هوش مصنوعی رضایت نداشتند، کافی باشد و بعید به نظر میرسد کاربران از این نظر ایرادی از سورا بگیرند!
اگر این ادعای اوپن ای آی درست باشد، میتوان گفت که با یک تکنولوژی انقلابی در هوش مصنوعی سازنده تصویر مواجه ایم. در ادامه در مورد مکانیزم کاری این هوش مصنوعی بیشتر صحبت میکنیم. البته هنوز روند دقیق کاری این ابزار مشخص نیست و تنها اطلاعات ارائه شده، از ویدئوهای موجود در چنل یوتیوب OpenAI استخراج شده اند.
مکانیزم کاری هوش مصنوعی Sora
در این بخش قرار است کمی کار را تخصصی تر دنبال کنیم. در مورد مکانیکی که این هوش مصنوعی از آن استفاده میکند باید بگوییم که سورا یک مدل زبانی هوش مصنوعی با بهره مندی از یادگیری عمیق است. در این ساختار هوش مصنوعی تلاش میکند تا متنی که در اختیار آن قرار گرفته است (پرامپت) را به صورت بصری (تصویر یا ویدئو) بازسازی کند. البته در مورد هوش مصنوعی Sora باید گفت که بازسازی تنها جوابگو نیست!
در مواقع این هوش مصنوعی برای اینکه بتواند قولهایی که داده است و عملکردهایی که دارد را بهتصویر بکشد، باید محتوای بهتر و بیشتر از متنی که به آن دادیم را بازسازی کند. مواردی که هوش مصنوعی سورا باید برای ساخت ویدئو در مورد یک سکانس تجزیه و تحلیل کند از این قرارند:
- چه آبجکتها و کاراکترهایی در صحنه حضور دارند؛
- ظاهر هر کدام از آنها چطور است و چه مشخصاتی دارند؛
- حرکت و جابجایی آنها به چه صورتی است؛
- آنها با هم چطور ارتباط یا Interaction دارند؛
- این کاراکترها چطور روی محیط اطراف خود تاثیر میگذارند (و بلعکس)؛
روش کاری هوش مصنوعی Sora به این صورت است که ابتدا متن را تحویل گرفته، آن را تحلیل میکند و مواردی را به صورت کلیدواژه از آن استخراج میکند. این کلیدواژهها شامل آبجکتهای مورد نیاز، فعالیتهایی که انجام میشود، لوکیشن ها، زمان و همینطور مود و یا حالتی است که کاراکترها دارند. بعد از آن در پایگاه داده خود به دنبال این اطلاعات گشته و ویدیوهای مختلفی که در این زمینهها وجود دارند را باهم ترکیب میکند و ویدئوی نهایی را تولید مینماید.
در کل میتوان گفت عملکرد هوش مصنوعی Sora بر اساس آنچه که تا اینجا از آن دیده ایم کاملا استثنایی بوده و فاصله زیادی را از نظر کیفی و کارکرد با رقبای خود مانند هوش مصنوعی Emo Video دارد.
تاریخ عرضه هوش مصنوعی Sora
در مورد اینکه هوش مصنوعی Sora قرار است که به صورت عموم عرضه شود و تاریخ انتشار آن چه زمانی است هنوز خبری منتشر نشده است. اما کم و بیش میتوان تستهای آن را در وبلاگهای تکنولوژی دید. برنامه نویس ارشد و مدیر تیم توسعه هوش مصنوعی Sora به طور رسمی در تالار گفتگوی این هوش مصنوعی به صراحت اعلام کرده است که در حال حاضر سورا آماده استفاده نیست و کاربران نمیتوانند از آن استفاده کنند.
همینطور در مورد سایر سوالات متداولی که معمولا در مورد هوش مصنوعی Sora پرسیده میشود گفت که تا تاریخ ۱۶ فوریه هیچ تصمیمی برای ساخت لیست انتظار برای کاربرانی که میخواهند این محصول را تست کنند وجود ندارد. این مدیر پروژه به کاربرانی که میخواهند از امکانات آن استفاده کنند گفت که تنها راه منتظر مانند و بررسی خبرها برای عمومی شدن این برنامه است. در واقع در حال حاضر این محصول در اختیار تیم تست قرار گرفته است و در حال بررسی خطاها و همینطور خطرات احتمالی ای هستند که این محصول میتواند داشته باشد.
در حال حاضر کاربرانی که میخواهند در مورد سورا و تاریخ عرضه آن و همینطور روند تکمیل لان اطلاعات دیگری داشته باشند، منبعی جز اکانت توییتر سم آلتمن و همینطور صفحه تالار گفتگوی جامعه کاربری اوپن ای آی ندارند. البته در صورتی که خبری از این منابع برسد ما در اولین فرصت این مورد را بازنشر خواهیم داد.
هوش مصنوعی Sora؛ تهدید یا فرصت؟
هوش مصنوعی از ابتدای حیات خود حرف و حدیثهای زیادی را به دنبال داشته است. از تصورات آخرالزمانی و ظهور ترمیناتورها گرفته تا از بین رفتن خیلی از شغلها همه و همه در این مورد مطرح شده اند و خیلی از افراد برجسته مانند ایلان ماسک عقیده دارند که نباید به سراغ چنین چیزهایی رفت و نمیتوان آینده ای مفید را از آنها انتظار داشت. اما باید گفت پیشرفتهایی در این زمینهها اتفاقاتی است که میافتند و خیلی از آنها این قدرت را دارند که چهره دنیای ما را برای همیشه عوض کنند.
در مورد هوش مصنوعی Sora هم باید گفت با توجه به ویژگیهایی که مدعی ارائه آن است، یکی از تکنولوژیهای انقلابی خواهد بود که قطعا خیلی از بازیگران، کارگردان ها، تدوین گرها، کارشناسان جلوههای ویژه و به طور کلی صنعت سینما و ویدئو را به کلی تکان خواهد داد. خیلیها از این موضوع شاکی هستند که بتوان به راحتی فیلمها و سریالها را از روی کاراکترهای مختلف ساخت و یا همانطور که رد بخشهای قبل اشاره کردیم، کاری که یک متخصص جلوههای ویژه باید چند ماه برای آن وقت بگذارد را با یک خط متن به ما تحویل دهد!
بدیهی است که این افراد هوش مصنوعی Sora را یک تهدید جدی برای آینده خود احساس میکنند. در واقع در برخورد با مسائلی از این قبیل نه میتوان آنها را به طور کامل نادیده گرفت و به امید اینکه هیچگاه موفق نشود زندگی کرد، و نه میتوان روی آنها حساب کرد و کار و حرفه خود را بر اساس آنها تغییر داد. اینکه هوش مصنوعی Sora و یا یک هوش مصنوعی دیگر با این قابلیتها ارائه خواهد شد یا نه باید گفت که این اتفاق صد در صد خواهد افتاد؛ زیرا وقتی در دنیای نرم افزار یک موضوع روی کاغذ و یا در تستهای موردی شدنی باشد، بالاخره به صورت عملی نیز منتشر خواهد شد و به حقیقت میپیوندد. اما اینکه چه زمانی این اتفاق میافتد و تا چه اندازه روی صنعت سینما و یا حوزههای دیگر تاثیر میگذارد مشخص نیست!
در کنار این نگرانیها میتوان گفت که هوش مصنوعی Sora این قابلیتی را دارد تا در خیلی از استودیوها به کار گرفته شود و کارهای با کیفیت بالا با سرعت بیشتری تولید شوند و به نوعی ارتقا دهنده شرایط موجود باشد و این حوزهها را به یک لول بالاتر ببرد. در واقع باید گفت حالت دوم احتمال بیشتری دارد و اگر فعالان این حوزه تصمیم بگیرند که آن را بپذیرند و از آن استفاده کنند تا اینکه بخواهند با آن مقابله کنند، نتایج بهتری را برای آنها خواهد داشت.
چالشهای پیش رو برای هوش مصنوعی Sora
با وجود تمامی تعریفها و تمجیدهای که از هوش مصنوعی Sora ارائه دادیم، این ابزار هنوز تا اینکه بتواند به صورت تجاری وارد بازار شود، راه زیادی را دارد. در واقع باید گفت اوپن ای آی هرچند یک راهنما و پیشرو برای سایر شرکتهای هوش مصنوعی بوده است، اما از نظر تجاری نتوانسته است چندان که باید انتظارات سرمایه گذاران را برآورده کند.
در مورد چالشهایی که هوش مصنوعی Sora پیش روی خود میبیند میتوانیم به موارد متعددی اشاره کنیم که مهمترین آنها بدین شرح میباشند:
- سورا هنوز به صورت عمومی در دسترس نبوده و کاربران آن را ندیده اند! ممکن است ابزارهایی با تعاریفهای ارائه شده تفاوت زیادی داشته باشد!
- شرکت OpenAI هنوز در مورد زمان و نحوه ارائه این بازار به کاربران حرفی را زده است که این موضوع میتواند احتمال اینکه اصلا چنین ابزاری ساخته نشده باشد را تا حد زیادی تقویت کند.
- بر اساس مقررات و قوانینی که OpenAI دارد، میتوان از هوش مصنوعی برای تولید هر نوع محتوایی استفاده کرد که این شامل محتواهای توهین آمیز، جنسی، خشونت بار و سایر محتواهای غیرقانونی نیز خواهد شد. این مورد میتواند در آینده کاری هوش مصنوعی Sora دردسر ساز شود.
- این ابزار میتواند برای تولید محتوای غیر واقعی و دروغ به صورت تصویری و واقع گرایانه مورد استفاده قرار بگیرد و نام سورا را خدشه دار کند.
- هنوز مشخص نیست که سورا میتواند کار ساخت ویدئو را بر اساس توضیحات پیچیده انجام دهد یا نه. این توضیحات پیچیده میتواند محتوای داستان گونه و یا سلسله مراتبی باشد.
- این مساله که شما کاراکتری را در این هوش مصنوعی ایجاد کرده و بتوانید با به کارگیری آن چند ویدیو مختلف را درست کنید میتواند یکی از چالشهای مهم هوش مصنوعی Sora باشد.
نتیجه گیری
در این مقاله با هم به بررسی هوش مصنوعی Sora پرداختیم، یک هوش مصنوعی تبدیل متن به تصویر که میتواند عملکرد فوق العاده ای را داشته باشد و ویدیوهایی را با کیفیت FHD از روی متن، تصویر و یا ویدئویی که به آن میدهیم برای ما بسازد. سورا محصول جدیدی اوپن ای آی است که تکنولوژیهای موفقی مانند چت جی پی تی و هوش مصنوعی را در کارنامه خود دارد. البته این هوش مصنوعی هنوز در مرحله آزمایش است و هنوز به صورت رسمی منتشر نشده است. اگر در مورد این ابزار حرفه ای نظری داشتید، خوشحال میشویم آن را با ما و سایر کاربران در میان بگذارید.