فیسبوک در حال طراحی قابلیت بسیار پیشرفته و جالبی به نام 3D photos است که به کاربران امکان تهیه تصاویر سه بعدی و انتشار آنها در فیسبوک را میدهد. در مرحله اول تهیه این تصاویر تنها برای دستگاههای دارای دوربین دوگانه ممکن خواهد بود. اما مشاهده آنها در فید خبری فیسبوک برای همگان میسر خواهد بود. این قابلیت در اواسط تابستان ارائه میشود.
فیسبوک در اوایل ماه می (اردیبهشت) قابلیت جدیدی به نام 3D photos را معرفی کرد. این ویژگی همانطور که از نامش پیداست، عکسهای معمولی را به عکسهای سه بعدی تبدیل میکند. تا به حال به جز یک ویدئوی کوتاه و عنوان مذکور، جزییات اندکی درباره آن منتشر نشده بود؛ اما تیم عکاسی محاسباتی فیسبوک به تازگی گزارشی مربوط به چگونگی عملکرد این خصوصیت را منتشر کرده است که بسیار جالب و رضایتبخش است.
اگر ویدئوی کوتاه تبلیغاتی آن را ندیدهاید، باید گفت که این عکسهای سه بعدی همانند عکسهای معمولی در فید خبری نمایش خواهند یافت و ظاهرا تفاوتی با تصاویر معمولی ندارند؛ اما وقتی آنها را لمس کنید یا رویشان کلیک کنید و یا گوشی خود را به یک سمت خم کنید خواهید دید که تصویر حالت سه بعدی دارد. شما مانند کسی خواهید بود که از یک پنجره به یک ژرفانمای (diorama) کوچک نگاه میکند و میتواند از زوایای مختلف آن را ببیند. این قابلیت هم برای عکسهای معمولی که از افراد، سگها و مانند اینها گرفته میشوند و هم برای تصاویر پانوراما و مناظر طبیعی، کار میکند.
این کمی عجیب و غیرواقعی به نظر میرسد و شاید تا زمانی که خودمان این قابلیت را نبینیم، باور نکنیم. اما باید گفت عمق خیالی که این افکت در تصویر ایجاد میکند خیلی قانع کننده است و انگار واقعا از یک پنجره جادویی کوچک به یک مکان واقعی نگاه میکنید و نه یک مدل سه بعدی مصنوعی. البته در واقع باید گفت شما به یک مدل سه بعدی مصنوعی نگاه میکنید. در زیر میتوانید نمونهای از این تصاویر را مشاهده کنید:
یوهانس کوپف دانشمند و محقق که در سیاتل برای فیسبوک کار میکند گفتگویی درباره روشهای به کار رفته برای خلق قابلیت 3D photos انجام داده است. مراکز اداری «دوربین و عکاسی محاسباتی» فیسبوک در سیاتل قرار دارند. کوپف (به همراه پیتر هدمن از کالج دانشگاهی لندن) یکی از افرادی است که گزارش مربوط به روشهای کار این تصویرسازیهای پیشرفته و بهبودیافته را تهیه و منتشر کردهاند. آنها در کنفرانس SIGGRAPH در آگوست (مرداد) در اینباره بیشتر سخن خواهند گفت.
جالب اینکه خصوصیت 3D photos در اصل نه برای بهبود عکسهای معمولی و سه بعدی سازی آنها، بلکه بیشتر برای همگانی کردن «واقعیت مجازی» ایده پردازی شده بوده است. کوپف میگوید همه چیز آن مصنوعی است و هیچیک از کاربران معمولی فیسبوک ابزارهای مورد نیاز و نیز علاقه ای برای ساخت مدلهای سه بعدی و آوردن افراد به یک محوطه مصنوعی را ندارند.
یک استثناء برای این مساله تصاویر سراسرنما و 360 درجه است که معمولا به اندازه کافی عریض هستند تا امکان استفاده از آنها در واقعیت مجازی را بدهند؛ اما این تجربه تنها اندکی از نگاه کردن به یک تصویر که برروی یک کاغذ ضخیم در حال حرکت در چند قدمی ما است بهتر به نظر میرسد. در این تجربه، محیط واقعا فاقد عمقی است که نشان از سه بعدی بودن (عملا واقعی بودن) آن داشته باشد. این (احساس عمق دار بودن) همان چیزی است که کوپف سعی کرد به آن اضافه کند.
اولین نسخه ای که من مشاهده کردم، در آن کاربران با گوشیهای معمولی خود و بر طبق یک الگو، سرتاسر منظره مورد نظر را با تصاویری از زوایای مختلف ضبط میکردند. که این کار با بررسی دقیق parallax یا دیدگشت (باید توجه داشت که اشیائی که فاصلهشان نسبت به هم، با ناظر متفاوت است تغییراتشان هم متفاوت است) و حرکات گوشی انجام میگیرد. حالا صحنه مورد نظر میتواند به صورت سه بعدی بازسازی شود (این کار با استفاده از نقشههای معمولی تکمیل میشود).
اما بدست آوردن اطلاعات مربوط به عمق اشیای موجود در صحنه با استفاده از تصاویری که پی در پی گرفته شده، به توان پردازشی خیلی بالایی نیاز دارد. این یک تکنیک ناکارآمد و منسوخ است. به ویژه هنگامی که بسیاری از گوشیهای جدید درواقع دو دوربین دارند که مثل یک جفت چشم انسان عمل میکنند. این گوشیهای دارای دوربین دوگانه هستند که قادر به استفاده از قابلیت 3D photos و تولید این تصاویر سه بعدی برای فیسبوک خواهند بود (هرچند برنامههایی برای فراهم ساختن امکان استفاده از این قابلیت برای گوشیهای ساده تر نیز وجود دارد).
عکاسی بوسیله دوربینهای دوگانه بدین معناست که با دو دوربین از زوایای متفاوت عکس گرفته ایم. در این دوربینها تفاوت اختلاف منظر (parallax) حتی برای اجسامی که در حال حرکت هستند نیز مشخص خواهد بود. و چون دستگاه برای هر دو تصویر دقیقا در یک مکان قرار دارد، اطلاعات مربوط به عمق اجسام نویز بسیار کمتری خواهد داشت و پردازش آنها ساده تر خواهد بود.
در اینجا نحوه کار را مشاهده میکنید. دو دوربین گوشی، هر کدام یک عکس میگیرند و دستگاه بلافاصله کار خود را برای محاسبه عمق اجسام و ایجاد یک «نقشه عمق» (depth map) بر اساس تصاویر انجام میدهد. «نقشه عمق» تصویری است که حاوی اطلاعات مربوط به فاصله (عمق) اجسام در یک صحنه است. نتیجه چیزی شبیه این است:
شرکتهای اپل، سامسونگ، هواوی و گوگل همگی از متدهای خودشان برای انجام این کار در گوشیهایشان استفاده میکنند. البته تا به حال کاربرد اصلی آن برای تار کردن هوشمند پس زمینه بوده است.
اینجا یک مشکل وجود دارد و آن هم اینکه نقشه عمقی که در اختیار داریم یک مقیاس مطلق برای فاصله اجسام ارائه نمیدهد. به عنوان نمونه نمیتوان گفت همواره وقتی قرمز تیره فاصله 100 فوت (هر فوت برابر 30 سانتیمتر است) را نشان میدهد، زرد روشن نیز فاصله 10 فوتی را نشان میدهد. تصویری که نسبت به این تصویر، چند قدم به سمت چپ از همین صحنه گرفته شود، اگر فردی در آن حضور داشته باشد ممکن است در آن رنگ زرد نشان دهنده یک فوت و رنگ قرمز نشان دهنده 10 فوت باشد. این مقیاس برای هر تصویر دیگر متفاوت است و اگر بیشتر از یک عکس بگیرید مشکلساز میشود؛ چه برسد به اینکه دهها تصویر داشته باشیم. در اینجا سازگاری چندانی میان فاصله اجسام وجود ندارد و همین مساله، کار یکپارچه سازی آنها در قالب یک مدل سه بعدی را رنج آور و دشوار میسازد.
این مشکلی است که کوپف و هدمن و همکارانشان با آن مواجه شدند. در سیستم آنها، کاربر با حرکت گوشی، چندین عکس از زوایای مختلف میگیرد. در هر ثانیه یک عکس (چون دوربین دوگانه است عملا دو عکس گرفته میشود و از آنها یک نقشه عمق نیز حاصل میشود) گرفته میشود و به مجموعه عکسها اضافه میشود.
در کنار اینها، یک الگوریتم مخصوص هم به نقشههای عمق و هم به اندک حرکات دوربین که با «سیستمهای تشخیص حرکت گوشی» تشخیص داده شده است توجه میکند. در اینجا نقشههای عمق تا حد زیادی اصلاح میشوند تا با نقشههای همسایه خود تطبیق داده شوند. از توضیح چگونگی عملکرد این قسمت صرف نظر میکنیم چرا که فرمولهای ریاضی که این محققان استفاده کردهاند بیش از حد معمول پیچیده هستند. اگر کنجکاو هستید میتوانید اینجا آن را مشاهده و بررسی کنید.
این الگوریتم نه تنها یک نقشه عمق بسیار خوب و دقیق برای همه عکسها تولید میکند، بلکه این کار را بسیار سریع و در حدود یک ثانیه برای هر عکس انجام میدهد. در واقع دلیل اینکه این ابزار همانطور که بالاتر گفته شد در هر ثانیه یک عکس میگیرد و نیز دلیل اینکه آنها نام عکاسی سه بعدی فوری (Instant 3D Photography) را بر آن گذاشتهاند همین است.
در مرحله بعدی عکسهای گرفته شده با هم ادغام میشوند، همان گونه که به طور معمول در عکاسی وسیع یا پانوراما (Panoramic) این عمل انجام میگیرد. اما به ادعای آنها، به لطف نقشه عمق بهبود یافته، این پروسه میتواند تا ده برابر سریعتر و آسانتر انجام گیرد.
از آن جا که تصاویر متفاوت، عمق متفاوتی را ثبت کردهاند، هم تراز کردن آنها میتواند دشوار باشد. همانطور که در نمونههای سمت چپ و وسط میبینید بسیاری از بخشهای تصاویر حذف شدهاند یا اطلاعات عمق نادرستی تولید کردهاند. نمونه سمت راست متعلق به روش فیسبوک است.
سپس نقشههای عمق به صورت شبکههای سه بعدی یا 3D meshes (نوعی مدل یا پوسته دو بعدی) در میآیند. میتوانید آن را به صورت یک «پاپیه ماشه» (شبیه یک ماکت ساده) از صحنه در نظر بگیرید؛ اما شبکههای مذکور برای لبههایی از اجسام که آشکار هستند بررسی میشود، مثلا نردههایی که در جلوی پس زمینه که یک دشت است قرار دارند و تغییر مکان زیادی در حاشیههای آن ایجاد میشود. این فضاها اجسام زیادی را آشکار میسازند.
هرچند همان طور که در ابتدا توضیح داده شد، این باعث ایجاد افکت ژرفانما (diorama) میشود. شاید شما هم فکر کنید پیش زمینه، یعنی اجسام نزدیک، تنها کمی واقعیتر از یک بریده کاغذ به نظر برسند؛ چرا که به عنوان نمونه اگر یک چهره در پیش زمینه قرار داشته باشد و نگاهش به سمت جلو باشد، اطلاعاتی درباره کنارهها و پشت سر آن چهره نداریم.
اینجاست که مرحله آخر با هدف «ایجاد توهم» (hallucinating) برای مابقی بخشهای تصویر سه بعدی به وسیله یک «شبکه عصبی پیچشی» به کار میآید. این قابلیت تا حدی شبیه ابزار پر کردن آگاهانه که در فتوشاپ نیز وجود دارد عمل میکند و براساس اینکه در نزدیکی هر مکانی چه چیزی است حدس میزند که آن چیز باید کجا برود. اگر در مکان مورد نظر مو باشد، احتمالا آن مو ادامه مییابد. یا اگر آن جا به رنگ پوست باشد، باز هم احتمالا در کنارش پوست خواهد بود. بدین ترتیب به طور قانع کنندهای بافتها (textures) براساس تخمین اینکه شی مورد نظر احتمالا چه شکلی است بازسازی میشوند و شکافها و فضاهای خالی پر میشوند. بنابراین هنگامی که کمی زاویه دید را تغییر میدهید، این طور به نظر میآید که گویا واقعا به اطراف آن نگاه میکنید.
نتیجه نهایی یک تصویر است که به طرز واقع نمایانهای به تغییر زاویه دید واکنش نشان میدهد و میتوان از آن در واقعیت مجازی یا به عنوان یک نوع تصویر سه بعدی شبیه به ژرفانما (diorama) در فیسبوک استفاده کرد.
برای مشاهده این تصاویر هیچکس نیاز به انجام کار خاصی مانند دانلود یک افزونه یا یاد گرفتن یک ژست (gesture) جدید ندارد. پیمایش این تصویرها در فید خبری، زاویه آنها را کمی تغییر میدهد تا کاربر متوجه شود آن تصویر سه بعدی است و همه چیز طبیعی به نظر میرسد؛ البته این قابلیت بی ایراد نیست و اگر از نزدیک به این تصاویر نگاه کنید تصاویر در هم ادغام شده در برخی موارد مصنوعی و عجیب به نظر میرسند و محتوای توهمزا هم همیشه بهره وری لازم را ندارد. با وجود همه اینها، مساله مهمتر این است که واقعا سرگرم کننده و جذاب است.
کلام آخر
قرار است که این خصوصیت در اواسط تابستان عرضه شود. فعلا، قابلیت ساخت تصاویر سه بعدی تنها به دستگاههایی که از دوربین دوگانه بهره میبرند محدود خواهد بود. البته براساس تکنیک فعلی چاره ای جز این هم وجود ندارد؛ اما همگان میتوانند آنها را در فید خبری خود مشاهده کنند.
همچنین در گزارش اشاره شده که ممکن است این قابلیت برای دستگاههای دارای یک دوربین نیز با کمک یک «شبکه عصبی پیچشی» دیگر محقق شود. نتایج کار که تنها اندکی به آن اشاره شده است، به خوبی تصاویر تهیه شده با دوربینهای دوگانه از آب در نیامده است؛ اما همچنان قابل احترام و بهتر و سریع تر از دیگر روشهای فعلی است؛ بنابراین آنهایی از ما که همچنان در عصر تاریکی دوربینهای تکی زندگی میکنیم نیز میتوانیم امیدوار باشیم. در بخش نظرات، دیدگاه خود را با ما به اشتراک بگذارید.
