تاکوترون 2 با کمک هوش مصنوعی متن را به گفتار تبدیل می کند!

تینا پورشاهید
12 دی 1396 11:00

مدت زمان مطالعه: 4 دقیقه

گوگل در حوزه هوش مصنوعی بسیار فعال عمل می کند. این بار نیز این کمپانی با معرفی تاکوترون 2 حیرت همگان را برانگیخته است. تاکوترون 2 با کمک هوش مصنوعی متن را به گفتار تبدیل می کند ! البته تاکوترون 2 به گونه ای این کار را انجام می دهد که شما متوجه نمی شوید گوینده متن، فقط یک ربات است!

شبیه سازی گفتار انسان و تبدیل متن به گفتار در تاکوترون 2 واقعا حیرت انگیز است.

گوگل گام های بلندی را برای پروژه « AI firstl» خود برداشته است. همان طور که ممکن است شنیده باشید ،گوگل در تلاش است که با کمک فناوری هوش مصنوعی متن را به گفتار تبدیل کند، به گونه ای که شنونده نتواند تشخیص دهد یک انسان صحبت می کند یا یک ربات!

بر اساس گزارش هایی که اخیرا از سوی سایت فناوری اطلاعات Inc.com منتشر شده است، فناوری جدید تبدیل متن به گفتار که با کمک هوش مصنوعی و توسط کمپانی گوگل معرفی میشود، تاکوترون 2 ( Tacotron 2) نام دارد که می تواند با کمک سیستم کامپیوتری مجهز به هوش مصنوعی، صدایی شبیه به صدای انسان تولید کند.

در کنفرانس توسعه دهندگان گوگل I / O 2017، مدیر اجرایی این شرکت در هند یعنی ساندار پیچای، اعلام کرد که غول اینترنت جهان یعنی گوگل قصد دارد اولین تلفن همراه مجهز به فناوری AI first که مبتنی بر هوش مصنوعی است به همراه چندین محصول جدید با ویژگی های خوب از جمله گوگل لنز( Google Lens)، پاسخ دهی هوشمند برای جی میل ( Smart Response) دستیار گوگل برای آیفون به همه جهان معرفی کند.

بر اساس مقاله منتشر شده در سایت arXiv.org، این سیستم و فناوری جدید اسپکترامی از متن را ایجاد می کند و مشخص می نماید صدای گوینده باید به چه صورتی باشد. این اسپکترام یا نمایش بصری به خواندن بهتر متن توسط رایانه کمک می کند.

این تصویر از طریق الگوریتم WaveNet موجود در گوگل مورد بررسی قرار می گیرد. در این الگوریتم با کمک تصاویر و هوش مصنوعی کار جلو می رود و رایانه می تواند با توجه به میمیک های انسانی و به صورت تقلیدی از انسان، متن را به گفتار تبدیل کند.

این الگوریتم به راحتی می تواند صداهای مختلف را یاد بگیرد و حتی نفس های مصنوعی ایجاد کند.

محققان معتقدند: « این مدل نمره متوسط 4.53 را دریافت خواهد کرد در صورتی که اگر همین متن توسط یک گوینده حرفه ای خوانده شود می تواند نمره 4.58 را دریافت کند.»

بر اساس نمونه های صوتی تهیه شده توسط تاکوترون 2، گوگل ادعا کرده است که این سیستم آنقدر هوشمند است که واژه های شبیه به هم را هم شناسایی می کند.

مثلا تاکوترون می تواند واژه هایی مثل « desert» به قالب اسم را از « desert» به عنوان فعل تشخیص دهد. وقتی اسم و فعل از یکدیگر در جمله قابل تفکیک باشند، جملات صحیح تر ادا خواهند شد.

تاکوترون 2 با کمک جفت شبکه عصبی این کار را انجام می دهد. همان طور که گفته شد طریق الگوریتم WaveNet به صورت بصری فرکانس های صوتی خاص مشخص می شود و اطلاعات دیداری و بصری در قالب صوت بازسازی می شوند. گوگل این اطلاعات را در سایتی منتشر نموده است و توانایی این سیستم یعنی تاکوترون 2 را به نمایش گذاشته است.

در این وب سایت نمونه های صدای تاکوترون 2 را می توانید بشنوید. سیستم تبدیل متن به گفتار به قدری حرفه ای این کار را انجام داده است که واقعا تشخیص صدای انسان واقعی از صدای ماشین کمی سخت به نظر می رسد.

هم چنین کمپانی گوگل اعلام کرده است که این سیستم هوش مصنوعی می تواند حین تبدیل متن به گفتار، کلماتی که نیاز به تاکید در حین خواندن دارند را تشخیص بدهد.

یا حتی می تواند جملات را سئوالی یا خبری بخواند.

البته مهندسان گوگل هنوز اطلاعات زیادی در مورد تاکوترون 2 منتشر نکرده اند ولی این سیستم می تواند برای بسیاری از توسعه دهندگان که برنامه هایی مرتبط با تبدیل متن به گفتار تهیه می کنند، بسیار مهم و حایز اهمیت باشد.

بر اساس گزارش منتشر شده در مورد این فناوری، هر یک از نمونه فایل های صوتی با فرمت .wav می تواند دارای یک نام پرونده جداگانه باشد که با فرمت gen یا gt. دیده می شود.

بر اساس این مقاله منتشر شده در مورد تاکوترون 2، احتمال دارد که gen گفتار تولید شده توسط تاکوترون 2 را نشان دهد و فرمت gt گفتار واقعی انسان را به نمایش بگذارد.

به نظر می رسد هوش مصنوعی هر روز بیش از پیش می تواند ربات ها را شبیه تر به انسان ها کند. گوگل در این مسیر توانسته گام های بزرگی برای تبدیل متن به گفتار بردارد که واقعا حیرت انگیز است. آیا واقعا روزی می توان گفت که هوش مصنوعی بتواند به جای گوینده های رادیو و تلویزیون عمل کند؟ آیا می توان با این روش فیلم های ویدئویی را دوبله کرد؟