دستیار صوتی آمازون فقط میتواند با شنیدن عبارت «الکسا» بیدار و آماده کار شود. ولی متأسفانه از لحاظ فنی نمیتواند تفاوتی بین صداهایی که در اطراف تولید میشوند را به صورت دقیق بررسی و تحلیل کند. محققان در تلاش هستند که به این دستیاران صوتی کمک کنند تا دیگر صداها را نیز همانند صدای انسان تشخیص دهند.
یک استارت اپ کوچک در کمبریج دهها سال است که زمان خودش را صرف ایجاد یک زبان جدید برای اولین بار کرده تا بتواند به ماشینها در شناسایی صداهای گفتگوها کمک کند. آیا تاکنون گجت های هوشمند، گفتارها را نمیتوانستند به خوبی بشناسند و بررسی کنند؟ در واقع آنها کلمات را میشناسند ولی این استارت اپ با بهکارگیری هوش مصنوعی به آنها امکان پردازش طبیعت سخن گفتن انسانی را میدهد.
ما میتوانیم همه صداها یا بهتر بگوییم اغلب آنها را از هم تشخیص دهیم و این کار به لطف تکامل گوش و هوش ما به وجود آمده است، اما زمانی که کار به تکامل هوش ماشینها میرسد، کمی کار سختتر میشود.
شرکت Audio Analytic که نتیجه یک سرمایهگذاری 5.5 میلیون دلاری است و سالانه کتابخانه صوتی خودش را در اختیار شرکتهای بزرگی همانند سیسکو، اینتل و دیگران قرار میدهد روز چهارشنبه اعلام کرده که کتابخانه صوتی جدید و پیشرفتهای از صداهای انسانی را تهیه کرده است که میتواند در اختیار مشتریان و کاربران خودش قرار دهد.
این بدان معنی است که گجت های شرکتهایی همانند آمازون و اپل میتوانند از میان گفتگوهای مردم با یکدیگر دستورهای خودشان را آنالیز کنند و لازم نیست برای مخاطب قرار دادن آنها، حرف خودمان را قطع و گجت را فعال و دوباره به حرفمان ادامه دهیم. استارت اپ Audio Analytic، در راز نگهداری بسیار کوشا است. زمانی که از مدیرعامل شرکت در مورد حضور آمازون میان مشتریان آنها سوال شد، جواب قاطعی دریافت نشد. هرکدام از مشتریان این شرکت در صورت خرید کردن این پروفایل یا کتابخانه صوتی، باید بتوانند آن را بر روی گجت های خودشان نصب و راهاندازی کنند. شرکت آمازون یک موسسه تحقیقاتی در کمبریج برای تحقیق و توسعه الکسا ایجاد کرده است.
توانایی الکسا در شناسایی دستورها، انچنان که تصور میشود قاطعانه و قابل اعتماد نیست. مخصوصاً زمانی که حرف از امنیت باشد الکسا، ضعیفتر عمل میکند. بر اساس خبرهایی که چندی پیش در مورد الکسا به دست آمده است، هکرها میتوانند با تقلید اندکی، الکسا را فریب دهند.
از این رو سازندگان دستگاه تلاش میکنند که با استفاده از تکنولوژیهای موجود، قابلیت تشخیص صدای پیشرفتهتری به وجود آورند. شرکت Analytic Audio بیشترین درآمد خودش را از صدور مجوز به دست میآورد. بر اساس گفتههای شرکت این کتابخانه جدید میتواند همه گجت ها این توانایی را خواهد داد که صداهایی همانند صدای سگ را آنطور که صدای انسان را ارزیابی و تشخیص میداد، تشخیص دهد.
برای اینکه تخمین دقیقی ازآنچه که Audio Analytic برای تشخیص دادن صداها از هم ایجاد کرده است باید بگوییم که شرکت در طول ده سال اخیر بر روی هفت صدای مختلف کار کرده است تا تواند آنها را بهعنوان فرمانها صوتی وارد کتابخانه صوتی خودش کند، از جمله، صدای پارس سگ، شکستن شیشه، صدای گریه کودک، صدای سیگار و آژیر نشت گاز.
اکنون دستیارهای هوشمند خانگی فقط قادر هستند که صداهایی که برای آنها تعریفشدهاند را تشخیص دهند و اعلان هشداری برای کاربران خودشان ارسال کنند و نمیتوانند تفاوتی میان صداهای مشابه با آنچه که در واقعیت وجود دارد، ایجاد کنند.
مجریان برنامه کتابخانه صوتی جدید در Audio Analytic برای ایجاد یک کتابخانه مخصوص شکستن شیشه، هزاران شیشه را در مقابل میکروفونهای حساس شکسته و ضبط کردهاند تا بتوانند به دستیار صوتی امکان دهند که هرگونه صدای شکستن را تشخیص دهد و این روند برای همه صداهایی که به تازگی در این کتابخانه ارائه شده، تکرار شده است.
شرکت ادعا دارد که حتی در مورد وسیلهای که شیشه را میشکند هم حساسیت به خرج داده است. چکش اصلیترین وسیله است که آنها برای شکستن شیشه در نظر گرفتهاند، اما سعی کردهاند که وسایل دیگری همانند سنگ یا مشت را هم بررسی و ضبط کنند.
بر اساس گفتههای مدیران، این شرکت از بسیاری از پیشگامان عرضه دستیاران صوتی، جلوتر است. ویژگی که این شرکت دارد، استفاده از امکانات دانشگاهی برای تشخیص صداها از یکدیگر است که دیگر شرکتها از آن بیبهره هستند. حتی رشته جدیدی در دانشگاه به همین عنوان تأسیس شده است. مشارکت اصلی دانشگاه و این استارت اپ در راستای تولید تکنولوژی به نام ideophone است.
مدیر Audio Analytic میگوید:
بیشتر موسسههای فعال در زمینه دستیارهای صوتی فقط در تلاش هستند تا بتوانند به دستگاههای خودشان توانایی درک عبارتها را بدهند. این در حالی است که ما تلاش میکنیم به دستگاهها در مورد آنچه که باعث به وجود آمدن عبارتها میشود، آگاهی دهیم، همانند نحوه ادا کردن یک واژه که از دهان شما خارج میشود. زمانی که شما در جمع مشغول سخنرانی هستید، درک واژهها نمیتواند به شما در روشن کردن دستیار صوتی کمک کند، بلکه نحوه ادا کردن آن است که میتواند شما را در این کار یاری دهد. هوش مصنوعی هم که دراینباره بکار رفته است، بر همی مبنا پیشرفت میکند. آنچه که به زودی میتوانیم در موبایلها بهعنوان تکنولوژی ideophones مشاهده کنیم. کتابخانه صوتی ما چندان بزرگتر از کتابخانههای صوتی کنونی نیست. شاید حدود 50 درصد بزرگتر از کتابخانههای کنونی باشد. شاید شما تجربه این تنوع صداها را زمانی که مشغول مشاهده فیلم باشید، داشتهاید. بیشتر صداها، غیرواقعی و ضبطشده در کتابخانههای صوتی هستند. در مورد پنجرهها باید بگویم که هزینه زیادی برای صدای شکستن پنجرهها دادیم.