هوش مصنوعی گوگل توانایی تشخیص صداهای مختلف در میان جمعیت را دارد. انسان ها معمولاً توانایی خوبی در تشخیص صدای افراد خاص در بین جمعیت دارند ولی آیا کامپیوترها نیز قادر به انجام چنین کاری هستند. جواب این سوال منفی است و تنها کافی است زمانی که تعداد زیادی از افراد در اطراف یک اسپیکر هوشمند هستند آن را امتحان کنید. حال گوگل ممکن است موفق به دست یافتن به راه حل نسبتاً ساده ای برای این مسئله شده باشد. محققان گوگل این غول تکنولوژی موفق شده اند تا یک سیستم یادگیری عمیق را طراحی کنند که قادر به انتخاب صداهای خاص با نگاه کردن به چهره انسان ها در حین مکالمه است. این تیم تحقیقاتی، مدل شبکه عصبی خود را طوری طراحی کرده اند که زمانی که افراد به تنهایی به حرف زدن می پردازند صدای آن ها را شناسایی کند و آن گاه مهمانی های مجازی را تدارک ببیند و حتی صداهای اضافه پس زمینه مهمانی را نیز به آن ها بیافزاید تا هوش مصنوعی چگونگی تفکیک صداهای مختلف را با تبدیل آن صداها به ترک های صوتی مجزا بیاموزد.
نتیجه چنین کاری بسیار شگفت انگیز است. حتی زمانی که افراد به طور مشخص مشغول مباحثه با یکدیگر هستند این هوش مصنوعی گوگل قادر است تا تنها با تمرکز بر یک شخص به تولید ترک صوتی بدون نویزی از صدای وی بپردازد. این هوش مصنوعی قادر است تا حتی اگر فرد بخشی از صورتش را با دست یا میکروفون می پوشاند این کار را به انجام برساند.
گوگل در حال حاضر مشغول کار روی موقعیت هایی است که می توان از این قابلیت در محصولاتش استفاده کند ولی کاندیداهای استفاده از این قابلیت بیش از چند تا است. این قابلیت را می توان در سرویس ها چت تصویری نظیر Hangouts یا Duo به کار گرفت. با استفاده از این قابلیت در این نرم افزارها می توان صدای مخاطب را حتی در اتاق های شلوغ نیز تشخیص داد. همچنین می توان از آن برای بهبود صدا در ضبط ویدئو استفاده کرد. موارد بسیاری برای استفاده از این تکنولوژی وجود دارد و گزینه های موجود بیشمارند.