شناسایی صداهای ازدسترفته در تشخیصگفتار : استارت-آپ کرهای Cochlear.ai برای همین منظور دو میلیون دلار بودجه جمعآوری نمود
لحظهای ساکت بنشینید و به صوتهایی که اطراف خود میشنوید، توجه کنید. ممکن است صدای بوق زدن لوازم خانگی، بوق زدن ماشینها، پارس سگ و یا عطسه شخصی را بشنوید. اینها همه اصواتی است که Cochlear.ai، یک استارت آپ در حوزه تشخیص صدا مستقر در سئول، در حال آموزش پلتفرم خود به شکل SaaS است. یونچانگ هان (YoonChang Han)، بنیانگذار و مدیر ارشد اجرایی، به TechCrunch چنین گفت: هدف این شرکت توسعه نرمافزاری است که بتواند تقریبا هر نوع صدایی را تشخیص دهد و در طیف گستردهای از سختافزارهای هوشمند از جمله تلفنها، بلندگوها و اتومبیلها مورد استفاده قرار گیرند.
Cochlear.ai اعلام نمود که تاکنون دو میلیون دلار بودجه با کمک شرکت شینهان Shinhan Capital و NAU IB Capital جمعآوری کرده است.
شناسایی صداهای از دست رفته در تشخیص گفتار
بودجه کل این شرکت، تاکنون به 2.7 میلیون دلار رسیده که بخش اصلی این بودجه توسط شرکت Kakao Ventures (بازوی سرمایهگذاری غول اینترنتی کره جنوبی) تامین شده است. Cochlear.ai قصد دارد تا از این بودجه، طی 18 ماه آینده برای استخدام و افزایش مجموعه دادههای صوتی مورد استفاده برای آموزش الگوریتمهای یادگیری عمیق استفاده کند.
این شرکت در سال 2017 توسط تیمی متشکل از شش دانشمند و محقق در زمینه صوت و موسیقی تاسیس گردید که هدف خود را شناسایی صداهای از دست رفته در تشخیص گفتار قرار دارد. یکی از پژوهشگران مهم این استارت آپ، هان است که دکترای خود را در بازیابی اطلاعات موسیقی از دانشگاه ملی سئول گرفته است. هان هنگام کار بر روی دکترا دریافت که “همه جهان به نوعی بر روی سیستمهای تشخیص گفتار متمرکز هستند. شرکتهای زیادی نیز برای همین کار به وجود آمدهاند، اما تجزیه و تحلیل انواع دیگر صداها از نظر فنی کاملا با تشخیص گفتار متفاوت است. ”
فناوری تشخیص گفتار معمولا همزمان یک یا دو صدا را تشخیص میدهد و فرض میکند افراد به جای اینکه با یکدیگر صحبت کنند، درگیر مکالمهای هستند. همچنین، به منظور افزایش دقت در مدل خود، از دانش زبانی در پسپردازش استفاده میکند. اما در حقیقت موسیقی، صداها و هیاهوهای محیطی و دیگر انواع صوت معمولا در محیط با هم تداخل پیدا میکنند و این نرمافزارها قادر به تشخیص آنها نیستند. به این ترتیب شناسایی صداهای از دست رفته در تشخیص گفتار با توجه به فناوریهای روز الان، امکانپذیر نیست
برپایه سخنان هان: “ما باید از همه دامنههای فرکانسهای مختلف مراقبت کنیم. تنها صدا نیست که باید مراقب آن باشیم، بلکه در واقع هزاران صدا در خارج از محیط وجود دارد که باید به آنها دقت شود. بنابراین ما فکر میکنیم این نسل بعدی تشخیص صدا خواهد بود و همین انگیزه راهاندازی استارت آپ ما بود.”
SaaS Cochlear.ai، به نام Cochl.Sense ، به صورت API ابری و SDK edge در دسترس است و در حال حاضر میتواند حدود 40 صدای مختلف محیط را تشخیص دهد. این پتلفرم برای شناسایی صداهای از دست رفته در تشخیص گفتار، اصوات گوناگون را در سه گروه طبقهبندی میکند:
- تشخیص اضطراری (از جمله شکستن شیشه، جیغ و آژیر و غیره)
- تعامل انسان (که شامل استفاده از ضربه محکم و ناگهانی انگشتان، کف زدن یا سوت زدن برای تعامل با سختافزار است)
- وضعیت انسان (برای تشخیص اصوات مختلف وی مانند سرفه، عطسه یا خرخر برای استفاده در مواردی همچون نظارت بر بیمار یا زیرنویس صوتی خودکار)
هان گفت که این شرکت همچنین قصد دارد قابلیتهای جدیدی برای شناسایی صداهای از دست رفته در تشخیص گفتار، به پلتفرم Cochl.Sense خود برای استفاده در خانهها (از جمله بلندگوهای هوشمند)، وسایل نقلیه و تجزیه و تحلیل موسیقی اضافه کند. انعطافپذیری Cochl.Sense به این معنی است که به طور بالقوه میتواند در بسیاری از موارد مورد استفاده قرار گیرد. این موارد شامل تبدیل بلندگوی هوشمند به “برج کنترل” برای لوازم خانگی توسط تشخیص نویزهایی است که ایجاد میکنند، یا کمک به افراد کم شنوا از طریق ارسال هشدار در مورد صوتهایی همچون بوق اتوموبیلهای دیگر به دستگاههای (مانند ساعتهای هوشمند) است که از آن استفاده میکنند.
چشمانداز تشخیص صدا
هان افزود که طی 3 سال گذشته، وی به جای تمرکز تنها بر تشخیص گفتار، به تمرکز بر شناسایی صداهای از دست رفته در تشخیص گفتار روی آورده است.
برای مثال، بیشتر شرکتهای فناوری مانند آمازون، گوگل و اپل، در حال افزودن تشخیص صدا به محصولات خود هستند. ، هر دو پلتفرم الکسا آمازون گارد (Amazon Alexa Guard) و نست سکیور (nest Secure) قادر به تشخیص صوتهایی همچون شکستن شیشه هستند، درحالیکه تشخیص صدا iOS 14، آن را قادر میسازد تا ویژگیهای جدید دسترسی را به سامانه خود بیفزاید.
هان گفت: استفاده از فناوری تشخیص صدا وشناسایی صداهای از دست رفته در تشخیص گفتار توسط شرکتهای بزرگ فناوری برای Cochlear.ai یک مزیت بزرگ به شمار میآید، زیرا به معنای رشد بازار این فناوری است. این شرکت نوپا قصد دارد با صنایع مختلف کار کند، اما در حال حاضر بر روی دستگاههای هوشمند مصرفی و خودروسازی متمرکز شده است، زیرا در حال حاضر، بیشترین کاربرد این فناوری، در این صنایع به چشم میخورد. به عنوان مثال، Cochlear.ai در حال کار بر روی پروژهای با Daimler AG است که شامل تشخیص صدا در اتومبیل است (به عنوان مثال، هشدارها در صورت قفل شدن کودک در داخل)، بعلاوه، این شرکت قراردادهای همکاری با شرکتهای بزرگ الکترونیکی، مخابراتی و کالاهای مصرفی به امضا رسانده است.
برپایه سخنان هان: نرم افزاری که میتواند صداهایی مانند شلیک گلوله، شکستن شیشه و دیگر صداها برای تشخیص اضطراری، دهههاست که وجود دارد ، اما فناوریهای معمول اغلب منجر به هشدارهای کاذب میشود یا نیاز به استفاده از میکروفونهای خاص و یا دیگر سختافزارها دارد.
دیگر شرکتها مانند کمبریج (Cambridge)، آنالیز صدای انگلیس (England’s Audio Analytic) خود را وقف بهبود فناوری تشخیص صدا و شناسایی صداهای از دست رفته در تشخیص گفتار کردهاند که بر صدای هوشمند زمینه محور تمرکز دارند. شرکت هلندی صدای هوشمند (Netherlands-based Sound Intelligence) نرمافزاری را توسعه داده داده که از آن برای هشدارهای اورژانسی و در سیستمهای بهداشت و سلامت استفاده میکنند.
Cochlear.ai قصد دارد تا خود را از دیگر شرکتهای رقیب کاملا متمایز سازد به همینمنظور تمامی تمرکز خود را بر ساخت نرمافزاری قابل استفاده در طیف گستردهای از میکروفونها، از جمله در تلفنهای هوشمند سطح پایین یا میکروفن های USB بدون نیاز به تنظیمات دقیق، جمع کرده است. این شرکت قصد دارد به جای تکیه بر یادگیری عمیق برای اصلاح الگوریتمها و کاهش نکات مثبت نادرست، بر ساخت این میکروفنهای پیشرفته تمرکز داشته باشد.
تیم Cochlear.ai، در طی مراحل اولیه ساخت گروه داده یک صدای ویژه به منظور شناسایی صداهای از دست رفته در تشخیص گفتار، بسیاری از نمونههای صوتی را با استفاده از مدلهای قدیمی تلفنهای هوشمند و میکروفونهای USB ضبط کردند تا مطمئن گردند نرمافزارشان بدون استفاده از میکروفونهایی با کیفیت بالا به درستی کار میکند.
نمونههای دیگر نیز از منابع آنلاین توسط این شرکت، جمعآوری شد. هنگامی که مدل یادگیری اولیه صدا به درجه مشخصی از دقت رسید، میتواند با جستوجوی آنلاین و به تنهایی، کلیپهای صوتی بیشتری را جستجو کند و به طور تصاعدی، آموزش دادههای خود را سرعت بخشد. Cochlear.ai’s Series A این امکان را فراهم میآورد تا مجموعه دادههای نمونه صوتی را با سرعت بیشتری تولید شود و اصوات بیشتری به نرمافزار اضافه گردد.
برپایه سخنان هان: “همه بنیانگذاران این استارت آپ، پژوهشگرانی در زمینه شناسایی صداهای از دست رفته در تشخیص گفتار هستند، بنابراین تسلط بر تکنیکهای پردازش سیگنال و یادگیری ماشین از جمله تواناییهای تک تک آنها است. ما الگوریتمهای مختلفی را امتحان میکنیم، زیرا هر صدا ویژگیهای مختلفی دارد.”
وی همچنین چنین افزود که”ما باید چیزهای مختلفی را امتحان کنیم تا یک مدل واحد ایجاد کنیم که بتواند همه اصوات مختلف را شناسایی کند.