شناسایی صداهای از دست رفته در تشخیص گفتار

شناسایی صداهای از دست رفته در تشخیص گفتار

شناسایی صداهای ازدست‌رفته در تشخیص‌گفتار : استارت-‌آپ کره‌ای Cochlear.ai  برای همین منظور دو میلیون دلار بودجه جمع‌آوری نمود

لحظه‌ای ساکت بنشینید و به صوت‌هایی که اطراف خود می‌شنوید، توجه کنید. ممکن است صدای بوق زدن لوازم خانگی، بوق زدن ماشین‌ها، پارس سگ و یا عطسه شخصی را بشنوید. این‌ها همه اصواتی است که Cochlear.ai، یک استارت آپ در حوزه تشخیص صدا مستقر در سئول، در حال آموزش پلتفرم خود به شکل SaaS است. یونچانگ هان (YoonChang Han)، بنیان‌گذار و مدیر ارشد اجرایی، به TechCrunch چنین گفت: هدف این شرکت توسعه نرم‌افزاری است که بتواند تقریبا هر نوع صدایی را تشخیص دهد و در طیف گسترده‌ای از سخت‌افزارهای هوشمند از جمله تلفن‌ها، بلندگوها و اتومبیل‌ها مورد استفاده قرار گیرند.

Cochlear.ai اعلام نمود که تاکنون دو میلیون دلار بودجه با کمک شرکت شینهان Shinhan Capital و NAU IB Capital جمع‌آوری کرده است.

شناسایی صداهای از دست رفته در تشخیص گفتار

بودجه کل این شرکت، تاکنون به ۲.۷ میلیون دلار رسیده که بخش اصلی این بودجه توسط شرکت Kakao Ventures (بازوی سرمایه‌گذاری غول اینترنتی کره جنوبی) تامین شده است. Cochlear.ai قصد دارد تا از این بودجه، طی ۱۸ ماه آینده برای استخدام و افزایش مجموعه داده‌های صوتی مورد استفاده برای آموزش الگوریتم‌های یادگیری عمیق استفاده کند.

این شرکت در سال ۲۰۱۷ توسط تیمی متشکل از شش دانشمند و محقق در زمینه صوت و موسیقی تاسیس گردید که هدف خود را شناسایی صداهای از دست رفته در تشخیص گفتار قرار دارد. یکی از پژوهشگران مهم این استارت آپ، هان است که دکترای خود را در بازیابی اطلاعات موسیقی از دانشگاه ملی سئول گرفته است. هان هنگام کار بر روی دکترا دریافت که “همه جهان به نوعی بر روی سیستم‌های تشخیص گفتار متمرکز هستند. شرکت‌های زیادی نیز برای همین کار به وجود آمده‌اند، اما تجزیه و تحلیل انواع دیگر صداها از نظر فنی کاملا با تشخیص گفتار متفاوت است. ”

فناوری تشخیص گفتار معمولا همزمان یک یا دو صدا را تشخیص می‌دهد و فرض می‌کند افراد به جای اینکه با یکدیگر صحبت کنند، درگیر مکالمه‌ای هستند. همچنین، به منظور افزایش دقت در مدل خود، از دانش زبانی در پس‌پردازش استفاده می‌کند. اما در حقیقت موسیقی، صداها و هیاهوهای محیطی و دیگر انواع صوت معمولا در محیط با هم تداخل پیدا می‌کنند و این نرم‌افزارها قادر به تشخیص آن‌ها نیستند. به این ترتیب شناسایی صداهای از دست رفته در تشخیص گفتار با توجه به فناوری‌های روز الان، امکان‌پذیر نیست

برپایه سخنان هان: “ما باید از همه دامنه‌های فرکانس‌های مختلف مراقبت کنیم. تنها صدا نیست که باید مراقب آن باشیم، بلکه در واقع هزاران صدا در خارج از محیط وجود دارد که باید به آن‌ها دقت شود. بنابراین ما فکر می‌کنیم این نسل بعدی تشخیص صدا خواهد بود و همین انگیزه راه‌اندازی استارت آپ ما بود.”

SaaS Cochlear.ai، به نام Cochl.Sense ، به صورت API ابری و SDK edge در دسترس است و در حال حاضر می‌تواند حدود ۴۰ صدای مختلف محیط را تشخیص دهد. این پتلفرم برای شناسایی صداهای از دست رفته در تشخیص گفتار، اصوات گوناگون را در سه گروه طبقه‌بندی می‌کند:

  • تشخیص اضطراری (از جمله شکستن شیشه، جیغ و آژیر و غیره)
  • تعامل انسان (که شامل استفاده از ضربه محکم و ناگهانی انگشتان، کف زدن یا سوت زدن برای تعامل با سخت‌افزار است)
  • وضعیت انسان (برای تشخیص اصوات مختلف وی مانند سرفه، عطسه یا خرخر برای استفاده در مواردی همچون نظارت بر بیمار یا زیرنویس صوتی خودکار)

شناسایی صداهای ازدست‌رفته در تشخیص‌گفتار

هان گفت که این شرکت همچنین قصد دارد قابلیت‌های جدیدی برای شناسایی صداهای از دست رفته در تشخیص گفتار، به پلتفرم Cochl.Sense خود برای استفاده در خانه‌ها (از جمله بلندگوهای هوشمند)، وسایل نقلیه و تجزیه و تحلیل موسیقی اضافه کند. انعطاف‌پذیری Cochl.Sense به این معنی است که به طور بالقوه می‌تواند در بسیاری از موارد مورد استفاده قرار گیرد. این موارد شامل تبدیل بلندگوی هوشمند به “برج کنترل” برای لوازم خانگی توسط تشخیص نویزهایی است که ایجاد می‌کنند، یا کمک به افراد کم شنوا از طریق ارسال هشدار در مورد صوت‌هایی همچون بوق‌ اتوموبیل‌های دیگر به دستگاه‌های (مانند ساعت‌های هوشمند) است که از آن استفاده می‌کنند.

چشم‌انداز تشخیص صدا

هان افزود که طی ۳ سال گذشته، وی به جای تمرکز تنها بر تشخیص گفتار، به تمرکز بر شناسایی صداهای از دست رفته در تشخیص گفتار روی آورده است.

برای مثال، بیشتر شرکت‌های فناوری مانند آمازون، گوگل و اپل، در حال افزودن تشخیص صدا به محصولات خود هستند. ، هر دو پلتفرم الکسا آمازون گارد (Amazon Alexa Guard) و نست سکیور (nest Secure) قادر به تشخیص صوت‌هایی همچون شکستن شیشه هستند، درحالی‌که تشخیص صدا iOS 14، آن را قادر می‌سازد تا ویژگی‌های جدید دسترسی را به سامانه خود بیفزاید.

هان گفت: استفاده از فناوری تشخیص صدا وشناسایی صداهای از دست رفته در تشخیص گفتار توسط شرکت‌های بزرگ فناوری برای Cochlear.ai یک مزیت بزرگ به شمار می‌آید، زیرا به معنای رشد بازار این فناوری است. این شرکت نوپا قصد دارد با صنایع مختلف کار کند، اما در حال حاضر بر روی دستگاه‌های هوشمند مصرفی و خودروسازی متمرکز شده است، زیرا در حال حاضر، بیشترین کاربرد این فناوری، در این صنایع به چشم می‌خورد. به عنوان مثال، Cochlear.ai در حال کار بر روی پروژه‌ای با Daimler AG است که شامل تشخیص صدا در اتومبیل است (به عنوان مثال، هشدارها در صورت قفل شدن کودک در داخل)، بعلاوه، این شرکت قراردادهای همکاری با شرکت‌های بزرگ الکترونیکی، مخابراتی و کالاهای مصرفی به امضا رسانده است.

برپایه سخنان هان: نرم افزاری که می‌تواند صداهایی مانند شلیک گلوله، شکستن شیشه و دیگر صداها برای تشخیص اضطراری، دهه‌هاست که وجود دارد ، اما فناوری‌های معمول اغلب منجر به هشدارهای کاذب می‌شود یا نیاز به استفاده از میکروفون‌های خاص و یا دیگر سخت‌افزارها دارد.

دیگر شرکت‌ها مانند کمبریج (Cambridge)، آنالیز صدای انگلیس (England’s Audio Analytic) خود را وقف بهبود فناوری تشخیص صدا و شناسایی صداهای از دست رفته در تشخیص گفتار کرده‌اند که بر صدای هوشمند زمینه محور تمرکز دارند. شرکت هلندی  صدای هوشمند (Netherlands-based Sound Intelligence) نرم‌افزاری را توسعه داده داده که از آن برای هشدارهای اورژانسی و در سیستم‌های بهداشت و سلامت استفاده می‌کنند.

Cochlear.ai قصد دارد تا خود را از دیگر شرکت‌های رقیب کاملا متمایز سازد به همین‌منظور تمامی تمرکز خود را بر ساخت نرم‌افزاری قابل استفاده در طیف گسترده‌ای از میکروفون‌ها، از جمله در تلفن‌های هوشمند سطح پایین یا میکروفن های USB بدون نیاز به تنظیمات دقیق، جمع کرده است. این شرکت قصد دارد به جای تکیه بر یادگیری عمیق برای اصلاح الگوریتم‌ها و کاهش نکات مثبت نادرست، بر ساخت این میکروفن‌های پیشرفته تمرکز داشته باشد.

تیم Cochlear.ai، در طی مراحل اولیه ساخت گروه داده‌ یک صدای ویژه به منظور شناسایی صداهای از دست رفته در تشخیص گفتار، بسیاری از نمونه‌های صوتی را با استفاده از مدل‌های قدیمی تلفن‌های هوشمند و میکروفون‌های USB ضبط کردند تا مطمئن گردند نرم‌افزارشان بدون استفاده از میکروفون‌هایی با کیفیت بالا به درستی کار می‌کند.

نمونه‌های دیگر نیز از منابع آنلاین توسط این شرکت، جمع‌آوری شد. هنگامی که مدل یادگیری اولیه صدا به درجه مشخصی از دقت رسید، می‌تواند با جست‌وجوی آنلاین و به تنهایی، کلیپ‌های صوتی بیشتری را جستجو کند و به طور تصاعدی، آموزش داده‌های خود را سرعت بخشد. Cochlear.ai’s Series A این امکان را فراهم می‌آورد تا مجموعه داده‌های نمونه صوتی را با سرعت بیشتری تولید شود و اصوات بیشتری به نرم‌افزار اضافه گردد.

برپایه سخنان هان: “همه بنیانگذاران این استارت آپ، پژوهشگرانی در زمینه شناسایی صداهای از دست رفته در تشخیص گفتار هستند، بنابراین تسلط بر تکنیک‌های پردازش سیگنال و یادگیری ماشین از جمله توانایی‌های تک تک آن‌ها است. ما الگوریتم‌های مختلفی را امتحان می‌کنیم، زیرا هر صدا ویژگی‌های مختلفی دارد.”

وی همچنین چنین افزود که”ما باید چیزهای مختلفی را امتحان کنیم تا یک مدل واحد ایجاد کنیم که بتواند همه اصوات مختلف را شناسایی کند.

 

لینک کوتاه شده : https://amerandish.com/QjknH

به این مطلب امتیاز دهید

به اشتراک بگذارید

اشتراک گذاری در whatsapp
اشتراک گذاری در telegram
اشتراک گذاری در linkedin
اشتراک گذاری در twitter
اشتراک گذاری در email

نظرات شما

فارس آوا

تبدیل گفتار به متن

باتاوا

دستیارسازمانی - چت بات

هوشتل

اپراتورهوشمند مرکز تماس

بینایار

درک هوشمند ویدیو و تصویر

_ مطالب مرتبط _