شناسایی صداهای از دست رفته در تشخیص گفتار

شناسایی صداهای ازدست‌رفته در تشخیص‌گفتار : استارت-‌آپ کره‌ای Cochlear.ai  برای همین منظور دو میلیون دلار بودجه جمع‌آوری نمود

لحظه‌ای ساکت بنشینید و به صوت‌هایی که اطراف خود می‌شنوید، توجه کنید. ممکن است صدای بوق زدن لوازم خانگی، بوق زدن ماشین‌ها، پارس سگ و یا عطسه شخصی را بشنوید. این‌ها همه اصواتی است که Cochlear.ai، یک استارت آپ در حوزه تشخیص صدا مستقر در سئول، در حال آموزش پلتفرم خود به شکل SaaS است. یونچانگ هان (YoonChang Han)، بنیان‌گذار و مدیر ارشد اجرایی، به TechCrunch چنین گفت: هدف این شرکت توسعه نرم‌افزاری است که بتواند تقریبا هر نوع صدایی را تشخیص دهد و در طیف گسترده‌ای از سخت‌افزارهای هوشمند از جمله تلفن‌ها، بلندگوها و اتومبیل‌ها مورد استفاده قرار گیرند.

Cochlear.ai اعلام نمود که تاکنون دو میلیون دلار بودجه با کمک شرکت شینهان Shinhan Capital و NAU IB Capital جمع‌آوری کرده است.

شناسایی صداهای از دست رفته در تشخیص گفتار

بودجه کل این شرکت، تاکنون به 2.7 میلیون دلار رسیده که بخش اصلی این بودجه توسط شرکت Kakao Ventures (بازوی سرمایه‌گذاری غول اینترنتی کره جنوبی) تامین شده است. Cochlear.ai قصد دارد تا از این بودجه، طی 18 ماه آینده برای استخدام و افزایش مجموعه داده‌های صوتی مورد استفاده برای آموزش الگوریتم‌های یادگیری عمیق استفاده کند.

این شرکت در سال 2017 توسط تیمی متشکل از شش دانشمند و محقق در زمینه صوت و موسیقی تاسیس گردید که هدف خود را شناسایی صداهای از دست رفته در تشخیص گفتار قرار دارد. یکی از پژوهشگران مهم این استارت آپ، هان است که دکترای خود را در بازیابی اطلاعات موسیقی از دانشگاه ملی سئول گرفته است. هان هنگام کار بر روی دکترا دریافت که “همه جهان به نوعی بر روی سیستم‌های تشخیص گفتار متمرکز هستند. شرکت‌های زیادی نیز برای همین کار به وجود آمده‌اند، اما تجزیه و تحلیل انواع دیگر صداها از نظر فنی کاملا با تشخیص گفتار متفاوت است. ”

فناوری تشخیص گفتار معمولا همزمان یک یا دو صدا را تشخیص می‌دهد و فرض می‌کند افراد به جای اینکه با یکدیگر صحبت کنند، درگیر مکالمه‌ای هستند. همچنین، به منظور افزایش دقت در مدل خود، از دانش زبانی در پس‌پردازش استفاده می‌کند. اما در حقیقت موسیقی، صداها و هیاهوهای محیطی و دیگر انواع صوت معمولا در محیط با هم تداخل پیدا می‌کنند و این نرم‌افزارها قادر به تشخیص آن‌ها نیستند. به این ترتیب شناسایی صداهای از دست رفته در تشخیص گفتار با توجه به فناوری‌های روز الان، امکان‌پذیر نیست

برپایه سخنان هان: “ما باید از همه دامنه‌های فرکانس‌های مختلف مراقبت کنیم. تنها صدا نیست که باید مراقب آن باشیم، بلکه در واقع هزاران صدا در خارج از محیط وجود دارد که باید به آن‌ها دقت شود. بنابراین ما فکر می‌کنیم این نسل بعدی تشخیص صدا خواهد بود و همین انگیزه راه‌اندازی استارت آپ ما بود.”

SaaS Cochlear.ai، به نام Cochl.Sense ، به صورت API ابری و SDK edge در دسترس است و در حال حاضر می‌تواند حدود 40 صدای مختلف محیط را تشخیص دهد. این پتلفرم برای شناسایی صداهای از دست رفته در تشخیص گفتار، اصوات گوناگون را در سه گروه طبقه‌بندی می‌کند:

  • تشخیص اضطراری (از جمله شکستن شیشه، جیغ و آژیر و غیره)
  • تعامل انسان (که شامل استفاده از ضربه محکم و ناگهانی انگشتان، کف زدن یا سوت زدن برای تعامل با سخت‌افزار است)
  • وضعیت انسان (برای تشخیص اصوات مختلف وی مانند سرفه، عطسه یا خرخر برای استفاده در مواردی همچون نظارت بر بیمار یا زیرنویس صوتی خودکار)

شناسایی صداهای ازدست‌رفته در تشخیص‌گفتار

هان گفت که این شرکت همچنین قصد دارد قابلیت‌های جدیدی برای شناسایی صداهای از دست رفته در تشخیص گفتار، به پلتفرم Cochl.Sense خود برای استفاده در خانه‌ها (از جمله بلندگوهای هوشمند)، وسایل نقلیه و تجزیه و تحلیل موسیقی اضافه کند. انعطاف‌پذیری Cochl.Sense به این معنی است که به طور بالقوه می‌تواند در بسیاری از موارد مورد استفاده قرار گیرد. این موارد شامل تبدیل بلندگوی هوشمند به “برج کنترل” برای لوازم خانگی توسط تشخیص نویزهایی است که ایجاد می‌کنند، یا کمک به افراد کم شنوا از طریق ارسال هشدار در مورد صوت‌هایی همچون بوق‌ اتوموبیل‌های دیگر به دستگاه‌های (مانند ساعت‌های هوشمند) است که از آن استفاده می‌کنند.

چشم‌انداز تشخیص صدا

هان افزود که طی 3 سال گذشته، وی به جای تمرکز تنها بر تشخیص گفتار، به تمرکز بر شناسایی صداهای از دست رفته در تشخیص گفتار روی آورده است.

برای مثال، بیشتر شرکت‌های فناوری مانند آمازون، گوگل و اپل، در حال افزودن تشخیص صدا به محصولات خود هستند. ، هر دو پلتفرم الکسا آمازون گارد (Amazon Alexa Guard) و نست سکیور (nest Secure) قادر به تشخیص صوت‌هایی همچون شکستن شیشه هستند، درحالی‌که تشخیص صدا iOS 14، آن را قادر می‌سازد تا ویژگی‌های جدید دسترسی را به سامانه خود بیفزاید.

هان گفت: استفاده از فناوری تشخیص صدا وشناسایی صداهای از دست رفته در تشخیص گفتار توسط شرکت‌های بزرگ فناوری برای Cochlear.ai یک مزیت بزرگ به شمار می‌آید، زیرا به معنای رشد بازار این فناوری است. این شرکت نوپا قصد دارد با صنایع مختلف کار کند، اما در حال حاضر بر روی دستگاه‌های هوشمند مصرفی و خودروسازی متمرکز شده است، زیرا در حال حاضر، بیشترین کاربرد این فناوری، در این صنایع به چشم می‌خورد. به عنوان مثال، Cochlear.ai در حال کار بر روی پروژه‌ای با Daimler AG است که شامل تشخیص صدا در اتومبیل است (به عنوان مثال، هشدارها در صورت قفل شدن کودک در داخل)، بعلاوه، این شرکت قراردادهای همکاری با شرکت‌های بزرگ الکترونیکی، مخابراتی و کالاهای مصرفی به امضا رسانده است.

برپایه سخنان هان: نرم افزاری که می‌تواند صداهایی مانند شلیک گلوله، شکستن شیشه و دیگر صداها برای تشخیص اضطراری، دهه‌هاست که وجود دارد ، اما فناوری‌های معمول اغلب منجر به هشدارهای کاذب می‌شود یا نیاز به استفاده از میکروفون‌های خاص و یا دیگر سخت‌افزارها دارد.

دیگر شرکت‌ها مانند کمبریج (Cambridge)، آنالیز صدای انگلیس (England’s Audio Analytic) خود را وقف بهبود فناوری تشخیص صدا و شناسایی صداهای از دست رفته در تشخیص گفتار کرده‌اند که بر صدای هوشمند زمینه محور تمرکز دارند. شرکت هلندی  صدای هوشمند (Netherlands-based Sound Intelligence) نرم‌افزاری را توسعه داده داده که از آن برای هشدارهای اورژانسی و در سیستم‌های بهداشت و سلامت استفاده می‌کنند.

Cochlear.ai قصد دارد تا خود را از دیگر شرکت‌های رقیب کاملا متمایز سازد به همین‌منظور تمامی تمرکز خود را بر ساخت نرم‌افزاری قابل استفاده در طیف گسترده‌ای از میکروفون‌ها، از جمله در تلفن‌های هوشمند سطح پایین یا میکروفن های USB بدون نیاز به تنظیمات دقیق، جمع کرده است. این شرکت قصد دارد به جای تکیه بر یادگیری عمیق برای اصلاح الگوریتم‌ها و کاهش نکات مثبت نادرست، بر ساخت این میکروفن‌های پیشرفته تمرکز داشته باشد.

تیم Cochlear.ai، در طی مراحل اولیه ساخت گروه داده‌ یک صدای ویژه به منظور شناسایی صداهای از دست رفته در تشخیص گفتار، بسیاری از نمونه‌های صوتی را با استفاده از مدل‌های قدیمی تلفن‌های هوشمند و میکروفون‌های USB ضبط کردند تا مطمئن گردند نرم‌افزارشان بدون استفاده از میکروفون‌هایی با کیفیت بالا به درستی کار می‌کند.

نمونه‌های دیگر نیز از منابع آنلاین توسط این شرکت، جمع‌آوری شد. هنگامی که مدل یادگیری اولیه صدا به درجه مشخصی از دقت رسید، می‌تواند با جست‌وجوی آنلاین و به تنهایی، کلیپ‌های صوتی بیشتری را جستجو کند و به طور تصاعدی، آموزش داده‌های خود را سرعت بخشد. Cochlear.ai’s Series A این امکان را فراهم می‌آورد تا مجموعه داده‌های نمونه صوتی را با سرعت بیشتری تولید شود و اصوات بیشتری به نرم‌افزار اضافه گردد.

برپایه سخنان هان: “همه بنیانگذاران این استارت آپ، پژوهشگرانی در زمینه شناسایی صداهای از دست رفته در تشخیص گفتار هستند، بنابراین تسلط بر تکنیک‌های پردازش سیگنال و یادگیری ماشین از جمله توانایی‌های تک تک آن‌ها است. ما الگوریتم‌های مختلفی را امتحان می‌کنیم، زیرا هر صدا ویژگی‌های مختلفی دارد.”

وی همچنین چنین افزود که”ما باید چیزهای مختلفی را امتحان کنیم تا یک مدل واحد ایجاد کنیم که بتواند همه اصوات مختلف را شناسایی کند.

 

لینک کوتاه شده : https://amerandish.com/QjknH

به اشتراک بگذارید

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

_ مطالب مرتبط _

مدل‌های تشخیص‌گفتار الکسا-آمازون
پردازش گفتار

مدل‌های تشخیص گفتار الکسا، محصول شرکت آمازون

مدل‌های تشخیص‌گفتار الکسا-آمازون با استفاده از الگوهای  end-to-end به گفته رییس بخش تشخیص گفتار آمازون، شهزاد مووالا (Shehzad Mevawalla)، در کنفرانس InterSpeech که سال جاری

اخبار هوش مصنوعی

یک سیستم یادگیری زبان بسیار کارآمد به نام SpAtten 

محققان دانشگاه MIT سیستمی سخت‌افزاری و نرم‌افزاری ایجاد کرده‌اند که تجزیه و تحلیل پیشرفته جملات را ساده‌تر می‌کند. زبان انسانی همواره می‌تواند ناکارآمد باشد. برخی

درخواست شما با موفقیت ارسال شد.

ضمن تشکر بابت ارسال پیام، در سریع‌ترین زمان ممکن کارشناسان شرکت عامراندیش درخواست شما را بررسی خواهند نمود.