تشخیص خودکار گفتار با ابزار آموزشی AutoML
مقدمه
اپلیکیشن یادگیری ماشین (AutoML) ابزارهای اتوماسیون جدیدی آفریده است که از آن برای موارد جدیدی استفاده میشود. این اپلیکیشن به ویژه برای کارهای خستهکننده علم داده هنگام آموزش مدلهای تشخیص گفتار، بسیار عالی است. با عامراندیش همراه باشید تا با این اپلیکیشن در حوزه تشخیص گفتار بیشتر آشنا شوید.
AutoML، ابزاری جدید برای آموزش مدلهای تشخیص خودکار گفتار
آخرین تلاشها در زمینه جریانکار خودکار علم داده، ابزار AutoML از شرکت Deepgram است که ادعا دارد مدل جدید، جدیدترین چارچوب آموزش برای رونویسی ماشین است. سرمایهگذاران این پروژه، سرمایهگذاران استارتهایی مانند Nvidia GPU Ventures و In-Q-Tel هستند که بازوی سرمایهگذاری جامعه اطلاعاتی ایالات متحده آمریکا به شمار میآیند.
پلتفرم Deepgram دادههای صوتی را برای آموزش ابزار تشخیص گفتار اسکن میکند. ابزار یادگیری عمیق این پلتفرم، برای آموزش مدلها از یک رویکرد پیوندی کانولوشن / شبکه عصبی تکرارشونده از طریق شتابدهندههای GPU استفاده میکند.
مطابق با گفتههای اسکات استفنسون (Scott Stephenson)، مدیرعامل شرکت Deepgram، اکنون به ترکیبی از ابزارهای AutoML افزوده شده که به صورت گستردهای در مواردی مانند دید ماشینی، تشخیص تصویر و پردازش زبان طبیعی استفاده میشود. چنین کاربردهایی پیشتر برای مدلهای تشخیص خودکار گفتار وجود نداشته است.
این شرکت مستقر در سانفرانسیسکو، این هفته ابزار آموزش جدید AutoML را منتشر نمود. بر اساس ادعای این شرکت، این ابزار 90% بادقتتر و بسیار سریعتر از ابزارهای مشابه موجود است و هزینه تولید آن، نصف هزینه تولید ابزارهای مشابه است. استفنسون در پستی در یک وبلاگ که در روز پنجشنبه 27 آگوست 2020 درباره ابزار AutoML منتشر نمود، این چنین اظهار داشت که Deepgram مدل گفتاری را در اختیار دانشمندان و مهندسان داده قرار میدهد تا جایگرین مدلهای تشخیص گفتاری شود که تا به امروز به درستی کار نکردهاند.
AutoML، با بدست آوردن و آمادهسازی دادهها، استخراج ویژگیها از دادهها، انتخاب بهترین الگوریتم و سپس تنظیم آن، جریانکار علم داده را سادهسازی مینماید. آخرین مرحله، استقرار و نظارت بر تولید مدلهای تشخیص خودکار گفتار است.
این شرکت چنین اعلام نمود که همراه بهبود استفاده از منابع GPU و استفاده کلی بهتر از زمان دانشمندان علم داده، مدل AutoML انجام وظایف مختلفی را از بین میبرد. این وظایف شامل: انتخاب ویژگیهای صوتی ورودی، از بین بردن نویز و هیاهو از پس زمینه فایلهای صوتی، تنظیم “پارامترهای بیش از حد” مدلها یا شبکههای عصبی، بهبود الگوریتمهای بنیادین، حفظ لیست واژگان سفارشی و اعمال گروهبندی مدل با تقویت یا انباشت کلیدواژه.
ابزار تشخیص خودکار گفتار AutoML، چنین مراحلی را به منظور رسیدن به سطح عملکردی بالاتر کاهش میدهد. برای شروع از یک منبع صوتی آغاز کنید، سپس یکی از مدلهای شرکت را انتخاب کرده و در نهایت میتوانید به سادگی هر چه تمامتر، تشخیص گفتار را از تلفنهای همراه خود به جلسات پوشش دهید. پس از آموزش مدل، کاربر نتیجه نهایی را برای دقت بیشتر بازبینی میکند. در صورت نیاز، آموزشهای اضافه بر مثالهای صوتی ویژهای متمرکز میشوند. سپس بهترین مدل انتخاب و در فضای ابر از آن به شکل موثری استفاده میگردد.
استفنسون در تفسیری که اخیرا در وبسایت www.enterpriseai.com منتشر کرده، اعلام کرده که برای مدل تشخیص خودکار خود، از روش یادگیری عمیق استفاده نموده است.
براساس متنی که وی در وبسایت یاد شده، منتشر کرده، رویکرد مبتنی بر یادگیری عمیق، به شرکتها و تشکیلات اقتصادی اجازه میدهد تا هر تکه از پازل را برای ساختن مدل خود انتخاب نماید و سپس مدل را برای اهداف خود آموزش دهند.
با توجه به گفتههای منتشر شده از استفنسون، در بسیاری از موارد، 10 ساعت صدای انتخاب شده متفکرانه، همان چیزی است که برای آموزش موثر مدل تشخیص خودکار گفتار ، نیاز است. با انجام کارهای پیشرو، مدل میتواند به مرور عملکرد خود را بهینه سازد و شرکتها میتوانند دقت و مقیاس بیشتری را از آن استخراج نمایند