یادگیری نیمه نظارت شده تشخیصخودکارگفتار موسوم به SOTA توسط مغز گوگل (Google Brain) تنظیم میشود
تیمی از پژوهشگران مغز گوگل Google Brain، SOTA را توسعه دادند. وظیفه SOTA در زمینه تشخیص خودکار گفتار LibriSpeech است. این الگو توانست نمره خود را به اندازهای بهبود ببخشد که نمره بهتری در مقایسه با نمره قبلی خود بدست آورد. رویکرد جدید این تیم ترکیبی از پیشرفتهای اخیر در یادگیری نیمه نظارت شده با استفاده از الگوریتم آموزش دانشآموز پرسر و صدا (Noisy Student Traning) با adaptive SpecAugment به عنوان پایه آموزش خودکار تکراری و مدلهای غولپیکر Conformer با استفاده از روش پیش آموزش wav2vec 2.0 است.
یادگیری نیمه نظارت شده تشخیص خودکا گفتار SOTA
هدف یادگیری نیمه نظارت شده، استفاده از یک مجموعه داده بزرگ بدون برچسب است که در هنگام آموزش مقدار کمی از دادههای برچسب گذاریشده را برای بهبود عملکرد وظیفه یادگیری ماشین ترکیب میکند. تیم مغز گوگل (Google Brain) فایلهای صوتی از مجموعه دادههای Libri-Light را به عنوان دادههای بدون برچسب استفاده کردند و جزئیات روش تشخیص گفتار خودکارشان را در مقالهای منتشر ساختند.
هسته شبکه یادگیری نیمه نظارت شده تشخیص خودکار گفتار یک مبدل توالی با ریسور LSTM و رمزگذار Conformer است. رمزگذار Conformer به طور طبیعی میتواند به یک” رمزگذار ویژگی ” و “شبکه زمینه” تقسیم گردد. “رمزگذار ویژگی” شامل از بلوک نمونهبرداری کانولوشن و” شبکه زمینه”ساخته شده از یک لایه خطی و یک دسته بلوک Conformer است به این ترتیب، طول توالی ویژگی کاهش مییابد و روشهای پیشآزمون افت عملکرد را برای عملکرد بهتر مدل بهینه میکند.
پژوهشگران نسخههای مقیاس بندیشده و غولپیکر Conformers را با نامهای Conformer XL ، Conformer XXL و Conformer XXL به ترتیب با 600 میلیون، 1 میلیارد و 1.05 میلیارد پارامتر معرفی کردند. این تیم تاکید کرد که بزرگتر کردن مدل ( برای یادگیری نیمه نظارت شده تشخیصخودکارگفتار ) به خودی خود منجر به افزایش عملکرد بهتر آن نمیشود (مزایای اندازه مدل بزرگ فقط پس از استفاده از روشهای یادگیری نیمه نظارت شده مشاهده میشود).