دستیار صوتی موزیلا ، توسط مجموعه داده صوتی متن باز (openesource) به روز رسانی شد. بدین وسیله، اکنون موزیلا بزرگترین مجموعه داده صوتی خود را به عنوان یک برنامه صوتی مشترک منتشر کرده است. مجموعه منبع باز ضبطهای رونویسی شده و ابر دادهها توسط موزیلا به طراحان اپلیکیشنهای صدا و دستگاههایی که بر مبنای صدا کار میکنند، ارایه میشود. با عامر اندیش تا انتها همراه باشید تا در مورد این دستاورد جدید و بسیار موفقیت موزیلا بیشتر بدانید.
سخنان معمول (Common voice)
دستیار صوتی موزیلا ، برنامهای بود که در طی یک سال و نیم گذشته پیشرفت خیرهکنندهای داشته است. این مجموعه از فوریه 2019 با 1400 ساعت در 18 زبان آغاز شد و اکنون صداهای ضبطشده رونویسی شده در حدود 7226 ساعت در 56 زبان مختلف، یعنی در حدود 54 میلیون کلیپ مختلف است.
در کنار ضبط صدا، کاربر قادر به دستیابی به اطلاعاتی همچون جنسیت، لهجه و سن برای استفاده از این اطلاعات در طراحهای خود است. دادههای صوتی و متنی توسط موتور DeepSpeech موزیلا مورد استفاده قرار میگیرند. موتور DeepSpeech اخیرا به منظور بهبود سرعت تشخیص گفتار و پشتیبانی از چارچوب TensorFlow گوگل، به روز رسانی شده است. این مجموعه جدید، اولین مجموعه دادههای موزیلا در بخش کلیپهای صوتی برای موارد ویژه و خاص است. واژگانی مانند بله، نه، هی، فایرفاکس و اعداد (از صفر تا 9) توسط 11.000 نفر در 18 زبان مختلف برای 120 ساعت کلیپ، ضبط و ثبت شده است.
بر اساس گفتههای مگان برانسون (Megan Branson) مدیر تولید این محصول ( دستیار صوتی موزیلا ):” با کمک هزاران افراد از سراسر جهان، ما در نهایت قادر شدیم تا هدف خود را مبنی بر ایجاد یک مجموعه بزرگ از دادههای صوتی قابل دسترس برای عموم مردم، جامه عمل بپوشانیم. بیشک این مجموعه بزرگ از دادهها، نماینگر جهانی است که در آن زندگی میکنیم.” مگان برانسون عقیده دارد این دادههای صوتی معیاریاست کمک کننده به موتور منبع باز تشخیص گفتار (Deep Speech 226). بازخوردهای مفصلی و مثبتی که موزیلا در مورد جزییات این پروژه دریافت کرده است، پیشرفت این پروژه عظیم را ممکن ساخته است. شایان ذکر است که دادههای صوتی استفاده شده در موتور مبنع باز تشخیص گفتار موزیلا (Deep Speech 226)، تکرار واژگان، عبارتها و دستورهایی یکسان اما به زبانهای مختلف است.
مرور صدا (Voice Browse) در پروژه دستیار صوتی موزیلا
واژگان انتخابی برای مجموعه داده هدف به احتمال زیاد در صدای فایرفاکس (Firefox Voice) مورد استفاده قرار خواهد گرفت. هماکنون توسعه مرورگر (فایرفاکس) در بتا قرار دارد که برای مرورگر وب، کنترل صوتی را ارایه میدهد.
دستیار صوتی موزیلا هماکنون به سوالها و فرمانهای محدودی خلاصه میشود، اما با افزودن دادههای جدید و بیشتر، عملکرد آن به طرز چشمگیری بهبود خواهد کرد.
هماکنون، این ابزار، تنها برای ورژن دسکتاپ مرورگر فایرفاکس و تنها برای زبان انگلیسی در دسترس است. جالب است بدانید صدای فایرفاکس (Firefox Voice) از خدمات گفتاری گوگل ابری (google cloud) استفاده میکند، اما ممکن است موزیلا قصد داشته باشد به جای google cloud از یک سیستم داخلی استفاده نماید.
باید این نکته را در اینجا گنجاند که موزیلا علاقهای به ساخت یک اکوسیستم هوش مصنوعی صوتی ندارد، بلکه جنبههای دیگری از فناوری صداست که مورد علاقه موزیلا قرار گرفته، همان جنبههایی که به کمپانیهای رقیب به شدت مشغول فعالیت برآنند. به عنوان مثال، گوگل در مرورگر کروم، امکان جستوجو بر اساس صدا را ممکن کرده است که در حال حاضر آن را جایگزین دستیار گوگل (Google Assistant) کرده است. دستیار صوتی موزیلا (Mozilla’s voice assistant) نه تنها برای کاربران فعلی، یک مزیت و فایده به شمار میآید بلکه از ریزش کابران گوگل نیز جلوگیری کرده است. به جرات میتوان گفت دستیار صوتی فایرفاکس، به رقیبی قدر برای دستار صوتی گوگل (google assistance) تبدیل شده است.
هم موزیلا و هم گوگل توانستهاند دستیار صدا را به وبسایتها با افزونههایی همچون WordPress Plugin (که توسط speak2web طراحی شده) متصل نمایند. این افزونه برای آن دسته از افرادی طراحی و تولید شده است که قصدجستوجو و خرید با کمک صدا در طریق وبسایتها یا اپلیکیشنهای تلفن همراه دارند.
همچنان دادههای صوتی با سرعت بسیار در حال افزودن است؛ و این میتواند با افزودن زبانها، صداها و لهجههای بیشتر دستیار صوتی موزیلا را صدرنشین این رقابت سازد.