دستیار صوتی موزیلا در رقابتی تنگاتنگ با گوگل

دستیار صوتی موزیلا ، توسط مجموعه‌ داده صوتی متن باز (openesource) به روز رسانی شد. بدین وسیله، اکنون موزیلا بزرگترین مجموعه داده صوتی خود را به عنوان یک برنامه صوتی مشترک منتشر کرده است. مجموعه منبع باز ضبط‌های رونویسی شده و ابر داده‌ها توسط موزیلا به طراحان اپلیکیشن‌های صدا و دستگاه‌هایی که بر مبنای صدا کار می‌کنند، ارایه می‌شود. با عامر اندیش تا انتها همراه باشید تا در مورد این دستاورد جدید و بسیار موفقیت موزیلا بیشتر بدانید.

سخنان معمول (Common voice)

دستیار صوتی موزیلا ، برنامه‌ای بود که در طی یک سال و نیم گذشته پیشرفت خیره‌کننده‌ای داشته است. این مجموعه از فوریه 2019 با 1400 ساعت در 18 زبان آغاز شد و اکنون صداهای ضبط‌شده رونویسی شده در حدود 7226 ساعت در 56 زبان مختلف، یعنی در حدود 54 میلیون کلیپ مختلف است.

دستیار صوتی موزیلا

در کنار ضبط صدا، کاربر قادر به دستیابی به اطلاعاتی همچون جنسیت، لهجه و سن برای استفاده از این اطلاعات در طراح‌های خود است. داده‌‌های صوتی و متنی توسط موتور DeepSpeech موزیلا مورد استفاده قرار می‌گیرند. موتور DeepSpeech اخیرا به منظور بهبود سرعت تشخیص گفتار و پشتیبانی از چارچوب TensorFlow گوگل، به روز رسانی شده است. این مجموعه جدید، اولین مجموعه داده‌های موزیلا در بخش کلیپ‌های صوتی برای موارد ویژه و خاص است. واژگانی مانند بله، نه، هی، فایرفاکس و اعداد  (از صفر تا 9) توسط 11.000 نفر در 18 زبان مختلف برای 120 ساعت کلیپ، ضبط و ثبت شده است.

بر اساس گفته‌های مگان برانسون (Megan Branson) مدیر تولید این محصول ( دستیار صوتی موزیلا ):” با کمک هزاران افراد از سراسر جهان، ما در نهایت قادر شدیم تا هدف خود را مبنی بر ایجاد یک مجموعه بزرگ از داده‌های صوتی قابل دسترس برای عموم مردم، جامه عمل بپوشانیم. بی‌شک این مجموعه بزرگ از داده‌ها، نماینگر جهانی است که در آن زندگی می‌کنیم.” مگان برانسون عقیده دارد این داده‌های صوتی معیاری‌است کمک کننده به موتور منبع باز تشخیص گفتار (Deep Speech 226). بازخوردهای مفصلی و مثبتی که موزیلا در مورد جزییات این پروژه دریافت کرده است، پیشرفت این پروژه عظیم را ممکن ساخته است. شایان ذکر است که داده‌های صوتی استفاده شده در موتور مبنع باز تشخیص گفتار موزیلا (Deep Speech 226)، تکرار واژگان، عبارت‌ها و دستورهایی یکسان اما به زبان‌های مختلف است.

مرور صدا (Voice Browse) در پروژه دستیار صوتی موزیلا 

واژگان انتخابی برای مجموعه داده هدف به احتمال زیاد در صدای فایرفاکس (Firefox Voice) مورد استفاده قرار خواهد گرفت. هم‌اکنون توسعه مرورگر (فایرفاکس) در بتا قرار دارد که برای مرورگر وب، کنترل صوتی را ارایه می‌دهد.

دستیار صوتی موزیلا هم‌اکنون به سوال‌ها و فرمان‌های محدودی خلاصه می‌شود، اما با افزودن داده‌های جدید و بیشتر، عملکرد آن به طرز چشم‌گیری بهبود خواهد کرد.

هم‌اکنون، این ابزار، تنها برای ورژن دسکتاپ مرورگر فایرفاکس و تنها برای زبان انگلیسی در دسترس است. جالب است بدانید صدای فایرفاکس (Firefox Voice) از خدمات گفتاری گوگل ابری (google cloud) استفاده می‌کند، اما ممکن است موزیلا قصد داشته باشد به جای google cloud از یک سیستم داخلی استفاده نماید.

دستیار صوتی موزیلا

باید این نکته را در اینجا گنجاند که موزیلا علاقه‌ای به ساخت یک اکوسیستم هوش مصنوعی صوتی ندارد، بلکه جنبه‌های دیگری از فناوری صداست که مورد علاقه موزیلا قرار گرفته، همان جنبه‌هایی که به کمپانی‌های رقیب به شدت مشغول فعالیت برآنند. به عنوان مثال، گوگل در مرورگر کروم، امکان جست‌وجو بر اساس صدا را ممکن کرده است که در حال حاضر آن را جایگزین دستیار گوگل (Google Assistant) کرده است. دستیار صوتی موزیلا (Mozilla’s voice assistant) نه تنها برای کاربران فعلی، یک مزیت و فایده به شمار می‌آید بلکه از ریزش کابران گوگل نیز جلوگیری کرده است. به جرات می‌توان گفت دستیار صوتی فایرفاکس، به رقیبی قدر برای دستار صوتی گوگل (google assistance) تبدیل شده است.

هم موزیلا و هم گوگل توانسته‌اند دستیار صدا را به وب‌سایت‌ها با افزونه‌هایی همچون WordPress Plugin (که توسط speak2web طراحی شده) متصل نمایند. این افزونه برای آن دسته از افرادی طراحی و تولید شده است که قصدجست‌وجو و خرید با کمک صدا در طریق وب‌سایت‌ها یا اپلیکیشن‌های تلفن همراه دارند.

همچنان داده‌های صوتی با سرعت بسیار در حال افزودن است؛ و این می‌تواند با افزودن زبان‌ها، صداها و لهجه‌های بیشتر دستیار صوتی موزیلا را صدرنشین این رقابت سازد.

لینک کوتاه شده : https://amerandish.com/88L46

به اشتراک بگذارید

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

فارس آوا

تبدیل گفتار به متن

باتاوا

دستیارسازمانی - چت بات

هوشتل

اپراتورهوشمند مرکز تماس

_ مطالب مرتبط _

هوش مصنوعی در بازی کامپیوتری

استفاده از هوش مصنوعی در بازی

یکی از مقوله‌های جذاب دردنیای تکنولوژی استفاده از هوش مصنوعی در بازی های کامپیوتری و ویدئویی است. در دنیای امروز هوش مصنوعی جنبه‌های متنوعی از

کاربرد پردازش گفتار در زندگی روزانه بشر
پردازش گفتار

کاربرد پردازش گفتار در زندگی روزمره

فناوری‌های پردازش گفتار مانند الکسا (Alexa)، کورتانا (Cortana)، دستیار گوگل (Google Assistant) و سیری (Siri) راه‌هایی تعامل همگان با وسایل الکترونیکیشان، خانه‌هایشان، پیشه‌هایشان و خودروهایشان

معرفی سرویس فارسی خوان ایرانی
مقالات

معرفی سرویس فارسی خوان ایرانی

شاید شما هم تا به حال نام سرویس فارسی خوان به گوشتان خورده باشد. امروزه از سرویس‌های فارسی خوان در اپلیکیشن‌های محتلفی مانند اپلیکیشن‌های مسیریاب،

درخواست شما با موفقیت ارسال شد.

ضمن تشکر بابت ارسال پیام، در سریع‌ترین زمان ممکن کارشناسان شرکت عامراندیش درخواست شما را بررسی خواهند نمود.