فارس آوا (تبدیل گفتار به متن – گفتار به نوشتار )

فارس آوا (تبدیل گفتار به متن - گفتار به نوشتار )

فارس آوا، نرم افزار تبدیل گفتار به متن در زبان فارسی است که امکان ارتباط کلامی انسان با کامپیوتر و یا موبایل را فراهم می کند. این نرم افزار با تکیه بر دانش متخصصان هوش مصنوعی ایرانی و با بهره گیری از آخرین تکنولوژیهای روز دنیا تولید شده است و به دلیل جمع آوری بزرگ ترین دیتاست موجود در زبان فارسی و تمرکز ویژه روی این زبان، ضمن بهره مندی از تنوع گفتاری بسیار وسیع موفق شده است تا در رقابت با شرکت های بزرگی چون گوگل دارای ضریب دقت بالایی باشد.

  • قابلیت
  • کاربرد
  • مشتریان احتمالی

• غیر وابسته به گوینده و عدم نیاز به آموزش برای هر فرد
• توسعه و تولید بصورت کاملاً بومی در داخل کشور
• ارائه API و SDK تبدیل گفتار به متن در قالب وب سرویس
• ارائه پنل تحت وب برای آپلود کردن فایلها جهت پردازش
• قابل نصب روی سرور مشتری و عدم نیاز اتصال به اینترنت
• بهره مندی از دایره واژگان (فرهنگ لغت) بسیار وسیع

• تبدیل گفتار به متن فارسی با دقت و سرعت بالا
• بهره مندی از آخرین تکنولوژیهای یادگیری عمیق
• تبدیل گفتار به متن بصورت همزمان (Real-Time)
• تشخیص گفتار و صوت در محیط های نویزی
• پشتیبانی از انواع لهجه ها و گویش ها
• قابلیت تبدیل گفتار محاوره ای به متن
• پشتیبانی از انواع فرمتهای صوتی و ویدیویی
• تبدیل گفتار انگلیسی به متن انگلیسی

• امکان استفاده در تمامی سیستم های عامل (Android, IOS, Mac, Windows, Linux)
• امکان استفاده برای تمامی برنامه های تحت موبایل (تمامی پلتفرمها)
• امکان استفاده در برنامه هایی از قبیل دستیارهای شخصی هوشمند در موبایل
• امکان استفاده های عمومی از قبیل : تایپ گفتاری و اجرای دستورات صوتی
• امکان سفارشی سازی برای تشخیص دستورات خاص صوتی
• امکان سفارشی سازی برای کاربردهای خاص و افزایش دقت
• پردازش داده های حجیم گفتاری

استفاده از پنل فارس آوا

محصولات جانبی فارس آوا

تبدیل متن به گفتار

این سرویس قادر است تا متن های داده شده را دریافت و پس از دریافت، آن را به شکل صوت تبدیل به گفتار نماید. در جدید ترین نسخه این موتور، نوع گفتار پخش شده بسیار نزدیک به گفتار یک انسان واقعی می باشد.

TTS TTS TTS

استخراج کلمات کلیدی

Keyword spotting قادر است تا فایل های صوتی را با دقت بیشتری(20%) نسبت به تبدیل گفتار به متن، فهمیده و کلمات کلیدی در یک فایل را تشخیص داده و آن ها را استخراج کند. زمانی که برای تحلیل و تشخیص موارد مهم احتیاج به این است تا بتوان بدون گوش کردن کامل فایل صوتی متوجه شد که یک کلمه خاص مثل نام یک محصول در آن استفاده شده است یا خیر، سرویس KWS قادر است تا حتی زمان استفاده از آن کلید واژه را به تفکیک مشخص نماید.

KWS KWS KWS

نحوه ارائه سرویس

سرویس فارس آوا

سرویس فارس آوا

API / SDK بر روی کلودهای داخلی

بیشتر بخوانید
پکیج فارس آوا

پکیج فارس آوا

به صورت بسته نرم افزاری در سرور داخلی مشتری

قیمت

همان طور که اشاره شد محصول فارس آوا به هر دو حالت: استفاده سرویس تحت سرور های فارس آوا و یا نصب بر روی سرور داخلی مشتری قابل ارائه می باشد. مبنای قیمت گذاری برای استفاده از سرویس تحت سرور های فارس آوا، زمان و ساعت موردنیاز برای تبدیل گفتار به متن می باشد که جزئیات آن در جدول ذیل آمده است:

ساعتی 6 هزار تومان

تا 5000 ساعت استفاده در ماه

  • قابلیت دریافت پنل کاربری
  • قابلیت دریافت API, SDK

ساعتی 8 هزار تومان

تا 1000 ساعت استفاده در ماه

  • قابلیت دریافت پنل کاربری
  • قابلیت دریافت API, SDK

ساعتی 10 هزار تومان

تا 100 ساعت استفاده در ماه

  • قابلیت دریافت پنل کاربری
  • قابلیت دریافت API, SDK

مخصوص برنامه نویس ها

رایگان تا 20 ساعت استفاده در ماه

  • قابلیت دریافت پنل کاربری
  • قابلیت دریافت API, SDK

سوالات متداول

فارس‌آوا، نرم افزار تبدیل گفتار به متن در زبان فارسی است که امکان ارتباط کلامی انسان با کامپیوتر و یا موبایل را فراهم می‌کند. این نرم افزار با تکیه بر دانش متخصصان هوش مصنوعی ایرانی و با بهره‌گیری از آخرین تکنولوژیهای روز دنیا تولید شده است و به دلیل جمع‌آوری بزرگ‌ترین دیتاست موجود در زبان فارسی و تمرکز ویژه روی این زبان، ضمن بهره‌مندی از تنوع گفتاری بسیار وسیع موفق شده است تا در رقابت با شرکت‌های بزرگی چون گوگل دارای ضریب دقت بالایی باشد. فارس‌آوا دارای دو محصول جانبی به نام‌های تبدیل متن به گفتار (TTS) و استخراج کلمات کلیدی(KWS) نیز می‌باشد.

این سرویس قادر است تا متن های داده‌شده را دریافت و پس از دریافت، آن را به شکل صوت تبدیل به گفتار نماید. در جدید ترین نسخه این موتور، نوع گفتار پخش‌شده بسیار نزدیک به گفتار یک انسان واقعی می‌باشد.

Keyword spotting قادر است تا فایل‌های صوتی را با دقت بیشتری(20%) نسبت به تبدیل گفتار به متن، فهمیده و کلمات کلیدی در یک فایل را تشخیص داده و آن ها را استخراج کند. زمانی که برای تحلیل و تشخیص موارد مهم احتیاج به این است تا بتوان بدون گوش‌کردن کامل فایل صوتی متوجه شد که یک کلمه خاص مثل نام یک محصول در آن استفاده شده است یا خیر، سرویس KWS قادر است تا حتی زمان استفاده از آن کلید واژه را به تفکیک مشخص نماید.

• تبدیل گفتار به متن فارسی با دقت و سرعت بالا
• بهره‌مندی از آخرین تکنولوژیهای یادگیری عمیق
• تبدیل گفتار به متن بصورت همزمان (Real-Time)
• تشخیص گفتار و صوت در محیط‌های نویزی
• پشتیبانی از انواع لهجه‌ها و گویش‌ها
• قابلیت تبدیل گفتار محاوره‌ای به متن
• پشتیبانی از انواع فرمتهای صوتی و ویدیویی
• تبدیل گفتار انگلیسی به متن انگلیسی
• غیر وابسته به گوینده و عدم نیاز به آموزش برای هر فرد
• توسعه و تولید بصورت کاملاً بومی در داخل کشور
• ارائه API و SDK تبدیل گفتار به متن در قالب وب‌سرویس
• ارائه پنل تحت وب برای بارگزاری فایلها جهت پردازش
• قابل نصب روی سرور مشتری و عدم نیاز اتصال به اینترنت
• بهره‌مندی از دایره واژگان (فرهنگ لغت) بسیار وسیع

محصول فارس‌آوا با توجه به نیاز مشتری به دو صورت: 1- ارائه API / SDK بر روی کلودهای داخلی و 2- ارائه بسته نرم افزاری در سرور داخلی مشتری قابل عرضه می‌باشد.

در صورت نیاز به تست اولیه محصول، می‌توانید با مراجعه به لینک http://irpanel.farsava.com/ به صورت رایگان تا 10 ساعت از محصول فارس‌آوا استفاده کنید

مبنای قیمت‌گذاری برای استفاده از سرویس تحت سرور های فارس‌آوا، میزان ساعت استفاده برای تبدیل گفتار به متن می‌باشد که جزئیات آن در صفحه زیر آمده است:

®بینایار (فهم ویدیو و تصویر – تشخیص چهره)✅


اما در صورت نصب و استفاده بر روی سرور داخلی مشتری، مبنای قیمت‌گذاری میزان پردازش و تعداد Core موردنیاز برای تبدیل گفتار به متن بر حسب نیاز مشتری می‌باشد که بعد از کارشناسی‌های اولیه به مشتری اعلام خواهد شد. نکته مهم این است که در صورت خرید پکیج فارس‌آوا (به صورت بسته نرم افزاری در سرور داخلی مشتری) شما فقط یک بار پرداخت خواهید کرد و نیاز به پرداخت حق استفاده از سرویس به صورت ماهیانه را نخواهید داشت.

برای ارتباط با واحد پشتیبانی فنی به آدرس ایمیل technical@amerandish.com پیام دهید

چه کسانی می‌توانند از محصول تبدیل گفتار به نوشتار فارس آوا استفاده کنند؟

 

تایپ صوتی و تبدیل گفتار به نوشتار فارس آوا می‌تواند کاربردهای بسیاری برای گروه‌های مختلف داشته باشد.این کاربردها از استفاده‌های شخصی تا استفاده در ادارات و مراکز مهم دولتی را شامل می‌شود. به طور کلی تمامی کسانی که به هر دلیل و به هر نحوی به تایپ کردن نیاز دارند می‌توانند از محصول فارس آوا استفاده نمایند. زیرا امروزه تایپ کردن به یک امر روتین برای هر شغل و حتی هر شخصی تبدیل شده است و محصول تایپ صوتی و تبدیل گفتار به نوشتار فارس آوا می‌تواند به این کار روتین یک شکل و ظاهر جدید ببخشد. اگر بخواهیم به طور خلاصه برخی از گروه‌هایی که استفاده از محصول تبدیل گفتار به نوشتار فارس آوا می‌تواند برایشان مفید باشد و به آن‌ها کمک کند را معرفی کنیم، این افراد عبارتند از:

دارندگان آرشیوهای صوتی

این فناوری می‌تواند به سازمان‌ها، کسب‌وکارها یا افرادی که دارای آرشیو‌های صوتی با حجم زیاد هستند کمک کند تا محتوای آن‌ها را به فایل متنی تبدیل کرده و از آن‌ها مستند تهیه کنند. تبدیل آرشیوهای صوتی به متن یا باید به صورت دستی انجام شود یا اینکه به کمک تایپ صوتی این کار را انجام داد. پر واضح است که انجام این کار به کمک تایپ صوتی هم در زمان و هزینه صرفه جویی خواهد کرد و هم تبدیل محتوای صوتی به متن با دقت بالاتر و خطاهای کمتری انجام خواهد شد.

منشی‌ها

شاید بتوان گفت یکی از کارهای کلیدی منشی‌ها در طول ساعات کاری تایپ کردن است. اعم از تایپ گزارش‌ها، صورت جلسه‌ها و… . به همین دلیل استفاده از نرم افزارهای تایپ صوتی می‌تواند کمک بسیاری به منشی‌ها داشته باشد و به مقدار زیادی در زمان آن‌ها صرفه جویی کند و حجم زیادی از کارشان را کاهش دهد.

نویسندگان

نویسنده‌ها دائما با نوشتن سر و کار دارند. برخی از آن‌ها با نوشتن روی کاغذ و برخی نیز با تایپ کردن نوشته‌هایشان در یک سیستم کامپیوتری. در هر دو حالت در نهایت برای چاپ و یا ارائه به ویراستار نیاز است که محتوای نوشته شده را به یک متن تایپ شده تبدیل کرد. نرم افزارهای تایپ صوتی برای کامپیوتر می‌توانند این کار را با دقت و سرعت و کیفیت بالایی انجام دهند. حتی استفاده از این نوع نرم افزارها می‌تواند به تمرکز و نوشتن آنچه که در ذهن نویسنده می‌گذرد کمک کند.

مراکز تماس کسب و کارها

نرم افزار تبدیل گفتار به نوشتار فارس آوا می‌تواند به مراکز تماس کسب‌وکارها کمک کند تا تمامی گفت‌وگوهای انجام شده در تماس‌های مرکز و یا اطلاعات نیروهای انسانی را مکتوب نمایند. علاوه بر آن می‌توانند به یادداشت برداری و یا انجام هرگونه تایپ توسط کارمندان این مراکز نیز کمک کند.

مدیران و کارمندان

امروزه بخش بزرگی از کار مدیران و یا حتی کارمندان آن‌ها به تایپ کردن می‌گذرد. مثل تایپ کردن ایمیل، گزارش، مطالب، برنامه‌ها، صورت جلسه‌ها و… . تمام این‌ها نیاز دارد تا زمان زیادی را پشت کامپیوتر بگذرانند و تایپ کنند. در حالی که می‌توانند با استفاده از نرم افزارهای تایپ صوتی برای کامپیوتر هم در زمان خود صرفه جویی کنند و هم با صرف آن وقت برای کارهای مهم‌تر راندمان و بازدهی خود را بالا ببرند و سازمان خود را ارتقا دهند.

کامپیوترهای شخصی و یا خانگی

اشخاص نیز به دلایل مختلفی ممکن است زمان خود را به تایپ کردن اختصاص دهند. برای نوشتن یک تکلیف، مقاله، سرچ کردن و.. . همه‌ی این کارها را می‌توانند به راحتی با استفاده از یک نرم افزار تایپ صوتی با کیفیت انجام دهند. نرم افزارهای تایپ صوتی هم می‌تواند به افرادی که در تایپ کردن مشکل دارند کمک کند و هم افرادی که سواد کمی دارند.

 

مزیت‌های استفاده از فارس آوا (تبدیل گفتار به نوشتار)

 

استفاده از محصول تبدیل گفتار به نوشتار فارس آوا قابلیت‌های متنوعی را به کاربر می‌دهد اما مهم‌ترین این قابلیت‌ها همان بی نیاز شدن از تایپ کردن می‌باشد. به کمک نرم افزار تبدیل گفتار به متن دیگر لازم نیست زمان‌های طولانی را پشت میز کامپیوتر بنشینید و کلمات را یکی یکی تایپ کنید بلکه تنها لازم است به کامپیوتر خود دیکته بگویید تا او به تایپ کردن بپردازد و در نهایت زمانی که متن تایپ شده را چک کردید غلط‌های تایپی در آن پیدا کنید. نرم افزارهای تبدیل گفتار به نوشتار در لحظه هر آنچه را که می‌شنود با دقت زیاد به متن قابل ویرایش تبدیل می‌کند. به طور کلی قابلیت‌هایی که این تکنولوژی می‌تواند به کاربر بدهد عبارتند از:

سرعت

اولین قابلیتی که استفاده از این نرم افزارها به همراه دارد سرعت می‌باشد. قدرت تایپ کلمات یک فرد عادی بین 38 تا 40 کلمه در دقیقه می‌باشد که این تعداد به صورت میانگین برابر است با 2400 کلمه در ساعت. اگر به جای روش‌های تایپ قدیمی از تایپ صوتی مبتنی بر هوش مصنوعی استفاده شود این سرعت را می‌توان تا چیزی حدود 4 برابر افزایش داد. یعنی در هر دقیقه به صورت میانگین 150 کلمه.

دسترسی

از آنجایی که تایپ صوتی بر روی پلتفرم‌های متفاوتی در دسترس است و معمولا در گوشی‌های هوشمند جدیدی که در بازار وجود دارند نرم افزار word نیز بطور پیش فرض نصب شده است، در گوشی‌های هوشمند، تبلت، لپ تاپ، سیستم‌های کامپیوتر خانگی یا اداری و… نیز می‌توان از آن استفاده کرد. دیگر لازم نیست همانند روش‌های قدیمی یک جا نشسته و ساعت‌ها به تایپ کردن مشغول شوید.

دقت

قابلیت دیگری که استفاده از این نرم افزارها به کاربر می‌دهد دقت بالا می‌باشد. یک تایپیست معمولی به صورت میانگین از هر 100 کلمه 8 کلمه را اشکال دارد. در صورتی که با استفاده از تبدیل گفتار به نوشتار میزان خطا تا حد زیادی کاهش میابد. زیرا به جای نوشتن کلمات با استفاده از کیبرد، کلمات مستقیما به سرویس هوش مصنوعی گفته شده و او نیز آن‌ها را به نوشته تبدیل کرده است.

تمرکز

قابلیت دیگر نیز تمرکز بالا است. با استفاده از نرم افزارهای تایپ صوتی، قطعا متوجه خواهید شد که تمرکز بیشتری درحین انجام کارتان دارید. این کار کمک می کند تا بر روی مسئله ای که در مورد آن صحبت می کنید متمرکز تر شوید و راحت تر آن چه در ذهنتان می گذرد را به نوشتار تبدیل کنید.

نزدیکی بیان و نوشته

تا به حال برای شما پیش آمده که درحال نوشتن حس کنید نوشته تان معقول نیست؟ یا اینکه سبک نوشته به درستی رعایت شده و یا بیش از حد خشک نوشته شده ؟ در هنگام بیان آن چه می خواهدی بنوسید می توانید راحت تر آن چه که در ذهنتان می گذرد را بیان کنید و با تبدیل به نوشتار به صورت همزمان می توانید چیزی که در فکرتان می گذرد را سریعا بنویسید.

پویایی و بدنی سالم

قابلیت دیگر آن است که کاربر می‌تواند به صورتی پویا تر به کار بپردازد و این پویایی سلامتی بدنی را برای او به همراه دارد. همه می دانیم با نشستن طولانی مدت پشت کامپیوتر برای تایپ کردن، هم بیماری هایی مانند کمر درد به سراغمان می آید و هم خیره شدن طولانی مدت به مانیتور باعث خشکی چشم و دردسر های دیگری می شود که سلامتی ما را به خطر خواهد انداخت. با استفاده از فناوری تبدیل گفتار به نوشتار دیگر لازم نیست تا زمان زیادی را پشت کامپیوتر صرف کنید و مثل مجسمه بنشینید، بلکه کافی است حرف بزنید تا نرم افزار آن را برای شما بنویسد.

آیا از فارس آوا می‌توان برای تبدیل گفتار به نوشتار و تایپ صوتی در گوشی‌های هوشمند نیز استفاده نمود؟

محصول فارس آوا دارای نسخه وب، دسکتاپ و اندروید و iOS می‌باشد که این امر باعث می‌شود ت تمامی افراد با انواع دستگاه‌ها و نیازهای مختلف بتوانند از این محصول استفاده نمایند و از کاربردهای آن بهره‌مند شوند. به جرات می‌توان گفت محصول تبدیل گفتار به نوشتار فارس آوا برای استفاده در گوشی‌های همراه هوشمند، دسکتاپ و یا بر روی وب یکی از با کیفیت‌های بازار حال حاضر ایران می‌باشد. محصول فارس آوا تبدیل گفتار به نوشتار را به صورت تخصصی برای زبان فارسی انجام می دهد و قادر است ارتباط کلامی بین شما و کامپیوتر یا موبایلتان را فراهم کند. محصول فارس آوا با تکیه بر دانش متخصصان هوش مصنوعی ایرانی و با بهره گیری از آخرین تکنولوژی های روز دنیا تولید شده است و به دلیل جمع آوری بزرگ ترین دیتاسِت موجود در زبان فارسی و تمرکز ویژه روی این زبان، ضمن بهره مندی از تنوع گفتاری بسیار وسیع موفق شده است تا در رقابت با شرکت های بزرگی چون گوگل (بر روی زبان فارسی) دارای ضریب دقت بالایی باشد.

چرا از تبدیل گفتار به نوشتار فارس آوا به جای گوگل استفاده کنیم؟

شاید برای شما هم سوال باشد که چرا با وجود سرویس تبدیل گفتار به نوشتار گوگل باید به سراغ اپلیکیشن فارس آوا برویم؟ این سوال بسیار درست و بجا می‌باشد. مسئله اصلی رقابت و جایگزینی فارس آوا به جای سرویس گوگل نیست، مسئله آن است که یکسری نیازهایی وجود دارد که دلیلش آن است که تبدیل گفتار به نوشتار گوگل بر مبنای گفتار عام فارسی آموزش دیده است. همین امر باعث می‌شود تا کاربر فارسی را در برخی موارد با محدودیت‌هایی رو به رو کند. در بسیاری لحاظ محصول فارس آوا و تایپ صوتی گوگل دارای شباهت‌هایی با یک دیگر شباهت‌هایی دارند. اما این دو محصول دارای تفاوت‌های قابل توجهی هستند. این تفاوت‌ها ناشی از متمرکز بودن محصول فارس آوا بر روی زبان فارسی است و اینکه تبدیل گفتار به متن گوگل بر روی گفتار عام زبان فارسی نمرکز دارد و نه لغات تخصصی و مخصوص به این زبان. در ادامه هر کدام از این محدودیت‌ها را به طور کامل شرح می‌دهیم.

 

 

با توجه به آنچه که تا الان گفته شد فهمیدیم که تایپ صوتی کاربردهای زیادی و کاربرها آن را دوست دارند! اما این که کاربران فقط تایپ صوتی را دوست داشته باشند دلیل منطقی ای برای متحمل شدن هزینه برای اضافه کردن این قابلیت نمی شود. این حرف بسیار درست است. اما باید بگوییم که تایپ صوتی قرار نیست در آینده هم فقط یک قابلیت خوشایند بر روی اپلیکیشن شما باشد، بلکه قرار است تعیین کند که شما در میدان رقابت خواهید ماند یا نه. در ادامه تعدادی دلیل برای شما شرح می دهیم.

 

تایپ صوتی یک ترند خواهد شد

 

با پیشرفت تکنولوژی و قوی تر شدن موتورهای تبدیل گفتار به نوشتار، و هم چنین تغییراتی که در سبک زندگی مردم ایجاد شده ، در آینده ای نزدیک تایپ صوتی قطعا یک ترند خواهد بود و یکی از مواردی که برای ساخت اپلیکیشن ها باید در نظر بگیریم. اما شاید بپرسید به چه دلیل و چرا؟ جواب ما هم این خواهد بود که به اطرافتان بیشتر توجه کنید. هر چه بیشتر می گذرد مردم بیشتر به دنبال چیزهایی هستد که زمان کمتری از آن ها بگیرد. در حال حاضر افراد به دنبال چیزی هستند که سریع تر بدست بیاید و حوصله آنچه که وقت زیادی بگیرد را ندارند. حالا با این اوصاف به چیزی فکر کنید که افراد روزانه زمان زیادی را صرف آن می کنند. بله درست است، تایپ کردن. با وجود مصرف زیاد از شبکه های اجتماعی و پیام رسان ها و… افراد زمان زیادی را برای تایپ کردن، حالا چه به منظور پیام دادن یا نوشتن و سرچ کردن و… ، صرف می کنند. حالا فکر کنید یک روزی محصولی به چنین افرادی ارائه دهید که این حجم از صرف وقت را برای آن ها کاهش دهد. یقینا چنین محصولی محبوبیت زیادی پیدا خواهد کرد. با توجه به اینکه در حال حاضر هم تایپ صوتی در میان بسیاری از افراد محبوب است.

 

افراد بیشتر تمایل دارند تا ابزارهایی که از voice بهره می برند را استفاده کنند

 

به این موارد توجه کنید:

  • بر اساس گفته گوگل، 20 درصد سرچ ها از طریق voice انجام می شوند.
  • 65 درصد کسانی که از آمازون اکو و گوگل هوم استفاده می کنند گفته اند که دیگر نمی خواهند به دوران قبل از استفاده از آن ها باز گردند.
  • 31 درصد از کاربران در دنیا حداقل هفته ای یک بار از تکنولوژی مربوط به voice استفاده می کنند.
  • 7 درصد از افراد بالغ در آمریکا از voice برای سرچ استفاده می کنند.
  • تا سال 2020 نصف تمام جست و جوهای آنلاین در دنیا بر اساس voice خواهد بود.
  • و…

اگر بخواهیم موارد بالا را ادامه دهیم، قطعا به لیستی بالغ بر 30 تا 40 مورد می رسیم. تمام این آمارها نشان می دهد افراد تمایل پیدا کرده اند تا از voice برای انجام کارهایی مانند سرچ، نوشتن، انجام دستورات صوتی و… استفاده نمایند. همه این ها در کر آنچه که در مورد قبلی گفته شد، نشان می دهد که تجهیز صوتی اپلیکیشن ها به فهم صوتی دستورات، در آینده ای نه چندان دور، نه تنها یک ترند و یک مزیت رقابتی بلکه به یک ضرورت تبدیل خواهد شد.

 

کمک به افرادی که نمی توانند به خوبی بنویسند با استفاده از تایپ صوتی

 

این نکته بسیار مهم است. زیرا که باعث می شود چند دسته از افراد که نمی توانند به خوبی از اپلیکیشن های مخصوص گوشی های هوشمند بهره ببرند به سراغ اپلیکیشن شما خواهند آمد. این سه مورد شامل افرادی است که توانایی خواندن و نوشتن ندارند، کودکانی است که نمی توانند بخوانند و بنویسند و دیگر افراد کم توانی که قابلیت تایپ کردن را ندارند. با فعال کردن و استفاده کردن از این قابلیت بر روی اپلیکیشن خود، می توانید کاری کنید که این افراد بتوانند با فراغ بال و خیالی راحت به سراغ اپلیکیشن شما بیایند.

 

ایجاد تجربه کاربری فوق العاده

 

همه ی آنچه که تا به الان گفته شد در نهایت منجر به یک تجربه کاربری عالی می شود. توجه به نیاز افراد و علایق آن ها، توجه به اینکه قرار است از چه چیزی استفاده کنند و تمایل دارند چه چیزی را به کار ببرند، توجه به اینکه زمانی که از اپ شما استفاده می کنند حوصله شان سر نرود و حس نکنند زمانشان را هدر داده اند، توجه به همه ی کاربرانی که قرار است از اپلیکیشن شما استفاده کند، همه و همه باعث می شود که تجربه کاربری بسیار عالی برای فردی که از اپلیکیشن شما استفاده می کند به ارمغان بیاورد و نه تنها خود او مشتری و طرفدار پر و پا قرص شما شود بلکه این تجربه عالی باعث شود که خود او اپلیکیشن شما را به دیگران معرفی کند.

 

نحوه استفاده پنل عامر اندیش برای دریافت API فارس آوا

 

اگر می خواهید از API  محصول فارس آوا استفاده کنید، در ابتدا باید وارد پنل عامر اندیش شوید. پس از وارد کردن اطلاعات و ثبت نام، به محیط پنل وارد می شوید. پس از ورود به پنل شما با یک میز کار رو به رو هستید که دسترسی های مورد نیاز شما را دارد. برای دریافت API محصول فارس آوا در ابتدا باید به بخش رابط برنامه نویسی مراجعه نمایید.

 

تبدیل گفتار به نوشتار

 

 

پس از ورود به بخش رابط برنامه نویسی، شما باید دسترسی مورد نظرتان را با توجه به گزینه های موجود و نیاز هایی که دارید، از میان کلید های دسترسی انتخاب نمایید.

 

تبدیل گفتار به نوشتار

 

پس از این مرحله شما می توانید بعد از کپی کردن توکن دسترسی مورد نظر در API Doc فارس آوا، بر اساس نیازهایتان، از API محصول فارس آوا استفاده نمایید.

 

 

تبدیل گفتار به نوشتار

 

نحوه دریافت توکن فارس آوا

 

 

تبدیل گفتار به نوشتار

 

نمایی از API Document محصول فارس آوا

 

استفاده از API محصول فارس آوا قابلیت پیاده سازی بر روی چه بستر هایی را دارد؟

 

شما می توانید از API محصول فارس آوا در تمامی بستر هایی که نیاز دارید استفاده نمایید و با محدودیتی در این زمینه مواجه نخواهید بود. به طور کلی API فارس آوا در هر بستری که بتوانید درخواستتان را به صورت HTTP بفرستید قابلیت پیاده سازی دارد.

 

محصول فارس آوا از چه فرمت‌های صوتی پشتیبانی می کند؟

 

در حال حاضر محصول فارس آوا تمامی فایل های صوتی که دریافت نموده را پس از پردازش های مورد نظر تبدیل به فرمت مورد نیاز خود (یعنی تبدیل به یک string base 64 ) می کند و سپس آن را در اختیار موتور تبدیل گفتار به متن قرار می دهد. اما در آینده ای نزدیک و با توسعه بیشتر محصول، فارس آوا قادر خواهد بود تا تمامی فرمت های صوتی را دریافت نماید و از آن ها به صورت مستقیم استفاده نماید.

 

API محصول فارس آوا برای چه کسانی می تواند مناسب باشد؟

 

استفاده از API محصول فارس آوا به طور اختصاصی می تواند برای برنامه نویسان بسیار کاربردی باشد. هم چنین صاحبان کسب و کارهایی که دارای اپلیکیشنی هستند که نیاز دارند تا اپلیکیشن بتواند دستور های صوتی را دریافت کند می توانند از API محصول فارس آوا استفاده در اپلیکیشن خود استفاده نمایند. به طور کلی تمامی افرادی که نیاز دارند تا محتوای صوتی را به متن تبدیل کرده و یا آن را درک و پردازش نمایند می توانند از محصول فارس آوا استفاده نمایند.

 

در آینده قرار است چه قابلیت هایی به محصول تبدیل گفتار به نوشتار فارس آوا اضافه شود؟

 

محصول فارس آوا قرار است در آینده ای نزدیک توسعه بیشتری در نسخه‌ها دسکتاپ و موبایل داشته باشد. به همراه این نسخه ها کیفیت و سرعت فارس آوا نیز افزایش چشم گیری خواهد یافت. علاوه بر این ها به زودی نسخه اختصاصی برای مشاغل خاص همانند وکلا و… به بازار عرضه خواهد شد.

نرم افزار فارس آوا چگونه گفتار را به نوشتار تبدیل می‌نماید؟

تبدیل گفتار به نوشتار بخشی از فناوری بازشناسی گفتار می باشد که به سادگی میتوان مسئله بازشناسی گفتار را در این فرمول احتمالاتی شرطی خلاصه کرد:

 

تبدیل گفتار به نوشتار

 

به این معنی که ما به دنبال رشته‌ای از کلمات خروجی هستیم که با توجه به سیگنال ورودی موجود، محتمل‌ترین رشته کلمات خروجی را به ما نشان دهند. مسئله را می توان بر اساس این فرمول باز کرد و گفت که احتمال سیگنال، نسبت به رشته کلمات مورد نظر ضرب در احتمال کلمات. زمانی که این دو را باز کنیم، در واقع دو پایه اساسی یک سیستم بازشناسی گفتار به دست می آید که عبارتند از:
۱.مدل آکوستیکی
۲.مدل زبانی
کار مدل آکوستیکی آن است که تشخیص می دهد با توجه به سیگنال ورودی محتمل ترین آواهای خروجی چه چیزهایی هستند. کار مدل زبانی هم آن است که تشخیص دهد پس از ترکیب آواها، محتمل ترین کلماتی که در آن زبان می توانیم پشت سرهم داشته باشیم، چه هستند. این فرمول شاید ساده ترین و پایه‌ای ترین فرمول بازشناسایی گفتار باشد. در ساختار کلی یک سیستم بازشناسایی گفتار همه چیز از سیگنال صوتی شروع می شود.

سیگنال صوتی وارد یک سری پیش پردازش ها می شود. به عنوان مثال در زمانهایی که سکوت داریم، سیگنال صوتی را می بُریم یا نویز را کاهش می دهیم، استخراج ویژگی ها نیز بخشی از پیش پردازش می باشد. پس از اتمام پیش پردازش، سیگنال صوتی با یک سری ویژگی های کلی بدست می‌آید. در نهایت با ترکیب دو مدل زبانی و آکوستیکی، سیگنال یا ویژگی ها را به کلمات نهایی رمز گشایی (Decode) می کنیم.

 

تبدیل گفتار به نوشتار

روش های بازشناسایی گفتار

 

به صورت کلی تلاشها یا روشهایی که در زمینه پردازش گفتار شده را میتوان به ۳ مقطع زمانی تقسیم کرد:

 

تبدیل گفتار به نوشتار

مدل گاوسین-مدل مخفی مارکف

 

مدلهای مخلوط گاوسین-مدل مخفی مارکف که به Gmm-Hmm نیز معروف می باشند،تا حدود 25 سال پیش بدون هیچ رقیب دیگری برای بازشنایایی گفتار استفاده می شدند تا زمانی که در مقاله معروف  سال ۲۰۰۶ که توسط یکی از افراد یسیار مهم در زمینه deep learning یعنی دکتر هینگتون ارائه شد، شبکه های عصبی باور عمیق یا DBN ها جایگزین مدل مخلوط گاوسین شدند. اما با این حال باز هم از مدل مخفی مارکف برای شبیه سازی زمانی استفاده می‌کردیم. در نهایت، طی سالهای اخیر مدل سرتاسری شبکه‌های عمیق بازگشتی معرفی شدند که دو مدل قبلی را باهم ترکیب کرده و در یک شبکه عمیق به کار می بردند.

شماتیک کلی این مدل ها را در می توانیم در تصویر زیر مشاهده کنیم. برای توضیح مختصر تصویر می توانیم بگوییم که ما در این مدل از سیگنال های صوتی که داریم یکسری ویژگی استخراج می کنیم. این ویژگی ها میتوانند expectogram یا nfcc باشند. با کمک مدل مخلوط گاوسین، یک آکوستیک مدلی را درست می کنیم و سپس از خروجی همان آکوستیک مدل، یا در واقع از آواهایی که بدست آمده در یک شبکه HMM، از آواهایی که وجود داشتندمدلسازی زمانی انجام می دهیم و در نهایت به متن می‌رسیم.

 

تبدیل گفتار به نوشتار

ساختار مدل شبکه عصبی باور عمیق-مدل مخفی مارکف

 

در شبکه های باور عمیق نیز همان اتفاق می افتد. ما میتوانیم expectogram و یا حتی ورودی خام سیگنال صوتی و MCC را داشته باشیم.تنها تفاوت آن با مدل قبلی آن است که بجای مدل گاوسین، از یک شبکه باور عمیق استفاده می کنیم.
تا قبل ۲۰۰۶ امکان اموزش شبکه های بزرگ وجود نداشت، در آن زمان همه ی افراد فعال در حوزه هوش مصنوعی می دانستند که با افزایش تعداد لایه‌ها قاعدتا می توانیم نتایج بهتری بگیریم و به اصطلاح به درک بالاتری از آن ورودی می رسیم. یعنی هرچه تعداد لایه ها زیادتر و عمیق تر باشد ما میتوانیم در عمق بیشتر درک بهتری از ورودی پیدا کنیم. اما امکان اموزش این شبکه ها به دو دلیل وجود نداشته‌است: اولین دلیل اینکه برای انجام این کار الگوریتمی وجود نداشته است و تا آن زمان ما تنها می توانستیم شبکه های ۲ تا ۳ لایه را آموزش دهیم.زمانی که عمق شبکه ها بیشتر می شد نیز از روش نشر بازگشتی استفاده می کردیم که توانایی انجام درست این کار را نداشت.
با این حال در سال ۲۰۰۶ الگوریتمی درست شد که با کمک آن می توانستند لایه ها را تک تک آموزش بدهند و سپس این لایه ها را بر روی هم سوار کردند و در نهایت به شبکه یک آموزش کلی داده شد. بعد از این اتفاق امکان آن به وجود آمد که به عنوان مثال بتوانیم ۶ تا ۷ لایه از شبکه های عصبی را با دقت خوبی آموزش دهیم. با آمدن این الگوریتم جای مدل مخلوط گاوسین یا GMM ها با شبکه های باور عمیق یا DBM تغییر کرد، اما ما همچنان از HMM ها یا مدل مارکف برای شبیه سازی مدل های زمانی استفاده می کردیم.

 

تبدیل گفتار به نوشتار

ساختار سرتا سری شبکه های عمیق بازگشتی

 

یکی از ساختارهای معروف شبکه های عمیق بازگشتی ساختاری همانند تصویر زیر دارد که متعلق به مقاله معروفی است که چند سال پیش توسط “بایدو” منتشر کرد. باتوجه به تصویری که در زیر مشاهده می کنید مرزهای قبلی را بین دو مدل مختلف قبلی نداریم و تمام این اتفاقات در شبکه سرتاسری می افتند، باز هم در اینجا ما expectogram یا ورودی و سپس یک شبکه عمیق بازگشتی را داریم. در واقع هم آواها (مدل آگوستیکی) را داریم و در واقع مدل آکوستیکی را آموزش میبینم و همزمان شبیه سازی زمانی را نیز انجام میدهیم.

 

تبدیل گفتار به نوشتار

بازشناسایی گفتار با روش های یادگیری عمیق

 

در این روش ما در واقع می خواهیم تمام مراحل قبلی که گفته شد را با یک شبکه جایگزین کنیم، یعنی سیگنال ورودی داخل یک شبکه ای شود و در نهایت خروجی آن سیگنال را به صورت متن داشته باشیم، بدون اینکه نیاز باشد آن سیگنال را به مدل های مختلف بشکانیم و استخراج ویژگی کنیم و… و در واقع می خواهیم یک شبکه سرتاسری در میانه داشته باشیم.

 

تبدیل گفتار به نوشتار

آنچه که در بالا به آن اشاره شد تمامی روش‌هایی است که سیستم هوش مصنوعی برای تبدیل گفتار به متن از آن استفاده می‌کند. محصول فارس آوا نیز به عنوان یک موتور تبدیل گفتار به نوشتار برای تبدیل فایل‌های صوتی به متن قابل ویرایش به کمک هوش مصنوعی خود از روش‌هایی که گفته شد بهره می‌برد تا متن یک گفتار را به کاربر ارائه دهد.