در این مقاله قصد داریم تا یکی از پرکاربرد ترین قابلیتهای گوگل را بررسی کنیم و ببینیم که چه مزایا و معایبی دارد. قابلیت مورد نظر ما تایپ صوتی در گوگل است که به کاربران این اجازه را میدهد تا بدون نیاز به تایپ کردن تنها با گفتن چیزی متن آن را داشته باشند.
آیا تا به حال پیش آمده که برای تبدیل گفتار به نوشتار به سراغ سرویسهایی همانند گوگل رفته باشید که بتوانند تایپ صوتی را برای شما انجام دهند؟ تجربه شما در استفاده از این سرویس چه بود؟ آیا توانست تمامی نیازهایتان را برطرف نماید؟ اگر تجربهای مشابه آنچه که گفته شد دارید، در ابتدا از پنل زیر استفاده کنید و سپس در ادامه مقاله با ما همراه باشید تا با هم به بررسی تایپ صوتی گوگل بپردازیم و ببینیم که آیا میتوانیم راهحلهای دیگری را پیدا کنیم یا خیر!
منظور از تایپ صوتی در گوگل چیست؟
اگر بخواهیم تعریف دقیقی از این فناوری داشته باشیم، میتوانیم بگوییم که تایپ صوتی در گوگل یک ابزار رایگان برای دیکته گفتن در سرویسهایی همانند Google Docs، Google Slides و پردازنده کلمات آنلاین گوگل و ابزارهای ارائه آن میباشد. از آنجایی که بیشتر نرم افزارهایی که برای تایپ کردن از آنها استفاده میشود، قابلیت برخورداری از این سرویس گوگل را دارند، به طور کلی میتوان گفت که تایپ صوتی گوگل قابلیت استفاده برای همه افراد را دارد و اولین گزینه در دسترس همه است.
تایپ صوتی گوگل در کیبرد اکثر گوشیهای هوشمند وجود دارد و در حقیقت همان نشانهی میکروفونی است که در پایین کیبرد و در سمت چپ دکمه فاصله قرار گرفته است. در رایانههای شخصی هم با استفاده از مرورگر کروم میتوانید از سرویس Google Doc کمک گرفته و از این فناوری استفاده نمایید.
در بروزترین نسخه این سرویس قادر است از ۱۱۹ زبان زنده دنیا پشتیبانی و محتوای موجود در صوتهای این زبانها را به متن تبدیل کند. سرویس رایگان تایپ صوتی گوگل برای کاربران فارسی زبان و بر روی زبان فارسی نیز در دسترس عموم میباشد.
چگونه از تایپ صوتی گوگل استفاده کنیم؟
کاربرانی که از گوشیهای هوشمند استفاده میکنند با زدن دکمهی میکروفون بر روی کیبرد گوشی خود میتوانند از تایپ صوتی گوگل بهرهمند شوند. در تصویر زیر میتوانید محل این دکمه را مشاهده نمایید.
اگر از Google Docs استفاده میکنید با مراجعه به منو، قسمت Tools را باز کرده و گزینه Voice typing را فعال نمایید.
لازم به ذکر است که قابلیت تبدیل صوت به متن گوگل برای سازندگان اپلیکیشنی که میخواهند از قابلیت تایپ صوتی بر روی اپ خود استفاده کنند در دسترس میباشد و با پرداخت هزینه میتوانند api تایپ صوتی گوگل را دریافت نمایند.
آیا قابلیت تایپ صوتی گوگل بر روی زبان فارسی در ایران هم کاربرد دارد؟
بله، قابلیت تایپ صوتی گوگل بر روی زبان فارسی هم در دسترس کاربران فارسی زبان میباشد. با استفاده از راههایی که گفته شد کاربران میتوانند از مزایای سرویس تبدیل گفتار به نوشتار گوگل در زبان فارسی بصورت رایگان بهرهمند شوند. پس از فعال کردن قابلیت تبدیل گفتار به نوشتار میتوانید به آیکون زبان مراجعه کرده و پیش فرض زبان را تغییر داده و زبان فارسی را انتخاب نمایید. پس از اطمینان از صحت عملکرد و کیفیت میکروفونی که دارید میتوانید از تایپ صوتی بهرهمند شوید.
مزایای تایپ صوتی در گوگل چیست؟
گوگل در چند سال اخیر سرمایهگذاری سرسام آوری را بر روی فناوری زبان بر روی زبانهای مختلف در دنیا انجام داده است. نتیجهی این سرمایهگذاری فوقالعاده فناوری شده که در بسیاری از زبانها با کیفیت خوب گفتار را درک کرده و آن را به نوشتار تبدیل مینماید. از مزایای تایپ صوتی فوقالعاده گوگل میتوان به موارد زیر اشاره نمود:
سرعت فوقالعاده
قدرت تایپ کلمات یک فرد عادی بین ۳۸ تا ۴۰ کلمه در دقیقه میباشد که این تعداد برابر است با به طور میانگین ۲۴۰۰ کلمه در ساعت. اگر به جای روشهای تایپ قدیمی از تایپ صوتی گوگل استفاده شود این سرعت را میتوان تا چیزی حدود ۴ برابر افزایش داد. یعنی در هر دقیقه به صورت میانگین ۱۵۰ کلمه.
دسترسی بالا
از آنجایی که تایپ صوتی گوگل بر روی پلتفرمهای متفاوتی در دسترس است و در گوشیهای هوشمند نیز میتوان در هر کجا از آن استفاده کرد، میتوان در هر کجا از آن استفاده نمود. دیگر لازم نیست همانند روشهای قدیمی یک جا نشسته و ساعتها به تایپ کردن مشغول شوید.
دقت بالا
یک تایپیست معمولی به صورت میانگین از هر ۱۰۰ کلمه ۸ کلمه را اشکال دارد. در صورتی که با استفاده از تبدیل گفتار به نوشتار گوگل میزان خطا تا حد زیادی کاهش میابد. زیرا به جای نوشتن کلمات با استفاده از کیبرد، کلمات مستقیما به هوش مصنوعی گوگل گفته شده و او نیز آنها را به نوشته تبدیل کرده است.
توانایی تبدیل صوت به متن در هر پلتفرمی
به کمک سرویس تبدیل گفتار به نوشتار گوگل میتوانید فایلها را به هر فرمتی که میخواهید ذخیره کنید. زیرا بسیاری از نرم افزارهایی که از آنها استفاده میشوند قابلیت وصل شدن به سرویس تایپ صوتی را دارند. در غیر این صورت نیز میتوانید از پلتفرمهای گوگل برای تبدیل گفتار به نوشتار استفاده نموده و پس از ویرایش فایل نهایی آن را در پلتفرم مورد نظر کپی کرده و با فرمت دلخواه ذخیره نمایید.
پر واضح است اگر بخواهیم مزایای تایپ صوتی گوگل را بنویسیم، میتوانیم یک مقاله را به آن اختصاص دهیم. اما قصد ما در این مقاله بررسی کلی این قابلیت است و میخواهیم از تمام جوانب به آن نگاهی بندازیم.
معایب تایپ صوتی در گوگل چیست؟
شاید عنوان این بخش برای شما سوال بر انگیز باشد و بگویید مگر ممکن است که سرویسی که گوگل با آن همه عظمت ارائه میدهد عیب و یا مشکلی داشته باشد؟ باید بگوییم که برای کاربرانی که کارهای کوچکی با تایپ صوتی دارند و نمیخواهند به طور پیشرفته از آن استفاده کنند، این سرویس همانگونه که هست بسیار عالی خواهد بود و نقدی بر آن نیست. مشکل از جایی شروع میشود که بخواهیم از تایپ صوتی برای مقاصد پیشرفتهتر استفاده نماییم. در این بخش ممکن است با مشکلات زیر مواجه شویم:
نیاز به اتصال دائمی اینترنت
شاید بتوان گفت یکی از معایب این تایپ صوتی گوگل بخصوص در زبان فارسی آن است که در زمان استفاده از آن حتما باید به اینترنت دسترسی دائم داشته باشید. این مسئله شاید در استفادههای محدود و کم به چشم نیاید اما زمانی که نیاز دارید تا گفتارهای طولانی را به متن تبدیل کنید و یا در مکانهایی قرار دارید که دسترسی مناسبی به اینترنت ندارید، بسیار مشکل آفرین میشود.
سرور خارج از ایران
یکی از مشکلاتی که سازمانهای داخلی با آن روبهرو هستند، آن است که طبیعتا چون گوگل یک شرکتهای خارجی است، سرورهای آن نیز در خارج از کشور قرار دارد و سازمانها و شرکتهایی که دارای دادههایی هستند که نمیخواهند به خارج از سازمان برود، عملا نمیتوانند از تایپ صوتی گوگل استفاده کنند. زیرا آنها به سرویسهایی نیاز دارند که به صورت لوکال بر روی سرورهای خودشان نصب شود و هیچ اطلاعاتی را به بیرون از سازمان نفرستند.
عام بودن گفتار به نوشتار
یکی از مشکلاتی که کاربران فارسی زبان در استفاده از تایپ صوتی گوگل با آن مواجهه هستند، آن است که این سرویس تنها قادر است گفتار عام در زبان فارسی را متوجه شود و کلمات تخصصی در زبان فارسی که برخی کسبوکارها، همانند وکلا و حقوقدانان و…، از آنها به کرات استفاده میکنند را به درستی متوجه نمیشود. به همین خاطر کسبوکارهای این چنینی برای تبدیل گفتار به نوشتار و تایپ صوتی نمیتوانند بر کمک گوگل اتکا کنند.
نفهمیدن لهجههای مختلف زبان فارسی
زبان فارسی پر است از لهجهها و گویشهای مختلف. اگر نرم افزاری بخواهد در زبان فارسی به خوبی کار کند نیاز دارد که تمام این لهجهها را متوجه شود. متاسفانه همانطور که در مورد قبل به آن اشاره شد تایپ صوتی گوگل گفتار عام زبان فارسی را متوجه میشود و باز هم کاربران فارسی زبان با مشکلات بسیاری در این زمینه روبهرو هستند.
پولی بودن api سرویس تایپ صوتی گوگل
بسیاری از توسعه دهندگان اپلیکیشن که میخواهند از قابلیت تایپ صوتی در اپلیکیشن خود استفاده نمایند، اول از همه به سراغ سرویس گوگل میروند. برعکس اینکه تایپ صوتی گوگل بر روی سرویسهایی که خود ارائه میدهد رایگان میباشد، برای دریافت api آن به صورت دقیقهای باید هزینه پرداخت نمود. چون این هزینه به دلار محاسبه میشود برای کاربران داخلی استفاده از آن به صرفه نمیباشد و عملا نمیتوانند از تایپ صوتی گوگل استفاده نمایند.
زمانی که تایپ صوتی گوگل در زبان فارسی مشکل آفرین میشود چه کنیم؟
اگر شما هم در استفاده از تایپ صوتی در گوگل به معایبی که گفته شد و یا مشکلات دیگری برخوردید، تنها راه شما روی آوردن به سرویسهای تایپ صوتی دیگر است. سرویسهایی که بتواند همان کیفیت را با استانداردهای مورد نیاز شما در اختیارتان قرار دهد. اگر به دنبال چنین سرویسی هستید، ما فارس آوا را به شما معرفی میکنیم. سرویس فارس آوا یکی از بهترین موتورهای تبدیل گفتار به نوشتار در زبان فارسی می باشد.
محصول فارس آوا تبدیل گفتار به نوشتار را به صورت تخصصی برای زبان فارسی انجام می دهد و قادر است ارتباط کلامی بین شما و کامپیوتر یا موبایلتان را فراهم کند. محصول فارس آوا با تکیه بر دانش متخصصان هوش مصنوعی ایرانی و با بهره گیری از آخرین تکنولوژی های روز دنیا تولید شده است و به دلیل جمع آوری بزرگ ترین دیتاسِت موجود در زبان فارسی و تمرکز ویژه روی این زبان، ضمن بهره مندی از تنوع گفتاری بسیار وسیع موفق شده است تا در رقابت با شرکت های بزرگی چون گوگل (بر روی زبان فارسی) دارای ضریب دقت بالایی باشد.
محصول فارس آوا دارای قابلیت های زیر می باشد:
- تبدیل گفتار به متن فارسی با دقت و سرعت بالا
- بهره مندی از آخرین تکنولوژیهای یادگیری عمیق
- تبدیل گفتار به متن بصورت همزمان (Real-Time)
- تشخیص گفتار و صوت در محیط های نویزی
- پشتیبانی از انواع لهجه ها و گویش ها
- قابلیت تبدیل گفتار محاوره ای به متن
- پشتیبانی از انواع فرمتهای صوتی و ویدیویی
- تبدیل گفتار انگلیسی به متن انگلیسی
- غیر وابسته به گوینده و عدم نیاز به آموزش برای هر فرد
- ارائه API محصول فارس آوا و SDK تبدیل گفتار به متن در قالب وب سرویس
- ارائه پنل تحت وب برای آپلود کردن فایلها جهت پردازش
- قابل نصب روی سرور مشتری و عدم نیاز اتصال به اینترنت
- بهره مندی از دایره واژگان (فرهنگ لغت) بسیار وسیع
- تبدیل گفتار به نوشتار به کمک هوش مصنوعی
با توجه به قابلیت های ذکر شده، محصول فارس آوا می تواند چنین کاربرد هایی داشته باشد:
- امکان استفاده در تمامی سیستم های عامل (Android, IOS, Mac, Windows, Linux)
- امکان استفاده برای تمامی برنامه های تحت موبایل (تمامی پلتفرمها)
- امکان استفاده در برنامه هایی از قبیل دستیارهای شخصی هوشمند در موبایل
- امکان استفاده های عمومی از قبیل : تایپ گفتاری و اجرای دستورات صوتی
- امکان سفارشی سازی برای تشخیص دستورات خاص صوتی
- امکان سفارشی سازی برای کاربردهای خاص و افزایش دقت
- پردازش داده های حجیم گفتاری
علاوه بر آن فارس آوا دارای دو محصول جانبی میباشد که میتواند عملیات تبدیل متن به گفتار (TTS) و استخراج کلمات کلیدی (KWS) را انجام دهد. همان طور که در بالا هم به این مسئله اشاره کردیم، فارس آوا میتواند جایگزین بسیار مناسبی برای تایپ صوتی گوگل باشد. این سرویس میتواند نیازهای کاربران ایرانی را به خوبی رفع کند و عملکرد خوبی را بر روی زبان فارسی داشته باشد. فارس آوا میتوانید برای یک کاربر فارسی زبان نه تنها مزایای سرویس گوگل را به همراه خواهد داشت، بلکه در بسیاری از زمینههای دیگر نیز او را بی نیاز از سایر سرویسهای تبدیل گفتار به نوشتار میکند. فارس آوا میتواند:
کار کردن به صورت آفلاین و آنلاین
سرویس فارس آوا میتواند هم به صورت آنلاین و هم به صورت آفلاین کار کند. نرم افزار فارس آوا قابلیت نصب بر روی دسکتاپ را دارد و کاربران نیز میتوانند از آن به صورت آفلاین نیز استفاده کنند. به این ترتیب مشکل کاربرانی که نمیخواهند در طول فرآیند تبدیل گفتار به متن توسط هوش مصنوعی و تایپ صوتی توسط سیستم هوشمند به اینترنت متصل باشند و از حجم اینترنت آنها کاسته شود، استفاده از فارس آوا راه حلی مناسب و کاربردی خواهد بود. ضمن اینکه فارس آوا نسخههای مختلفی برای استفاده در دستگاههای مختلف دارد.
سرور داخلی و قابلیت نصب بر روی سرور مشتری
سرورهای فارس آوا در داخل کشورمان قرار دارد. لذا دادههای کاربران برای پردازش به خارج از کشور فرستاده نمیشود و در مقابل سرعت ارائه پاسخ به کاربر نیز به همان میزان بالا خواهد رفت. از طرف دیگر سرویس فارس آوا یک سرویس بومی است و در داخل کشور تهیه و تولید شده است و همین مسئله میتواند برای کاربر بسیار کاربردی باشد. به گونهای که در صورت نیاز کاربر و یا در صورتی که یک سازمان نیاز دارد تا دادههای آنهایش از سازمان بیرون نرود، سرویس فارس آوا قاببلیت نصب بر روی سرورهای مشتریان و استفاده درون سازمانی را برای آنها فراهم خواهد آورد تا دادهها و اطلاعات سازمانها به بیرون از سازمان فرستاده نشود.
فهم کامل گفتار عام و خاص در زبان فارسی
یکی از ایرادهایی که بر سرویسهای خارجی تبدیل گفتار به نوشتار و یا سرویسهای داخلی که از موتورهای تبدیل گفتار به نوشتار خارجی برای تبدیل صوت فارسی به متن استفاده میکنند، وارد است توانایی این سیستمها تنها در فهم گفتار عام زبان فارسی است. در استفاده از اینگونه سرویسها، همان طور که قبلا به آن اشاره کردیم، عدم فهم مناسب کلمات یا واژههای تخصصی و یا جملات و واژههایی است که به گفتار عام راهی ندارند. سرویس فارس آوا دارای دیتاستی است که توسط متخصصان هوش مصنوعی داخلی و با بیش از ۱۰ هزار ساعت داده جمع آوری شده است. بدین ترتیب ناگفته پیدا است که تمرکز اصلی فارس آوا بر روی فهم کامل گفتار عام و خاص زبان فارسی و متناسب با نیازهای کاربر فارسی زبان است. مسئلهی دیگری نیز که باید مورد توجه قرار بگیرد آن است که در آیندهای نزدیک نسخه فارس آوا مخصوص به مشاغل خاصی مانند وکلا نیز به بازار عرضه خواهد شد تا کاربرانی که در مشاغلشان از عبارتهای بخصوص استفاده میکنند بتوانند از آن بهره ببرند.
فهم لهجههای مختلف در زبان فارسی
همان طور که گفته شد تمرکز اصلی فارس آوا و هدف آن بر روی نیازهای کاربر فارسی زبان و رفع نیازهای او است. لذا یکی از قابلیتهای کاربردی فارس آوا توانایی تشخیص گفتار زبان فارسی در حالتی است که کاربر دارای لهجه میباشد. این قابلیت به تمام کاربران کمک میکند تا گفتار دارای هر گونه لهجه در زبان فارسی را به نوشتار تبدیل کند. البته در حال حاضر این قابلیت رو به بهبود و در آیندهای نزدیک لهجههای بیشتری نیز به آن اضافه خواهد شد.
نسخه دسکتاپ، اندروید و وب
یکی از مواردی که در بالاتر نیز به آن اشاره شد قابلیت استفاده از نسخههای مختلف فارس آوا بر روی دستگاههای متفاوت است. فارس آوا دارای نسخههای وب، دسکتاپ و اندروید است که به کاربران این قابلیت را میدهد تا بر روی دستگاههای مختلف بتوانند از فارس آوا استفاده کنند. هر کدام از این نسخهها نیز دارای رابط کاربری بسیاری راحتی است که تمامی اقشار مختلف جامعه، با هر سطح از سواد کامپیوتری و نرمافزاری، میتوانند به راحتی از آن استفاده کنند. به این ترتیب هر کاربری که به سرویس تبدیل گفتار به متن در زبان فارسی نیاز داشته باشد، میتواند به راحتی به سراغ محصول فارس آوا برود.
تبدیل متن به صوت و استخراج کلمات کلیدی، محصولات جانبی فارس آوا
یکی دیگر از نکات کلیدی سرویس فارس آوا، محصولات جانبی آن است که میتوانند برای کاربران بسیار کاربردی باشند. فارس آوا علاوه بر محصول تبدیل گفتار به نوشتار، دارای دو محصول جانبی استخراج کلمات کلیدی (KWS) و تبدیل متن به گفتار (TTS) میباشد. این دو محصول در کنار محصول اصلی، یعنی همان تبدیل گفتار به نوشتار در زبان فارسی، میتوانند بسیاری از نیازهای کاربر فارسی زبان را در سطوح مختلف برآورده کنند.
چنانچه کاربری هستید که به محصول تبدیل گفتار به نوشتار نیاز دارید و یا مدیری هستید که میخواهید از مزایای این سرویس در کسب و کارتان بهره ببرید، میتوانید به صفحه دمو محصولات عامر اندیش هوشمند مراجعه کرده تا با هر محصول بیشتر آشنا شوید.
فارسآوا، نرم افزار تبدیل گفتار به متن در زبان فارسی است که امکان ارتباط کلامی انسان با کامپیوتر و یا موبایل را فراهم میکند. این نرم افزار با تکیه بر دانش متخصصان هوش مصنوعی ایرانی و با بهرهگیری از آخرین تکنولوژیهای روز دنیا تولید شده است و به دلیل جمعآوری بزرگترین دیتاست موجود در زبان فارسی و تمرکز ویژه روی این زبان، ضمن بهرهمندی از تنوع گفتاری بسیار وسیع موفق شده است تا در رقابت با شرکتهای بزرگی چون گوگل دارای ضریب دقت بالایی باشد. فارسآوا دارای دو محصول جانبی به نامهای تبدیل متن به گفتار (TTS) و استخراج کلمات کلیدی(KWS) نیز میباشد.
این سرویس قادر است تا متن های دادهشده را دریافت و پس از دریافت، آن را به شکل صوت تبدیل به گفتار نماید. در جدید ترین نسخه این موتور، نوع گفتار پخششده بسیار نزدیک به گفتار یک انسان واقعی میباشد.
Keyword spotting قادر است تا فایلهای صوتی را با دقت بیشتری(۲۰%) نسبت به تبدیل گفتار به متن، فهمیده و کلمات کلیدی در یک فایل را تشخیص داده و آن ها را استخراج کند. زمانی که برای تحلیل و تشخیص موارد مهم احتیاج به این است تا بتوان بدون گوشکردن کامل فایل صوتی متوجه شد که یک کلمه خاص مثل نام یک محصول در آن استفاده شده است یا خیر، سرویس KWS قادر است تا حتی زمان استفاده از آن کلید واژه را به تفکیک مشخص نماید.
• تبدیل گفتار به متن فارسی با دقت و سرعت بالا • بهرهمندی از آخرین تکنولوژیهای یادگیری عمیق • تبدیل گفتار به متن بصورت همزمان (Real-Time) • تشخیص گفتار و صوت در محیطهای نویزی • پشتیبانی از انواع لهجهها و گویشها • قابلیت تبدیل گفتار محاورهای به متن • پشتیبانی از انواع فرمتهای صوتی و ویدیویی • تبدیل گفتار انگلیسی به متن انگلیسی • غیر وابسته به گوینده و عدم نیاز به آموزش برای هر فرد • توسعه و تولید بصورت کاملاً بومی در داخل کشور • ارائه API و SDK تبدیل گفتار به متن در قالب وبسرویس • ارائه پنل تحت وب برای بارگزاری فایلها جهت پردازش • قابل نصب روی سرور مشتری و عدم نیاز اتصال به اینترنت • بهرهمندی از دایره واژگان (فرهنگ لغت) بسیار وسیع
• امکان استفاده در تمامی سیستمهای عامل (Android, IOS, Mac, Windows, Linux) • امکان استفاده برای تمامی برنامههای تحت موبایل (تمامی پلتفرمها) • امکان استفاده در برنامههایی از قبیل دستیارهای شخصی هوشمند در موبایل • امکان استفادههای عمومی از قبیل : تایپ گفتاری و اجرای دستورات صوتی • امکان سفارشیسازی برای تشخیص دستورات خاص صوتی • امکان سفارشیسازی برای کاربردهای خاص و افزایش دقت • پردازش دادههای حجیم گفتاری