ارائه سیستمی برای کپی کردن موسیقی از روی دست نوازندگان

هرکسی که تاکنون به یک کنسرت موسیقی رفته می‌داند که یک اتفاق جادویی بین مجریان و سازهای آن‌ها رخ می‌دهد و این اتفاق موسیقی را از نت‌های نوشته شده‌ی موجود در یک صفحه‌ی کاغذی به یک تجربه راضی کننده تبدیل می‌کند. یک تیم در دانشگاه واشنگتن این ایده را بررسی کرد که آیا هوش مصنوعی می‌تواند این لذت را فقط با استفاده از نشانه‌های تصویری موجود در یک فیلم بی صدا از کسی که پیانو می‌نوازد مجددا ایجاد کند یا خیر. محققان از یادگیری ماشین برای ایجاد سیستمی به نام Audeo استفاده کردند که می‌تواند صدا را از اجراهای بی‌صدای پیانو فرا بگیرد.

محققان Audeo را در 8 دسامبر در کنفرانس NeurIPS 2020 ارائه دادند. الی شلیذرمن، نویسنده ارشد این مقاله و استادیار ریاضیات کاربردی، مهندسی برق و کامپیوتر گفت: “ایجاد یک موسیقی به گونه‌ای که به نظر برسد از یک اجرای موسیقی زنده پخش می‌شود قبلاً غیرممکن بود. برای این کار یک الگوریتم باید نشانه‌ها یا ویژگی‌ها را در فریم‌های ویدئویی مربوط به موسیقی بفهمد و باید صدایی که در بین فریم‌های ویدئو اتفاق می‌افتد را تصور کند.” شلیذرمن ادامه می‌دهد: “این کار به یک سیستم نیاز دارد که هم دقیق و هم تخیلی باشد. اما این واقعیت که ما به موسیقی خوبی دست یافتیم بسیار تعجب‌آور بود.”

Audeo از یک سری مراحل برای رمزگشایی آنچه در ویدیوها اتفاق می‌افتد و سپس ترجمه آن به موسیقی استفاده می‌کند.  ابتدا باید مشخص شود که کدام کلیدها در هر قاب از فیلم فشرده می‌شوند تا با گذشت زمان نمودار آن‌ها ایجاد شود. سپس لازم است که سیستم آن نمودار را به چیزی تبدیل کند که توسط آن یک ترکیب کننده موسیقی، صدایی را که پیانو ایجاد می‌کند تشخیص دهد. مرحله دوم داده‌ها و اطلاعات بیشتری را به شما اضافه می‌کند، از جمله اینکه هر کلید با چه شدتی و برای چه مدت تحت فشار قرار می‌گیرد.

شلیذرمن گفت: “اگر بخواهیم موسیقی را فقط از مرحله اول تركیب كنیم متوجه می‌شویم كه کیفیت موسیقی نامطلوب است. مرحله دوم مانند زمانی است که معلمی از موسیقی یک آهنگساز معروف استفاده می‌کند و از آن برای پیشرفت دانش آموزان استفاده می‌کند.”

محققان این سیستم را با استفاده از فیلم‌های یوتیوب پل بارتون پیانیست معروف آموزش داده و آزمایش کردند. این آموزش شامل حدود 172000 فریم ویدئویی از بارتون بود که موسیقی آهنگسازان مشهور کلاسیک مانند باخ و موتزارت را پخش می‌کرد. سپس آنها Audeo را با تقریباً 19000 فریم از بارتون که موسیقی متفاوتی از این آهنگسازان و دیگران مانند اسکات جاپلین را می‌نواخت آزمایش کردند. هنگامی که Audeo متن موسیقی را تولید کرد، وقت آن است که آن را به یک سینتی سایزر بدهیم که بتواند آن را به صدا تبدیل کند. هر سینتی سایزر موسیقی را کمی متفاوت می‌کند. این شبیه تغییر تنظیم ساز در صفحه کلید برقی است. برای این مطالعه، محققان از دو ترکیب‌کننده مختلف استفاده کردند.

سینتی سایزر ابزاری الکترونیکی است که قادر به تولید انواع مختلف صدا و ترکیب سیگنال‌های با فرکانس متفاوت است. سینث‌سایزر به جای تولید صدای مستقیم طبیعی سیگنال‌های الکتریکی می‌سازد که می‌تواند متعاقباً از داخل بلندگو یا هدفون پخش شود.

شلیذرمن گفت: “سینت سایزر Fluidsynth صداهایی ازپیانو را تولید می‌كند كه ما با آنها آشنا هستیم. ما همچنین از سیستم PerfNet ، سینتی سایزر جدید بر پایه هوش مصنوعی که موسیقی غنی تر و رسا تری تولید می‌کند استفاده کردیم. اما این سینتی سایزر سر و صدای بیشتری تولید می‌کرد.” Audeo فقط روی فیلم‌های پیانوی پل بارتون آموزش دیده و آزمایش شده است. شلیذرمن گفت: “تحقیقات بیشتری در آینده لازم است تا ببینیم Audeo چقدر می‌تواند موسیقی را از سایر نوازنده‌ها رونویسی کند.”

شلیذرمن می‌گوید: “هدف از این مطالعه این بود كه ببینیم آیا هوش مصنوعی می‌تواند همان موسیقی را كه توسط پیانیست در ضبط ویدیویی پخش می‌شود تولید كند یا خیر و ما هرگز قصد نداشتیم پل بارتون را به وسیله چنین شخصیت مجازی همانند سازی كنیم.” امیدواریم که مطالعه ما روش‌های جدیدی را برای تعامل با موسیقی فراهم کند. به عنوان مثال، یکی از برنامه‌های آینده این است که Audeo را به یک پیانوی مجازی با دوربین ضبط شده که به دستان یک شخص نگاه می‌کند گسترش دهیم. Audeo می‌تواند به طور بالقوه در روش‌های جدید آموزش پیانو به شیوه بازی به دانش آموزان کمک کند.

از دیگر نویسندگان مشترک این مقاله می‌توان به کان سو و شیولونگ لیو، دانشجوی دکترا در رشته‌های برق و مهندسی کامپیوتر اشاره کرد. همچنین گفتنیست بودجه این تحقیقات توسط صندوق نوآوری بنیاد تحقیقات و ریاضیات کاربردی واشنگتن و بخش مهندسی برق و کامپیوتر تأمین شده است.

 

 

لینک کوتاه شده : https://amerandish.com/15zUu

به اشتراک بگذارید

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

فارس آوا

تبدیل گفتار به متن

باتاوا

دستیارسازمانی - چت بات

هوشتل

اپراتورهوشمند مرکز تماس

_ مطالب مرتبط _

تشخیص گفتار در تلفن‌های همراه
اخبار هوش مصنوعی

تشخیص گفتار در تلفن‌های همراه

تشخیص گفتار در تلفن‌های همراه : گوگل مدل جدیدی برای دستگاه‌های موبایل ایجاد کرده است. پژوهشگران گوگل یک سیستم تشخیص صوتی (voice recognition system) پیشرفته

درخواست شما با موفقیت ارسال شد.

ضمن تشکر بابت ارسال پیام، در سریع‌ترین زمان ممکن کارشناسان شرکت عامراندیش درخواست شما را بررسی خواهند نمود.