هرکسی که تاکنون به یک کنسرت موسیقی رفته میداند که یک اتفاق جادویی بین مجریان و سازهای آنها رخ میدهد و این اتفاق موسیقی را از نتهای نوشته شدهی موجود در یک صفحهی کاغذی به یک تجربه راضی کننده تبدیل میکند. یک تیم در دانشگاه واشنگتن این ایده را بررسی کرد که آیا هوش مصنوعی میتواند این لذت را فقط با استفاده از نشانههای تصویری موجود در یک فیلم بی صدا از کسی که پیانو مینوازد مجددا ایجاد کند یا خیر. محققان از یادگیری ماشین برای ایجاد سیستمی به نام Audeo استفاده کردند که میتواند صدا را از اجراهای بیصدای پیانو فرا بگیرد.
محققان Audeo را در 8 دسامبر در کنفرانس NeurIPS 2020 ارائه دادند. الی شلیذرمن، نویسنده ارشد این مقاله و استادیار ریاضیات کاربردی، مهندسی برق و کامپیوتر گفت: “ایجاد یک موسیقی به گونهای که به نظر برسد از یک اجرای موسیقی زنده پخش میشود قبلاً غیرممکن بود. برای این کار یک الگوریتم باید نشانهها یا ویژگیها را در فریمهای ویدئویی مربوط به موسیقی بفهمد و باید صدایی که در بین فریمهای ویدئو اتفاق میافتد را تصور کند.” شلیذرمن ادامه میدهد: “این کار به یک سیستم نیاز دارد که هم دقیق و هم تخیلی باشد. اما این واقعیت که ما به موسیقی خوبی دست یافتیم بسیار تعجبآور بود.”
Audeo از یک سری مراحل برای رمزگشایی آنچه در ویدیوها اتفاق میافتد و سپس ترجمه آن به موسیقی استفاده میکند. ابتدا باید مشخص شود که کدام کلیدها در هر قاب از فیلم فشرده میشوند تا با گذشت زمان نمودار آنها ایجاد شود. سپس لازم است که سیستم آن نمودار را به چیزی تبدیل کند که توسط آن یک ترکیب کننده موسیقی، صدایی را که پیانو ایجاد میکند تشخیص دهد. مرحله دوم دادهها و اطلاعات بیشتری را به شما اضافه میکند، از جمله اینکه هر کلید با چه شدتی و برای چه مدت تحت فشار قرار میگیرد.
شلیذرمن گفت: “اگر بخواهیم موسیقی را فقط از مرحله اول تركیب كنیم متوجه میشویم كه کیفیت موسیقی نامطلوب است. مرحله دوم مانند زمانی است که معلمی از موسیقی یک آهنگساز معروف استفاده میکند و از آن برای پیشرفت دانش آموزان استفاده میکند.”
محققان این سیستم را با استفاده از فیلمهای یوتیوب پل بارتون پیانیست معروف آموزش داده و آزمایش کردند. این آموزش شامل حدود 172000 فریم ویدئویی از بارتون بود که موسیقی آهنگسازان مشهور کلاسیک مانند باخ و موتزارت را پخش میکرد. سپس آنها Audeo را با تقریباً 19000 فریم از بارتون که موسیقی متفاوتی از این آهنگسازان و دیگران مانند اسکات جاپلین را مینواخت آزمایش کردند. هنگامی که Audeo متن موسیقی را تولید کرد، وقت آن است که آن را به یک سینتی سایزر بدهیم که بتواند آن را به صدا تبدیل کند. هر سینتی سایزر موسیقی را کمی متفاوت میکند. این شبیه تغییر تنظیم ساز در صفحه کلید برقی است. برای این مطالعه، محققان از دو ترکیبکننده مختلف استفاده کردند.
سینتی سایزر ابزاری الکترونیکی است که قادر به تولید انواع مختلف صدا و ترکیب سیگنالهای با فرکانس متفاوت است. سینثسایزر به جای تولید صدای مستقیم طبیعی سیگنالهای الکتریکی میسازد که میتواند متعاقباً از داخل بلندگو یا هدفون پخش شود.
شلیذرمن گفت: “سینت سایزر Fluidsynth صداهایی ازپیانو را تولید میكند كه ما با آنها آشنا هستیم. ما همچنین از سیستم PerfNet ، سینتی سایزر جدید بر پایه هوش مصنوعی که موسیقی غنی تر و رسا تری تولید میکند استفاده کردیم. اما این سینتی سایزر سر و صدای بیشتری تولید میکرد.” Audeo فقط روی فیلمهای پیانوی پل بارتون آموزش دیده و آزمایش شده است. شلیذرمن گفت: “تحقیقات بیشتری در آینده لازم است تا ببینیم Audeo چقدر میتواند موسیقی را از سایر نوازندهها رونویسی کند.”
شلیذرمن میگوید: “هدف از این مطالعه این بود كه ببینیم آیا هوش مصنوعی میتواند همان موسیقی را كه توسط پیانیست در ضبط ویدیویی پخش میشود تولید كند یا خیر و ما هرگز قصد نداشتیم پل بارتون را به وسیله چنین شخصیت مجازی همانند سازی كنیم.” امیدواریم که مطالعه ما روشهای جدیدی را برای تعامل با موسیقی فراهم کند. به عنوان مثال، یکی از برنامههای آینده این است که Audeo را به یک پیانوی مجازی با دوربین ضبط شده که به دستان یک شخص نگاه میکند گسترش دهیم. Audeo میتواند به طور بالقوه در روشهای جدید آموزش پیانو به شیوه بازی به دانش آموزان کمک کند.
از دیگر نویسندگان مشترک این مقاله میتوان به کان سو و شیولونگ لیو، دانشجوی دکترا در رشتههای برق و مهندسی کامپیوتر اشاره کرد. همچنین گفتنیست بودجه این تحقیقات توسط صندوق نوآوری بنیاد تحقیقات و ریاضیات کاربردی واشنگتن و بخش مهندسی برق و کامپیوتر تأمین شده است.