شرکت OpenAl با رونمایی از GPT-4o ثابت کرد که یکی از شرکتهای تاثیرگذار در حوزهی عرضهی هوش مصنوعی خلاقانه است. اساس موفقیت و محبوبیت این شرکت مدلهای LLM از جمله GPT 3 و GPT 4 هستند.
GPT-4o چیست؟ GPT-4o یا OpenAI GPT 4 Omni یک مدل زبان چندوجهی (multimodal language model) و پرچمدار جدید این شرکت است که در 13 می 2024 معرفی شد. در کنار این رویداد شرکت OpenAl ویدئوهای مختلفی منتشر کرد که عملکرد جذاب و منحصر بفرد صوتی و بصری این مدل را نشان میداد. هدف ما در این مطلب توضیح عملکرد و کارایی این نسخه است.
در این مطلب میخوانید:
- معرفی ورژن جدید GPT-4o: چت جی پی تی 4o چیست؟
- ویژگیها و قابلیتهای مدل GPT-4o
- درک احساسات کاربر توسط GPT-4o
- استفاده از ویدئو و اسکرین شات
- زمان انتشار GPT-4o
- نحوه دسترسی به چت جی پی تی 4o
- دریافت API
معرفی ورژن جدید GPT-4o: چت جی پی تی 4o چیست؟
اگر فیلم Her با صدای اسکارلت جوهانسن و بازی واکین فینیکس را دیده باشید، درک کارایی و نقش GPT-4o برایتان سخت نیست(معرفی 10 فیلم هوش مصنوعی که نباید از دست بدهید). جدیدترین نسخه ChatGPT روز دوشنبه 13 می 2024 معرفی شد که از نسخهی قبلی هوشمندتر و پرسرعتتر است. طبق رونمایی gpt-4o، مشخص شد که این ورژن میتواند همچون یک دستیار شخصی دیجیتال به مردم کمک کند و به صورت بلادرنگ به گفتگو بپردازد. شما به عنوان یک کاربر میتوانید برای این نسخه عکس و فایل ارسال کنید تا بر اساس آن به شما جواب دهد. ورژن GPT-4o قابلیت درس گرفتن یا اصطلاحا «تجربه کسب کردن» دارد. این نسخه میتواند به صورت گفتگو محور با صدایی شبیه به انسان و تُنهای مختلف (ناراحت، خوشحال، هیجان زده) به سوالات جواب داده یا نسبت به یک موضوع خاص ری اکشن نشان دهد.
ویژگیها و قابلیتهای مدل GPT-4o
- پرسش و پاسخ: GPT-4o مانند مدل قبلی با یک «پایگاه دانش» آموزش دیده است که میتواند اطلاعات را با کسب تجربه به روز رسانی کرده و به سوالات کاربران پاسخ دهد.
- تولید متن: وظایف رایج LLM از جمله تولید متن و خلاصه سازی را به خوبی انجام میدهد.
- استدلال چندوجهی: GPT-4o میتواند مانند انسان به طور همزمان متن، تصویر و صدا را دریافت کرده و نسبت به آنها پاسخ تولید کند.
- پردازش زبان: این مدل دارای قابلیت درک بیش از 50 زبان مختلف میباشد.
- تحلیل احساسات: حس و شرایط مختلف کاربران را از طریق متن، صدا و ویدئو درک میکند. همچنین میتواند به عنوان یک دستیار صوتی براساس شرایط و احساسات کنونی کاربر به وی واکنش نشان دهد که آن را (همچون یک مدل انسانی) نسبت به گذشته قدرتمندتر و باور پذیرتر میکند.
- تحلیل متون صوتی: این قابلیت در سیستمهای فعال صوتی، آنالیز محتوای صوتی، تبدیل صوت به متن و داستان سرایی کاربرد دارد.
- ترجمه بلادرنگ: این مدل میتواند به صورت آنی و در لحظه با چند نفر با زبانهای مختلف صحبت کند و در صورت لزوم جملات آنها را برای یکدیگر ترجمه نماید.
- درک تصاویر: GPT-4o میتواند تصاویر و ویدئوها را آنالیز کرده و بر اساس نیاز کاربران به آنها پاسخ دهد.
- تحلیل داده: کاربران میتوانند برای GPT-4o نمودارهای دادههایشان را ارسال کنند. سپس این مدل هوشمند به آنها بینشهای منحصر بفرد ارائه میدهد.
- کاهش خطا: GPT-4o از طریق پروتکلهای ایمنی پیشرفته، طوری طراحی شده که کمترین اشتباه را داشته باشد و اطلاعات گمراه کننده به کاربران ندهد.
درک احساسات کاربر توسط GPT-4o
جدیدترین نسخه ChatGPT میتواند از طریق ورودی بصری و صوتی، حالات چهره افراد را تشخیص داده و احساسات آنان را درک کند.
ابروی درهم برای او نشان دهندهی «سردرگمی» است، در حالی که یک لبخند پهن نشانگر «شادی» و «خوشحالی» میباشد. به یاد داشته باشید که این مدل همچنان در حال یادگیری و توسعه است. این ورژن از نظر تفسیر احساسات انسانی همچون «کنایه» و «نشانههای غیر کلامی» دچار اشتباه میشود. همچنین صدای بلند را به اشتباه به عنوان «عصبانیت» تفسیر میکند، در حالی که گاهی بلند بودنِ صدا از روی «هیجان» رخ میدهد.
استفاده از ویدئو و اسکرین شات
شما میتوانید برای GPT-4o اسکرین شات و تصویر ارسال کرده و سپس طبق آن درخواست خود را مطرح کنید. اگر به ترجمهی یک منو از یک app نیاز دارید میتوانید از آن اسکرین شات گرفته و از چت جی پی تی بخواهید عملکرد آن را برایتان شرح دهد. عکس یک غذا را میتوانید برای آن ارسال کنید تا در مورد تاریخچه، ترکیبات و طعم آن به شما توضیحات ارائه کند. در ویدئوهای منتشر شده در مورد کارایی این ورژن توضیح داده شد که چت جی پی تی جدید میتواند به افراد نابینا و کم بینا برای انجام امور روزانه همچون یک دستیار کمک کند. در آینده پیشرفت قابل توجهی در این نسخه پدید خواهد آمد. شما به عنوان کاربر میتوانید دوربین گوشی خود را روشن کرده و یک مسابقه ورزشی را به آن نشان دهید. چت جی پی تی میتواند بنا به میل شما قوانین آن بازی و اتفاقاتی که در حال وقوع هستند را شرح دهد.
زمان انتشار GPT-4o
نسخه GPT-4o هم اکنون در دسترس عموم است، با این حال برای کاربرانی که از نسخه رایگان استفاده میکنند، هنوز کل ویژگیها در دسترس قرار نگرفتهاند. به گفتهی سم آلتمن (مدیر عامل) این ویژگیها قرار است در آینده نزدیک در دسترس عموم قرار بگیرند.
نحوه دسترسی به چت جی پی تی 4o
- ChatGPT رایگان: با ساخت حساب کاربری (در موبایل یا سیستم) به راحتی میتوانید به این نسخه دسترسی پیدا کنید. با پلن رایگان، اجازهی آپلود فایل برای آنالیز دادهها یا برقراری ارتباط بصری را نخواهید داشت.
- ChatGPT پلاس: برای کاربران سرویس پولی است که بدون محدودیت به قابلیتهای GPT-4o دسترسی دارند.
- برنامههای دسکتاپ: شرکت OpenAl قابلیت استفاده از GPT-4o را با برنامههای دسکتاپ از جمله MacOS (که در 13 می) راه اندازی شد ارائه کرده است.
- ChatGPT سفارشی: برخی از سازمانها میتوانند نسخههای سفارشی سازی شده GPT-4o را متناسب با نیازهای تجاری خود از طریق OpenAI’s GPT Store خریداری کنند.
- سرویس مایکروسافت OpenAl: قابلیتهای GPT-4o در preview mode که به طور خاص برای مدیریت ورودیهای چندوجهی (متن و تصویر) طراحی شده است در دسترس کاربران مایکروسافت میباشد. این نسخه ابتدایی به کاربران Azure OpenAI اجازه میدهد عملکردهای این ورژن را در یک محیط کنترل شده تست کنند.
- دریافت API: توسعه دهندگان میتوانند از طریق API OpenAI به GPT-4o دسترسی داشته و آن را با برنامههای خود (برای هوشمند سازی) ادغام کنند.
نحوهی دریافت API از OpenAl
اگر برای کار با ورژن GPT-4o به آموزش گرفتن کلید API نیاز دارید، باید مراحلی که در ادامه شرح داده شدهاند را طی کنید.
- به وب سایت رسمی OpenAl مراجعه کنید. اگر حساب کاربری ندارید در آن یک اکانت بسازید و وارد شوید. پس از ورود به بخش API Keys بروید. این بخش در منوی کاربر یا مستقیما در صفحه اصلی سایت قرار دارد.
- نامی برای کلید خود انتخاب کرده و روی دکمهی Create new secret key کلیک کنید.
- باید API خود را خصوصی نگه دارید و آن را به صورت عمومی به اشتراک نگذارید.
- OpenAI یک مدل پرداخت به ازای استفاده از سرویسهای API خود ارائه کرده است. بنابراین باید یک روش پرداخت را انتخاب کنید؛ در غیر این صورت کلید API شما غیرفعال خواهد شد. برای پیکربندی صورتحساب، گزینهی «Billing» را از منوی سمت یافته، روی آن کلیک کرده و سپس «Add payment details» را انتخاب کنید.
- یک پنجره پاپ آپ ظاهر میشود که از شما میخواهد نوع کاربری خود را تعیین نمایید. هر گزینهای که برای شما مناسب است را انتخاب کنید. سپس باید اطلاعات پرداختتان را وارد کنید.
- در صفحه بعدی (عکس زیر)، چند گزینه پیکربندی برای پرداخت مشاهده خواهید کرد. معنای هرکدام به شرح زیر میباشد:
A. مبلغی بین 5 تا 100 دلار برای اضافه کردن اعتبار اولیه به حساب تان وارد کنید.
B. اگر نمیخواهید هر بار که اعتبارتان تمام میشود هزینه پرداخت کنید، میتوانید در اینجا قابلیت شارژ خودکار را فعال کنید. تغییر دادن این گزینه به شما امکان میدهد گزینههای C (حداقل موجودی) و D (کل موجودی برای شارژ مجدد) را انتخاب کنید. در نهایت روی دکمه “Confirm payment” کلیک کنید.
جمع بندی
ورژن جدید GPT-4o به عنوان یک گام بزرگ، مهم و رو به جلو در حوزهی هوش مصنوعی برای تشخیص احساسات افراد و کمک به آنها جهت رفع نیازهایشان به شمار میآید. این نسخه هنوز کامل نیست و نیاز به توسعه دارد، با این حال نشانگر چگونگی تغییر ارتباطات انسانی و درک دقیقتر این حوزه از نیازهای مردم در کل کرهی زمین است.
در انتها پیشنهاد میکنیم در صورتی که جهت ارائه خدمات هوشمندانه برای مدیریت نیازهای انبوهی از مشتریان به دستیار هوش مصنوعی نیاز دارید از صفحات مرکز تماس هوشمند و چت بات باتاوا در سایت ما حتما دیدن کنید.