برند متا و مدل هوش مصنوعی Maverick؛ آیا بنچمارک‌ها اطلاعات گمراه‌کننده ارائه می‌دهند؟

برند متا با معرفی مدل Maverick و انجام آزمون‌های بنچمارک متفاوت بر نسخه‌های مختلف این مدل، توسعه‌دهندگان را با چالش پیش‌بینی عملکرد در موقعیت‌های واقعی روبه‌رو کرده است.

به گزارش دنیای برند، یکی از مدل‌های شاخص و پیشرفته هوش مصنوعی که برند متا روز شنبه عرضه کرد، با نام Maverick، در رتبه دوم پلتفرم LM Arena قرار گرفته است. این پلتفرم با استفاده از ارزیاب‌های انسانی، خروجی مدل‌ها را مقایسه کرده و برتری یکی را تعیین می‌کند. اما به نظر می‌رسد نسخه‌ای از مدل Maverick که متا برای LM Arena استفاده کرده است، با نسخه‌ای که برای توسعه‌دهندگان ارائه شده، تفاوت‌هایی دارد.

همان‌طور که برخی محققان هوش مصنوعی در پلتفرم X (توییتر سابق) اشاره کرده‌اند، متا در اطلاعیه خود اشاره کرده که نسخه مورد استفاده در LM Arena نوعی “نسخه آزمایشیِ چت” از مدل Maverick بوده است. همچنین نموداری در وب‌سایت رسمی Llama نشان می‌دهد که آزمایش متا در LM Arena با نسخه‌ای انجام شده که به‌طور خاص برای مکالمه بهینه‌سازی شده است، با عنوان “Llama 4 Maverick optimized for conversationality”.

در گذشته نیز به این موضوع اشاره شده که پلتفرم LM Arena هرگز معیار بسیار قابل‌اتکایی برای عملکرد مدل‌های هوش مصنوعی نبوده است. با این حال، شرکت‌های هوش مصنوعی عموماً مدل‌های خود را برای بهبود عملکرد در LM Arena سفارشی یا تنظیم نمی‌کنند — یا حداقل به طور رسمی چنین چیزی را اعلام نکرده‌اند.

چالش و نقدهای واردشده

مشکل اصلی اینجاست که اگر مدلی را برای یک آزمایش خاص تنظیم کنیم، ولی نسخه واقعی را بدون این تنظیمات ارائه دهیم، این اقدام باعث می‌شود پیش‌بینی عملکرد مدل در موقعیت‌های مختلف برای توسعه‌دهندگان سخت شود. چنین رویکردی گمراه‌کننده است. به‌صورت ایده‌آل، بنچمارک‌ها، هرچند ناکافی، باید تصویری دقیق از نقاط قوت و ضعف یک مدل در طیف گسترده‌ای از وظایف ارائه دهند.

به گزارش تک‌کرانچ، محققان در پلتفرم X، تفاوت‌های قابل‌توجهی در رفتار نسخه عمومی Maverick (نسخه قابل دانلود) و نسخه‌ای که در پلتفرم LM Arena میزبانی شده است، مشاهده شده است. نسخه تست‌شده در LM Arena به طور فراوان از ایموجی‌ها استفاده می‌کند و پاسخ‌هایی به شدت طولانی ارائه می‌دهد، در حالی که نسخه عمومی این رفتارها را نشان نمی‌دهد.

پایگاه خبری دنیای برند جامعه خبری و اطلاع رسانی برندها

برند ایران در پکن درخشید؛ پاویون ایران بهترین برند نمایشگاه خدمات چین شد

بحران جایگاه فرهنگی برای برند متا؛ چالش‌های فیسبوک و ایده‌های جنجالی زاکربرگ

برندهای کره‌ای در قلب آمریکا؛ هیوندای و پوسکو کارخانه عظیم فولاد می‌سازند

نشست سرنوشت‌ساز «تجارت الکترونیک پارسیان»؛ سهامداران آماده تصمیم‌های کلیدی!

مازندران؛ برند میراث جهانی ایران با چهار اثر ثبت‌شده و کندلوس در مسیر جهانی شدن

چرا مبلمان ایرانی هنوز برند جهانی نشده؟ راز موفقیت در اصالت و خلاقیت طراحی

برند متا و مدل هوش مصنوعی Maverick؛ آیا بنچمارک‌ها اطلاعات گمراه‌کننده ارائه می‌دهند؟

چالش و نقدهای واردشده

اخبار مشابه

دیدگاهتان را بنویسید