آخرین اخبار
Meta Logo - برند متا و مدل هوش مصنوعی Maverick؛ آیا بنچمارک‌ها اطلاعات گمراه‌کننده ارائه می‌دهند؟
Meta Logo

برند متا و مدل هوش مصنوعی Maverick؛ آیا بنچمارک‌ها اطلاعات گمراه‌کننده ارائه می‌دهند؟

برند متا با معرفی مدل Maverick و انجام آزمون‌های بنچمارک متفاوت بر نسخه‌های مختلف این مدل، توسعه‌دهندگان را با چالش پیش‌بینی عملکرد در موقعیت‌های واقعی روبه‌رو کرده است.

به گزارش دنیای برند، یکی از مدل‌های شاخص و پیشرفته هوش مصنوعی که برند متا روز شنبه عرضه کرد، با نام Maverick، در رتبه دوم پلتفرم LM Arena قرار گرفته است. این پلتفرم با استفاده از ارزیاب‌های انسانی، خروجی مدل‌ها را مقایسه کرده و برتری یکی را تعیین می‌کند. اما به نظر می‌رسد نسخه‌ای از مدل Maverick که متا برای LM Arena استفاده کرده است، با نسخه‌ای که برای توسعه‌دهندگان ارائه شده، تفاوت‌هایی دارد.

همان‌طور که برخی محققان هوش مصنوعی در پلتفرم X (توییتر سابق) اشاره کرده‌اند، متا در اطلاعیه خود اشاره کرده که نسخه مورد استفاده در LM Arena نوعی “نسخه آزمایشیِ چت” از مدل Maverick بوده است. همچنین نموداری در وب‌سایت رسمی Llama نشان می‌دهد که آزمایش متا در LM Arena با نسخه‌ای انجام شده که به‌طور خاص برای مکالمه بهینه‌سازی شده است، با عنوان “Llama 4 Maverick optimized for conversationality”.

در گذشته نیز به این موضوع اشاره شده که پلتفرم LM Arena هرگز معیار بسیار قابل‌اتکایی برای عملکرد مدل‌های هوش مصنوعی نبوده است. با این حال، شرکت‌های هوش مصنوعی عموماً مدل‌های خود را برای بهبود عملکرد در LM Arena سفارشی یا تنظیم نمی‌کنند — یا حداقل به طور رسمی چنین چیزی را اعلام نکرده‌اند.

چالش و نقدهای واردشده

مشکل اصلی اینجاست که اگر مدلی را برای یک آزمایش خاص تنظیم کنیم، ولی نسخه واقعی را بدون این تنظیمات ارائه دهیم، این اقدام باعث می‌شود پیش‌بینی عملکرد مدل در موقعیت‌های مختلف برای توسعه‌دهندگان سخت شود. چنین رویکردی گمراه‌کننده است. به‌صورت ایده‌آل، بنچمارک‌ها، هرچند ناکافی، باید تصویری دقیق از نقاط قوت و ضعف یک مدل در طیف گسترده‌ای از وظایف ارائه دهند.

به گزارش تک‌کرانچ، محققان در پلتفرم X، تفاوت‌های قابل‌توجهی در رفتار نسخه عمومی Maverick (نسخه قابل دانلود) و نسخه‌ای که در پلتفرم LM Arena میزبانی شده است، مشاهده شده است. نسخه تست‌شده در LM Arena به طور فراوان از ایموجی‌ها استفاده می‌کند و پاسخ‌هایی به شدت طولانی ارائه می‌دهد، در حالی که نسخه عمومی این رفتارها را نشان نمی‌دهد.

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *