برند متا با معرفی مدل Maverick و انجام آزمونهای بنچمارک متفاوت بر نسخههای مختلف این مدل، توسعهدهندگان را با چالش پیشبینی عملکرد در موقعیتهای واقعی روبهرو کرده است.
به گزارش دنیای برند، یکی از مدلهای شاخص و پیشرفته هوش مصنوعی که برند متا روز شنبه عرضه کرد، با نام Maverick، در رتبه دوم پلتفرم LM Arena قرار گرفته است. این پلتفرم با استفاده از ارزیابهای انسانی، خروجی مدلها را مقایسه کرده و برتری یکی را تعیین میکند. اما به نظر میرسد نسخهای از مدل Maverick که متا برای LM Arena استفاده کرده است، با نسخهای که برای توسعهدهندگان ارائه شده، تفاوتهایی دارد.
همانطور که برخی محققان هوش مصنوعی در پلتفرم X (توییتر سابق) اشاره کردهاند، متا در اطلاعیه خود اشاره کرده که نسخه مورد استفاده در LM Arena نوعی “نسخه آزمایشیِ چت” از مدل Maverick بوده است. همچنین نموداری در وبسایت رسمی Llama نشان میدهد که آزمایش متا در LM Arena با نسخهای انجام شده که بهطور خاص برای مکالمه بهینهسازی شده است، با عنوان “Llama 4 Maverick optimized for conversationality”.
در گذشته نیز به این موضوع اشاره شده که پلتفرم LM Arena هرگز معیار بسیار قابلاتکایی برای عملکرد مدلهای هوش مصنوعی نبوده است. با این حال، شرکتهای هوش مصنوعی عموماً مدلهای خود را برای بهبود عملکرد در LM Arena سفارشی یا تنظیم نمیکنند — یا حداقل به طور رسمی چنین چیزی را اعلام نکردهاند.
چالش و نقدهای واردشده
مشکل اصلی اینجاست که اگر مدلی را برای یک آزمایش خاص تنظیم کنیم، ولی نسخه واقعی را بدون این تنظیمات ارائه دهیم، این اقدام باعث میشود پیشبینی عملکرد مدل در موقعیتهای مختلف برای توسعهدهندگان سخت شود. چنین رویکردی گمراهکننده است. بهصورت ایدهآل، بنچمارکها، هرچند ناکافی، باید تصویری دقیق از نقاط قوت و ضعف یک مدل در طیف گستردهای از وظایف ارائه دهند.
به گزارش تککرانچ، محققان در پلتفرم X، تفاوتهای قابلتوجهی در رفتار نسخه عمومی Maverick (نسخه قابل دانلود) و نسخهای که در پلتفرم LM Arena میزبانی شده است، مشاهده شده است. نسخه تستشده در LM Arena به طور فراوان از ایموجیها استفاده میکند و پاسخهایی به شدت طولانی ارائه میدهد، در حالی که نسخه عمومی این رفتارها را نشان نمیدهد.