سؤالهایی مهم درباره شفافیت برند متا؛ عملکرد نسخه آزمایشی هوش مصنوعی Maverick در آزمونهای LM Arena با نسخه عمومی تفاوت چشمگیری دارد. این تناقض چگونه بر اعتماد کاربران تأثیر خواهد گذاشت؟
به گزارش دنیای برند، یکی از مدلهای هوش مصنوعی برجسته و جدید برند متا، با نام Maverick که روز شنبه منتشر شده، در آزمون LM Arena رتبه دوم را کسب کرده است. این آزمون براساس ارزیابی انسانی، خروجی مدلها را با یکدیگر مقایسه کرده و مدلی را که پاسخ بهتری ارائه داده است، انتخاب میکند. اما به نظر میرسد نسخهای که متا برای آزمون LM Arena استفاده کرده، با نسخهای که برای توسعهدهندگان بهطور گسترده در دسترس قرار دارد، متفاوت است.
همانطور که چندین محقق هوش مصنوعی در شبکه اجتماعی X به آن اشاره کردهاند، متا در اعلامیه خود خاطرنشان کرده که نسخه Maverick که در آزمون LM Arena مورد استفاده قرار گرفته، یک نسخه آزمایشی چت است. همچنین، نموداری در وبسایت رسمی Llama نشان میدهد که آزمون LM Arena براساس نسخهای از Llama 4 Maverick انجام شده که برای بهینهسازی مکالمات تنظیم شده است.
پیش از این نیز اشاره شده بود که LM Arena هرگز معیار کاملاً قابل اعتمادی برای ارزیابی عملکرد مدلهای هوش مصنوعی نبوده است. با این حال، شرکتهای فعال در حوزه هوش مصنوعی معمولاً مدلهای خود را برای کسب نتیجه بهتر در این آزمون سفارشیسازی و بهینهسازی نمیکنند — یا حداقل چنین اقدامی را با صراحت اعلام نکردهاند.
مشکل اصلی زمانی بروز میکند که یک شرکت مدل خود را برای بنچمارک خاصی تنظیم کرده و آن را در آزمون استفاده میکند، اما نسخهای متفاوت از همان مدل را برای عموم عرضه میکند. چنین رویکردی باعث میشود توسعهدهندگان در پیشبینی عملکرد مدل در موقعیتهای مختلف با ابهام مواجه شوند. این وضعیت علاوه بر گمراهکننده بودن، از اهداف اصلی بنچمارکها دور میکند؛ زیرا این معیارها باید یک نمای کلی از نقاط قوت و ضعف مدل در طیف وسیعی از وظایف ارائه دهند — نه فقط در یک زمینه خاص.
به گزارش تککرانچ، محققان در شبکه X تفاوتهای قابل توجهی بین رفتار نسخه Maverick قابل دانلود عمومی و نسخهای که در آزمون LM Arena استفاده شده، مشاهده کردهاند. نسخه مورد استفاده در آزمون، پاسخهای بسیار طولانی و گاه بیش از حد مفصل ارائه میدهد و حتی از تعداد قابل توجهی ایموجی بهره میگیرد.