آخرین اخبار
Screenshot 20250407 090821 Samsung Internet 660x330 - برند متا با مدل Maverick در آزمون عملکرد برتری دارد؛ اما آیا همه نسخه‌ها یکسان‌اند؟

برند متا با مدل Maverick در آزمون عملکرد برتری دارد؛ اما آیا همه نسخه‌ها یکسان‌اند؟

سؤال‌هایی مهم درباره شفافیت برند متا؛ عملکرد نسخه آزمایشی هوش مصنوعی Maverick در آزمون‌های LM Arena با نسخه عمومی تفاوت چشم‌گیری دارد. این تناقض چگونه بر اعتماد کاربران تأثیر خواهد گذاشت؟

به گزارش دنیای برند، یکی از مدل‌های هوش مصنوعی برجسته و جدید برند متا،‌ با نام Maverick که روز شنبه منتشر شده، در آزمون LM Arena رتبه دوم را کسب کرده است. این آزمون براساس ارزیابی انسانی، خروجی مدل‌ها را با یکدیگر مقایسه کرده و مدلی را که پاسخ بهتری ارائه داده است، انتخاب می‌کند. اما به نظر می‌رسد نسخه‌ای که متا برای آزمون LM Arena استفاده کرده، با نسخه‌ای که برای توسعه‌دهندگان به‌طور گسترده در دسترس قرار دارد، متفاوت است.

همان‌طور که چندین محقق هوش مصنوعی در شبکه اجتماعی X به آن اشاره کرده‌اند، متا در اعلامیه خود خاطرنشان کرده که نسخه Maverick که در آزمون LM Arena مورد استفاده قرار گرفته، یک نسخه آزمایشی چت است. همچنین، نموداری در وب‌سایت رسمی Llama نشان می‌دهد که آزمون LM Arena براساس نسخه‌ای از Llama 4 Maverick انجام شده که برای بهینه‌سازی مکالمات تنظیم شده است.

پیش از این نیز اشاره شده بود که LM Arena هرگز معیار کاملاً قابل اعتمادی برای ارزیابی عملکرد مدل‌های هوش مصنوعی نبوده است. با این حال، شرکت‌های فعال در حوزه هوش مصنوعی معمولاً مدل‌های خود را برای کسب نتیجه بهتر در این آزمون سفارشی‌سازی و بهینه‌سازی نمی‌کنند — یا حداقل چنین اقدامی را با صراحت اعلام نکرده‌اند.

مشکل اصلی زمانی بروز می‌کند که یک شرکت مدل خود را برای بنچمارک خاصی تنظیم کرده و آن را در آزمون استفاده می‌کند، اما نسخه‌ای متفاوت از همان مدل را برای عموم عرضه می‌کند. چنین رویکردی باعث می‌شود توسعه‌دهندگان در پیش‌بینی عملکرد مدل در موقعیت‌های مختلف با ابهام مواجه شوند. این وضعیت علاوه بر گمراه‌کننده بودن، از اهداف اصلی بنچمارک‌ها دور می‌کند؛ زیرا این معیارها باید یک نمای کلی از نقاط قوت و ضعف مدل در طیف وسیعی از وظایف ارائه دهند — نه فقط در یک زمینه خاص.

به گزارش تک‌کرانچ، محققان در شبکه X تفاوت‌های قابل توجهی بین رفتار نسخه Maverick قابل دانلود عمومی و نسخه‌ای که در آزمون LM Arena استفاده شده، مشاهده کرده‌اند. نسخه مورد استفاده در آزمون، پاسخ‌های بسیار طولانی و گاه بیش از حد مفصل ارائه می‌دهد و حتی از تعداد قابل توجهی ایموجی بهره می‌گیرد.

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *