سه شنبه , ۲۳ اردیبهشت ۱۴۰۴
openAI pattern 03 660x330 - وقتی برند OpenAI خودش را غافلگیر می‌کند؛ مدل‌های جدید هوش مصنوعی با توهمات غیرمنتظره

وقتی برند OpenAI خودش را غافلگیر می‌کند؛ مدل‌های جدید هوش مصنوعی با توهمات غیرمنتظره

برند OpenAI با عرضه مدل‌های تازه هوش مصنوعی، نه تنها بازار فناوری را هیجان‌زده کرده، بلکه با افزایش توهمات و پاسخ‌های عجیب، خودِ این برند مطرح را نیز شگفت‌زده و با چالشی تازه روبه‌رو ساخته است. آیا این بار، برند OpenAI مسیر پیشرفت را به سمت ناشناخته‌ها برده است؟

به گزارش دنیای برند، مدل‌های هوش مصنوعی تازه معرفی‌شده برند OpenAI با نام‌های o3 و o4-mini، اگرچه از نظر فناوری پیشرفته و مدرن به شمار می‌روند، اما دچار ضعف مهمی شده‌اند: این مدل‌های جدید نسبت به مدل‌های قبلی برند OpenAI، بیشتر دچار توهم یا جعل واقعیت می‌شوند.

توهمات، یکی از چالش‌برانگیزترین و سخت‌ترین مشکلات برای حل در حوزه هوش مصنوعی باقی مانده‌اند و حتی بهترین سامانه‌های امروزی نیز با این معضل روبرو هستند. در گذشته، هر نسل جدید از مدل‌ها معمولاً پیشرفت‌هایی در کاهش دادن توهم نشان می‌داد، اما این روند با مدل‌های o3 و o4-mini صادق نیست.

بر اساس آزمایش‌های داخلی برند OpenAI، مدل‌های o3 و o4-mini که به عنوان مدل‌های «استدلالی» شناخته می‌شوند، بیشتر از مدل‌های قبلی استدلالی این برند (از جمله o1، o1-mini و o3-mini) و حتی مدل‌های سنتی‌تر مانند GPT-4o که استدلالی نیستند، دچار توهم می‌شوند و اطلاعات نادرست تولید می‌کنند.

نکته نگران‌کننده‌تر آن است که تولیدکننده برند OpenAI هنوز نمی‌داند دلیل دقیق این افزایش توهمات چیست. در گزارش فنی مربوط به این مدل‌ها، OpenAI تاکید کرده که «به تحقیقات بیشتری نیاز است» تا روشن شود چرا با افزایش مقیاس مدل‌های استدلالی، میزان توهم نیز بیشتر می‌شود. هرچند مدل‌های o3 و o4-mini در برخی حوزه‌ها مانند برنامه‌نویسی و ریاضیات عملکرد بهتری دارند، اما به دلیل اینکه غالباً تعداد ادعاهای بیشتری مطرح می‌کنند، دچار ادعاهای دقیق‌تر و همچنین ادعاهای اشتباه‌تر و توهم‌گونه بیشتری نیز می‌شوند.

برند OpenAI در آزمایشی با استفاده از شاخص داخلی PersonQA که برای سنجش دقت دانش مدل درباره افراد طراحی شده، دریافت که مدل o3 در ۳۳ درصد سوالات دچار توهم شده است؛ رقمی که تقریباً دو برابر نرخ توهم مدل‌های قبلی همچون o1 و o3-mini با نرخ‌های ۱۶ و ۱۴.۸ درصد است. حتی مدل o4-mini عملکرد ضعیف‌تری داشت و در ۴۸ درصد مواقع دچار توهم‌سازی شد.

نتایج آزمایش‌های مستقل آزمایشگاه غیرانتفاعی Transluce نیز این یافته‌ها را تائید می‌کند. به عنوان نمونه، Transluce مشاهده کرد که مدل o3 ادعا کرده فرآیند اجرای یک قطعه کد را «خارج از ChatGPT» روی یک مک‌بوک پرو ۲۰۲۱ انجام داده و خروجی را در پاسخ خود کپی کرده است، در حالی که این قابلیت واقعاً برای مدل وجود ندارد.

نیل چودری، پژوهشگر Transluce و کارمند سابق OpenAI، گفت: «فرضیه ما این است که نوع یادگیری تقویتی (reinforcement learning) مورداستفاده برای مدل‌های سری o ممکن است خطاهایی را تقویت کند که در فرآیندهای معمول پسافراگیری تا حدی رفع می‌شوند، اما به طور کامل از بین نمی‌روند.»

سارا شوتمن، هم‌بنیان‌گذار Transluce، نیز افزود: نرخ بالای توهم مدل o3 باعث می‌شود این مدل کاربرد کمتری نسبت به انتظار داشته باشد.

کیان کتان‌فروش، استاد دانشگاه استنفورد و مدیرعامل استارتاپ Workera، به TechCrunch گفت تیم او هم‌اکنون مدل o3 را در فرآیندهای کدنویسی خود آزمایش می‌کند و گرچه این مدل نسبت به رقبا برتری دارد، اما گاهی مرتکب اشتباهاتی همچون ارائه لینک‌های وب معیوب می‌شود؛ یعنی مدل لینکی ارائه می‌کند که هنگام کلیک عمل نمی‌کند.

اگرچه توهمات گاهی باعث ارائه ایده‌های جالب و نوآورانه می‌شوند، اما وجود چنین خطاهایی در کاربردهای حساس، به‌ویژه بازارهایی که صحت اطلاعات اهمیت بالایی دارد، آسیب‌زا است. برای مثال، یک شرکت حقوقی از مدلی که اطلاعات نادرست وارد قراردادها کند، رضایتی نخواهد داشت.

یکی از رویکردهای امیدوارکننده برای افزایش دقت مدل‌ها، مجهز کردن آن‌ها به قابلیت جست‌وجوی وب است. مدل GPT-4o برند OpenAI با وجود قابلیت جست‌وجو در وب، به دقت ۹۰ درصدی در شاخص SimpleQA، یکی از مبناهای سنجش دقت، دست یافته است. بنابراین جست‌وجوی وب می‌تواند نرخ توهم را در مدل‌های استدلالی نیز کاهش دهد؛ به شرط آنکه کاربر مشکلی با ارسال درخواست به موتورهای جست‌وجوی ثالث نداشته باشد.

اگر روند فعلی گسترش مقیاس مدل‌های استدلالی همراه با افزایش توهم‌سازی باشد، این موضوع یافتن راهکاری مؤثر را بیش از پیش ضروری می‌کند.

نیکو فلیکس، سخنگوی برند OpenAI گفت: «رفع مشکل توهم در تمام مدل‌های برند ما یکی از حوزه‌های فعال پژوهش است و تیم ما به‌طور مداوم برای بهبود دقت و قابلیت اطمینان مدل‌ها تلاش می‌کند.»

به گزارش تک‌کرانچ، در سال گذشته، صنعت هوش مصنوعی به سمت تمرکز روی مدل‌های استدلالی حرکت کرده، چرا که این مدل‌ها عملکرد بهتری در طیف وسیعی از وظایف داشته و به منابع کمتر برای آموزش نیاز دارند. با این حال، به نظر می‌رسد این روند باعث افزایش نرخ توهم نیز شده و چالشی جدی برای برندها ایجاد کرده است.

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *