برند OpenAI با عرضه مدلهای تازه هوش مصنوعی، نه تنها بازار فناوری را هیجانزده کرده، بلکه با افزایش توهمات و پاسخهای عجیب، خودِ این برند مطرح را نیز شگفتزده و با چالشی تازه روبهرو ساخته است. آیا این بار، برند OpenAI مسیر پیشرفت را به سمت ناشناختهها برده است؟
به گزارش دنیای برند، مدلهای هوش مصنوعی تازه معرفیشده برند OpenAI با نامهای o3 و o4-mini، اگرچه از نظر فناوری پیشرفته و مدرن به شمار میروند، اما دچار ضعف مهمی شدهاند: این مدلهای جدید نسبت به مدلهای قبلی برند OpenAI، بیشتر دچار توهم یا جعل واقعیت میشوند.
توهمات، یکی از چالشبرانگیزترین و سختترین مشکلات برای حل در حوزه هوش مصنوعی باقی ماندهاند و حتی بهترین سامانههای امروزی نیز با این معضل روبرو هستند. در گذشته، هر نسل جدید از مدلها معمولاً پیشرفتهایی در کاهش دادن توهم نشان میداد، اما این روند با مدلهای o3 و o4-mini صادق نیست.
بر اساس آزمایشهای داخلی برند OpenAI، مدلهای o3 و o4-mini که به عنوان مدلهای «استدلالی» شناخته میشوند، بیشتر از مدلهای قبلی استدلالی این برند (از جمله o1، o1-mini و o3-mini) و حتی مدلهای سنتیتر مانند GPT-4o که استدلالی نیستند، دچار توهم میشوند و اطلاعات نادرست تولید میکنند.
نکته نگرانکنندهتر آن است که تولیدکننده برند OpenAI هنوز نمیداند دلیل دقیق این افزایش توهمات چیست. در گزارش فنی مربوط به این مدلها، OpenAI تاکید کرده که «به تحقیقات بیشتری نیاز است» تا روشن شود چرا با افزایش مقیاس مدلهای استدلالی، میزان توهم نیز بیشتر میشود. هرچند مدلهای o3 و o4-mini در برخی حوزهها مانند برنامهنویسی و ریاضیات عملکرد بهتری دارند، اما به دلیل اینکه غالباً تعداد ادعاهای بیشتری مطرح میکنند، دچار ادعاهای دقیقتر و همچنین ادعاهای اشتباهتر و توهمگونه بیشتری نیز میشوند.
برند OpenAI در آزمایشی با استفاده از شاخص داخلی PersonQA که برای سنجش دقت دانش مدل درباره افراد طراحی شده، دریافت که مدل o3 در ۳۳ درصد سوالات دچار توهم شده است؛ رقمی که تقریباً دو برابر نرخ توهم مدلهای قبلی همچون o1 و o3-mini با نرخهای ۱۶ و ۱۴.۸ درصد است. حتی مدل o4-mini عملکرد ضعیفتری داشت و در ۴۸ درصد مواقع دچار توهمسازی شد.
نتایج آزمایشهای مستقل آزمایشگاه غیرانتفاعی Transluce نیز این یافتهها را تائید میکند. به عنوان نمونه، Transluce مشاهده کرد که مدل o3 ادعا کرده فرآیند اجرای یک قطعه کد را «خارج از ChatGPT» روی یک مکبوک پرو ۲۰۲۱ انجام داده و خروجی را در پاسخ خود کپی کرده است، در حالی که این قابلیت واقعاً برای مدل وجود ندارد.
نیل چودری، پژوهشگر Transluce و کارمند سابق OpenAI، گفت: «فرضیه ما این است که نوع یادگیری تقویتی (reinforcement learning) مورداستفاده برای مدلهای سری o ممکن است خطاهایی را تقویت کند که در فرآیندهای معمول پسافراگیری تا حدی رفع میشوند، اما به طور کامل از بین نمیروند.»
سارا شوتمن، همبنیانگذار Transluce، نیز افزود: نرخ بالای توهم مدل o3 باعث میشود این مدل کاربرد کمتری نسبت به انتظار داشته باشد.
کیان کتانفروش، استاد دانشگاه استنفورد و مدیرعامل استارتاپ Workera، به TechCrunch گفت تیم او هماکنون مدل o3 را در فرآیندهای کدنویسی خود آزمایش میکند و گرچه این مدل نسبت به رقبا برتری دارد، اما گاهی مرتکب اشتباهاتی همچون ارائه لینکهای وب معیوب میشود؛ یعنی مدل لینکی ارائه میکند که هنگام کلیک عمل نمیکند.
اگرچه توهمات گاهی باعث ارائه ایدههای جالب و نوآورانه میشوند، اما وجود چنین خطاهایی در کاربردهای حساس، بهویژه بازارهایی که صحت اطلاعات اهمیت بالایی دارد، آسیبزا است. برای مثال، یک شرکت حقوقی از مدلی که اطلاعات نادرست وارد قراردادها کند، رضایتی نخواهد داشت.
یکی از رویکردهای امیدوارکننده برای افزایش دقت مدلها، مجهز کردن آنها به قابلیت جستوجوی وب است. مدل GPT-4o برند OpenAI با وجود قابلیت جستوجو در وب، به دقت ۹۰ درصدی در شاخص SimpleQA، یکی از مبناهای سنجش دقت، دست یافته است. بنابراین جستوجوی وب میتواند نرخ توهم را در مدلهای استدلالی نیز کاهش دهد؛ به شرط آنکه کاربر مشکلی با ارسال درخواست به موتورهای جستوجوی ثالث نداشته باشد.
اگر روند فعلی گسترش مقیاس مدلهای استدلالی همراه با افزایش توهمسازی باشد، این موضوع یافتن راهکاری مؤثر را بیش از پیش ضروری میکند.
نیکو فلیکس، سخنگوی برند OpenAI گفت: «رفع مشکل توهم در تمام مدلهای برند ما یکی از حوزههای فعال پژوهش است و تیم ما بهطور مداوم برای بهبود دقت و قابلیت اطمینان مدلها تلاش میکند.»
به گزارش تککرانچ، در سال گذشته، صنعت هوش مصنوعی به سمت تمرکز روی مدلهای استدلالی حرکت کرده، چرا که این مدلها عملکرد بهتری در طیف وسیعی از وظایف داشته و به منابع کمتر برای آموزش نیاز دارند. با این حال، به نظر میرسد این روند باعث افزایش نرخ توهم نیز شده و چالشی جدی برای برندها ایجاد کرده است.