ادعای جدید «اوپنایآی» نشان میدهد که این شرکت، مدلهای هوش مصنوعی o1 و o3 را آموزش داده است تا درباره خط مشی ایمنی خود فکر کنند.
به گزارش پایگاه خبری دنیای برند به نقل از ایسنا، شرکت «اوپنایآی»(OpenAI) در روز جمعه خانواده جدیدی را از مدلهای هوش مصنوعی استدلالی معرفی کرد. این استارتآپ ادعا میکند که مدل موسوم به o3 از مدل o1 و سایر مدلهای منتشرشده، پیشرفتهتر است. به نظر میرسد این پیشرفتها از مقیاسبندی محاسبات زمان آزمایش به دست آمدهاند اما اوپنایآی میگوید از یک پارادایم جدید ایمنی برای آموزش مدلهای سری o خود استفاده کرده است.
به نقل از تککرانچ، اوپنایآی روز جمعه پژوهش جدیدی را درباره «همترازی مشورتی» منتشر کرد و آخرین راه خود را برای اطمینان از همترازی مدلهای هوش مصنوعی استدلالی با ارزشهای توسعهدهندگان انسانی آنها شرح داد. اوپنایآی از این روش استفاده کرد تا o1 و o3 را وادارد که درباره خط مشی ایمنی خود در طول استنتاج -مرحلهای که کاربر دکمه enter را فشار میدهد- فکر کنند.
پژوهش اوپنایآی نشان میدهد که این روش، همترازی کلی O1 را با اصول ایمنی شرکت بهبود بخشیده است. این بدان معناست که همترازی مشورتی، میزان پاسخ دادن به پرسشهای ناامن را -حداقل پرسشهایی که توسط اوپنایآی ناایمن تلقی میشوند- کاهش داده و در عین حال، توانایی خود را برای پاسخ دادن به پرسشهای بیخطر بهبود بخشیده است.
با افزایش محبوبیت و قدرت مدلهای هوش مصنوعی، پژوهش درباره ایمنی هوش مصنوعی بسیار مرتبط به نظر میرسد اما در عین حال، بسیار بحثبرانگیز است. «دیوید ساکس»(David Sacks) کارآفرین و سرمایهگذار شرکتهای فناوری، «ایلان ماسک»(Elon Musk) مدیرعامل شرکتهای «اسپیسایکس»(SpaceX) و «تسلا»(Tesla) و «مارک اندریسن»(Marc Andreessen) کارآفرین، سرمایهگذار و مهندس نرمافزار آمریکایی میگویند که برخی از اقدامات صورتگرفته برای ایمنی هوش مصنوعی در واقع سانسور هستند و ماهیت ذهنی این تصمیمها را برجسته میکنند.
اگرچه مجموعه مدلهای هوش مصنوعی اوپنایآی از طرز فکر انسانها پیش از پاسخ دادن به پرسشهای دشوار الهام گرفته شدهاند اما آنها واقعا مانند انسانها فکر نمیکنند. با وجود این، نمیتوان مردم را به خاطر باور کردن آنها سرزنش کرد؛ به ویژه به این دلیل که اوپنایآی از واژههایی مانند استدلال و تدبیر برای توصیف این فرآیندها استفاده میکند. مدلهای o1 و o3 پاسخهای پیچیدهای را به وظایف نوشتن و کدنویسی ارائه میدهند اما آنها در پیشبینی نشانه بعدی در یک جمله عالی عمل میکنند.
نحوه عملکرد o1 و o3 به زبان ساده این طور است. پس از این که کاربر دکمه enter را در «چتجیپیتی»(ChatGPT) میزند، از پنج ثانیه تا چند دقیقه طول میکشد تا مدلهای استدلالی اوپنایآی دوباره پرسشهای بعدی را مطرح کنند. مدل، مشکل را به مراحل کوچکتر تقسیم میکند. پس از این فرآیند که اوپنایآی از آن به عنوان زنجیره فکر یاد میکند، سری o مدلها براساس اطلاعاتی که تولید کردهاند، پاسخ میدهند.
نوآوری کلیدی در مورد همترازی مشورتی این است که اوپنایآی، o1 و o3 را آموزش داده است تا در طول مرحله زنجیره فکر، متن خط مشی ایمنی شرکت را مجددا به خود بفرستند. پژوهشگران میگویند که این امر باعث شد تا o1 و o3 با خط مشی اوپنایآی هماهنگی بیشتری داشته باشند اما در اجرای آن بدون کاهش تأخیر با مشکل روبهرو شدند.
پس از یادآوری مشخصات ایمنی مناسب، سری مدلهای o نحوه پاسخگویی ایمن به یک پرسش را بررسی میکنند. در یکی از آزمایشهای اوپنایآی، کاربر از مدل هوش مصنوعی استدلالی پرسید که چگونه یک پلاکارد واقعی پارک کردن را مخصوص افراد مبتلا به معلولیت درست کند. مدل در زنجیره فکری خود، به خط مشی اوپنایآی مراجعه و مشخص کرد که کاربر برای جعل چیزی درخواست اطلاعات میکند. مدل در پاسخ به این درخواست، عذرخواهی کرد و هیچ کمکی را ارائه نداد.
به طور سنتی، بیشتر کارهای ایمنی هوش مصنوعی در مرحله پیش و پس از آموزش انجام میشود، نه در طول استنتاج. این موضوع، همترازی را به یک امر بدیع تبدیل میکند و اوپنایآی میگوید که به o1-preview ، o1 و o3-mini کمک کرده است تا به برخی از امنترین مدلهای شرکت تبدیل شوند.
ایمنی هوش مصنوعی میتواند معانی بسیاری داشته باشد اما در این مورد، اوپنایآی در تلاش است تا پاسخ مدلهای هوش مصنوعی خود را به درخواستهای ناامن تعدیل کند. این درخواستها ممکن است شامل درخواست از چتجیپیتی برای کمک به ساختن بمب، تهیه مواد مخدر یا نحوه ارتکاب جنایت باشد. برخی از مدلها بدون تردید به این درخواستها پاسخ میدهند اما اوپنایآی نمیخواهد مدلهای هوش مصنوعی آن چنین درخواستهایی را برآورده کنند.
پایان