برند OpenAI برای اطمینان از کارایی مدل‌های منطقی خود از زیرگروه Reddit استفاده می‌کند

برند OpenAI از زیرگروه Reddit برای آزمایش قدرت متقاعدساز مدل‌های منطقی خود استفاده می‌کند

برند OpenAI با استفاده از زیرگروه Reddit برنامه ChangeMyView خود را تست می‌کند تا بتواند توانایی‌های متقاعدساز مدل‌های منطقی خود را ارزیابی کند.

به گزارش دنیای برند به نقل از تک‌کرانچ، برند OpenAI به تازگی اعلام کرده است که از زیرگروه Reddit به نام r/ChangeMyView برای ایجاد آزمایشی به منظور ارزیابی و اندازه‌گیری توانایی‌های متقاعدسازی مدل‌های منطقی خود، استفاده کرده است. این خبر در قالب یک کارت سیستم اعلام شد که به تشریح عملکرد مدل‌های هوش مصنوعی جدید OpenAI به نام o3-mini می‌پردازد و به‌عنوان ابزاری برای مطلع ساختن کاربران از چگونگی عملکرد این سیستم‌ها به حساب می‌آید. این مدل جدید در روز جمعه گذشته منتشر شد.

زیرگروه r/ChangeMyView به عنوان یکی از زیرگروه‌های محبوب و پرمخاطب Reddit شناخته می‌شود و میلیون‌ها کاربر در آن عضویت دارند. در این زیرگروه، کاربران نظرات و تفکرات خود را پیرامون موضوعات مختلف به اشتراک می‌گذارند و از دیگران دعوت می‌کنند تا با ارائه‌ پاسخ‌های متقاعدکننده، زمینه‌های جدیدی از دیدگاه‌ها را برای آن‌ها روشن کنند. کاربران در این فضا تلاش می‌کنند تا با استدلال‌های درست نظر اولیه خود را تغییر دهند و از آنجا که این یک روند تعاملی و اجتماعی است، به‌عنوان یک بستر غنی برای جمع آوری داده‌های معتبر انسانی به حساب می‌آید.

برند OpenAI در این راستا به جمع‌آوری پست‌های کاربران از r/ChangeMyView پرداخته و از مدل‌های هوش مصنوعی خود می‌خواهد که پاسخ‌هایی بنویسند که بتوانند نظر کاربر را در مورد یک موضوع خاص تغییر دهند. این مطالعات در یک محیط بسته انجام می‌شود و پس از ایجاد پاسخ، آنها به تست‌گران ارائه می‌شوند تا ارزیابی کنند که آیا این استدلال‌ها دارای قدرت متقاعدسازی کافی هستند یا خیر. در انتها، OpenAI عملکرد مدل‌های هوش مصنوعی را با پاسخ‌های انسانی برای همان پست مقایسه می‌کند تا سنجش دقیقی از کارایی مدل‌های خود به دست آورد.

گفتنی است که برند OpenAI با Reddit یک توافق‌نامه محتوایی دارد که به OpenAI اجازه می‌دهد بر روی پست‌های کاربران این شبکه اجتماعی تمرین کند و این پست‌ها را در محصولات خود به نمایش بگذارد. هرچند میزان پرداختی OpenAI برای این محتوا مشخص نیست، اما گزارشی از Google وجود دارد که نشان می‌دهد این شرکت سالانه ۶۰ میلیون دلار به Reddit پرداخت می‌کند.

با این حال، OpenAI به TechCrunch گفته است که ارزیابی مبتنی بر ChangeMyView به توافق‌نامه Reddit مربوط نمی‌شود و هنوز مشخص نیست که چگونه این شرکت به داده‌های این زیرگروه دسترسی پیدا کرده است. همچنین این برند اعلام کرده که برنامه‌ای برای انتشار این ارزیابی به‌صورت عمومی ندارد.

در حالی که استفاده از شاخص ChangeMyView برای ارزیابی مدل‌ها جدید نیست و در گذشته برای مدل o1 نیز استفاده شده، اما این اقدام ارزش بالای داده‌های انسانی را برای توسعه‌دهندگان مدل‌های هوش مصنوعی به نمایش می‌گذارد و در عین حال به چالش‌های موجود در نحوه به‌دست آوردن مجموعه‌های داده با کیفیت بالا اشاره می‌کند.

مدیر عامل Reddit، استیو هافمن، در سال گذشته به Verge گفته بود که این شبکه اجتماعی در چندین مورد با شرکت‌های هوش مصنوعی برای جلوگیری از برداشت بدون پرداخت داده‌ها دچار چالش شده است. به گفته وی، شرکت‌هایی از جمله مایکروسافت، انترُپیک و پرپلکسی از مذاکره با او امتناع کرده و برای او دردسرهایی ایجاد کرده‌اند.

در این راستا، برند OpenAI نیز به چندین شکایت در مورد استفاده نامناسب از وب‌سایت‌ها، از جمله روزنامه نیویورک تایمز، برای به‌دست آوردن داده‌های آموزشی متهم شده است.

در بررسی عملکرد مدل‌های OpenAI بر اساس شاخص ChangeMyView، به‌نظر می‌رسد o3-mini نه تنها عملکرد بهتری نسبت به مدل‌های o1 و GPT-4o ندارد، بلکه مدل‌های جدیدتر این برند به‌گونه‌ای عمل کرده‌اند که توانایی متقاعدسازی بیشتری نسبت به اکثر کاربران در زیرگروه r/ChangeMyView دارند. برند OpenAI در کارت سیستم o3-mini اعلام کرده است: «مدل‌های GPT-4o، o3-mini و o1 همگی نشان‌دهنده توانایی‌های قوی در ارائه استدلال‌های متقاعدکننده هستند و در ۸۰ تا ۹۰ درصد بالای عملکرد انسانی قرار دارند. در حال حاضر، ما شاهد نیستیم که مدل‌ها عملکردی به‌مراتب بهتر از انسان‌ها داشته باشند یا اینکه عملکردی فوق انسانی از خود بروز دهند.»

هدف برند OpenAI در این رویکرد ایجاد مدل‌های بسیار متقاعدکننده نیست، بلکه اطمینان از این موضوع است که مدل‌های هوش مصنوعی بیش از حد متقاعدکننده نباشند. مدل‌های منطقی به‌عنوان ابزاری برای متقاعدسازی و فریب به‌طور قابل توجهی قوی عمل کرده‌اند، لذا OpenAI ارزیابی‌ها و تدابیر جدیدی را برای کنترل این موضوع توسعه داده است.

نگرانی که این آزمایش‌های متقاعدسازی را به وجود آورده این است که اگر یک مدل هوش مصنوعی در متقاعد کردن کاربران انسانی بسیار موفق باشد، می‌تواند خطرناک باشد. به‌طور نظری، این می‌تواند به این منجر شود که یک هوش مصنوعی پیشرفته به دنبال دستورالعمل‌های خود برود یا دستوری را که کنترلی بر روی آن دارد، دنبال کند.

در نهایت، این آزمایش‌ها و بررسی‌ها نشان‌دهنده چالش‌های مداوم توسعه‌دهندگان مدل‌های هوش مصنوعی در یافتن مجموعه‌های داده با کیفیت بالا برای تست مدل‌های خود هستند. هرچند که دسترسی به این داده‌ها ممکن است آسان به نظر برسد، اما تحقق آن به سادگی گفته‌های اولیه نیست.

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *