برند OpenAI با استفاده از زیرگروه Reddit برنامه ChangeMyView خود را تست میکند تا بتواند تواناییهای متقاعدساز مدلهای منطقی خود را ارزیابی کند.
به گزارش دنیای برند به نقل از تککرانچ، برند OpenAI به تازگی اعلام کرده است که از زیرگروه Reddit به نام r/ChangeMyView برای ایجاد آزمایشی به منظور ارزیابی و اندازهگیری تواناییهای متقاعدسازی مدلهای منطقی خود، استفاده کرده است. این خبر در قالب یک کارت سیستم اعلام شد که به تشریح عملکرد مدلهای هوش مصنوعی جدید OpenAI به نام o3-mini میپردازد و بهعنوان ابزاری برای مطلع ساختن کاربران از چگونگی عملکرد این سیستمها به حساب میآید. این مدل جدید در روز جمعه گذشته منتشر شد.
زیرگروه r/ChangeMyView به عنوان یکی از زیرگروههای محبوب و پرمخاطب Reddit شناخته میشود و میلیونها کاربر در آن عضویت دارند. در این زیرگروه، کاربران نظرات و تفکرات خود را پیرامون موضوعات مختلف به اشتراک میگذارند و از دیگران دعوت میکنند تا با ارائه پاسخهای متقاعدکننده، زمینههای جدیدی از دیدگاهها را برای آنها روشن کنند. کاربران در این فضا تلاش میکنند تا با استدلالهای درست نظر اولیه خود را تغییر دهند و از آنجا که این یک روند تعاملی و اجتماعی است، بهعنوان یک بستر غنی برای جمع آوری دادههای معتبر انسانی به حساب میآید.
برند OpenAI در این راستا به جمعآوری پستهای کاربران از r/ChangeMyView پرداخته و از مدلهای هوش مصنوعی خود میخواهد که پاسخهایی بنویسند که بتوانند نظر کاربر را در مورد یک موضوع خاص تغییر دهند. این مطالعات در یک محیط بسته انجام میشود و پس از ایجاد پاسخ، آنها به تستگران ارائه میشوند تا ارزیابی کنند که آیا این استدلالها دارای قدرت متقاعدسازی کافی هستند یا خیر. در انتها، OpenAI عملکرد مدلهای هوش مصنوعی را با پاسخهای انسانی برای همان پست مقایسه میکند تا سنجش دقیقی از کارایی مدلهای خود به دست آورد.
گفتنی است که برند OpenAI با Reddit یک توافقنامه محتوایی دارد که به OpenAI اجازه میدهد بر روی پستهای کاربران این شبکه اجتماعی تمرین کند و این پستها را در محصولات خود به نمایش بگذارد. هرچند میزان پرداختی OpenAI برای این محتوا مشخص نیست، اما گزارشی از Google وجود دارد که نشان میدهد این شرکت سالانه ۶۰ میلیون دلار به Reddit پرداخت میکند.
با این حال، OpenAI به TechCrunch گفته است که ارزیابی مبتنی بر ChangeMyView به توافقنامه Reddit مربوط نمیشود و هنوز مشخص نیست که چگونه این شرکت به دادههای این زیرگروه دسترسی پیدا کرده است. همچنین این برند اعلام کرده که برنامهای برای انتشار این ارزیابی بهصورت عمومی ندارد.
در حالی که استفاده از شاخص ChangeMyView برای ارزیابی مدلها جدید نیست و در گذشته برای مدل o1 نیز استفاده شده، اما این اقدام ارزش بالای دادههای انسانی را برای توسعهدهندگان مدلهای هوش مصنوعی به نمایش میگذارد و در عین حال به چالشهای موجود در نحوه بهدست آوردن مجموعههای داده با کیفیت بالا اشاره میکند.
مدیر عامل Reddit، استیو هافمن، در سال گذشته به Verge گفته بود که این شبکه اجتماعی در چندین مورد با شرکتهای هوش مصنوعی برای جلوگیری از برداشت بدون پرداخت دادهها دچار چالش شده است. به گفته وی، شرکتهایی از جمله مایکروسافت، انترُپیک و پرپلکسی از مذاکره با او امتناع کرده و برای او دردسرهایی ایجاد کردهاند.
در این راستا، برند OpenAI نیز به چندین شکایت در مورد استفاده نامناسب از وبسایتها، از جمله روزنامه نیویورک تایمز، برای بهدست آوردن دادههای آموزشی متهم شده است.
در بررسی عملکرد مدلهای OpenAI بر اساس شاخص ChangeMyView، بهنظر میرسد o3-mini نه تنها عملکرد بهتری نسبت به مدلهای o1 و GPT-4o ندارد، بلکه مدلهای جدیدتر این برند بهگونهای عمل کردهاند که توانایی متقاعدسازی بیشتری نسبت به اکثر کاربران در زیرگروه r/ChangeMyView دارند. برند OpenAI در کارت سیستم o3-mini اعلام کرده است: «مدلهای GPT-4o، o3-mini و o1 همگی نشاندهنده تواناییهای قوی در ارائه استدلالهای متقاعدکننده هستند و در ۸۰ تا ۹۰ درصد بالای عملکرد انسانی قرار دارند. در حال حاضر، ما شاهد نیستیم که مدلها عملکردی بهمراتب بهتر از انسانها داشته باشند یا اینکه عملکردی فوق انسانی از خود بروز دهند.»
هدف برند OpenAI در این رویکرد ایجاد مدلهای بسیار متقاعدکننده نیست، بلکه اطمینان از این موضوع است که مدلهای هوش مصنوعی بیش از حد متقاعدکننده نباشند. مدلهای منطقی بهعنوان ابزاری برای متقاعدسازی و فریب بهطور قابل توجهی قوی عمل کردهاند، لذا OpenAI ارزیابیها و تدابیر جدیدی را برای کنترل این موضوع توسعه داده است.
نگرانی که این آزمایشهای متقاعدسازی را به وجود آورده این است که اگر یک مدل هوش مصنوعی در متقاعد کردن کاربران انسانی بسیار موفق باشد، میتواند خطرناک باشد. بهطور نظری، این میتواند به این منجر شود که یک هوش مصنوعی پیشرفته به دنبال دستورالعملهای خود برود یا دستوری را که کنترلی بر روی آن دارد، دنبال کند.
در نهایت، این آزمایشها و بررسیها نشاندهنده چالشهای مداوم توسعهدهندگان مدلهای هوش مصنوعی در یافتن مجموعههای داده با کیفیت بالا برای تست مدلهای خود هستند. هرچند که دسترسی به این دادهها ممکن است آسان به نظر برسد، اما تحقق آن به سادگی گفتههای اولیه نیست.