پژوهشگران «دانشگاه ایالتی واشنگتن» در یک آزمایش جدید دریافتند که ChatGPT نمیتواند عملکرد خوبی را در ارزیابی مشکل قلبی داشته باشد.
به گزارش پایگاه خبری دنیای برند به نقل از ایسنا، به رغم تواناییهای گزارش شده درباره ChatGPT برای قبول شدن در آزمونهای پزشکی، یک پژوهش جدید نشان میدهد که اتکا به این فناوری برای برخی ارزیابیهای سلامتی مانند بررسی نیاز بیمار مبتلا به درد قفسه سینه به بستری شدن در بیمارستان عاقلانه نیست.
به نقل از میراژ نیوز، در پژوهش جدیدی که شامل هزاران وضعیت شبیهسازی شده از بیماران مبتلا به درد قفسه سینه است، ChatGPT نتایج متناقضی را ارائه کرد و سطوح متفاوتی را از ارزیابی خطر مشکل قلبی در دادههای بهدستآمده از بیماران نشان داد. همچنین، این سیستم هوش مصنوعی مولد نتوانست با روشهای سنتی مطابقت داشته باشد که پزشکان از آنها برای قضاوت درباره خطر مشکل قلبی بیمار استفاده میکنند.
دکتر «توماس هستون»(Thomas Heston) پژوهشگر دانشکده پزشکی «دانشگاه ایالتی واشنگتن»(WSU) گفت: ChatGPT به یک شیوه ثابت عمل نمیکرد. با توجه به دادههای مشابه، ChatGPT رتبه خطر پایینی را ارائه میدهد. دفعه بعد یک رتبه متوسط را پیشبینی میکند و گهگاه تا افزایش خطر پیش میرود.
هستون گفت: پژوهشگران باور دارند این مشکل احتمالا به دلیل سطح تصادفی بودن نسخه کنونی نرمافزار ChatGPT۴ است که به آن کمک میکند تا پاسخهایی را برای شبیهسازی زبان طبیعی ارائه دهد. با وجود این، همین تصادفی بودن باعث میشود نرمافزار برای کاربردهای حوزه سلامت که به یک پاسخ منسجم نیاز دارند، به خوبی کارآیی نداشته باشد.
هستون ادامه داد: ما متوجه شدیم که تنوع زیادی وجود دارد و این تنوع در رویکرد میتواند خطرناک باشد. این فناوری میتواند برنامه سودمندی باشد اما من معتقدم که فناوری بسیار سریعتر از درک ما پیش میرود. بنابراین، بسیار مهم است که پژوهشهای بسیاری را به ویژه در موقعیتهای بالینی پرخطر انجام دهیم.
درد قفسه سینه، یکی از شکایتهای رایج در اورژانس است که پزشکان را ملزم میکند تا فوریت وضعیت بیمار را مورد ارزیابی قرار دهند. هستون گفت: برخی از موارد بسیار جدی را به راحتی میتوان با توجه به علائم آنها شناسایی کرد اما موارد کمخطر ممکن است پیچیدهتر باشند؛ به ویژه هنگام تعیین اینکه آیا بیماری باید برای بررسی بیشتر در بیمارستان بستری شود یا به خانه برود و مراقبتهای سرپایی را دریافت کند.
متخصصان پزشکی در حال حاضر اغلب از یکی از دو معیار موسوم به TIMI و HEART برای ارزیابی خطر مشکل قلبی استفاده میکنند. هستون این مقیاسها را به ماشینحسابهایی تشبیه کرد که متغیرهای انگشتشمار را مانند علائم، سابقه سلامت و سن استفاده میکنند. در مقابل، یک شبکه عصبی هوش مصنوعی مانند ChatGPT میتواند میلیاردها متغیر را به سرعت ارزیابی کند. این بدان معناست که شاید ChatGPT بتواند یک موقعیت پیچیده را سریعتر و دقیقتر تحلیل کند.
برای این پژوهش، هستون و همکارش دکتر «لارنس لوئیس»(Lawrence Lewis) پژوهشگر «دانشگاه واشنگتن در سنت لوئیس»(WashU) ابتدا سه مجموعه داده را از ۱۰ هزار مورد تصادفی و شبیهسازیشده ایجاد کردند. یک مجموعه داده دارای هفت متغیر مقیاس TIMI، مجموعه دوم شامل پنج متغیر مقیاس HEART و مجموعه سوم دارای ۴۴ متغیر تصادفی سلامت بود. در دو مجموعه داده اول، ChatGPT ارزیابی خطر متفاوتی را در ۴۵ تا ۴۸ درصد مواقع نسبت به امتیاز ثابت TIMI یا HEART ارائه کرد. پژوهشگران برای آخرین مجموعه داده، موارد را چهار بار اجرا کردند و دریافتند که ChatGPT اغلب با خودش موافق نیست و در ۴۴ درصد مواقع، سطوح ارزیابی متفاوتی را برای موارد مشابه ارائه میدهد.
به رغم یافتههای منفی این پژوهش، هستون پتانسیل زیادی را برای هوش مصنوعی مولد در مراقبتهای بهداشتی پیشبینی میکند. به عنوان مثال، با فرض رعایت استانداردهای حفظ حریم خصوصی، کل سوابق پزشکی را میتوان در برنامه بارگذاری کرد و در شرایط اضطراری، پزشک میتواند از ChatGPT بخواهد تا سریعترین حقایق را درباره یک بیمار ارائه دهد. همچنین، پزشکان برای موارد دشوار و پیچیده میتوانند از برنامه بخواهند تا چندین تشخیص احتمالی را ارائه دهد.
هستون گفت: ChatGPT میتواند در ارائه دادن تشخیص افتراقی عالی باشد و این احتمالا یکی از بزرگترین نقاط قوت آن است. اگر کاملا نمیدانید که درباره یک بیمار چه میگذرد، میتوانید از ChatGPT بخواهید تا پنج تشخیص اصلی و استدلال خود را برای هر یک از آنها ارائه دهد. بنابراین، ChatGPT میتواند به شما کمک کند تا درباره یک مشکل فکر کنید اما در پاسخ دادن خوب نیست.
این پژوهش در مجله «PLOS ONE» به چاپ رسید.
پایان