בזמן שכלי בינה מלאכותית מראים יכולת לעלות על רופאים באבחון מחלות, מחקר חדש חושף שהבעיה האמיתית בדיוק הטכנולוגיות האלה אינה באלגוריתמים, אלא באופן שבו אנשים משתמשים בהן.
דמיינו שאתם מתעוררים עם גירוד קל בגרון. אתם פותחים מנוע חיפוש, מקלידים את הסימפטומים, ותוך דקות קוראים על מחלות מסוכנות ונדירות. התופעה הזו, שרבים חוו, מראה את הצורך באמצעי אבחון מדויקים ושקטים יותר – כמו כלי הבינה המלאכותית החדישים.
מחקר של אוניברסיטת אוקספורד גילה שכלי בינה מלאכותית כמו ChatGPT יכולים לאבחן מצבים רפואיים בדיוק של 94.9% כשהאלגוריתמים משתמשים בהם ישירות. אבל כשבני אדם השתמשו בהם, הדיוק ירד ל-34.5% בלבד.
את המחקר הוביל ד"ר אדם מהדי, והשתתפו בו יותר מ-1,300 אנשים שהתבקשו להתנהג כחולים במצבים רפואיים שונים. כל משתתף פעל מול שלושה מודלים שונים של בינה מלאכותית, ונתבקש לשאול שאלות ולתאר סימפטומים. למרות שהמערכות היו מסוגלות להגיע לתשובות נכונות, האינטראקציה של המשתמשים איתן הייתה בעייתית.
הסיבה: המשתמשים שאלו שאלות לא מלאות, שכחו לציין סימפטומים חשובים, או לא פירטו מתי ובאיזו עוצמה הופיעו הסימפטומים. לכן הבינה המלאכותית נתנה תשובות לא מדויקות – לא בגלל כשל שלה, אלא בגלל מידע אנושי מטעה.
טעות נפוצה היא להניח שהבינה המלאכותית "מבינה אותך" כמו חבר קרוב. אבל המציאות שונה: המודלים לא מבינים רמזים, רגשות או הקשר אלא אם מציגים אותם במפורש. הם צריכים הוראות מדויקות וישירות, לא ניחושים עמומים.
החוקרים השוו זאת לעובד מצוין בחברה עם ניהול אנושי גרוע – הביצועים שלו יפגעו למרות היכולות שלו. גם כשהבינה המלאכותית נתנה אבחון נכון, חלק מהמשתמשים התעלמו מהתוצאה או לא המשיכו לצעדים הבאים, בדיוק כמו שקורה לפעמים עם הוראות רופאים.
כלים כמו OpenEvidence משמשים רופאים לבדיקת מקורות רפואיים – וזה ההבדל: בינה מלאכותית מצליחה כשמומחה שיודע איך לעבוד איתה משתמש בה, לא כשחולה לא מאומן משתמש בה.
המחקר מדגיש שהבעיה לא ביכולות הבינה המלאכותית, אלא באופן שאנשים מתקשרים איתה. קשה למערכות להתמודד עם מידע אנושי מבולבל או לא ברור, במיוחד בתחומים רגישים כמו בריאות.
דוגמה לשימוש מוצלח: באוניברסיטת ג'ונס הופקינס, כלי בינה מלאכותית זיהה אלח דם שעות לפני הרופאים והפחית תמותה ב-20%. הסוד? הכלי שולב בצורה חלקה במערכת בית החולים והסתמך על נתונים מיידיים ממכשירים רפואיים, לא על תיאור של חולה מבולבל.
המחקר מבהיר: בינה מלאכותית אינה קסם, אלא כלי חזק שדורש שימוש נכון. בעוד שהדיוק שלה בבדיקות מרשים, נשאר פער גדול בין היכולות התיאורטיות שלה ליישום בפועל, אם לא נדע לכוון אותה ולעבוד איתה כראוי.