Kajian menunjukkan bahawa model AI terbaik sekalipun membayangkan sejumlah

Semua model AI generatif membayangkan, dari Gemini Google hingga Claude Anthropic hingga rilisan sembunyi-sembunyi terbaru GPT-4o OpenAI. Model-model ini merupakan narator yang tidak dapat dipercayai dengan kata lain - kadang-kadang efeknya lucu, kadang-kadang bermasalah.

Tetapi tidak semua model membuat sesuatu pada kadar yang sama. Dan jenis kebohongan yang mereka ucapkan bergantung kepada sumber maklumat yang mereka terdedah kepada.

Satu kajian terbaru daripada penyelidik di Cornell, universiti Washington dan Waterloo dan institut penyelidikan bukan keuntungan AI2 cuba mengukur tahap halusinasi dengan memeriksa model-model seperti GPT-4o berbanding sumber-sumber berwibawa mengenai topik yang membentang dari undang-undang dan kesihatan hingga sejarah dan geografi. Mereka dapati bahawa tiada model yang berfungsi dengan sangat baik di semua topik, dan model yang paling kurang membayangkan melakukannya sebahagian kerana enggan menjawab soalan yang sebaliknya akan dijawab mereka dengan salah.

“Perkara yang paling penting yang boleh diambil dari kerja kami adalah bahawa kita masih belum boleh sepenuhnya mempercayai output generasi model,” kata Wenting Zhao, seorang pelajar doktoral di Cornell dan seorang rakan penulis kajian tersebut, kepada TechCrunch. “Pada masa kini, malah model terbaik hanya boleh menghasilkan teks yang bebas halusinasi hanya sekitar 35% dari semasa ke semasa.”

Terdapat cubaan akademik lain untuk menyiasat ''kefaktaan'' model, termasuk oleh pasukan yang berkaitan AI2. Tetapi Zhao mencatat bahawa ujian-ujian sebelumnya meminta model-model menjawab soalan dengan jawapan yang mudah ditemui di Wikipedia - tidak tepat untuk dianggap sukar, mengingat bahawa kebanyakan model dilatih dengan data Wikipedia.

Untuk membuat takalan mereka lebih mencabar - dan untuk mencerminkan dengan lebih tepat jenis soalan yang orang bertanya kepada model-model - penyelidik-penyelidik telah mengenal pasti topik-topik di seluruh web yang tidak memiliki rujukan Wikipedia. Sedikit lebih separuh soalan dalam ujian mereka tidak dapat dijawab menggunakan Wikipedia (mereka termasuk beberapa soalan yang bersumber dari Wikipedia untuk tujuan yang baik), dan menyentuh topik-topik termasuk budaya, geografi, astronomi, budaya pop, kewangan, perubatan, sains komputer dan selebriti.

Untuk kajian mereka, penyelidik-penyelidik menilai lebih daripada selusin model popular yang berbeza, banyak di antaranya telah dikeluarkan dalam setahun yang lalu. Selain dari GPT-4o, mereka menguji model-model ''terbuka'' seperti Llama 3 70B Meta, Mixtral 8x22B Mistral dan Command R+ Cohere serta model gated-behind-API seperti Sonar-Large Perplexity (yang berdasarkan pada Llama), Gemini 1.5 Pro Google dan Claude 3 Opus Anthropic.

Hasil-hasil tersebut menunjukkan bahawa model-model tidak membayangkan jauh lebih sedikit pada masa kini, walaupun klaim sebaliknya dari OpenAI, Anthropic dan pemain-pemain AI generatif besar lain.

GPT-4o dan flagship GPT-3.5 OpenAI yang jauh lebih lama berprestasi hampir sama dari segi peratusan soalan yang dijawab dengan tepat menurut kriteria yang dinyatakan dalam takalan. (GPT-4o sedikit lebih baik.) Model-model OpenAI adalah yang paling jarang berkabur pemikirannya secara keseluruhan, diikuti oleh Mixtral 8x22B, Command R dan model-model Sonar Perplexity.

Soalan-soalan yang berkaitan dengan selebriti dan kewangan memberi masalah paling sukar kepada model-model, tetapi soalan-soalan mengenai geografi dan sains komputer adalah yang paling mudah untuk model-model menjawab (mungkin kerana data latihan mereka mengandungi lebih banyak rujukan kepada ini). Dalam kes-kes di mana sumber jawapan bukan Wikipedia, setiap model menjawab kurang fakta secara purata (terutamanya GPT-3.5 dan GPT-4o), menunjukkan bahawa kesemuanya sangat dipengaruhi oleh kandungan Wikipedia.

Walaupun model-model yang boleh mencari web untuk maklumat, seperti model-model Command R dan Sonar Perplexity, berhadapan dengan kesukaran dalam soalan ''bukan-Wiki'' di takalan. Saiz model tidak banyak memberi kesan; model-model yang lebih kecil (contohnya Claude 3 Haiku Anthropic) membayangkan dengan kadar yang hampir sama seringnya seperti model-model yang lebih besar, secara hipotesis lebih cekap (contohnya Claude 3 Opus).

Jadi apa makna dari ini semua - dan di mana peningkatan yang dimaksudkan oleh vendor?

Yah, kita tidak akan menuduh vendor melebih-lebihkan klaim mereka. Tetapi pandangan yang lebih mudah adalah takalan yang mereka gunakan tidak sesuai untuk tujuan ini. Seperti yang telah kita tulis sebelum ini, banyak, jika tidak kebanyakan, penilaian AI adalah sementara dan kurang konteks penting, condong tergolong ke dalam undang-undang Goodhart.

Bagaimanapun juga, Zhao menyatakan bahawa dia mengharapkan isu halusinasi ini akan ''berterusan untuk jangka masa yang panjang.''

“Keputusan empirikal dalam kertas kami menunjukkan bahawa, walaupun janji-janji tertentu untuk mengurangkan atau menghilangkan halusinasi, penambahbaikan sebenar yang dapat dicapai dengan kaedah-kaedah ini adalah terhad,” katanya. “Selain itu, analisis kami mendedahkan bahawa walaupun pengetahuan yang terdapat di internet sering bertentangan, sebahagian kerana data latihan - ditulis oleh manusia - juga boleh mengandungi halusinasi.”

Sebagai tapak penyelesaian sementara boleh diprogramkan ke model-model untuk enggan menjawab lebih kerap - setara teknikal bagi memberitahu seseorang yang tahu segalanya untuk bertindak adil.

Dalam ujian penyelidik-penyelidik, Claude 3 Haiku menjawab hanya kira-kira 72% daripada soalan yang ditanya, memilih untuk menahan diri daripada yang lain. Apabila mengambil kira penahanan, Claude 3 Haiku sebenarnya adalah model yang paling fakta di antara semuanya - sekurang-kurangnya dalam erti bahawa ia berbohong paling jarang.

Tetapi adakah orang akan menggunakan model yang tidak menjawab banyak soalan? Zhao tidak berfikir begitu dan mengatakan vendor seharusnya memberi teumpuan lebih banyak kepada penyelidikan mengenai mengurangkan halusinasi. Menghilangkan halusinasi sepenuhnya mungkin tidak mungkin, tetapi ia boleh dikurangkan melalui faktor manusia semasa penyemakan fakta dan cita-cita semasa pembangunan model, katanya.

“Polisi dan peraturan perlu dibangunkan untuk memastikan pakar manusia sentiasa terlibat dalam proses untuk mengesahkan dan memvalidasi maklumat yang dihasilkan oleh model-model AI generatif,” tambah Zhao. “Masih banyak peluang untuk membuat kesan berjumlah dalam bidang ini, seperti membangunkan alat-alat penyemakan fakta yang canggih untuk sebarang teks bebas, menyediakan rujukan untuk kandungan faktual dan menawarkan pembetulan untuk teks yang dihalusinasi.”