
KOMPAS.com – Semakin canggih kecerdasan buatan (Artificial Intelligence/AI) ternyata semakin tinggi juga tingkat halusinasinya.
Halusinasi dalam konteks kecerdasan buatan, menggambarkan situasi di mana model kecerdasan buatan memberikan informasi yang tidak tepat, alias isinya tidak sesuai dengan sumber atau keadaan yang sebenarnya.
Berdasarkan riset terbaru dari OpenAI, terungkap halusinasi ini terjadi pada model-model kecerdasan buatan terbaru mereka. Dalam pengujian ini, OpenAI menggunakan model AI terbarunya, yakni o3 dan o4-mini.
Kedua model AI ini diuji dalam dua skenario berbeda, yakni PersonQA dan simpleQA.
Pengujian PersonQA dilakukan dengan memberikan pertanyaan terkait tokoh-tokoh publik. Dalam uji ini, model AI o3 tercatat memberikan jawaban “halu” sebanyak 33 persen. Sedangkan model o4-mini menunjukkan tingkat halusinasi yang lebih tinggi, yakni 41 persen.
Baca juga: OpenAI Tarik Kembali Update GPT-4o, Dinilai Terlalu Menjilat
Untuk pengujian SimpleQA, kedua model ini diuji dengan pertanyaan singkat berbasis fakta. Hasilnya, model AI o3 tercatat memberikan informasi yang salah dengan tingkat halusinasi yang lebih besar, yaitu 51 persen.
Sementara itu, model o4-mini justru menunjukkan hasil yang lebih tinggi. Tingkat halusinasinya disebut mencapai 79 persen.
OpenAI menyebut hasil ini wajar karena model o4-mini memang dirancang untuk memberikan jawaban secara “cepat” dibanding model o3.
Perusahaan ini juga menguji model AI terbaru mereka yang lain, yaitu GPT-4.5. Dalam pengujian SimpleQA, model AI ini mencatat tingkat halusinasi sebesar 37,1 persen. Lebih sedikit dibanding o3 dan o4-mini.
Tingkat halusinasi model AI juga diuji melalui serangkaian tes oleh platform agen dan asisten AI Vectara.
Pada pengujian ini, model AI diminta untuk merangkum artikel berita lalu dan hasilnya akan dibandingkan apakah informasi yang diringkas sesuai dengan isi artikel atau tidak.
Hasilnya menunjukkan bahwa beberapa model AI reasoning (berbasis penalaran), justru menghasilkan kinerja yang lebih buruk dibandingkan dengan model tradisional.
Pada model o3, tingkat halusinasinya tercatat di angka 6,8 persen. Sementara itu, model R1 buatan perusahaan DeepSeek, memperlihatkan performa yang lebih buruk.
Dalam pengujian ini, model R1 menunjukkan tingkat halusinasi sebanyak 14,3 persen. Angka ini jauh lebih tinggi daripada model DeepSeek-V2.5 yang hanya 2,4 persen.
Kondisi serupa juga terjadi pada model AI reasoning bernama Granite 3.2 buatan IBM. Versi lebih besar dari model ini, yaitu 8B, tercatat memiliki tingkat halusinasi sekitar 8,7 persen. Sementara versi kecilnya, 2B, mencapai 16,5 persen.
No responses yet