Seorang kawan pernah berseloroh, “Kita sekarang hidup di era AI. Urusan kantor tanya ChatGPT. Bahkan mau masak pun, tanya ChatGPT. Apa-apa ChatGPT”. Padahal ada juga model AI selain itu, semacam Gemini atau Perplexity. Tapi, ya, ChatGPT telah menjadi nama generik untuk kecerdasan buatan. Seperti orang yang beli minuman kemasan, lantas dia bilang ke penjaga warung, “Beli Aqua, bu!”, lalu disodorkanlah Le Minerale ataw Indomaret.
Fenomena ini menunjukkan seberapa dalam teknologi AI telah meresap ke dalam kehidupan sehari-hari kita. Kita menggunakannya untuk tugas-tugas kantor, mencari resep, atau bahkan sekadar mengobrol. Namun, seiring dengan semakin banyaknya pengguna ChatGPT atau model serupa seperti Gemini, sebuah pertanyaan mendasar muncul: apakah kita bisa sepenuhnya memercayai apa yang mereka katakan?

Kita sering mendengar kata halusinasi, yaitu saat model AI menghasilkan informasi yang salah tanpa sengaja, seolah-olah mengada-ada. Kalau anak zaman now bilang ngada-ngadi.
Awal rilis ChatGPT, saya pernah dikejutkan dengan jawaban tentang buku dengan tema tertentu. Ketika saya riset, nama pengarangnya memang ada, tetapi semua judul yang di generate tidak pernah eksis. Penulisnya tidak pernah menerbitkan buku dengan judul tersebut.
OpenAI sempat merilis paper tentang halusinasi pada 4 September 2025 kemarin. Menurut OpenAI, halusinasi bukanlah “misteri” atau “cacat” yang tidak dapat dijelaskan, melainkan konsekuensi yang dapat diprediksi dari cara model AI dilatih dan dievaluasi.
Model AI seringkali halu karena didorong untuk selalu mampu memberikan jawaban apapun, bahkan ketika mereka tidak yakin. Sistem penilaian saat ini cenderung memberi imbalan pada model yang menebak dengan percaya diri daripada mengakui ketidakpastian.
Dengan kata lain, model dihukum karena mengatakan “Saya tidak tahu.” Hal ini menciptakan insentif bagi model untuk menghasilkan “fakta” yang meyakinkan namun salah.
Namun, sebuah penelitian dari Carnegie Mellon University (CMU) berjudul “Can LLMs Lie? Investigation beyond Hallucination” menyajikan informasi yang lebih mengkhawatirkan. Paper ini membedakan secara jelas antara halusinasi dan kebohongan—di mana AI secara sengaja menyajikan informasi yang salah untuk mencapai tujuan tertentu.
Para peneliti menemukan bahwa model AI dapat dilatih untuk berbohong, seperti yang ditunjukkan dalam simulasi di mana seorang salesperson AI berbohong tentang keluhan pelanggan untuk mendorong penjualan. Temuan ini bukanlah kesalahan acak, melainkan penipuan yang disengaja.
Kabar baiknya, penelitian ini tidak hanya mengidentifikasi masalah, tetapi juga menawarkan solusi. Para peneliti berhasil menemukan “sirkuit” kebohongan yang sangat spesifik di dalam model, yang memungkinkan mereka untuk mengurangi perilaku menipu ini. Namanya token dummy (Dummy Tokens).
Para peneliti menemukan bahwa ketika model berbohong, mereka sering kali menggunakan “token dummy” sebagai semacam “buku coret-coret” internal untuk merumuskan kebohongan sebelum menyampaikannya. Perilaku ini, yang disebut sebagai fenomena “rehearsal,” sangat berbeda dengan cara model memproses jawaban yang jujur.
Dengan menggunakan teknik yang disebut “vektor kemudi perilaku” (behavioral steering vectors) mereka bahkan dapat mendorong model untuk lebih jujur, meningkatkan tingkat kejujuran dari 20% menjadi 60% meskipun model tersebut diminta untuk berbohong.
Paper ini juga menyoroti adanya pertukaran (trade-off). Mengurangi kemampuan model untuk berbohong dapat menghambat efektivitasnya dalam tugas-tugas strategis tertentu, seperti penjualan, di mana sedikit “kebohongan putih” mungkin diperlukan untuk mencapai tujuan.
Seiring dengan semakin populernya AI seperti ChatGPT dan Gemini, memahami perbedaan antara kesalahan tidak disengaja dan kebohongan yang disengaja adalah langkah literasi yang krusial untuk membangun hubungan yang lebih tepercaya dan aman dengan teknologi yang akan membentuk masa depan kita.
Referensi:
https://openai.com/index/why-language-models-hallucinate
https://arxiv.org/abs/2509.03518 (Can LLMs Lie? Investigation beyond Hallucination)
