Perilaku Sistem AI Mirip Ustadz di Sesi Tanya-Jawab Acara Ceramah

Bambang N Prastowo

Ada bahasan menarik tentang resiko menggunakan AI untuk percepatan pengembangan layanan sistem informasi. Ini terkait dengan Biro transformasi digital UGM yang mengembangkan chatbot dengan nama Lisa sebagai interface terintegrasi yang dirancang untuk bisa menjawab seggala pertanyaan tentang UGM.

Alih-alih menyiapkan daftar Q&A (tanya jawab) secara khusus, Lisa dikembangkan menggunakan teknologi machine learning dari masukan web content di bawah domain ugm.ac.id dan mungkin juga berita-berita dari media massa tentang UGM.

Teknologi machine learning bisa mempersingkat proses penyusunan basis data model sistem informasi. Yang luput dari antisipasi Biro Transformasi Digital UGM adalah sifat large language model yang selalu menjawab pertanyaan apa pun yang diberikan. Mungkin seperti kebanyakan ustadz/ustadzah yang tidak permah bilang tidak tahu ketika mendapat pertanyaan apa pun dari jamaahnya.

Jawaban diberikan berdasarkan informasi terdekat dalam modelnya dengan pertanyaan yang diajukan. Masalahnya, “terdekat” itu bisa sangat jauh kalau informasi yang ditanyakan tidak termasuk dalam koleksi data pelatihannya. Akibatnya, UGM menjadi bulan-bulanan ketika pertanyaan “apakah Joko Widodo alumni UGM?” dijawab Lisa dengan “Bukan.” Seingat saya, digitalisasi penuh proses administradi akademik UGM dimulai tahun 2000-an.

Berita di web UGM ini meyebutkan: “UGM University Services menghadirkan LISA (Lean Intelligent Service Assistant), sebuah asisten digital berbasis kecerdasan buatan (AI) yang dikembangkan untuk memberikan respons cepat dan akurat terhadap berbagai pertanyaan layanan publik. LISA memiliki kemampuan untuk terus belajar dan mengembangkan basis pengetahuannya seiring meningkatnya interaksi dari pengguna.”

Pengalaman saya awal menggunakan ChatGPT, sistem semacam ini selalu mengeluarkan output dari input apa pun yang diberikan, termasuk pertanyaan input yang sebenarnya mengada-ada saja.

Sebagai demo, dulu saya masukkan prompt: “Tuliskan resep jlomprong, masakan khas penduduk jawa tengah,” ChatGPT menjawab: “Jlomprong adalah masakah yang terbuat dari beras ketan dan santan. Cara membuatnya….” Meskipun resep ini bisa diikuti dan menghasilkan makanan yang lezat, tapi sebenarnya tidak ada makanan yang bernama jlomprong.

Dapat kah algoritma AI dengan model bahasa besar (LLM, large language model) diprogram agar mengelukan output pernyataan “tidak tahu” bila inputnya tidak tercakup dalam domain modelnya? Jawabnya, meniru gaya pak Jokowi, “bisa, tapi mustahil.”

Berikut ini output ChatGPT ketika saya beri input prompt: “Apakah LLM tidak bisa mengeluatkan output ‘tidak tahu’ untuk prompt tentang hal yang tidak ada di input pelatihannya?”

Berikut ini output penjelasan dari ChatGPT sendiri:

Bisa — hanya saja kebanyakan LLM tidak otomatis melakukannya. Mereka cenderung *berusaha menjawab apa pun, meski datanya rapuh atau tidak ada. Itu sifat arsitekturnya: model memprediksi token berikutnya dari pola yang paling “masuk akal”, bukan dari basis data fakta dengan flag *unknown.

Beberapa poin yang layak dicamkan:

1. LLM tidak punya mode ‘sadar tidak tahu’ secara bawaan

Model tidak memiliki mekanisme internal yang menandai, “topik ini tidak ada di dataset saya.” Ia hanya melihat representasi vektor dan menghasilkan keluaran paling probable. Kalau training-nya lubang di topik tertentu, ia tetap menebak.

2. Perilaku ‘tidak tahu’ harus dipaksa

Ada tiga cara umum:

a. Instruction tuning: dataset dengan contoh jawaban seperti “I don’t know”, “Tidak ada informasi”, atau “Saya tidak bisa menjawab”.

b. Reinforcement learning: menghukum jawaban halusinatif.

c. Pengaturan sistem prompt: misalnya “Jika kamu tidak tahu, katakan tidak tahu.” Ini tidak sepenuhnya aman, tetapi membantu.

Tanpa mekanisme itu, model akan halusinasi (istilah error untuk LLM).

3. “Tidak tahu” bukan indikator bahwa model benar-benar *tidak tahu*

Bahkan jika model menjawab “tidak tahu”, itu hasil pattern matching, bukan hasil pengecekan basis data. Ia mengatakan “tidak tahu” karena pola prompt cocok dengan pola jawaban demikian, bukan karena ia mengevaluasi keterbatasan dirinya.

4. Ada arsitektur yang menambal masalah ini

Model modern biasanya memakai:

a. RAG (retrieval-augmented generation): Model didorong untuk menjawab hanya berdasarkan dokumen yang ditemukan. Jika tidak ada dokumen relevan → keluaran “tidak ada data”.

b. Guardrails + verifiers: Sistem eksternal mengecek apakah jawaban terlalu mengada-ada.

Kesimpulannya:

LLM bisa mengeluarkan “tidak tahu”, tetapi *bukan karena mereka mengenali kekosongan pengetahuan, melainkan karena kita mengajarkan atau memaksa mereka untuk berperilaku seperti itu.

Jika yang Anda cari adalah “apakah mungkin membuat LLM yang benar-benar mengetahui bahwa ia tidak tahu suatu hal?”

Secara arsitektural, tidak. Yang ada hanyalah mekanisme statistik + guardrails + retrieval.

Catatan dari saya (bnp): halusinasi itu istilah untuk output error. Kita bisa bayangkan saat menggunakan kalkulator 8 digit untuk mengalikan angka 8 digit dengan angka 8 digit akan mengeluarkan pesan error (ngaku salah). Di AI menjadi lain urusannya. Mungkin teman-teman ingat, dulu sempat heboh karena ChatGPT mengaluarkan angka 5.11 ketika diberi masukan 3.4 + 2.7. Ketika diberitahu salah, ChatGPT mengeluarkan hasil lain yang masih salah juga.

Nampaknya versi baru ChatGPT mengoper pertanyaan matematika ke modul tambahan di luar LLM-nya seperti Wolfram Alpha sehingga kualitas outputnya tidak lagi banyak salahnya.

Perilaku Sistem AI Mirip Ustadz di Sesi Tanya-Jawab Acara Ceramah

Published by

Bambang N Prastowo

Leave a Reply Cancel reply