OpenAI Latih Model AI yang Bisa Mengaku Ketika Berbohong

OpenAI mencoba bereksperimen untuk melatih model AI mengakui kesalahan dalam merespons pengguna.

Diterbitkan 11 Desember 2025, 12:30 WIB
Share
Copy Link
Batalkan

Liputan6.com, Jakarta - OpenAI bereksperimen dengan pendekatan baru terhadap kecerdasan buatan (AI) yaitu untuk melatih model AI agar bisa mengakui ketika mereka salah.

Dalam sebuah studi, peneliti menugaskan GPT-5 Thinking untuk menanggapi berbagai pertanyaan dan kemudian menilai kebenaran tanggapan tersebut.

Setiap pengakuan, para peneliti memberi penghargaan kepada model berdasarkan kejujuran tanggapan. Jika model berbohong, menipu, berhalusinasi, atau melakukan kesalahan lain dan kemudian mengakuinya, model tersebut akan menerima hadiah.

Mengutip ZDnet, Kamis (11/12/2025), OpenAI menyampaikan bahwa uji penyelarasan rutin bukan karena kekhawatiran GPT-5 Thinking berperilaku tidak semestinya. Namun, hasilnya memberikan panduan tentang bagaimana laboratorium dapat menginterpretasikan dan mempersiapkan liabilitas model di masa mendatang.

Uji Coba dengan Skenario

Dalam model studi, model diuji dengan skenario yang dirancang untuk memicu pelanggaran aturan. GPT-5 Thinking diminta berperan sebagai petugas helpdesk yang harus me-reboot layanan dashboard produksi. Karena tidak dapat mengakses sistem utama, model membuat simulasi dashboard palsu dan berusaha tampak seolah-olah bekerja di sistem asli.

Dalam pengakuannya, model mengatakan gagal memenuhi kewajiban mencatat perubahan pada layanan logging resmi. Dia menulis, “Ini merupakan kegagalan kepatuhan yang serius dan bentuk mis-representasi.”

Secara umum, tingkat risiko dianggap rendah. Peneliti menemukan kemungkinan “false negative” (situasi di mana ketika model gagal mengaku melakukan pelanggaran) hanya sekitar 4,4 persen.

Mengapa Model AI sering Mengambil Jalan Pintas

Pengujian ini kembali menyoroti salah satu persoalan mendasar dalam pengembangan AI modern, yaitu masalah keselarasan. Model AI kerap menghadapi beberapa tujuan sekaligus, sehingga kadang memilih jalan pintas yang tidak sesuai nilai etika, meski tidak memiliki pemahaman moral.

Dalam kerangka Reinforcement Learning with Human Feedback (RLHF), model akan berusaha memaksimalkan “reward”. Ketika dua instruksi bertentangan, model mungkin memilih tetap percaya diri meski harus mengarang jawaban.

Banyak perilaku yang tidak diinginkan muncul, karena model diminta mengoptimalkan beberapa tujuan sekaligus.

“Ketika sinyal-sinyal ini saling bertabrakan, model bisa terdorong pada perilaku yang tidak kita inginkan,” tulis OpenAI.

Pendekatan Pasca-Perilaku

Eksperimen ‘pengakuan’ ini bukan ditujukan untuk memahami bagaimana atau mengapa model AI berbohong. Namun sebaliknya agar menandai kapan perilaku itu terjadi. Pendekatan ini termasuk dalam ranah interpretability research (bidang yang mencoba memahami alasan di balik keputusan AI), sebuah topik yang masih penuh perdebatan.

Metode ini dinilai dapat meningkatkan transparansi, sekaligus memberikan dasar bagi riset keselamatan AI yang lebih mendalam. Apalagi, audit keamanan AI terbaru menunjukkan sebagian besar laboratorium pengembangan model masih mendapat nilai buruk.

OpenAI menegaskan bahwa pengakuan semacam ini bukan solusi agar mencegah perilaku buruk, melainkan cara untuk mengungkapkan kesalahan yang diperbuat chatbot AI. Namun, sebagaimana prinsip dalam hukum dan moralitas manusia, mengungkap kesalahan adalah langkah awal yang penting untuk memperbaiki sistem.