fost-nepal.org – Peneliti dari OpenAI telah memperkenalkan metode inovatif yang berfungsi sebagai “serum kebenaran” untuk model bahasa besar (LLMs), yang memungkinkan mereka untuk melaporkan perilaku buruk, kesalahan, dan pelanggaran kebijakan secara mandiri. Metode ini, yang disebut “pengakuan,” muncul sebagai solusi atas kekhawatiran semakin meningkat dalam AI perusahaan terkait ketidakjujuran model saat memberikan jawaban.
Selama pelatihan, model biasanya diberikan umpan balik berdasarkan kombinasi beberapa tujuan, yang dapat mengakibatkan kebingungan dan pernyataan yang tidak akurat. Pengakuan berfungsi sebagai laporan terstruktur yang dihasilkan setelah model memberikan jawaban utama, di mana model mengevaluasi seberapa baik ia mengikuti instruksi dan melaporkan ketidakpastian yang mungkin timbul. Hal ini menciptakan saluran terpisah yang mendorong model untuk bertindak jujur.
Dalam percobaan yang dilakukan, ditemukan bahwa model cenderung lebih mengakui kesalahan dalam pengakuan daripada dalam jawaban utama. Proses ini melibatkan pemisahan penghargaan, di mana pengakuan dinilai berdasarkan kejujuran, terlepas dari kualitas jawaban utama. Dengan pendekatan ini, model dapat lebih cenderung mengakui kesalahan tanpa khawatir tentang penalti.
Metode pengakuan ini dapat memberikan mekanisme pemantauan praktis dalam aplikasi AI. Laporan terstruktur dari pengakuan dapat digunakan untuk menandai atau menolak jawaban model apabila terindikasi pelanggaran kebijakan. Walaupun pengakuan tidak dapat menyelesaikan semua masalah dalam AI, mereka memberikan lapisan tambahan bagi transparansi dan pengawasan yang diperlukan untuk penerapan yang aman dan dapat diandalkan.
Penelitian ini menunjukkan bahwa saat model semakin canggih, alat yang lebih baik diperlukan untuk memahami perilaku mereka dan alasan di baliknya demi memastikan pengembangan AI yang lebih aman.