fost-nepal.org – OpenAI mengakui bahwa serangan berupa prompt injection, yang dapat memanipulasi agen AI untuk menjalankan instruksi berbahaya, masih menjadi risiko signifikan dalam operasional AI di internet terbuka. Meskipun OpenAI terus berupaya menguatkan keamanan peramban ChatGPT Atlas yang diluncurkan pada bulan Oktober, perusahaan menggarisbawahi bahwa tantangan ini tidak mungkin sepenuhnya teratasi.
Dalam pernyataan resmi, OpenAI menjelaskan bahwa mode agen pada ChatGPT Atlas justru memperluas permukaan ancaman keamanan. Peneliti keamanan dengan segera melaporkan bahwa hanya dengan beberapa kata di dokumen Google, perubahan perilaku peramban dapat terjadi. Hal serupa juga diungkap oleh National Cyber Security Centre (NCSC) Inggris, yang memperingatkan bahwa serangan prompt injection terhadap aplikasi AI mungkin tidak akan pernah sepenuhnya dicegah, sehingga meningkatkan risiko pelanggaran data.
Untuk menanggulangi tantangan ini, OpenAI mengadopsi siklus respons cepat yang menunjukkan hasil awal dalam mendeteksi strategi serangan baru sebelum tereksploitasi. Salah satu inovasi yang dilakukan adalah dengan menggunakan “penyerang otomatis berbasis LLM” yang dilatih untuk mensimulasikan serangan, sehingga dapat menemukan kerentanan lebih cepat.
Demonstrasi baru-baru ini menunjukkan bagaimana penyerang otomatis ini berhasil menyisipkan email berbahaya ke dalam kotak masuk pengguna. Setelah pembaruan keamanan, mode agen dapat mendeteksi dan memberi tahu pengguna tentang upaya serangan tersebut. Meskipun OpenAI mengklaim bahwa tantangan ini menjadi prioritas utama, beberapa ahli keamanan merasa skeptis terkait nilai yang ditawarkan peramban yang berisiko tinggi ini, terutama karena akses mereka yang luas terhadap data sensitif.
Penting bagi pengguna untuk memberikan instruksi yang jelas dan membatasi akses agar dapat meminimalkan risiko yang mungkin ditimbulkan oleh konten berbahaya pada sistem AI.