fost-nepal.org – Pengembangan kecerdasan buatan (AI) dalam perusahaan sering mengalami kendala, dan bukan karena intelijensinya, melainkan karena kesulitan dalam mendefinisikan dan mengukur kualitas. Hal ini mendorong munculnya peran baru yang dikenal sebagai “hakim AI”, yaitu sistem AI yang menilai output dari sistem AI lainnya.
Judge Builder, kerangka kerja dari Databricks untuk menciptakan hakim-hakim ini, pertama kali diluncurkan awal tahun ini sebagai bagian dari teknologi Agent Bricks. Sejak peluncurannya, Judge Builder telah berkembang pesat berkat masukan langsung dari pengguna dan penerapan nyata. Versi awalnya lebih fokus pada implementasi teknis, namun umpan balik menunjukkan bahwa kendala sebenarnya terletak pada keselarasan organisasi. Saat ini, Databricks menyediakan proses lokakarya terstruktur untuk membantu tim dalam menghadapi tiga tantangan utama: menyepakati kriteria kualitas, menangkap keahlian khusus dari para ahli terbatas, serta menerapkan sistem evaluasi secara luas.
Jonathan Frankle, kepala ilmuwan AI di Databricks, mengungkapkan bahwa masalah bukanlah pada kemampuan model, melainkan pada bagaimana memastikan model tersebut berfungsi sebagaimana mestinya dan bagaimana mengetahui keberhasilannya. Judge Builder memberikan solusi bagi apa yang disebut sebagai “masalah Ouroboros”, yakni tantangan validasi yang muncul ketika sistem AI digunakan untuk menilai sistem AI lainnya.
Dengan mengukur “jarak ke kebenaran ahli manusia” sebagai fungsi penilaian utama, organisasi dapat memastikan bahwa hakim-hakim ini dapat dipercaya. Pendekatan ini membedakan Judge Builder dari sistem evaluasi tradisional, karena kriteria evaluasi yang dihasilkan sangat spesifik sesuai kebutuhan organisasi.
Pengalaman Databricks dalam bekerja dengan pelanggan enterprise menunjukkan bahwa membangun hakim yang efektif memerlukan kesepakatan di antara para ahli, pemecahan kriteria yang samar, serta penggunaan contoh yang tepat. Hal ini memungkinkan organisasi untuk bergerak dari fase percobaan menuju penerapan yang lebih luas dan efisien dalam penggunaan AI.