fost-nepal.org – Google baru-baru ini memperkenalkan model AI terbarunya, Gemini 3, yang mengklaim telah mencapai posisi terdepan dalam berbagai tolok ukur AI. Namun, evaluasi yang dilakukan oleh Prolific, sebuah perusahaan yang mengkhususkan diri dalam penelitian etis, menunjukkan hasil yang lebih obyektif dan relevan untuk pengguna. Prolific, yang didirikan oleh peneliti Universitas Oxford, menggunakan pendekatan yang mengutamakan data manusia berkualitas tinggi untuk pengembangan AI yang etis.
Dalam tes terbaru, Gemini 3 dinyatakan sebagai model paling kredibel dengan skor kepercayaan mencapai 69%, jauh lebih tinggi dibandingkan versi sebelumnya, Gemini 2.5, yang hanya mencapai 16%. Evaluasi ini melibatkan 26.000 pengguna dalam percakapan blind test, mengukur bukan hanya kinerja teknis, tetapi juga kepercayaan, adaptabilitas, dan gaya komunikasi AI. Gemini 3 berhasil meraih peringkat pertama di tiga dari empat kategori evaluasi utama.
Mengapa Gemini 3 bisa meraih prestasi ini? Phelim Bradley, CEO Prolific, menjelaskan bahwa model ini menunjukkan konsistensi yang tinggi dalam beragam skenario penggunaan serta memiliki gaya dan kepribadian yang menarik bagi berbagai tipe pengguna. HUMAINE, metode yang digunakan dalam evaluasi ini, memperlihatkan bahwa performa model dapat bervariasi berdasarkan audiens, menjadikan hasilnya lebih representatif.
Bagi perusahaan yang ingin mengadopsi AI, Bradley menekankan perlunya pendekatan ilmiah dalam mengevaluasi performa model. Memahami kekuatan dan kelemahan masing-masing model melalui pengujian yang terstruktur sangatlah penting. Dalam konteks ini, pengujian buta dan sampling yang representatif dapat memberikan wawasan yang lebih baik dibandingkan sekadar mengandalkan nama besar dari suatu vendor.