Hentikan pengujian laboratorium: Arena Inklusi tunjukkan kinerja LLM di produksi

Yumi Sandro

7 months ago

fost-nepal.org – Penelitian terbaru dari Inclusion AI, yang terhubung dengan Ant Group dari Alibaba, memperkenalkan model leaderboard baru bernama Inclusion Arena. Model ini bertujuan untuk menguji kinerja model-model AI dalam situasi dunia nyata, berbeda dengan benchmark lama yang terfokus pada data statis. Mereka berpendapat bahwa leaderboard harus mencerminkan preferensi pengguna mengenai jawaban yang diberikan model.

Inclusion Arena menyediakan peringkat berdasarkan preferensi pengguna dengan mengadakan “pertarungan model” secara acak selama dialog multi-putaran antara manusia dan AI dalam aplikasi real-world. Metode peringkat yang digunakan adalah Bradley-Terry, yang dianggap lebih stabil dibandingkan dengan sistem peringkat lain seperti Elo. Saat ini, Inclusion Arena telah mengintegrasikan dua aplikasi: Joyland dan T-Box, di mana pengguna menilai jawaban dari beberapa model tanpa mengetahui sumber jawabannya.

Dari penelitian awal, model dengan kinerja terbaik termasuk Claude 3.7 dari Anthropic dan beberapa model lainnya. Untuk mencapai penilaian yang lebih akurat, Inclusion AI berencana untuk memperluas ekosistem dengan menambah lebih banyak aplikasi yang terintegrasi.

Seiring semakin banyaknya model AI yang diluncurkan, perusahaan dihadapkan pada tantangan dalam memilih model yang tepat. Leaderboard dan benchmark seperti Inclusion Arena menjadi penting untuk membantu pengambil keputusan teknis dalam menentukan model yang paling sesuai dengan kebutuhan mereka. Penilaian internal tetap diperlukan untuk memastikan efektivitas model dalam aplikasi yang mereka gunakan.