fost-nepal.org – Cohere baru saja meluncurkan model Automatic Speech Recognition (ASR) terbaru yang bernama Transcribe, yang dirancang untuk memenuhi kebutuhan perusahaan dalam transkripsi suara. Model ini menawarkan keunggulan dalam akurasi konteks, latensi, kontrol, dan biaya, menjadikannya pilihan menarik bagi organisasi yang membutuhkan transkripsi berkualitas tinggi tanpa risiko yang terkait dengan API tertutup.
Transcribe, dengan 2 miliar parameter, memiliki tingkat kesalahan kata (WER) rata-rata hanya 5,42%, lebih rendah dibandingkan dengan model pesaing lainnya seperti Whisper dan ElevenLabs. Model ini mendukung 14 bahasa, termasuk Inggris, Spanyol, dan Mandarin, meskipun detail dialek Mandarin yang digunakan tidak disebutkan.
Cohere menekankan bahwa Transcribe dapat digunakan di infrastruktur lokal organisasi, memberikan kontrol lebih besar terhadap data dan mengurangi risiko terkait penggunaan API eksternal. Ini menjadi solusi bagi perusahaan yang selama ini tergantung pada layanan pihak ketiga, dengan harapan dapat meningkatkan efisiensi dan keamanan.
Model ini telah menunjukkan hasil yang menjanjikan dalam sejumlah dataset, termasuk AMI yang fokus pada analisis pertemuan dan Voxpopuli untuk pemahaman aksen. Dalam pengujiannya, Transcribe mencetak skor 8,15% untuk AMI dan 5,87% untuk Voxpopuli, hanya kalah dari Zoom Scribe.
Pengguna awal mengidentifikasi akurasi serta kemampuan penerapan lokal sebagai keunggulan utama Transcribe, terutama bagi tim yang sebelumnya menggunakan data audio melalui API eksternal. Dengan kemampuannya untuk diintegrasikan ke dalam otomatisasi berbasis suara dan alur kerja transkripsi, produk ini berpotensi menjadi game changer dalam industri internasional.