Facebook Rilis Fitur Caption Otomatis untuk Live Video dengan Dukungan AI

Facebook Rilis Fitur Caption Otomatis untuk Video Langsung. Kredit: Facebook

Liputan6.com, Jakarta - Dalam beberapa bulan terakhir selama pandemi Covid-19, audiens siaran berita dan arahan pemerintah meningkat signifikan. Di berbagai platform, termasuk Facebook, publik mencari informasi aktual tentang pandemi, panduan perjalanan, dan hal lainnya.

Namun, tidak semua orang dapat mengakses informasi ini. Menurut Organisasi Kesehatan Dunia, lebih dari 5 persen populasi dunia--sekitar 466 juta orang--mengalami gangguan pendengaran.

Pada tahun 2050 mendatang, angka itu diproyeksikan meningkat menjadi lebih dari 900 juta.

"Caption di video sangat penting bagi orang-orang seperti saya di komunitas tuna rungu dalam keadaan darurat kesehatan masyarakat," kata Brenden Gilbert, Production Operations Engineer di Facebook, dikutip dari keterangan perusahaan.

Memang, Facebook sudah lebih dulu menyediakan caption otomatis untuk video on-demand dalam 16 bahasa dan baru saja mengumumkan kemampuan serupa di IGTV. Namun, kebutuhan akan akses terhadap berita dan informasi langsung dan real-time masih perlu dipenuhi.

Hal ini yang mendorong para peneliti dan insinyur di Facebook AI untuk membuat konten video lebih aksesibel dengan caption otomatis untuk Facebook Live dan Workplace Live.

Dukungan Bahasa

Fitur tersebut untuk saat ini mendukung enam bahasa, yakni Inggris, Spanyol, Portugis, Italia, Jerman, dan Prancis.

Teknologi caption otomatis, yang telah ada sejak akhir 2000-an, masih merupakan pekerjaan sulit. Dalam jenis percakapan di tayangan langsung (live stream), orang tidak selalu berbicara secara alami dengan jelas atau menunggu giliran untuk berbicara.

Kebisingan di latar belakang, variasi aksen dan dialek, dan rentang nada luas yang memengaruhi ucapan manusia, membuat hal ini semakin sulit.

Sistem juga perlu belajar mengenali ratusan juta kata berbeda dalam banyak bahasa, termasuk nama dan jargon tidak umum.

Komponen Teknologi

Secara konvensional, teknologi ini terdiri dari tiga komponen: model akustik yang memprediksi fonem dari segmen pendek audio, leksikon pelafalan fonetik, dan model bahasa yang menangkap hubungan di antara kata-kata itu.

Penemuan awal tim Facebook AI adalah leksikon pelafalan fonetik dapat dihilangkan dan model akustik dapat dilatih untuk secara langsung memprediksi grafem (atau karakter) kata dengan akurasi lebih baik, dan belakangan dikembangkan untuk sistem hybrid. Langkah-langkah tersebut dapat secara luas menyederhanakan pengembangan teknologi ini.