Telset.id – Bayangkan Anda bisa meniru suara siapa pun di dunia hanya dengan beberapa detik rekaman. Atau, berbicara dalam bahasa asing dengan aksen dan intonasi persis seperti penutur asli. Kedengarannya seperti adegan film fiksi ilmiah, bukan? Tapi inilah yang baru saja diwujudkan oleh Xiaomi.
Raksasa teknologi asal China itu baru saja mengumumkan langkah berani dengan merilis model kloning suara bernama OmniVoice ke publik. Model text-to-speech (TTS) ini bukan sekadar pembaca teks biasa. OmniVoice dirancang untuk menghasilkan sintesis suara berkualitas tinggi dalam ratusan bahasa, lengkap dengan kemampuan kloning suara dan generasi ucapan yang bisa disesuaikan. Pengumuman ini disampaikan melalui akun WeChat resmi Xiaomi, menandai babak baru dalam demokratisasi teknologi suara.
Yang membuat gebrakan ini semakin menarik adalah statusnya yang open-source. Xiaomi memilih untuk membuka kode sumber OmniVoice, memberikan akses kepada pengembang dan peneliti di seluruh dunia. Ini bukan sekadar hadiah; ini adalah undangan untuk berinovasi. Tapi, apa sebenarnya yang membuat OmniVoice begitu spesial di tengah hiruk-pikuk model AI lainnya? Mari kita bedah.
Menguasai Bahasa Minoritas, Menyaingi Manusia
Salah satu keunggulan paling menonjol dari OmniVoice adalah dukungannya terhadap bahasa dengan sumber daya rendah, alias low-resource languages. Xiaomi mengklaim model ini bisa menghasilkan ucapan di “hampir semua bahasa yang bisa dibayangkan,” termasuk bahasa-bahasa yang sangat terbatas data pelatihannya di internet. Ini adalah lompatan besar. Bayangkan betapa banyak bahasa daerah di Indonesia atau suku-suku terpencil di Amazon yang kini bisa memiliki teknologi sintesis suara.
Dalam pengujian multilingual, OmniVoice berhasil mengungguli beberapa sistem komersial di 24 bahasa berbeda, terutama dalam hal kemiripan suara dan kejelasan ucapan. Bahkan, ketika hanya dilatih dengan dataset sumber terbuka sekalipun. Lebih mencengangkan lagi, dalam pengujian di 102 bahasa, kejelasan ucapan OmniVoice mendekati—atau dalam beberapa kasus, lebih baik dari—ucapan manusia asli. Angka ini bukan sekadar klaim marketing; ini adalah bukti bahwa teknologi kloning suara telah mencapai titik balik.
Model ini juga dirancang untuk bekerja dengan data pelatihan yang sangat minim. Menurut Xiaomi, bahkan bahasa dengan materi pelatihan kurang dari 10 jam saja sudah bisa menghasilkan sintesis suara berkualitas tinggi. Ini adalah kabar gembira bagi pelestari bahasa daerah yang selama ini kesulitan mengumpulkan dataset besar. Teknologi ini bisa menjadi jembatan untuk menghidupkan kembali bahasa-bahasa yang terancam punah.
Arsitektur Sederhana, Performa Super Cepat
Tidak seperti kebanyakan sistem TTS modern yang bergantung pada beberapa modul dan tahapan prediksi yang kompleks, OmniVoice menggunakan pendekatan yang jauh lebih sederhana. Model ini menggunakan satu jaringan Transformer dua arah (bidirectional) untuk langsung mengonversi teks menjadi ucapan. Ini menghilangkan kebutuhan akan pemodelan teks terpisah, struktur hybrid yang rumit, dan sistem prediksi token bertingkat yang biasa ditemukan di model TTS lainnya.
Kesederhanaan desain ini berdampak langsung pada kecepatan. Xiaomi mengklaim OmniVoice dapat menyelesaikan pelatihan pada 100.000 jam data hanya dalam satu hari. Selama proses inferensi, model ini bisa berjalan hingga 40 kali lebih cepat dari waktu nyata menggunakan PyTorch. Angka ini sangat penting untuk implementasi di dunia nyata, seperti di asisten virtual, aplikasi penerjemah, atau bahkan Headphone AI Terbaru yang bisa menerjemahkan banyak orang sekaligus.
Xiaomi menyebutkan dua pilihan desain utama yang membantu meningkatkan performa model. Pertama adalah “strategi masking acak codebook penuh” yang dilaporkan meningkatkan efisiensi pelatihan dan kemampuan model secara keseluruhan. Kedua adalah penggunaan large language model (LLM) selama pra-pelatihan. Ini adalah pertama kalinya sebuah LLM diintegrasikan secara efektif ke dalam model TTS non-autoregressive untuk meningkatkan akurasi pengucapan dan kejelasan ucapan.
Fitur Dunia Nyata yang Membuat OmniVoice Unik
Selain kemampuan generasi ucapan multilingual, OmniVoice dilengkapi dengan sejumlah fitur praktis yang membuatnya sangat berguna. Pengguna dapat membuat suara kustom hanya dengan mendeskripsikan karakteristik seperti usia, jenis kelamin, nada, aksen, dialek, atau gaya bicara. Model ini bahkan bisa menghasilkan suara berbisik dan gaya bicara khusus lainnya tanpa memerlukan sampel audio referensi.
Ini berarti Anda bisa menciptakan asisten virtual dengan suara kakek bijak atau karakter game dengan aksen Skotlandia tanpa harus merekam suara asli. Potensi kreatifnya sangat luas, dari produksi konten hingga pengembangan game.
Fitur lain yang tak kalah penting adalah kemampuannya dalam menangani lingkungan audio yang bising. Xiaomi mengatakan OmniVoice secara otomatis dapat menghilangkan kebisingan latar belakang dari rekaman referensi dan mengekstrak karakteristik suara yang lebih jelas. Ini memungkinkan kloning suara berkualitas lebih baik bahkan ketika rekaman asli dibuat dalam kondisi yang kurang ideal—seperti di kafe ramai atau di jalanan kota.
Model ini juga mendukung sintesis suara ekspresif melalui kontrol intonasi, termasuk efek tertawa dan mendesah. Ini membuat suara yang dihasilkan terdengar lebih alami dan seperti percakapan manusia, bukan robot monoton. Untuk akurasi pengucapan, OmniVoice menyertakan alat yang memungkinkan pengguna mengoreksi pengucapan yang sulit secara manual, termasuk karakter Cina polifonik dan kata benda bahasa Inggris. Xiaomi mengatakan ini dapat meningkatkan keandalan ucapan yang disintesis dalam aplikasi dunia nyata.
Semua fitur ini mengingatkan kita pada perkembangan AI suara lainnya, seperti yang dilakukan Xiaomi Rilis Model Suara AI Mimo V2.5 yang bisa meniru emosi dan kloning suara. OmniVoice seolah menjadi evolusi dari teknologi tersebut, dengan cakupan bahasa yang jauh lebih luas.
Baca Juga:
Namun, kemajuan ini juga membawa pertanyaan etis yang serius. Teknologi kloning suara yang semakin canggih membuka pintu bagi potensi penyalahgunaan. Bayangkan suara Anda bisa ditiru dengan sempurna untuk melakukan penipuan, menyebarkan informasi palsu, atau bahkan melakukan kejahatan. Kasus seperti Suara Mark Brown Direplikasi AI tanpa izin menjadi peringatan nyata.
Xiaomi sendiri belum secara eksplisit membahas mekanisme keamanan atau watermarking untuk mencegah penyalahgunaan OmniVoice. Ini menjadi pekerjaan rumah besar bagi komunitas open-source dan regulator. Di sisi lain, potensi positifnya juga tak kalah besar. Bayangkan NBC Menghidupkan Kembali Suara Legendaris Jim Fagan dengan AI untuk NBA—teknologi serupa bisa digunakan untuk melestarikan suara tokoh-tokoh bersejarah atau membantu orang yang kehilangan suara karena penyakit.
Langkah Xiaomi membuka sumber OmniVoice adalah momen penting dalam evolusi AI suara. Dengan memberikan akses ke model yang mampu menyaingi—bahkan melampaui—sistem komersial dalam hal cakupan bahasa dan kualitas, Xiaomi tidak hanya mendorong inovasi tetapi juga memicu diskusi global tentang etika dan masa depan komunikasi manusia-mesin. Pertanyaan besarnya sekarang bukan lagi apakah teknologi ini bisa dilakukan, tetapi bagaimana kita akan menggunakannya dengan bijak. Anda, sebagai pengguna, memiliki peran dalam menentukan arahnya.




