Meta merilis MusicGen, generator text-to-music AI, open source untuk publik minggu ini, yang memungkinkan dunia pada umumnya membuat kekacauan musik dalam angsuran 12 detik hingga isi hati mereka. Sekarang, Meta punya Kotak Suara yang diperkenalkan, perangkat lunak penghasil text-to-speech AI paling kuat yang pernah kami lihat hingga saat ini. Begitu kuatnya, sehingga Anda tidak dapat memilikinya – karena Anda tidak dapat dipercaya untuk memilikinya.
Meta melakukan pekerjaan rumah mereka untuk yang satu ini, mereka tahu bahwa membuang perangkat lunak ini ke dunia tidak akan menyebabkan apa-apa selain kekacauan. Tidak satu jam berlalu sebelum internet dibanjiri dengan klip suara yang dibuat oleh orang-orang ner-do-well dari hal-hal paling tajam yang mungkin diucapkan melalui suara orang lain. Tidak. Alat sebesar ini harus digunakan dengan tanggung jawab yang luar biasa. Terkunci rapat dan hanya digunakan oleh masyarakat yang paling tepercaya dan dapat diandalkan.
Itulah mengapa Mark Zuckerberg ingin menggunakannya untuk membuat NPC di Metaverse terdengar keren.
Voicebox adalah model AI canggih untuk tidak hanya membuat ucapan tetapi juga tugas merekam ucapan, seperti mengedit, mengambil sampel, dan mengubah gaya. Alat AI generatif multiguna agak merupakan jack of all trade, cocok untuk mengubah teks menjadi ucapan manusia dan mengedit hasilnya. Itu dapat menghilangkan suara yang tidak diinginkan dalam rekaman, mengurangi statis latar belakang, serta mengambil sampel dan memodifikasi rekaman yang ada di enam bahasa berbeda.
Sementara Voicebox, seperti banyak alat AI generatif, dilatih dengan lebih dari 50.000 jam rekaman ucapan (dan transkrip dari buku audio domain publik), Meta telah mengembangkan pendekatan baru untuk belajar langsung dari audio mentah dan transkripsi yang menyertainya. Hal ini memungkinkan Voicebox mengenali sampel yang dimasukkan ke dalamnya dengan lebih baik, dan mengubah bagian tertentu dari rekaman dengan lebih baik, tanpa harus membuat ulang seluruh klip.
Memperkenalkan Voicebox, sistem ucapan generatif terobosan baru berdasarkan Flow Matching, metode baru yang diusulkan oleh Meta AI. Itu dapat mensintesis ucapan dalam enam bahasa, melakukan penghapusan kebisingan, mengedit konten, mentransfer gaya audio & lainnya. Detail lebih lanjut tentang karya & contoh ini ⬇️16 Juni 2023
Produk yang bermuara pada produksi sampel audio berkualitas tinggi yang benar-benar mewakili bagaimana orang benar-benar berbicara satu sama lain di dunia nyata – dengan Meta memastikan sampel ucapan yang beragam untuk secara akurat menerapkan prinsip yang sama ke bahasa lain. Hasilnya juga mengesankan, dengan Meta menghosting pilihan mereka di postingan blog terbaru mereka. Saya bahkan tidak bercanda ketika saya memberi tahu Anda bahwa saya curiga bahwa suara Zuckerberg mungkin sebenarnya adalah produk dari alat itu sendiri.
Meta percaya bahwa suatu hari nanti teknologi ini akan sangat penting untuk membantu pembuat dan produser konten dengan mengedit trek audio, memungkinkan tunanetra mendengar pesan tertulis dari teman (dengan suara mereka), dan memungkinkan orang untuk berbicara bahasa asing apa pun dengan suara mereka sendiri. Benar, Mark Zuckerberg baru saja mengawasi penemuan Babelfish.
Dan Anda tidak dapat memilikinya.
Sayangnya, ini bukan salah satu alat yang menurut Meta nyaman untuk dibagikan secara bebas kepada publik secara luas. Sementara peneliti Meta telah mengembangkan “pengklasifikasi yang sangat efektif yang dapat membedakan antara ucapan asli dan audio yang dihasilkan dengan Voicebox”, tim tersebut masih merasa bahwa ada “potensi penyalahgunaan dan bahaya yang tidak diinginkan”. Tidak bercanda.
Sementara Meta tidak ingin membagikan produk akhir, mereka telah mengungkapkan langkah-langkah yang mereka ambil untuk sampai ke sana – percaya bahwa mengumumkan teknologi ini secara publik adalah sesuatu yang mereka miliki dan bahwa mereka memahami risiko dan potensi bahaya yang ditimbulkannya saat mengerjakan alat untuk mengautentikasi audio nyata dan dihasilkan menjadi resolusi paling etis.
Dan tahukah Anda? Angkat topi untuk Meta yang satu ini. Ini adalah hal yang paling etis untuk dilakukan dalam situasi itu. Sementara beberapa orang akan mengatakan bahwa hal yang paling etis untuk dilakukan adalah tidak pernah mengembangkannya sejak awal, ada baiknya mengetahui bahwa Meta menghabiskan sumber daya mereka untuk mengurangi kerusakan yang dapat ditimbulkan oleh alat semacam itu jika disalahgunakan. Dan jauh lebih baik untuk mengumumkannya secara publik daripada suatu hari terungkap sebagai penimbunan teknologi ini, hanya untuk yang paling mencurigakan di antara kita yang bertanya-tanya untuk apa Meta mungkin menggunakannya setelah sekian lama dalam bayang-bayang.
Dorongan Meta AI yang besar adalah hal yang menarik untuk diamati, dengan keragaman tujuan yang dieksplorasi sekaligus.
Kembali ke Laptop Ultrabook