Kecerdasan Buatan VALL-E Boleh Menjana Suara Berasaskan Sampel Klip Sepanjang 3 Saat

Kecerdasan buatan DALL.E boleh menghasilkan gambar berdasarkan input teks yang diberikan oleh pengguna. Kini kecerdasan buatan VALL-E yang dibangunkan oleh Microsoft mempunyai kemampuan menjana klip audio suara berdasarkan sampel audio seseorang selama 3 saat sahaja.

Microsoft berkata teknologi ini boleh digunakan untuk menjana klip audio yang sebaik manusia untuk aplikasi teks-ke-suara. VALL-E dilatih selama 60,000 jam menggunakan pustaka audio LibrilLight yang dikumpulkan oleh Meta yang terdiri daripada rakaman suara 7000 individu yang membaca buku audio LibriVox.

Menyedari pelbagai isu yang mungkin timbul sekiranya VALL-E digunakan untuk menghasilkan audio palsu berdasarkan suara individu tertentu, Microsoft tidak memberikan akses terbuka untuk ia digunakan oleh ramai. Ia kini hanya boleh diakses oleh penyelidik di Microsoft sahaja. VALL-E masih lagi dibangunkan untuk meningkatkan kejituan ia mengajuk suara sampel yang diberikan.

[sumber] Sumber – VALL-E [/sumber]

Kecerdasan Buatan VALL-E Boleh Menjana Suara Berasaskan Sampel Klip Sepanjang 3 Saat

Komen