Kecerdasan Buatan Google Mampu Mengasingkan Audio Berbeza Apabila Dua Individu Bercakap Serentak

Kecerdasan Buatan Google Mampu Mengasingkan Audio Berbeza Apabila Dua Individu Bercakap Serentak

Diterbitkan pada Apr 14, 2018 oleh .

Menjelang pilihanraya ini terdapat banyak video perdebatan dapat dilihat di media sosial. Wakil parti berbeza membincangkan polisi parti mereka bagi membolehkan pengundi menilai sendiri parti mana yang layak menerima undi mereka. Kerap kali bila berlaku perdebatan, dua ahli panel akan bercakap serentak sehingga kita tidak dapat mendengar apa yang dibincangkan dengan mudah.

Di Google mereka telah melatih rangkaian neural kecerdasan buatan mereka untuk mengasingkan dua sumber audio berbeza di dalam sesebuah video secara serentak. Dengan ini penonton boleh memilih suara siapa ingin didengari melalui proses yang dilakukan sepenuhnya oleh kecerdasan buatan.

Sistem yang digunakan untuk mengasingkan dua sumber audio berbeza ini amat menarik kerana memadankan audio dengan visual pergerakan mulut di dalam video. Rangkaian neural dilatih dengan menonton 100,00 video syarahan dan ceramah di Youtube yang memaparkan hanya satu individu dan satu sumber suara.

Selepas dilatih ia “melihat” pergerakan mulut di dalam video dan membandingkannya dengan graf audio yang berpadanan . Audio yang tidak berpadanan dengan apa yang dilihat kemudian diasingkan dan boleh dibisukan oleh kecerdasan buatan ini. Pada tahun 2016, Google memperlihatkan kecerdasan buatan yang mampu membaca gerak bibir yang lebih hebat berbanding manusia. Sistem pengasingan sumber audio ini adalah lanjutan kepada semula sistem kecerdasan buatan yang sama.

Membaca Gerak BibirAplikasi dunia nyata sistem ini ialah apabila menggunakan aplikasi panggilan video di tempat awam. Perisian boleh dihasilkan untuk menapis bunyi latar belakang dari audio mikrofon insan yang dihubungi sekaligus memudahkan mereka didengari tanpa gangguan bunyi bising.

Bagi pengguna pekak pula, sistem closed captioning automatik Youtube yang digunakan sekarang akan memaparkan sari kata yang lebih tepat. Mereka tidak akan lagi terpinggir kerana tidak sistem sedia ada tidak mampu memaparkan sari kata yang tepat apabila dua insan berbicara serentak.


TIPS & ULASAN