Carian
Apple Dan Beberapa Lain Dilaporkan Melatih AI Menggunakan Kandungan YouTube Tanpa Kebenaran
July 17, 2024 Aman

Apple, NVIDIA, Anthropic dan beberapa syarikat gergasi terknologi yang lain kini didapati menggunakan dataset YouTube untuk melatih sistem kecerdasan buatan dan model bahasa raya masing-masing.

Dataset berkenaan melibatkan lebih daripada 170,000 video YouTube menghimpunkan transkrip atau sarikata video – yang mana kemudiannya digunakan oleh pelbagai firma teknologi gergasi ini untuk melatih model masing-masing. Dataset berkenaan disediakan oleh EleutherAI yang ditujukan kepada para pengkaji dan akademik dalam melatih kecerdasan buatan.

Penawaran dataset berkenaan sendiri sedia melanggar terma dan syarat perkhidmatan YouTube, selain ramai penerbit kandungan juga tidak menyukai langkah ini yang seperti mencuri data atau kandungan mereka tanpa kebenaran, dan digunakan untuk tujuan lain. Apa yang lebih mendukacitakan adalah syarikat teknologi gergasi seperti Apple, NVIDIA dan lain-lain turut menggunakan dataset ini. Apple sendiri telah berkongsi berkenaan model bahasa raya mereka dinamakan OpenELM yang dilihat turut dilatih menggunakan dataset ini.

Pada hari ini, pelbagai syarikat teknologi tidak menyatakan sumberdataset yang digunakan untuk melatih kecerdasan buatan masing-masing – termasuk pihak OpenAI sendiri. Ketidak telusan dalam penggunaan kandungan tanpa kebenaran ini turut membawa kepada kes saman melibatkan penerbit kandungan dan syarikat teknologi. Namun, bagi penerbit kecil, mereka seperti ditindas oleh syarikat teknologi ini apabila menggunakan kandungan mereka sebegitu sahaja.

Sebelum ini, menyentuh berkenaan penggunaan data YouTube, pihak YouTube pernah menyatakan penggunaan video termasuk transkrip dan sarikata untuk tujuan latihan model kecerdasan buatan adalah melanggar terma penggunaan platform berkenaan.

Komen