OpenAI Didakwa Melatih GPT-4 Menggunakan Transkrip Video YouTube Tanpa Kebenaran

Untuk melatih model bahasa raya (LLM) baharu, banyak data diperlukan. Tetapi banyak syarikat yang melakukan latihan untuk membangunkan AI terkini mereka mula menghadapi isu mendapatkan data yang berkualiti. Menurut laporan Wall Street Journal, OpenAI telah menggunakan data daripada 1 juta video YouTube tanpa kebenaran bagi melatih GPT-4.

OpenAI dikatakan menggunakan Whisper, sebuah AI yang menghasilkan transkrip video. Data. yang dikumpul Whisper kemudiannya digunakan untuk melatih GPT-4. Ini adalah melanggar terma dan syarat YouTube serta menggunakan harta intelek pengkarya di laman tersebut tanpa kebenaran.

Dalam kenyataan yang diberikan kepada The Verge, OpenAI mengatakan mereka menggunakan data daripada pelbagai sumber awam dan juga menerusi kerjasama untuk data yang tidak diberikan secara terbuka.

Menurut WSJ lagi, Google turut melakukan perkara yang sama tetapi menggunakan video YouTube tertentu sahaja mengikut terma dan syarat yang telah dipersetujui oleh pemilik.

Minggu lalu CEO YouTube mengatakan sekiranya OpenAI menggunakan video YouTube untuk melatih Sora, ia melanggar terma dan syarat laman. OpenAI pula tidak pernah mengaku menggunakan video YouTube untuk melatih Sora. Namun begitu isu mengenai hak cipta untuk melatih AI adalah isu yang mula hangat tahun lalu. Beberapa sama kumpul telah difailkan oleh penulis terkemuka dan syarikat media ke atas OpenAI kerana didakwa melatih AI menggunakan karya milik mereka tanpa kebenaran.

OpenAI Didakwa Melatih GPT-4 Menggunakan Transkrip Video YouTube Tanpa Kebenaran

Komen