Data pelatihan AI memiliki nilai yang hanya mampu dimiliki oleh perusahaan teknologi besar

Data adalah jantung dari sistem AI yang canggih saat ini, namun biayanya semakin mahal sehingga tidak dapat dijangkau oleh semua orang kecuali perusahaan teknologi terkaya.

Tahun lalu, James Betker, peneliti di OpenAI, menulis postingan di blognya tentang sifat model AI dan kumpulan data yang digunakan untuk melatihnya. Di dalamnya, Betker mengatakan bahwa data pelatihan – bukan desain model, strukturnya, atau kualitas lainnya – adalah kunci sistem AI terbaik.

“Dilatih dengan informasi yang sama dalam waktu yang lama, hampir setiap spesies berakhir di tempat yang sama,” kata Betker.

Apakah Betker benar? Apakah pengetahuan akademis merupakan petunjuk utama mengenai apa yang dapat dilakukan oleh sebuah model, apakah itu menjawab pertanyaan, menggambar tangan orang, atau menciptakan pemandangan kota yang sebenarnya?

Itu sangat masuk akal.

Kalkulator

Mesin kecerdasan buatan pada dasarnya adalah model probabilistik – sekumpulan besar statistik. Dia menyarankan untuk mengambil banyak contoh di mana data membuat penempatan “cerdas” (misalnya, kata “pergi” sebelum “pasar” dalam frasa “Saya akan pergi ke pasar”). Oleh karena itu, masuk akal jika semakin banyak sampel yang diambil, semakin baik model yang dilatih berdasarkan sampel tersebut.

“Sepertinya keuntungan datang dari data,” kata Kyle Lo, ilmuwan peneliti senior di Allen Institute for AI (AI2), sebuah organisasi penelitian AI nirlaba, kepada TechCrunch, “mungkin ketika Anda memiliki pelatihan yang konsisten.”

Lo mencontohkan Llama 3 milik Meta, model text generator yang dirilis awal tahun ini, yang performanya mengungguli model AI2 milik OLMo meski sangat mirip. Llama 3 dilatih menggunakan lebih banyak data dibandingkan OLMo, yang menurut Lo menjelaskan keunggulannya dibandingkan banyak tolok ukur AI yang populer.

(Saya akan mengatakan di sini bahwa tolok ukur yang banyak digunakan dalam industri AI saat ini bukanlah cara terbaik untuk menentukan kinerja manusia, namun di luar pengujian standar seperti yang kami lakukan, ini adalah salah satu dari sedikit cara yang harus kami tempuh. Lanjutkan .)

Ini tidak berarti bahwa pelatihan pada kumpulan data yang besar adalah cara yang pasti untuk mendapatkan model terbaik. Model menggunakan paradigma “sampah masuk, sampah keluar”, catat Lo, sehingga retensi dan kualitas data adalah hal yang penting, mungkin lebih penting daripada kuantitas.

“Ada kemungkinan sampel kecil dengan data yang terstruktur dengan baik akan mengungguli sampel besar,” tambahnya. Misalnya, Falcon 180B, model terbesar, menempati peringkat 63 pada benchmark LMSYS, sedangkan Llama 2 13B, model terkecil, menempati peringkat 56.

Dalam wawancara dengan TechCrunch Oktober lalu, peneliti OpenAI Gabriel Goh mengatakan bahwa spesifikasi canggih berkontribusi lebih besar terhadap peningkatan gambar di DALL-E 3, versi grafis OpenAI, dibandingkan pendahulunya DALL-E 2. “Saya pikir. ini yang utama sumber perbaikan,” ujarnya. “Suaranya lebih bagus dibandingkan sebelumnya (dengan DALL-E 2) – tidak sama sama sekali.”

Banyak model AI, termasuk DALL-E 3 dan DALL-E 2, dilatih dengan meminta karakter manusia menulis data sehingga model tersebut belajar mengaitkan karakter tersebut dengan fitur data lain yang diamati. Misalnya, sebuah merek yang menyediakan banyak gambar kucing dengan deskripsi setiap warna “belajar” mengasosiasikan kata-kata yang disukainya kesulitan Dan rambut pendek dan penampilan unik mereka.

Baca juga:  Hampir 6 Juta Ancaman Online Mengincar Konsumen Indonesia Januari-Maret 2024

Perilaku buruk

Para ahli seperti Lo khawatir bahwa meningkatnya penekanan pada data yang besar dan berkualitas tinggi akan membatasi pengembangan AI di antara beberapa pemain dengan miliaran dolar yang mampu membeli perangkat tersebut. Perubahan besar di bidang manufaktur atau infrastruktur dapat mengganggu status quo, namun hal ini tampaknya tidak akan terjadi dalam waktu dekat.

“Secara keseluruhan, organisasi yang mengelola hal-hal yang mungkin berguna untuk pengembangan AI didorong untuk menutup perangkat mereka,” kata Lo. “Dan ketika akses terhadap data ditutup, kami memberkati beberapa startup dengan akses terhadap data dan meningkatkan jenjangnya sehingga tidak ada orang lain yang memiliki akses terhadap data tersebut.”

Memang benar, ketika persaingan untuk mendapatkan akses terhadap informasi akademis tidak mengarah pada praktik-praktik yang tidak etis (dan mungkin ilegal) seperti penggabungan materi berhak cipta secara diam-diam, hal ini telah memberikan imbalan kepada para teknokrat dengan berkantong tebal untuk digunakan dalam perizinan.

Model berbasis AI seperti OpenAI terutama dilatih pada gambar, teks, audio, video, dan data lainnya – yang dilindungi – yang diambil dari situs web publik (termasuk, dalam beberapa kasus, situs yang dihasilkan AI). OpenAI di seluruh dunia mengklaim bahwa penggunaan wajar melindungi mereka dari tindakan hukum. Banyak kaum libertarian yang tidak setuju dengan hal ini – namun, untuk saat ini, mereka tidak dapat berbuat banyak untuk menghentikan praktik tersebut.

Ada banyak sekali contoh pengembang AI komersial yang memperoleh kumpulan data besar melalui metode yang meragukan untuk melatih model mereka. OpenAI mengklaim telah mengkodekan lebih dari satu juta video YouTube tanpa izin YouTube – atau izin pembuatnya – untuk memasukkannya ke GPT-4-nya. Google baru-baru ini memperluas sistemnya agar dapat menggunakan Google Dokumen, ulasan restoran di Google Maps, dan sumber daya web lainnya untuk produk AI-nya. Dan Meta mengatakan dia memutuskan mengambil risiko untuk mengedukasi mereknya tentang konten yang dilindungi IP.

Saat ini, perusahaan besar dan kecil bergantung pada pekerja pihak ketiga yang hanya membayar beberapa dolar per jam untuk membuat ulasan bagi kelompok pelatihan. Beberapa dari penjelajah ini – yang dipekerjakan oleh perusahaan rintisan besar seperti Scale AI – bekerja selama berhari-hari untuk menyelesaikan tugas yang membuat mereka dihadapkan pada adegan kekerasan dan pertumpahan darah tanpa manfaat atau jaminan apa pun di masa depan.

Untuk menumbuhkan pohon itu

Dengan kata lain, bahkan data di atas tidak mendorong pendekatan yang terbuka dan setara terhadap AI.

OpenAI telah menghabiskan jutaan dolar dalam kesepakatan lisensi dari penerbit berita, museum, dan lainnya untuk melatih model AI-nya – anggaran yang jauh melebihi dana yang dikeluarkan oleh banyak kelompok penelitian, organisasi nirlaba, dan perusahaan rintisan. Meta telah berusaha keras untuk membuat penerbit Simon & Schuster memiliki hak atas e-book (pada akhirnya, Simon & Schuster dijual ke perusahaan ekuitas swasta KKR seharga $1,62 miliar pada tahun 2023).

Baca juga:  Aplikasi Autobiographer menggunakan AI untuk membantu Anda menceritakan kisah hidup Anda

Dengan pasar pelatihan AI yang diperkirakan akan tumbuh dari sekitar $2,5 miliar saat ini menjadi $30 miliar dalam satu dekade, vendor dan platform data berusaha keras untuk membayar mahal — terkadang karena keberatan pengguna.

Perpustakaan media Shutterstock telah membuat kesepakatan dengan vendor AI mulai dari $25 juta hingga $50 juta, sementara Reddit mengatakan mereka telah menghasilkan ratusan juta dari lisensi hingga organisasi seperti Google dan OpenAI. Beberapa platform dengan banyak informasi telah dikumpulkan selama bertahun-tahun saya tidak melakukannya tampaknya menandatangani kontrak dengan pengembang AI yang kreatif – dari Photobucket hingga Tumblr hingga situs Tanya Jawab Stack Overflow.

Itu adalah apa yang bisa Anda jual di platform – sebagian besar berdasarkan tujuan yang Anda yakini. Namun seringkali, pengguna tidak melihat manfaat apa pun. Dan hal ini menghancurkan sejumlah besar penelitian AI.

“Pemain yang lebih kecil tidak mampu membayar lisensi data ini, sehingga mereka tidak dapat mengembangkan atau mempelajari model AI,” kata Lo. “Saya khawatir hal ini dapat menyebabkan kurangnya fokus pada pengembangan AI.”

Upaya mandiri

Jika ada sinar matahari dalam kegelapan, ini adalah upaya kecil yang independen dan nirlaba untuk mengembangkan perangkat berskala besar yang dapat digunakan siapa saja untuk melatih model AI.

EleutherAI, sebuah kelompok penelitian nirlaba yang dimulai sebagai kelompok Discord pada tahun 2020, bekerja sama dengan Universitas Toronto, AI2 dan peneliti independen untuk menciptakan The Pile v2, sebuah dokumen crowdsourcing bernilai miliaran dolar. .

Pada bulan April, startup AI Hugging Face merilis FineWeb, versi Common Crawl yang difilter – koleksi terkenal yang diselenggarakan oleh organisasi nirlaba Common Crawl, yang terdiri dari miliaran halaman web – yang menurut Hugging Face meningkatkan kinerja pada banyak tolok ukur.

Upaya kecil untuk merilis data terbuka, seperti kumpulan gambar tim LAION, telah menghadapi masalah hak cipta, privasi data, dan masalah etika dan hukum lainnya. Namun beberapa data logger berdedikasi berjanji untuk melakukan yang lebih baik. Pile v2, misalnya, menghilangkan masalah hak cipta yang ditemukan di kumpulan data pertamanya, The Pile.

Pertanyaannya adalah apakah salah satu dari upaya ini dapat diharapkan dapat berjalan bersama Big Tech. Selama pengumpulan dan pemantauan data masih menjadi masalah keuangan, jawabannya mungkin tidak – sampai penelitian berhasil dilakukan.

Tinggalkan Balasan

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *