LAION, organisasi penelitian Jerman yang mengembangkan data yang digunakan untuk melatih Difusi Stabil, di antara jenis AI lainnya, telah merilis data baru yang dikatakan telah “dibersihkan dari kaitannya dengan dugaan pelecehan anak (CSAM).”
Kumpulan baru, Re-LAION-5B, mereproduksi data lama, LAION-5B – tetapi dengan “perbaikan” berdasarkan rekomendasi dari Internet Watch Foundation nirlaba, Human Rights Watch, Pusat Perlindungan Anak Kanada. dan Stanford Internet Observatory yang sekarang sudah tidak ada lagi. Tersedia untuk diunduh dalam dua versi, Re-LAION-5B Research dan Re-LAION-5B Research-Safe (yang juga menghapus konten NSFW), keduanya disaring melalui ribuan tautan untuk mengidentifikasi – dan “mungkin” – CSAM, LAION mengatakan.
“LAION berkomitmen untuk menghapus konten ilegal dari bukunya sejak awal dan telah menerapkan langkah-langkah yang diperlukan untuk mewujudkan hal ini sejak awal,” tulis LAION dalam sebuah postingan. “LAION menganut prinsip bahwa konten ilegal akan dihapus secepatnya ketika terdeteksi.”
Penting untuk dicatat bahwa kumpulan data LAION tidak – dan tidak pernah – berisi gambar. Sebaliknya, ini adalah daftar tautan ke gambar dan artikel lain yang dipilih LAION, semuanya berasal berbeda kumpulan data – Perayapan Umum – dari halaman dan halaman yang dirayapi.
Pelepasan Re-LAION-5B terjadi setelah penyelidikan pada bulan Desember 2023 oleh Stanford Internet Observatory menemukan bahwa LAION-5B – khususnya sub-unit yang disebut LAION-5B 400M – menyertakan setidaknya 1.679 tautan ke gambar ilegal yang telah dihapus dari media sosial. media. situs web populer utama. Menurut laporan tersebut, 400M juga memuat tautan ke “konten yang tidak pantas termasuk gambar pornografi, penghinaan rasis, dan opini publik yang negatif.”
Meskipun rekan penulis laporan di Stanford menunjukkan bahwa akan sulit untuk menghapus konten yang menyinggung dan kehadiran CSAM tidak terlalu memengaruhi keluaran model yang dilatih pada kumpulan data, LAION mengatakan bahwa LAION-5B akan diperlukan untuk menyelesaikannya. beberapa saat. .
Laporan Stanford merekomendasikan agar spesies yang dilatih pada LAION-5B “dihapus dan dihentikan jika memungkinkan.” Mungkin yang lebih relevan, startup AI Runway baru-baru ini mengunduh versi Stable Diffusion 1.5 dari platform hosting AI Hugging Face; Kami telah menghubungi perusahaan untuk informasi lebih lanjut. (Runway pada tahun 2023 bermitra dengan Stability AI, perusahaan di balik Stable Diffusion, untuk membantu melatih Stable Diffusion versi pertama.)
Untuk kumpulan data Re-LAION-5B baru, yang berisi sekitar 5,5 miliar gambar dan dirilis di bawah lisensi Apache 2.0, LAION mengatakan metadatanya dapat digunakan oleh pihak ketiga untuk membersihkan salinan LAION-5B yang ada dengan menghapus perbandingan yang tidak sah.
LAION menekankan bahwa artikelnya ditujukan untuk penelitian – bukan tujuan komersial. Namun, jika sejarah bisa menjadi indikasi, hal itu tidak akan menghalangi organisasi lain. Selain Stability AI, Google pernah menggunakan kumpulan data LAION untuk melatih model pemrosesan gambarnya.
“Secara total, 2.236 tautan (dicurigai CSAM) telah dihapus setelah membandingkannya dengan daftar tautan dan gambar yang disediakan oleh mitra kami,” lanjut LAION dalam postingan tersebut. “Tautan ini juga berisi 1008 tautan yang ditemukan oleh laporan Stanford Internet Observatory pada Desember 2023…