Apa yang disebut teknik “unlearning” digunakan untuk membuat model AI melupakan informasi spesifik dan tidak relevan yang dipelajarinya dari pelatihan, seperti informasi rahasia atau materi berhak cipta.
Namun metode penghentian pembelajaran baru-baru ini adalah pedang bermata dua: Metode ini dapat membuat model seperti GPT-4o OpenAI atau Llama 3.1 405B dari Meta tidak dapat menjawab pertanyaan dasar.
Hal ini berdasarkan studi baru yang ditulis oleh para peneliti dari University of Washington (UW), Princeton, University of Chicago, USC dan Google, yang menemukan bahwa metode non-pembelajaran yang paling populer saat ini cenderung meremehkan model – seringkali sampai pada sasaran. mereka tidak dapat digunakan.
“Analisis kami menunjukkan bahwa metode yang dapat kami gunakan dalam mengatasi ketidakmampuan belajar belum siap untuk digunakan secara praktis atau diterapkan dalam situasi dunia nyata,” kata Weijia Shi, peneliti studi tersebut dan seorang Ph.D. mahasiswa ilmu komputer di UW, mengatakan kepada TechCrunch. “Saat ini, tidak ada cara yang baik untuk membantu spesies ini melupakan lebih banyak tanpa kehilangan terlalu banyak.”
Bagaimana model belajar
Model AI generatif tidak memiliki kecerdasan nyata. Ini adalah sistem komputasi yang memprediksi kata, gambar, ucapan, musik, video, dan data lainnya. Berdasarkan banyak sampel (seperti video, rekaman suara, dokumen, dan sebagainya), model AI mempelajari bagaimana data dapat dianalisis berdasarkan pola, termasuk apa yang ada di sekitar.
Misalnya, jika ada email yang diakhiri dengan frasa “Saya menunggu…”, model yang dilatih untuk menyelesaikan pesan mungkin menampilkan “…didengar”, mengikuti pola semua email masuk. Tidak ada niat di sana; model tidak mengharapkan apa pun. Itu hanya akal sehat.
Banyak model, termasuk produk andalan seperti GPT-4o, dilatih berdasarkan data dari situs publik dan database online. Banyak vendor yang membuat model seperti itu berpendapat bahwa penggunaan wajar melindungi praktik mereka dalam mengekstraksi data dan menggunakannya untuk tujuan pendidikan tanpa memberi tahu, memberi kompensasi, atau bahkan memberi penghargaan kepada pemiliknya.
Namun tidak semua pemegang hak cipta setuju. Dan banyak pihak – mulai dari penulis, penerbit, hingga film dokumenter – telah mengajukan tuntutan hukum terhadap pengecer untuk memaksakan perubahan.
Masalah peniruan menjadi salah satu alasan mengapa metode non-pembelajaran menjadi lebih populer akhir-akhir ini. Google, bekerja sama dengan beberapa institusi pendidikan, tahun lalu meluncurkan kompetisi untuk mendorong penerapan metode non-pembelajaran baru.
Buta huruf juga bisa menjadi cara untuk menghapus informasi sensitif dari sumber yang ada, seperti rekam medis atau foto yang mengganggu, sebagai respons terhadap permintaan atau perintah pemerintah. (Karena cara mereka dilatih, model cenderung mengambil banyak informasi sensitif, mulai dari nomor telepon hingga model yang lebih kompleks.) Dalam beberapa tahun terakhir, beberapa vendor telah merilis alat yang memungkinkan pemilik data meminta data mereka. . dikecualikan dari kelompok pelatihan. Namun alat keluaran ini berlaku untuk model masa depan, bukan model yang dilatih sebelum dirilis; buta huruf mungkin merupakan metode tambahan penghapusan data.
Terlepas dari itu, membatalkan pembelajaran tidak semudah menekan “Hapus”.
Seni melupakan
Metode unlearning saat ini mengandalkan algoritma yang dirancang untuk “mengarahkan” model dari data untuk menghindari pembelajaran. Idenya adalah untuk memengaruhi prediksi model sehingga prediksi tersebut tidak – atau jarang – menghasilkan sesuatu yang lain.
Untuk melihat bagaimana algoritma yang belum dipelajari ini dapat membantu, Shi dan rekan-rekannya membuat benchmark dan memilih delapan metode open source untuk pengujian. Disebut MUSE (Machine Unlearning Six-way Evaluation), tolok ukur ini bertujuan untuk mengevaluasi kemampuan algoritme tidak hanya untuk mencegah model memuntahkan data pelatihan (fenomena yang disebut regurgitasi), namun juga menghilangkan pengetahuan model terhadap data beserta hal lainnya. . bukti bahwa ia pertama kali dilatih tentang data.
Mendapat nilai bagus di MUSE mengharuskan model untuk melupakan dua hal: buku dari serial Harry Potter dan berita.
Misalnya, dengan kutipan dari Harry Potter dan Kamar Rahasia (“‘Ada banyak hal di penggorengan,’ kata Bibi…”), MUSE menguji apakah sampel yang tidak terlatih dapat mengulangi keseluruhan kalimat (“‘Ada a banyak di penggorengan,’ kata Bibi Petunia sambil memandang anak sulungnya”), menjawab pertanyaan tentang kejadian tersebut (misalnya, “Apa yang Bibi Petunia katakan kepada anaknya?”, “Banyak di penggorengan”) atau menunjukkan bahwa mereka diajari teks dari sebuah buku.
MUSE juga menguji apakah model tersebut mempertahankan banyak pengetahuan – misalnya, JK Rowling adalah penulis serial Harry Potter – setelah mereka berhenti belajar, yang oleh peneliti disebut sebagai penggunaan semua gambar. Semakin rendah inputnya, semakin banyak informasi relevan dengan model yang hilang, sehingga model tersebut kurang mampu menjawab pertanyaan.
Dalam penelitiannya, para peneliti menemukan bahwa algoritma unlearning yang mereka uji dia berkata membuat contoh untuk melupakan lebih banyak. Namun hal ini juga menghancurkan kemungkinan jawaban atas semua pertanyaan, dan menunjukkan adanya trade-off.
“Mengembangkan metode pembelajaran non-model yang efektif sulit dilakukan karena pengetahuan berbasis model,” kata Shi. Misalnya, seorang model dapat dilatih tentang materi berhak cipta – buku Harry Potter dan materi yang tersedia secara gratis dari Harry Potter Wiki. Ketika metode yang ada mencoba menghapus buku Harry Potter yang dilindungi hak cipta, metode tersebut juga memengaruhi pengetahuan pengguna. merek tentang Harry Potter Wiki.
Apakah ada solusi untuk masalah ini? Belum – dan hal ini menunjukkan perlunya penelitian lebih lanjut, kata Shi.
Sementara itu, vendor yang bertaruh untuk membatalkan pembelajaran sebagai solusi terhadap masalah data mereka tampaknya kurang beruntung. Mungkin teknologi akan memungkinkan terjadinya buta huruf suatu hari nanti. Namun sementara itu, pemasar harus mencari cara lain untuk mencegah model mereka mengatakan apa yang tidak seharusnya mereka katakan.