Meskipun keamanan dan akuntabilitas AI meningkat, pengujian dan tolok ukur saat ini mungkin gagal, menurut sebuah laporan baru.
Model AI buatan – model yang dapat menganalisis dan mereproduksi teks, gambar, musik, video, dan sebagainya – semakin mendapat sorotan karena kecenderungannya untuk melakukan kesalahan dan sering berperilaku tidak terduga. Kini, organisasi mulai dari lembaga pemerintah hingga perusahaan teknologi besar mengusulkan cara baru untuk menguji keamanan jenis ini.
Pada akhir tahun lalu, startup Scale AI membuat laboratorium khusus untuk mengevaluasi kepatuhan model terhadap pedoman keamanan. Bulan ini, NIST dan Institut Keamanan AI Inggris merilis alat untuk menilai risiko model tersebut.
Namun pengujian dan metode untuk mengevaluasi model ini mungkin tidak cukup.
Ada Lovelace Institute (ALI), sebuah organisasi penelitian AI nirlaba yang berbasis di Inggris, melakukan survei yang mewawancarai para ahli dari laboratorium akademis, lembaga pemerintah, dan model vendor, serta meninjau penelitian terbaru mengenai penilaian keamanan AI. Rekan penulis menemukan bahwa meskipun analisis saat ini mungkin berguna, namun analisis tersebut tidak konklusif, dapat dengan mudah dimanipulasi, dan tidak memberikan indikasi tentang bagaimana kinerja model dalam situasi dunia nyata.
“Baik itu ponsel pintar, obat resep, atau mobil, kami berharap produk yang kami gunakan aman dan dapat diandalkan; di area ini, produk diuji secara ketat untuk memastikan keamanannya sebelum dikirim,” Elliot Jones, peneliti senior di ALI dan salah satu penulis laporan tersebut, mengatakan kepada TechCrunch. “Penelitian kami bertujuan untuk menilai batasan penilaian keamanan AI saat ini metode, menilai efektivitas penilaian yang saat ini digunakan dan memeriksa penggunaannya sebagai alat bagi pembuat kebijakan dan regulator.”
Tolok ukur dan kerja sama merah
Rekan penulis studi ini pertama-tama menelusuri literatur akademis untuk mendapatkan gambaran umum tentang risiko saat ini dan potensi risiko, serta status penilaian AI yang ada. Mereka kemudian mewawancarai 16 ahli, termasuk empat karyawan di sebuah perusahaan teknologi yang tidak disebutkan namanya yang membuat sistem kecerdasan buatan.
Studi ini menemukan ketidaksepakatan yang signifikan dalam industri AI mengenai metode terbaik dan taksonomi analisis model.
Beberapa pengujian hanya menguji seberapa baik kinerja prototipe terhadap tolok ukur di laboratorium, bukan bagaimana prototipe akan memengaruhi pengguna sebenarnya. Beberapa mengadopsi pengujian yang dirancang untuk penelitian, bukan pengujian proses manufaktur – namun pemasok tetap menggunakan pengujian ini di bidang manufaktur.
Kami telah menulis tentang masalah dengan tolok ukur AI sebelumnya, dan penelitian ini menyoroti semua masalah ini dan banyak lagi.
Para ahli yang dikutip dalam penelitian tersebut juga mengatakan bahwa sulit untuk mengetahui kinerja model dari hasil benchmark dan tidak diketahui apakah benchmark tersebut dapat menunjukkan bahwa suatu merek memiliki kemampuan tertentu. Misalnya, meskipun suatu model dapat berprestasi baik dalam ujian negara, hal ini tidak berarti bahwa model tersebut akan mampu menyelesaikan banyak masalah hukum.
Para ahli juga mengemukakan masalah kontaminasi data, dimana hasil benchmark dapat melebihi performa model jika model telah dilatih pada data yang diuji. Seringkali tolok ukur dipilih oleh organisasi bukan karena merupakan alat analisis terbaik, namun karena sederhana dan mudah digunakan, kata para ahli.
“Benchmark berisiko dibingungkan oleh pengembang yang akan melatih model pada data yang sama yang akan digunakan untuk menguji model, mirip dengan melihat kertas ujian sebelum ujian tiba, atau dengan membuat pilihan bijak tentang apa yang akan digunakan,” Mahi Hardalupas , seorang peneliti di ALI dan salah satu penulis studi tersebut, mengatakan kepada TechCrunch. “Hal ini juga bergantung pada jenis produk yang dievaluasi. Perubahan kecil dapat menyebabkan perubahan kinerja yang tidak terduga dan dapat mengesampingkan keamanan standar.”
Penelitian ALI juga menemukan masalah dengan “red-teaming,” praktik menugaskan orang atau tim untuk melakukan tugas dan “menyerang” model untuk mengidentifikasi kelemahan dan kesalahan. Sejumlah perusahaan menggunakan pita merah untuk mengevaluasi model, termasuk startup AI OpenAI dan Anthropic, namun hanya ada sedikit standar yang disepakati untuk pita merah, sehingga sulit untuk mengevaluasi kinerja proyek.
Para ahli mengatakan kepada rekan penulis penelitian bahwa akan sulit untuk menemukan orang dengan keterampilan dan keahlian yang diperlukan untuk tim merah, dan bahwa sifat manual dari tim merah membuatnya mahal dan memberatkan – menunjukkan hambatan organisasi kecil tanpa sumber daya yang diperlukan.
solusi yang memungkinkan
Tekanan untuk merilis model dengan cepat dan penolakan untuk menjalankan pengujian yang dapat menimbulkan masalah sebelum rilis adalah alasan utama mengapa pengembangan AI belum berhasil.
“Salah satu orang yang kami ajak bicara yang bekerja di sebuah perusahaan pengambilan sampel yayasan mengatakan ada banyak tantangan dalam industri ini untuk mengeluarkan sampel dengan cepat, sehingga sulit untuk mendapatkan sampel kembali dan melakukan analisis menyeluruh,” kata Jones. “Laboratorium AI besar dengan cepat memproduksi model yang melebihi kemampuan mereka atau tim untuk memastikan bahwa model tersebut aman dan andal.”
Salah satu responden dalam survei ALI menyebut pengujian model keamanan sebagai tantangan yang “mustahil”. Jadi harapan apa yang dimiliki perusahaan – dan regulator – untuk mendapatkan jawabannya?
Mahi Hardalupas, peneliti di ALI, yakin ada jalan ke depan, namun hal ini memerlukan lebih banyak tindakan dari sektor publik.
“Manajemen dan pembuat kebijakan harus jelas mengenai apa yang mereka inginkan dari penilaian tersebut,” katanya. “Pada saat yang sama, tim evaluasi harus jelas tentang apa yang tersedia dan apa yang bisa dilakukan selama evaluasi.”
Hardalupas menyarankan agar pemerintah mewajibkan partisipasi masyarakat dalam pengembangan penilaian dan menerapkan langkah-langkah untuk mendukung “lingkungan” pengujian pihak ketiga, termasuk program untuk memastikan akses terhadap sampel dan data yang diperlukan.
Jones menyarankan bahwa mungkin perlu untuk mengembangkan evaluasi “spesifik” yang lebih dari sekadar menguji seberapa cepat suatu model merespons, melainkan melihat jenis pengguna yang mungkin terpengaruh oleh model tersebut (misalnya, orang-orang dari ras, jenis kelamin, atau etnis tertentu) dan cara di mana serangan model dapat dikalahkan.
“Hal ini memerlukan investasi dalam ilmu analitis untuk menghasilkan evaluasi yang kuat dan berulang berdasarkan pemahaman cara kerja model AI,” tambahnya.
Namun tidak ada jaminan bahwa model tersebut aman.
“Seperti yang dikatakan beberapa orang, ‘keamanan’ bukanlah masalah rasial,” kata Hardalupas. “Menentukan apakah model tersebut ‘aman’ memerlukan pemahaman bagaimana model tersebut digunakan, kepada siapa model tersebut dijual atau dapat diakses, dan apakah upaya perlindungan yang ada cukup dan cukup kuat untuk memitigasi risiko. Analisis model dasar dapat dilakukan dalam mengidentifikasi kemungkinan risiko, namun tidak dapat disimpulkan bahwa model tersebut aman, apalagi ‘terjamin dengan baik’. Sebagian besar responden setuju bahwa evaluasi tidak dapat membuktikan bahwa merek tersebut aman dan hanya dapat menunjukkan bahwa merek tersebut tidak aman.”