OpenAI memberikan gambaran di balik layar pedoman rahasia AI-nya

Pernah bertanya-tanya mengapa chatbot seperti ChatGPT mengatakan “Maaf, saya tidak bisa melakukan itu” atau penolakan sopan lainnya? OpenAI menawarkan gambaran singkat tentang konsep-konsep yang mematuhi kode etiknya, apakah itu berpegang pada pedoman genre atau menolak membuat NSFW.

Jurusan bahasa (LLM) tidak memiliki batasan alami mengenai apa yang dapat mereka ucapkan atau ucapkan. Ini adalah bagian dari mengapa mereka begitu fleksibel, dan mengapa mereka begitu mudah untuk diawasi dan dibodohi.

Setiap jenis AI yang berinteraksi dengan masyarakat umum harus memiliki beberapa perlindungan mengenai apa yang boleh dan tidak boleh dilakukan, namun mendefinisikan hal ini — apalagi menerapkannya — adalah tugas yang sangat sulit.

Jika seseorang meminta AI untuk membuat lebih banyak klaim palsu tentang manusia, AI seharusnya menjawab tidak, bukan? Namun bagaimana jika mereka sendiri adalah pengembang AI, yang membuat database objek tipe detektor terintegrasi?

Bagaimana jika seseorang meminta instruksi laptop; itu harus menjadi tujuan, bukan? Namun bagaimana jika model tersebut dikirimkan oleh produsen laptop yang hanya ingin merespons perangkatnya saja?

Semua pengembang AI melihat masalah seperti ini dan mencari cara yang lebih baik untuk memodifikasi model mereka tanpa membuat mereka menolak permintaan normal. Namun mereka sering kali tidak memberitahukan secara pasti bagaimana mereka melakukannya.

OpenAI memerangi tren lambat ini dengan menerbitkan apa yang disebutnya “model”, yaitu serangkaian aturan tingkat tinggi yang secara langsung mengatur ChatGPT dan model lainnya.

Ada tujuan meta-level, aturan ketat, dan pedoman etika lainnya, meskipun tampaknya hal ini tidak benar-benar menjelaskan apa yang mendasari model tersebut; OpenAI akan menghasilkan instruksi spesifik yang memenuhi persyaratan aturan ini dalam bahasa alami.

Baca juga:  Apple TV + memperkenalkan InSight, produk baru yang mirip dengan X-Ray Amazon, di WWDC 2024

Sangat menarik untuk melihat bagaimana perusahaan menetapkan prioritasnya dan menangani kasus-kasus sampingan. Dan masih banyak contoh cara memainkannya.

Misalnya, OpenAI dengan jelas menyatakan bahwa niat pengembang adalah aturan utama. Jadi salah satu jenis chatbot yang menjalankan GPT-4 dapat memberikan jawaban terhadap soal matematika ketika ditanya. Namun jika chatbot dipuji oleh penciptanya karena tidak memberikan jawaban langsung, malah ia berkomitmen untuk menyelesaikan jawabannya selangkah demi selangkah:

Kredit gambar: OpenAI

Komunikasi bahkan dapat menolak untuk membicarakan apa pun yang tidak disetujui, untuk menghentikan upaya apa pun sejak awal. Mengapa bahkan mengizinkan asisten memasak untuk menguji intervensi AS dalam Perang Vietnam? Mengapa chatbot layanan pelanggan harus setuju untuk membantu Anda dengan pekerjaan tongkat ajaib Anda? Matikan.

Itu juga melekat pada masalah privasi, seperti menanyakan nama dan nomor telepon seseorang. Seperti yang ditunjukkan oleh OpenAI, tentu saja figur publik seperti walikota atau anggota Kongres harus diberikan informasi pribadinya, namun bagaimana dengan pengecer lokal? Ini mungkin bagus – tapi bagaimana dengan karyawan perusahaan tertentu, atau anggota partai politik? Mungkin tidak.

Memilih waktu dan tempat untuk menarik garis memang tidak mudah. Itu juga tidak membuat instruksi yang membuat AI mengikuti langkah selanjutnya. Dan tidak ada keraguan bahwa sistem ini akan selalu gagal ketika orang-orang belajar untuk mengatasinya atau secara tidak sengaja menemukan kasus yang tak terhitung jumlahnya.

OpenAI tidak menunjukkan pengaruhnya sepenuhnya di sini, tetapi berguna bagi pengguna dan pengembang untuk melihat bagaimana aturan dan pedoman ini ditetapkan dan alasannya, dijelaskan dengan jelas jika tidak sepenuhnya jelas.

Tinggalkan Balasan

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *