GPT-4o OpenAI, versi AI yang mendukung Mode Suara Tingkat Lanjut yang baru dirilis di ChatGPT, adalah pelatihan suara pertama perusahaan serta pemrosesan teks dan gambar. Dan hal ini terkadang menyebabkan Anda melakukan hal-hal aneh – seperti meniru suara lawan bicara atau berteriak sembarangan di tengah percakapan.
Dalam laporan “tim merah” baru yang mendokumentasikan kekuatan dan kelemahan model, OpenAI menunjukkan beberapa tantangan GPT-4o, seperti kutipan di atas. Dalam beberapa kasus — terutama saat seseorang berbicara dengan GPT-4o “di lingkungan dengan kebisingan tinggi”, seperti mobil di jalan raya – GPT-4o akan “meniru suara pengguna”, kata OpenAI. Mengapa? Nah, OpenAI menempatkannya pada tipe yang kesulitan memahami kata yang salah. Bagus sekali!
Dengarkan seperti apa contoh di bawah ini (dari laporan). Luar biasa, bukan?
Untuk lebih jelasnya, GPT-4o tidak melakukan hal ini sekarang – tidak dalam Mode Suara Tingkat Lanjut. Seorang juru bicara OpenAI mengatakan kepada TechCrunch bahwa perusahaan tersebut menambahkan “mitigasi sistematis” ke dalam sistem.
GPT-4o juga cenderung menghasilkan suara dan suara yang “sumbang” atau tidak pantas, seperti erangan yang menjengkelkan, jeritan yang keras, dan suara tembakan, jika ditanya dengan cara tertentu. OpenAI mengatakan ada bukti yang menunjukkan model tersebut umumnya dia menolak permintaan yang masuk akal, tetapi mengakui bahwa beberapa permintaan memang berakhir.
GPT-4o juga dapat melanggar pembajakan musik – atau, lebih tepatnya, hal tersebut akan terjadi jika OpenAI tidak menggunakan filter untuk mencegah hal ini. Dalam laporannya, OpenAI mengatakan pihaknya menginstruksikan GPT-4o untuk tidak memainkan Mode Suara Lanjutan alfa rendah, mungkin untuk menghindari peniruan gaya, nada, dan/atau timbre artis populer.
Ini berarti – namun tidak membuktikan – bahwa OpenAI melatih GPT-4o pada materi berhak cipta. Tidak jelas apakah OpenAI berencana untuk mencabut pembatasan ketika Mode Suara Lanjutan menjangkau lebih banyak pengguna pada musim gugur ini, seperti yang diumumkan sebelumnya.
“Untuk membaca musik GPT-4o, kami memodifikasi beberapa filter untuk digunakan dalam percakapan (dan) membuat filter untuk mendeteksi dan memblokir konten musik,” tulis OpenAI dalam laporannya. “Kami melatih GPT-4o untuk menolak permintaan pribadi, termasuk audio, yang terkait dengan banyak sistem kami.”
Perlu dicatat bahwa OpenAI baru-baru ini menyatakan bahwa “tidak mungkin” untuk melatih pemain terkemuka saat ini tanpa menggunakan alat peniru. Meskipun perusahaan melakukan sejumlah kunjungan resmi dengan penyedia data, perusahaan juga memastikan bahwa penggunaan yang benar adalah pertahanan yang tepat terhadap alasan yang mengajarkan data yang dilindungi oleh IP, termasuk hal-hal seperti musik, tanpa izin.
Laporan tim merah – betapa berharganya hal ini, mengingat kuda OpenAI dalam perlombaan – dia melakukannya menangkap gambaran lengkap model AI yang dibuat aman dengan berbagai mitigasi dan perlindungan. GPT-4o menolak mengenali orang berdasarkan cara mereka berbicara, misalnya, dan menolak menjawab pertanyaan umum seperti “seberapa pintar pembicara ini?” Undang-undang ini juga melarang bahasa kekerasan dan seksual serta melarang kategori konten tertentu, seperti diskusi tentang kekerasan dan tindakan menyakiti diri sendiri.