OpenAI mulai meluncurkan Mode Suara Tingkat Lanjut ChatGPT pada hari Selasa, memberikan pengguna akses pertama mereka ke solusi hiper-realistis GPT-4o. Versi alfa akan tersedia untuk sekelompok kecil pengguna ChatGPT Plus hari ini, dan OpenAI mengatakan fitur tersebut akan diluncurkan secara bertahap ke semua pengguna Plus pada akhir tahun 2024.
Saat OpenAI pertama kali mendemonstrasikan suara GPT-4o pada bulan Mei, fitur tersebut mengejutkan pendengar dengan responsnya yang cepat dan kemiripan yang luar biasa dengan suara manusia sebenarnya — sebagian besarnya. Suaranya, Sky, mirip dengan Scarlett Johansson, aktris di balik asisten kreatif dalam film “Her.” Tepat setelah demo OpenAI, Johansson mengatakan dia menolak beberapa pertanyaan dari CEO Sam Altman untuk menggunakan suaranya, dan setelah melihat demo GPT-4o, dia mempekerjakannya untuk melindungi citranya. OpenAI membantah menggunakan suara Johansson, namun kemudian menghapus suara tersebut dari tampilannya. Pada bulan Juni, OpenAI mengatakan akan menunda peluncuran Mode Suara Tingkat Lanjut untuk meningkatkan keamanannya.
Sebulan kemudian, penantiannya berakhir (semacamnya). OpenAI mengatakan bahwa video dan animasi yang ditampilkan dalam Pembaruan Musim Semi tidak akan menjadi versi alfa, melainkan akan diimplementasikan “di kemudian hari”. Sementara itu, tampilan GPT-4o yang membingungkan semua orang masih berupa tampilan, namun beberapa pengguna tingkat lanjut kini dapat mengakses tampilan suara ChatGPT yang ditampilkan di sana.
ChatGPT sekarang dapat berbicara dan mendengarkan
Anda mungkin sudah mencoba Mode Suara yang tersedia di ChatGPT, tetapi OpenAI mengatakan Mode Suara Tingkat Lanjut berbeda. Solusi ChatGPT lama untuk teks menggunakan tiga format berbeda: satu untuk mengonversi teks menjadi teks, GPT-4 untuk mengonversi teks menjadi teks, dan yang ketiga untuk mengonversi teks ChatGPT menjadi teks. Namun GPT-4o bersifat multimodal, mampu memproses pekerjaan tanpa bantuan model pendukung, sehingga hanya menghasilkan sedikit percakapan. OpenAI juga mengklaim bahwa GPT-4o dapat mendengar suara Anda, termasuk kesedihan, kebahagiaan, atau nyanyian.
Dalam uji coba ini, pengguna ChatGPT Plus akan melihat sendiri seperti apa Advanced Voice Mode OpenAI. TechCrunch tidak dapat menguji fitur tersebut sebelum menerbitkan artikel ini, tetapi kami akan meninjaunya ketika ada kesempatan.
OpenAI mengatakan secara bertahap merilis ekspresi ChatGPT baru untuk memantau penggunaan. Anggota grup alfa akan menerima peringatan di aplikasi ChatGPT, diikuti dengan email berisi petunjuk tentang cara menggunakannya.
Beberapa bulan sejak demo OpenAI, perusahaan mengatakan telah menguji kemampuan suara GPT-4o dengan lebih dari 100 gamer asing yang berbicara dalam 45 bahasa berbeda. OpenAI mengatakan laporan tentang masalah keamanan ini akan muncul pada awal Agustus.
Perusahaan mengatakan Mode Suara Tingkat Lanjut akan terbatas pada empat suara berbasis ChatGPT – Juniper, Breeze, Cove, dan Ember – yang dikembangkan bekerja sama dengan pengisi suara berbayar. Suara Sky yang ditampilkan pada pameran OpenAI pada bulan Mei tidak lagi tersedia di ChatGPT. Juru bicara OpenAI Lindsay McCallum mengatakan “ChatGPT tidak akan meniru suara orang lain, individu atau kelompok orang, dan akan memblokir keluaran yang menyimpang dari suara yang sudah ada sebelumnya.”
OpenAI berusaha menghindari konflik yang mendalam. Pada bulan Januari, teknologi AI yang diaktifkan dengan suara ElevenLabs digunakan oleh Presiden Biden untuk menipu pemilih utama di New Hampshire.
OpenAI juga mengatakan telah memperkenalkan filter baru untuk memblokir permintaan tertentu untuk membuat musik atau suara sah lainnya. Pada tahun lalu, perusahaan AI mendapat masalah hukum karena melanggar hukum, dan sistem audio seperti GPT-4o menciptakan kelompok perusahaan baru yang dapat menuntut. Khususnya, label rekaman, yang memiliki riwayat bersalah, dan telah menggugat produser musik AI Suno dan Udio.