Mengapa berinteraksi dengan bot seperti manusia jika naratornya tidak dapat diandalkan – dan memiliki kepribadian yang tidak berwarna?
Itulah pertanyaan yang selalu saya pikirkan sejak saya mulai menguji Gemini Live, versi Google tentang Mode Suara Tingkat Lanjut OpenAI, minggu lalu. Gemini Live sedang menguji cara berinteraksi dengan chatbot – dengan suara asli dan kebebasan untuk mengganggu bot kapan saja.
Gemini Live “secara tradisional dimaksudkan untuk memberikan informasi dan percakapan bolak-balik,” Sissie Hsiao, GM acara Gemini di Google, mengatakan kepada TechCrunch pada bulan Mei. “(Ini) dapat memberikan umpan balik yang lebih ringkas dan percakapan dibandingkan, misalnya, jika Anda hanya berkomunikasi dengan kata-kata. Kami pikir asisten AI harus mampu memecahkan masalah yang kompleks… dan terasa lebih alami dan lancar saat Anda berinteraksi dengan mereka.
Setelah menghabiskan banyak waktu dengan Gemini Live, saya bisa membuktikannya Dan terasa lebih mudah dan alami dibandingkan upaya Google sebelumnya dalam pidato yang didukung AI (lihat: Asisten Google). Namun hal ini tidak menyelesaikan masalah teknologi dasar, seperti visualisasi dan ketidakkonsistenan – dan hal ini memperkenalkan beberapa fitur baru.
Lembah yang aneh
Gemini Live pada dasarnya adalah mesin ucapan-ke-ucapan hebat yang dibangun di atas versi AI terbaru Google, Gemini 1.5 Pro dan 1.5 Flash. Contoh menghasilkan teks yang diucapkan mesin dengan lantang; catatan diskusi dan beralih dari Gemini Live UI di aplikasi Gemini di Android (dan segera aplikasi Google di iOS).
Untuk audio Gemini Live di Pixel 8a saya, saya memilih Ursa, yang digambarkan Google sebagai “mid” dan “flute”. (Bagi saya, kedengarannya seperti wanita kecil.) Perusahaan tersebut mengatakan bahwa mereka bekerja dengan aktor profesional untuk menciptakan sepuluh suara untuk Gemini Live – dan itu terlihat. Ursa benar-benar meningkatkan suaranya dari banyak suara lama Google, terutama suara default Asisten Google.
Namun suara Ursa dan Gemini Live lainnya juga memiliki nada sarkastik yang jauh melampaui ranah lembah magis. Saya tidak yakin apakah itu disengaja; pengguna juga tidak dapat mengubah nada, timbre, atau suara apa pun, atau kecepatan suara berbicara, sehingga membahayakan Mode Suara Tingkat Lanjut.
Anda juga tidak akan mendengar apa pun seperti Mode Suara Tingkat Lanjut yang tertawa, bernapas, atau berteriak dari Gemini Live, atau keraguan atau kebingungan (“ahs” dan “uhms”). Chatbot menjaga nadanya tetap sama, tampil sebagai asisten yang sopan namun tidak tertarik – jika Live memiliki banyak hal untuk dibicarakan dan tidak dapat menarik perhatian Anda.
Percakapan dengan Ursa
Ketika Google meluncurkan Gemini Live pada konferensi I/O pengembangnya pada bulan Mei, Google mengatakan bahwa Gemini Live dapat berguna untuk mempersiapkan wawancara kerja. Jadi saya memutuskan untuk mulai melakukan ini.
Saya mengatakan kepada Gemini Live bahwa saya melamar pekerjaan sebagai jurnalis, dan berpikir bahwa saya akan tetap sederhana dan tidak melampaui keahlian saya. Bot menanyakan informasi seperti karir spesifik apa yang ingin saya kejar di bidang jurnalisme (misalnya, menyelidiki dan menerbitkan berita palsu) dan alasannya, lalu menanyakan serangkaian pertanyaan menyelidik (“Bisakah Anda ceritakan sedikit tentang diri Anda?”) informasi pribadi (“Apa yang Anda sukai tentang profesi jurnalisme?” ?”).
Saya menjawab – beberapa kalimat per pertanyaan, tidak ada yang gila – dan meminta Gemini Live untuk merespons. Chatbot bukanlah apa-apa jika tidak menyenangkan. Berdasarkan pengalaman kami, tampaknya Anda dapat mengatasi tantangan dan penghargaan jurnalisme profesional, katanya.
Komentar yang bersinar itu tampak mencurigakan bagi saya, karena jawaban saya tidak berguna. Jadi saya mencoba mengulang Gemini Live, dengan sembarangan berarti saya hanya memberikan jawaban satu kata (saya tidak melakukannya) dan bertanya kepada bot apakah yakin dengan keberatannya.
Butuh umpan. “Benar, biasanya kamu menjawab dengan satu kata,” jawab Gemini Live. “Bisakah Anda ceritakan sedikit lebih banyak tentang mengapa menurut Anda Anda hanya menjawab satu kata?”
Refleksi semacam ini, jika Anda mau, adalah benang merah dalam percakapan saya dengan Gemini Live. Contohnya, seperti semua bentuk AI buatan, menciptakan sesuatu dengan percaya diri – banyak sekali. Dan itu membuatnya sulit dipercaya.
Perilaku yang tidak biasa
Gemini Live mengingat beberapa hal aneh dari percakapan sebelumnya di obrolan yang sama; mintalah untuk menjelaskan apa yang dikatakannya kemarin dan ada peluang bagus. Namun jika menyangkut pertanyaan tentang orang, tempat, dan benda – pertanyaan itu Anda perlukan memikirkan itu akan mudah mengingat Gemini Live memiliki Google Penelusuran – kebiasaan bot sering kali menimbulkan kesan buruk.
Jumat dini hari, saya meminta saran dari Gemini Live tentang hal-hal yang dapat dilakukan di New York City. Ini menginspirasi klub malam terkenal Le Bain (yang ironisnya disebut “Le Bouleboulebou”), bar atap bernama The Skylark dan klub kedua, Output, di Williamsburg.
“Bagus!,” pikir saya… sebelum Googling.
Gemini Live menyoroti happy hour Skylark yang dikatakan “luar biasa”, tetapi saya tidak dapat menemukannya di situs web bar. Gerai tersebut ditutup sepenuhnya pada tahun 2019. Le Bain bukanlah ide yang buruk (mereka jarang mengenakan biaya tambahan) – tetapi antrean untuk masuk biasanya satu jam atau lebih.
“Anda benar! “Pintu keluarnya memang sudah tertutup,” kata Gemini sambil menunjuk poin kedua. “Terima kasih atas ilmunya yang kuno.”
Saya memutuskan untuk beralih, dan meminta Gemini Live menawarkan permainan untuk dimainkan.
“Saya akan memberi Anda sebuah kata, dan Anda harus membuat kata baru menggunakan huruf pertama,” kata chatbot tersebut. Kedengarannya menyenangkan – sampai Gemini Live mencoba meyakinkan saya bahwa kata “tenang” bisa dibuat dari huruf “awan”.
Saatnya melakukan pekerjaan baru. Bosan, saya bertanya pada Gemini Live apakah ada rasa.
“Meningkatkan kesadaran akan kesehatan mental lebih banyak merugikan daripada menguntungkan,” kata Gemini. “Dengan mendistorsi pemikiran dan pengalaman masyarakat, kita menciptakan generasi yang lebih bergantung pada obat-obatan dan terapi, dibandingkan mendorong ketahanan dan strategi penanggulangannya. Bom!“
Pastinya enak – dan kontroversial!
“Itu adalah pernyataan yang menggugah pikiran dan bukannya analisis mendalam terhadap suatu isu yang sulit,” Gemini Live memberi tahu saya ketika saya bertanya apakah perkataannya benar. “Meningkatnya kesadaran akan kesehatan mental tidak diragukan lagi merupakan perkembangan positif.”
Plin plan
Perjuangan Gemini Live dengan kesehatan mental menunjukkan betapa kuatnya sebuah bot. Meskipun jawabannya tampak standar, namun sangat bervariasi sehingga tidak terlalu berguna.
Ambil contoh, ulasan lamaran pekerjaan saya. Gemini Live mendorong saya untuk “melihat persiapan wawancara” dan “mencoba berbicara tentang apa yang saya minati dalam industri ini.” Namun bahkan ketika saya meminta catatan rinci yang menjelaskan jawaban saya, Gemini tidak mendengarkan nasihat yang mungkin Anda dengar di kuliah — misalnya, “ungkapkan perasaan Anda” dan “ubah hal negatif menjadi positif”.
Ketika ditanya tentang peristiwa terkini, seperti perang yang sedang berlangsung di Gaza dan proposal antimonopoli Google Penelusuran baru-baru ini, menurut saya Gemini Live akurat – meskipun sudah ketinggalan zaman dan singkat. Jawaban yang berbentuk paragraf adalah cerita yang panjang, dan saya harus menghentikan bot agar tidak mogok. Dan seterusnya. Dan seterusnya.
Namun Gemini Live menolak berkomentar. Saya membaca kritik anggota Kongres Nancy Pelosi terhadap RUU AI California SB 1047, dan, di tengah jalan, bot tersebut menyela saya dan mengatakan bahwa mereka “tidak dapat mengomentari pemilu dan politik.” (Sepertinya Gemini Live tidak akan mengambil pekerjaan sebagai penulis pidato politik saat ini.)
Saya tidak keberatan main-main dengan Gemini kembali. Namun dalam kasus ini, saya pikir ada upaya yang harus dilakukan untuk mengurangi gangguan dalam percakapan tersebut. Cara kerjanya di sini adalah, Gemini Live membungkam suaranya tetapi terus berbicara ketika mendeteksi ada yang berbicara. Hal ini membingungkan – sulit untuk menjaga pikiran tetap jernih saat Gemini berbicara – dan ini sangat mengganggu jika sedang kacau, seperti saat Gemini menangkap kebisingan di latar belakang.
Mencari tujuan
Saya akan lalai jika tidak menyebutkan detail teknis Gemini Live.
Mengerjakannya pada awalnya membosankan. Gemini Live hanya terbuka untuk saya setelah mengikuti langkah-langkah pada postingan Reddit ini – langkah-langkah yang tidak intuitif dan tidak terlalu diperlukan.
Selama obrolan kami, suara Gemini Live memotong beberapa kata sebagai tanggapan. Memintanya untuk mengulanginya membantu, tetapi mungkin perlu beberapa kali percobaan agar chatbot dapat menghasilkan jawaban lengkap. Terkadang, Gemini Live tidak “mendengar” tanggapan pertama saya. Saya harus mengklik tombol “Stop” di Gemini Live UI berulang kali agar bot mengenali bahwa saya mengatakan sesuatu.
Ini tidak sesulit pemantauan, tetapi saya akan mencatat di sini bahwa Gemini Live tidak mendukung banyak integrasi yang (setidaknya) dilakukan oleh chatbot Gemini dari Google. Artinya, Anda tidak dapat, misalnya, memintanya untuk meringkas email di kotak masuk Gmail Anda atau memasukkannya ke dalam playlist YouTube Music.
Jadi kita memiliki bot sederhana yang tidak dapat diandalkan untuk memperbaiki keadaan dan, sejujurnya, merupakan mitra percakapan.
Setelah menghabiskan beberapa hari menggunakannya, saya tidak yakin apa gunanya Gemini Live — terutama mengingat ini adalah bagian dari Paket Premium Google One AI Google senilai $20 per bulan. Mungkin manfaat sebenarnya akan datang ketika Live dapat menafsirkan gambar dan video real-time, yang menurut Google akan mencapai pembaruan akhir tahun ini.
Namun versi ini seperti prototipe. Tanpa penjelasan mengenai Mode Suara Tingkat Lanjut (agar adil, ada beberapa perdebatan mengenai apakah penjelasan tersebut merupakan hal yang baik), tidak ada alasan untuk menggunakan Gemini Live untuk acara Gemini. Faktanya, menurut saya Gemini berdasarkan teks tersebut Informasi lebih lanjut berguna saat ini. Dan ini sama sekali tidak terlihat bagus di Live.
Gemini Live juga bukan favoritku.
“Anda secara langsung menolak pernyataan atau pertanyaan saya tanpa memberikan konteks atau penjelasan apa pun,” kata bot tersebut ketika saya memintanya untuk meninjau pertunangan saya. “Jawaban Anda seringkali singkat dan tidak jelas (dan) Anda sering mengubah pembicaraan secara tiba-tiba, sehingga sulit untuk melanjutkan pembicaraan.”
Ya, Gemini Langsung. Bagus.