Google meluncurkan Gemini Live di acara Made by Google di Mountain View, California, pada hari Selasa. Fitur ini memungkinkan Anda berkomunikasi secara alami, tanpa tersesat, dengan chatbot AI yang didukung bahasa terbaru Google. TechCrunch ada di sana untuk mengujinya sendiri.
Gemini Live adalah jawaban Google terhadap Mode Suara Tingkat Lanjut OpenAI, ChatGPT, dan fitur serupa yang saat ini sedang dalam pengujian alfa terbatas. Meskipun OpenAI mengalahkan Google dengan mengunduh fitur tersebut, Google adalah pihak pertama yang merilis versi akhirnya.
Menurut pengalaman saya, pada kecepatan rendah, suara terdengar lebih baik daripada mengirim pesan teks dengan ChatGPT, atau berbicara dengan Siri atau Alexa. Saya menemukan bahwa Gemini Live merespons pertanyaan dalam waktu kurang dari dua detik, dan dapat dengan cepat berhenti ketika terganggu. Gemini Live tidak sempurna, tetapi ini adalah cara terbaik untuk menggunakan ponsel Anda secara handsfree yang pernah saya lihat.
Bagaimana cara kerjanya
Sebelum berbicara dengan Gemini Live, fitur ini memungkinkan Anda memilih 10 kata, dibandingkan hanya tiga kata dari OpenAI. Google bekerja dengan aktor suara untuk menciptakan masing-masingnya. Saya menghargai keragaman di sana, dan menemukan bahwa setiap orang terdengar seperti manusia.
Salah satu contohnya, seorang manajer pemasaran Google meminta Gemini Live untuk menemukan kilang anggur yang ramah keluarga di dekat Mountain View dengan tempat duduk di luar ruangan dan taman bermain di dekatnya, sehingga anak-anak dapat datang. Itu jauh lebih sulit daripada bertanya pada Siri — atau Google Penelusuran, sejujurnya — tetapi Gemini berhasil merekomendasikan tempat yang memenuhi kriteria: Kebun Anggur Cooper-Garrod di Saratoga.
Meski begitu, Gemini Live meninggalkan sesuatu yang diinginkan. Tampaknya menunjukkan taman bermain terdekat bernama Henry Elementary School Playground yang konon berjarak “10 menit” dari kebun anggur. Terdapat taman bermain lain di dekatnya di Saratoga, namun Sekolah Dasar Henry terdekat berjarak lebih dari dua jam perjalanan. Ada Sekolah Dasar Henry Ford di Redwood City, tetapi jaraknya 30 menit.
Google suka menunjukkan bagaimana pengguna dapat mengganggu Gemini Live di tengah kalimat dan AI akan segera berubah. Perusahaan mengatakan ini memungkinkan pengguna untuk mengontrol percakapan. Faktanya, hal ini tidak berjalan dengan baik. Terkadang manajer proyek Google dan Gemini Live sedang berbicara satu sama lain, dan AI sepertinya tidak mengikuti apa yang dikatakan.
Secara khusus, Google tidak mengizinkan Gemini Live memutar atau meniru suara apa pun di luar 10 suara yang ditawarkannya, menurut manajer pemasaran Leland Rechis. Perusahaan melakukan ini untuk menghindari pelanggaran hak cipta. Selain itu, Rechis mengatakan Google tidak hanya mencari Gemini Live untuk memahami nada suara pengguna – sesuatu yang dikenal dengan OpenAI pada saat itu.
Secara keseluruhan, fitur ini sepertinya merupakan cara yang lebih baik untuk mendalami suatu topik secara alami dibandingkan dengan Google Penelusuran sederhana. Google mengatakan bahwa Gemini Live adalah langkah menuju Project Astra, model AI multi-dimensi yang diluncurkan perusahaan tersebut di Google I/O. Saat ini Gemini Live sudah bisa berkomunikasi dengan suara, namun kedepannya Google ingin menambahkan pemahaman video real-time.