AI Generatif telah menarik perhatian publik dan membuat kemajuan pesat dalam menciptakan ucapan dan gambar yang jelas dan mendetail berdasarkan ucapan. Namun yang menarik – dan sering kali menarik – adalah bahwa hasilnya sering kali sempurna jika Anda melihat dari dekat.
Orang-orang menuding dengan jari yang aneh, ubin lantai terlepas, dan soal matematika: sulit, terkadang tidak bertambah.
Kini, Synthesia — salah satu solusi AI terkemuka di dunia untuk video, khususnya avatar yang dirancang bagi pengguna bisnis untuk membuat pemasaran, pelatihan, dan konten bisnis lainnya — merilis pembaruan yang diharapkan dapat membantu memecahkan beberapa tantangan bisnisnya. terutama taman. Versi terbarunya terdiri dari avatar – dibuat berdasarkan orang sungguhan yang difilmkan di studio mereka – yang menawarkan beragam emosi, pelacakan bibir yang sempurna, dan ekspresi ekspresif serta gerakan manusia saat diberikan skrip untuk membuat video.
Rilis ini dilakukan setelah kemajuan mengesankan perusahaan sejauh ini. Tidak seperti pemain AI lainnya seperti OpenAI, yang telah mengembangkan pendekatan dua arah – memperkenalkan alat konsumen seperti ChatGPT kepada lebih banyak orang dan juga membangun penawaran B2B, dengan API untuk digunakan oleh pengembang independen dan perusahaan besar – Synthesia lebih condong. dengan cara yang dilakukan AI populer lainnya.
Mirip dengan fokus Perplexity pada penelitian AI, Synthesia berfokus pada cara membuat animasi video mirip manusia. Secara khusus, mereka ingin melakukan hal ini hanya pasar bisnis dan kasus penggunaan seperti pendidikan dan pemasaran.
Fokus ini telah membantu Synthesia menonjol di pasar AI yang penuh sesak dan menghindari risiko ketika menyangkut masalah jangka panjang seperti ARR, ekonomi tim, dan biaya operasional yang terkait dengan penerapan AI.
Synthesia menggambarkan Avatar Ekspresif barunya, model yang dirilis hari ini, sebagai yang pertama dari jenisnya: “Avatar bertenaga AI pertama di dunia.” Dibuat berdasarkan sampel besar yang telah dilatih sebelumnya, Synthesia mengatakan keberhasilannya terletak pada cara mereka digabungkan untuk mencapai serangkaian parameter yang sangat mirip dengan cara orang berbicara.
Ini dibuat dengan cepat, kata Synthesia, yang berarti akan lebih dekat dengan apa yang kita alami ketika kita berbicara atau bertindak dalam kehidupan, dan ini berbeda dari cara kerja sebagian besar alat video AI yang didasarkan pada avatar saat ini: biasanya ini. ini sebenarnya sekumpulan klip video yang disatukan untuk menciptakan respons wajah yang kurang lebih sejalan dengan teks yang dimasukkan ke dalamnya. Tujuannya adalah agar terlihat non-robot dan seperti aslinya.
Versi sebelumnya:
Versi baru:
Seperti yang dapat Anda lihat dalam dua contoh di sini, satu dari Synthesia versi lama dan yang dirilis hari ini, ada beberapa cara untuk memperbaikinya, sesuatu yang juga diakui oleh CEO Victor Riparbelli.
“Jelas saat ini belum 100%, tapi akan segera terjadi, pada akhir tahun ini. Ini akan sangat menyakitkan,” katanya kepada TechCrunch. “Saya pikir Anda juga dapat melihat bahwa bagian AI dari hal ini sangat halus. Pada manusia, ada banyak hal yang terlihat sangat kecil, sangat kecil seperti pergerakan otot wajah kita. Saya pikir kita tidak bisa duduk dan berkata , ‘iya kamu tersenyum seperti ini saat sedang bahagia, tapi itu palsu ya?’ Ini adalah sesuatu yang sulit untuk dijelaskan kepada orang-orang, namun dapat diambil dari jaringan pembelajaran yang mendalam. Mereka dapat mempelajari prosesnya dan kemudian mengulanginya dengan cara yang dapat diprediksi.” Hal berikutnya yang berhasil, tambahnya, adalah tangan.
“Tangannya seperti, sangat kuat,” tambahnya.
Berfokus pada B2B juga memungkinkan Synthesia memposisikan pesan dan produknya pada penggunaan AI yang “lebih aman”. Hal ini sangat penting mengingat meningkatnya kekhawatiran saat ini mengenai penipuan dan penggunaan AI untuk tujuan jahat seperti penipuan dan penipuan. Namun, Synthesia tidak bisa menghindari semua konflik tersebut. Seperti diberitakan sebelumnya, teknologi Synthesia telah disalahgunakan untuk menyebarkan disinformasi di Venezuela dan disinformasi yang dipromosikan oleh akun media sosial pro-Tiongkok.
Perusahaan hari ini mencatat bahwa mereka telah mengambil langkah tambahan untuk mencoba menghentikan penggunaan tersebut. Bulan lalu, mereka mengubah kebijakannya, katanya, “untuk membatasi jumlah informasi yang dapat dibuat oleh orang-orang, berinvestasi dalam mengidentifikasi orang-orang yang beritikad buruk, menambahkan tim yang bekerja pada keamanan AI, dan menguji teknologi informasi seperti C2PA.”
Meskipun terdapat permasalahan-permasalahan tersebut, perusahaan terus berkembang.
Synthesia bernilai $1 miliar ketika mengumpulkan $90 juta. Apalagi uangnya hampir setahun lalu, Juni 2023.
Riparbelli (gambar di atas, kanan, bersama pendiri lainnya Steffen Tjerrild, Profesor Lourdes Agapito, Profesor Matthias Niessner) mengatakan dalam sebuah wawancara awal bulan ini bahwa saat ini tidak ada rencana untuk meningkatkan yang lain, meskipun hal ini tidak menjawab pertanyaan tentang apakah Synthesia mendekat dengan cepat. (Catatan: Kami sangat senang melihat Riparbelli di kehidupan nyata berbicara di acara kami di London pada bulan Mei, di mana saya juga menanyakan hal ini. Silakan datang jika Anda berada di kota.)
Yang kami tahu pasti adalah bahwa pembuatan dan pengoperasian AI memerlukan biaya yang besar, dan Synthesia telah banyak membangun dan menjalankannya.
Sebelum peluncuran versi saat ini, hampir 200.000 orang telah membuat lebih dari 18 juta video dalam hampir 130 bahasa menggunakan 225 avatar Synthesia, kata perusahaan itu. (Ini tidak menunjukkan jumlah pengguna pada tingkatan berbayar, namun ada banyak pelanggan populer termasuk Zoom, BBC, DuPont dan banyak lainnya, dan perusahaan membayar.) Harapan sang pendiri, tentu saja, adalah dengan yang baru versi yang diluncurkan saat ini jumlahnya akan jauh lebih tinggi.