Mengapa database vektor mengalami momen selama siklus hype AI

Basis data vektor adalah Banyak orang yang marah, dilihat dari jumlah startup yang memasuki dunia ini dan uang yang dikeluarkan untuk mendapatkan sepotong kue. Menjamurnya model linguistik skala besar (LLM) dan gerakan AI (GenAI) telah menciptakan lahan subur bagi pengembangan teknologi basis data vektor.

Meskipun database tradisional seperti Postgres atau MySQL cocok untuk data terstruktur – tipe spesifik yang dapat disimpan dengan rapi dalam baris dan kolom – ini tidak berfungsi dengan baik untuk data tidak terstruktur seperti gambar, video, email, media sosial. postingan, dan data apa pun yang tidak mengikuti model data yang telah ditentukan sebelumnya.

Basis data vektor, di sisi lain, menyimpan dan memproses data dalam format vektor, yang mengubah teks, teks, gambar, dan informasi lainnya menjadi representasi numerik yang menangkap makna dan hubungan antara kumpulan data yang berbeda. Ini bagus untuk pembelajaran mesin, karena database menyimpan informasi berdasarkan keterkaitan setiap item satu sama lain, sehingga memudahkan untuk menemukan kecocokan serupa.

Hal ini sangat berguna untuk LLM, seperti GPT-4 OpenAI, karena memungkinkan chatbot AI untuk lebih memahami apa yang sedang dibahas dengan menganalisis percakapan sebelumnya. Pencarian vektor juga berguna untuk semua jenis aplikasi real-time, seperti saran di media sosial atau aplikasi e-commerce, karena dapat menganalisis hasil pencarian pengguna dan mengembalikan item serupa dari memori.

Pencarian vektor juga dapat membantu mengurangi “brainstorming” dalam program LLM, dengan memberikan informasi tambahan yang mungkin tidak tersedia dalam materi kursus aslinya.

“Tanpa menggunakan penelusuran vektor, Anda masih dapat membuat program AI/ML, namun Anda mungkin perlu mengulangi dan mengoptimalkannya,” Zina Zayarni, CEO dan salah satu pendiri startup vektor Qdrant, menjelaskan kepada TechCrunch. “File vektor berfungsi jika terdapat array yang besar, dan Anda memerlukan alat untuk bekerja dengan vektor dengan cara yang bagus dan sederhana.”

Pada bulan Januari, Qdrant mengumpulkan dana sebesar $28 juta untuk mendorong pertumbuhan yang menjadikannya salah satu dari sepuluh startup dengan pertumbuhan tercepat pada tahun lalu. Dan ini bukan satu-satunya sumber pendanaan akhir-akhir ini – Vespa, Weaviate, Pinecone, dan Chroma secara kolektif mengumpulkan $200 juta tahun lalu dalam berbagai penawaran vektor.

Tim peluncuran Qdrant. Kredit Foto: Kuadran

Sejak awal tahun ini, kami juga telah melihat Index Ventures memimpin pendanaan awal senilai $9,5 juta ke dalam Superlinked, sebuah platform yang mengubah tantangan menjadi konten vektor. Dan beberapa minggu yang lalu, Y Combinator (YC) meluncurkan batch Winter ’24, yang mencakup Lantern, sebuah startup yang menjual mesin pencari vektor Postgres.

Baca juga:  Chainsmokers menyalakan Disrupt 2024

Di tempat lain, Marqo mengumpulkan putaran awal senilai $4,4 juta pada akhir tahun lalu, diikuti dengan putaran Seri A senilai $12,5 juta pada bulan Februari. Platform Marqo menyediakan alat vektor lengkap, ekstraksi, penyimpanan, dan pengambilan vektor, memungkinkan pengguna untuk menyambungkan alat pihak ketiga seperti OpenAI atau Hugging Face, dan menyediakan semuanya melalui satu API.

Salah satu pendiri Marqo, Tom Hamer dan Jesse N. Clark sebelumnya bekerja di bidang teknik di Amazon, di mana mereka menyadari adanya “kebutuhan besar” akan pencarian semantik, fleksibel dalam berbagai format seperti teks dan gambar. Dan saat itulah dia terjun untuk membuat Marqo pada tahun 2021.

“Bekerja dengan robot pencari di Amazon adalah tempat saya pertama kali fokus pada pencarian vektor – saya memikirkan cara-cara baru untuk menemukan sesuatu, dan itu dengan cepat berkembang menjadi pencarian vektor,” kata Clark kepada TechCrunch. “Dalam robotika, saya menggunakan pencarian multi-dimensi untuk menelusuri banyak gambar kita untuk mengetahui apakah ada hal yang salah seperti selang dan kemasan. Ini akan sangat sulit dipecahkan.”

Salah satu pendiri Marqo

Salah satu pendiri Marqo Jesse Clark dan Tom Hamer. Kredit Foto: Sup

Masuki bisnis ini

Meskipun basis data vektor mengalami momen antara keributan ChatGPT dan gerakan GenAI, basis data vektor bukanlah titik awal pencarian bisnis apa pun.

“Database khusus cenderung berfokus pada aplikasinya dan dapat menyesuaikan desainnya untuk memenuhi kebutuhan pengguna, serta pengalaman pengguna, dibandingkan dengan database tradisional, yang harus disesuaikan dengan desain modern,” Peter. Zaitsev, pendiri perusahaan database dan layanan Percona, menjelaskan kepada TechCrunch.

Bahkan database khusus pun bisa unggul dalam satu hal dibandingkan yang lain, dan itulah sebabnya kami mulai melihatnya yang ada di database seperti elastis, ulang, Pencarian Terbuka, Cassandra, PeramalDan MongoDB menambahkan kecerdasan pencarian basis data vektor ke dalamnya, seperti halnya penyedia layanan cloud MicrosoftAzure, AWS untuk AmazonDan awan suar.

Baca juga:  Jack Dorsey dilaporkan tidak lagi menjadi anggota dewan Bluesky

Zaitsev membandingkan perkembangan terbaru dengan apa yang terjadi dengan JSON lebih dari satu dekade lalu, ketika aplikasi web tumbuh secara eksponensial dan pengembang membutuhkan format yang tidak bergantung pada bahasa sehingga mudah dibaca dan ditulis oleh orang-orang. Dalam hal ini, kelas database baru muncul dalam bentuk dokumen seperti MongoDB, sementara database yang sudah ada juga memperkenalkan dukungan JSON.

“Saya pikir hal yang sama bisa terjadi dengan database,” kata Zaitsev kepada TechCrunch. “Pengguna yang mengembangkan AI paling kompleks dan berskala besar akan menggunakan database vektor khusus, sementara orang yang perlu membuat fungsionalitas AI untuk aplikasi mereka dapat menggunakan pencarian vektor di database yang sudah mereka gunakan.”

Namun Zayarni dan rekan-rekannya di Qdrant bertaruh bahwa solusi asli yang dibangun berdasarkan vektor akan memberikan “kecepatan, keamanan memori, dan skalabilitas” yang dibutuhkan ketika data vektor meledak, dibandingkan dengan perusahaan yang mencari vektor seperti yang mereka pikirkan.

“Kata-kata mereka adalah, ‘kita juga bisa mencari vektor, jika diperlukan,’” kata Zayarni. “Motto kami adalah, ‘kami mengeksplorasi vektor super dengan cara terbaik.’ Ini semua tentang keahlian. Kami mendorong Anda untuk memulai dengan database apa pun yang sudah Anda miliki dalam dokumentasi teknis Anda. Terkadang, pengguna akan menghadapi keterbatasan seperti pencarian vektor untuk solusi Anda.”

Tinggalkan Balasan

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *