Dalam beberapa bulan terakhir, raksasa teknologi seperti Elon Musk telah menunjukkan bagaimana perusahaan mereka mengembangkan AI pada benchmark: Chatbot Arena.
Diselenggarakan oleh organisasi nirlaba yang dikenal sebagai LMSYS, Chatbot Arena telah menjadi favorit industri. Postingan tentang pembaruan di papan peringkatnya mendapat ratusan penayangan dan dibagikan di Reddit dan X, dan akun resmi LMSYS X memiliki 54.000 pengikut. Jutaan orang telah mengunjungi situs web organisasi tersebut dalam satu tahun terakhir saja.
Namun, masih ada pertanyaan tentang kemampuan Chatbot Arena untuk memberi tahu kita seberapa “bagus” model ini sebenarnya.
Mencari logo baru
Sebelum kita mendalami lebih dalam, mari luangkan waktu sejenak untuk memahami apa sebenarnya LMSYS, dan bagaimana LMSYS menjadi begitu populer.
Organisasi nirlaba ini diluncurkan April lalu sebagai proyek yang dipimpin oleh mahasiswa dan dosen di Carnegie Mellon, SkyLab UC Berkeley, dan UC San Diego. Beberapa anggota pendiri sekarang bekerja di Google DeepMind, xAI Musk, dan Nvidia; saat ini, LMSYS dikelola terutama oleh peneliti yang berafiliasi dengan SkyLab.
LMSYS tidak bertujuan untuk menciptakan virus kelas atas. Tujuan dibentuknya grup ini adalah untuk membuat model (terutama keluaran ChatGPT OpenAI) menjadi mungkin dengan membuat dan mengaksesnya bersama. Namun segera setelah LMSYS diluncurkan, para penelitinya, yang tidak puas dengan kemajuan benchmarking AI, melihat manfaat dari pembuatan alat pengujian mereka sendiri.
“Indikator saat ini gagal memenuhi persyaratan model (model) saat ini, terutama ketika meneliti preferensi masyarakat,” tulis para peneliti dalam makalah teknis yang diterbitkan pada bulan Maret. Oleh karena itu, terdapat kebutuhan mendesak akan platform pemantauan yang terbuka dan ramah pengguna yang dapat mencerminkan lebih baik bagaimana dunia sedang digunakan.
Memang benar, seperti yang telah kami tulis sebelumnya, tolok ukur yang banyak digunakan saat ini tidak mampu menangkap dengan baik bagaimana reaksi rata-rata orang terhadap model tersebut. Banyak keterampilan yang dicari tolok ukurnya – menyelesaikan soal matematika PhD, misalnya – mungkin tidak penting bagi kebanyakan orang yang menggunakannya, misalnya Claude.
Pengembang LMSYS merasakan hal yang sama, jadi mereka menciptakan alternatif: Chatbot Arena, sebuah benchmark crowdsourced yang dirancang untuk menangkap “detail” model dan kinerjanya dalam aplikasi dunia nyata.
Chatbot Arena memungkinkan siapa saja yang online untuk mengajukan pertanyaan (atau pertanyaan) dari dua jenis pertanyaan anonim yang dipilih secara acak. Ketika seseorang menyetujui ToS untuk mengizinkan datanya digunakan untuk penelitian, model, dan proyek terkait LMSYS di masa mendatang, mereka dapat memilih jawaban favoritnya dari kedua model tersebut (mereka juga dapat menyatakan seri atau mengatakan “keduanya buruk”) , sementara modelnya terungkap.
Aliran ini mengarah pada “berbagai pertanyaan” yang dapat ditanyakan pengguna untuk setiap jenis produk, tulis para peneliti dalam makalah bulan Maret. “Dengan adanya hal ini, kami menggunakan sejumlah metode statistik yang kuat (…) untuk memperkirakan rentang warna dengan andal dan seefisien mungkin,” katanya.
Sejak peluncuran Chatbot Arena, LMSYS telah menambahkan banyak model terbuka ke alat pengujiannya, dan telah bermitra dengan universitas seperti Universitas Kecerdasan Buatan Mohamed bin Zayed (MBZUAI), serta perusahaan termasuk OpenAI, Google, Anthropic, Microsoft, Meta , Mistral dan Hug Face untuk membuat modelnya tersedia saat diuji. Chatbot Arena kini memiliki lebih dari 100 model, termasuk varian (model yang dapat memahami lebih dari sekadar teks) seperti GPT-4o OpenAI dan Claude 3.5 Sonnet dari Anthropic.
Lebih dari satu juta dua tanggapan dikirimkan dan dianalisis dengan cara ini, sehingga menghasilkan sejumlah besar informasi.
Favoritisme, dan kurangnya transparansi
Dalam makalah bulan Maret, para pendiri LMSYS mengatakan pertanyaan yang dijawab oleh pengguna Chatbot Arena “cukup bervariasi” untuk menguji berbagai kasus AI. “Karena nilai unik dan keterbukaannya, Chatbot Arena telah muncul sebagai salah satu papan peringkat yang paling banyak dikutip,” tulisnya.
Namun seberapa bermanfaatkah hasilnya? Itulah argumennya.
Yuchen Lin, seorang ilmuwan peneliti di lembaga nirlaba Allen Institute for AI, mengatakan LMSYS belum memperkirakan kemampuan, pengetahuan, dan keterampilan model yang dievaluasi di Chatbot Arena. Pada bulan Maret, LMSYS merilis alat, LMSYS-Chat-1M, dengan sejuta percakapan antar pengguna dan 25 jenis di Chatbot Arena. Tapi itu belum menyegarkan data sejak itu.
“Analisis tidak dapat dibalik, dan terbatasnya keluaran data oleh LMSYS membuat sulit untuk mempelajari batasan model secara mendalam,” kata Lin.
Sampai LMSYS dia merinci metode pengujiannya, para peneliti mengatakan dalam makalah bulan Maret bahwa mereka menggunakan “algoritma pengambilan sampel” untuk berkoordinasi satu sama lain “dengan cara yang mempercepat evolusi array dan menghemat komputasi.” Dia menulis bahwa LMSYS mengumpulkan sekitar 8.000 suara untuk setiap jenis sebelum memperbarui peringkat Chatbot Arena, dan batas tersebut tercapai setiap beberapa hari.
Namun Lin berpendapat bahwa pemungutan suara tidak didasarkan pada kemampuan – atau ketidakmampuan – masyarakat untuk melihat stereotip rasial, atau perbedaan preferensi, yang membuat suara mereka tidak dapat diandalkan. Misalnya, beberapa orang mungkin lebih memilih jawaban yang lebih panjang dan berbasis teks, sementara yang lain mungkin lebih memilih jawaban yang lebih pendek.
Poin plusnya di sini adalah dua pengguna dapat memberikan jawaban yang berlawanan pada jawaban yang sama, dan keduanya mungkin valid – namun jenis pertanyaan ini sangat penting. Baru-baru ini LMSYS berupaya memantau “gaya” dan “substansi” respons sampel di Chatbot Arena.
“Preferensi masyarakat yang dikumpulkan tidak memperhitungkan bias halus, dan platform tidak membedakan antara ‘A jauh lebih baik dari B’ dan ‘A sedikit lebih baik dari B,’” kata Lin. “Meskipun pasca-pemrosesan dapat mengurangi beberapa bias, preferensi manusia masih menimbulkan gangguan.”
Mike Cook, peneliti di Queen Mary University di London yang berspesialisasi dalam AI dan desain game, setuju dengan penilaian Lin. “Anda bisa saja menjalankan Chatbot Arena pada tahun 1998 dan masih berbicara tentang perubahan besar atau chatbots besar, tapi itu akan menjadi buruk,” tambahnya, sambil mencatat bahwa Chatbot Arena memang demikian. tercatat sebagai ujian yang kuat, itu seperti a relatif tingkat sampel.
Keputusan tersulit mengenai topik Chatbot Arena adalah bagaimana mereka menciptakan pengguna.
Karena merek ini menjadi sangat populer melalui voice-over AI dan inovasi teknologi, kecil kemungkinan merek tersebut menarik perhatian banyak orang, kata Lin. Untuk membuktikan teorinya, pertanyaan-pertanyaan utama dalam kumpulan data LMSYS-Chat-1M terkait dengan perangkat lunak, alat AI, bug perangkat lunak, serta pemeliharaan dan desain perangkat lunak – bukan hal-hal yang Anda harapkan akan ditanyakan oleh orang yang bukan ahli.
“Distribusi data pengujian tidak dapat secara akurat mencerminkan orang-orang yang menggunakan pasar,” kata Lin. Selain itu, evaluasi platform tidak dapat dikontrol, terutama bergantung pada revisi setelah menulis setiap pertanyaan dengan tag berbeda, yang digunakan untuk membuat penilaian terkait pekerjaan. Metode ini tidak memiliki struktur tetap, sehingga membuatnya sulit untuk mengevaluasi pertanyaan kompleks berdasarkan preferensi orang.
Cook mencatat bahwa karena pengguna Chatbot Arena memilih sendiri — mereka cenderung menguji model terlebih dahulu — mereka mungkin tidak bersedia melakukan stress test atau mendorong model hingga batas kemampuan mereka.
“Ini bukan cara yang baik untuk menjalankan semua kursus,” kata Cook. “Evaluator mengajukan pertanyaan dan menilai model mana yang ‘terbaik’ – namun ‘terbaik’ tidak ditentukan oleh LMSYS di mana pun. Menjadi baik dalam tolok ukur ini mungkin membuat orang berpikir bahwa chatbot AI yang sukses adalah yang manusiawi, akurat, aman, dapat diandalkan, dll. – tapi itu tidak berarti hal-hal itu.”
LMSYS mencoba menyeimbangkan bias ini dengan menggunakan sistem otomatis – MT-Bench dan Arena-Hard-Auto – yang hanya menggunakan sampel (OpenAI GPT-4 dan GPT-4 Turbo) untuk menentukan jenis jawaban model lain. (LMSYS mencetak peringkat ini beserta peringkatnya). Namun meskipun LMSYS mengklaim bahwa model tersebut “sangat sesuai dengan preferensi dan preferensi masyarakat”, permasalahannya masih jauh dari selesai.
Hubungan bisnis dan berbagi data
Pertumbuhan ekonomi LMSYS adalah alasan lain untuk menganggap remeh tata letak tersebut, kata Lin.
Vendor lain seperti OpenAI, yang menggunakan model mereka melalui API, memiliki akses ke data dia bisa menggunakan “mengajar dengan menguji” jika diinginkan. Hal ini membuat pengujian ini tidak adil untuk model terbuka dan statis yang berjalan di cloud LMSYS, kata Lin.
“Perusahaan dapat meningkatkan model mereka agar sesuai dengan distribusi pengguna LMSYS, yang dapat menyebabkan persaingan tidak sehat dan evaluasi yang tidak berarti,” tambahnya. “Model bisnis yang terhubung melalui API dapat mengakses data pengguna, sehingga memberikan keuntungan bagi perusahaan dengan lalu lintas tinggi.”
Cook menambahkan, “Daripada mempromosikan penelitian AI atau semacamnya, yang dilakukan LMSYS adalah mendorong pengembang untuk melakukan perubahan kecil guna memberi mereka keunggulan kompetitif.”
LMSYS juga didukung sebagian oleh korporasi, salah satunya adalah perusahaan VC yang memiliki kuda dalam perlombaan AI.
Platform ilmu data Kaggle Google telah mendanai LMSYS, begitu pula Andreessen Horowitz (yang pendanaannya mencakup Mistral) dan Together AI. Model Gemini Google ada di Chatbot Arena, begitu pula model Mistral dan Together.
LMSYS mengatakan di situs webnya bahwa mereka juga bergantung pada hibah dan sumbangan universitas untuk mendukung infrastrukturnya, dan tidak ada dukungan apa pun – yang datang dalam bentuk kredit perangkat keras dan komputasi, selain uang – yang “memiliki ikatan”. Namun hubungan ini memberikan kesan bahwa LMSYS tidak bias, terutama karena vendor menggunakan Chatbot Arena untuk membangkitkan minat terhadap merek mereka.
LMSYS tidak menanggapi permintaan komentar TechCrunch.
Tolok ukur yang lebih baik?
Lin berpendapat bahwa, terlepas dari kekurangannya, LMSYS dan Chatbot Arena memberikan layanan penting: Memberikan wawasan real-time tentang cara kerja berbagai model di luar lab.
“Chatbot Arena melampaui cara tradisional dalam mendekorasi serangkaian tolok ukur, yang seringkali terlalu penuh dan tidak berfungsi dalam aplikasi dunia nyata,” kata Lin. “Merek ini menyediakan platform interaktif di mana pengguna sebenarnya dapat berinteraksi dengan berbagai merek, dengan analisis yang kuat dan autentik.”
Namun – ketika LMSYS terus menambahkan fitur ke Chatbot Arena, seperti lebih banyak analitik – Lin melihat bahwa ada beberapa hal yang dapat dilakukan oleh organisasi untuk dicoba.
Untuk memungkinkan pemahaman “sistematis” mengenai kekuatan dan kelemahan model, katanya, LMSYS dapat membuat tolok ukur seputar berbagai topik, seperti aljabar linier, yang masing-masing memiliki serangkaian fungsi khusus. Hal ini akan memberikan hasil Chatbot Arena bobot ilmiah, katanya.
“Meskipun chatbots Chatbot dapat memberikan gambaran pengalaman pengguna – bahkan dari sekelompok kecil pengguna yang tidak mewakili – hal ini tidak boleh dianggap sebagai standar definitif untuk mengukur kecerdasan model,” kata Lin. “Sebaliknya, ini lebih tepat dipandang sebagai alat untuk mengukur kepuasan pengguna, bukan sebagai ukuran kemajuan AI yang ilmiah dan obyektif.”