EXAMS-V: Terobosan Baru dalam Evaluasi AI Multimoda
- Abd. Rofik Budin
- •
- 27 Agt 2024 16.06 WIB
Para peneliti dari Mohamed bin Zayed University of Artificial Intelligence (MBZUAI) telah memperkenalkan kumpulan data tolok ukur baru bernama EXAMS-V yang dirancang untuk mengevaluasi kemampuan Vision Language Models (VLM) dalam menafsirkan data visual dan bahasa alami secara bersamaan. Kumpulan data ini dipresentasikan pada Pertemuan Tahunan ke-62 Asosiasi Linguistik Komputasional (ACL) di Bangkok dan diharapkan menjadi langkah maju yang signifikan dalam menguji batas kemampuan VLM, yang semakin hari semakin canggih.
Vision Language Models adalah sistem artificial intelligence yang mampu menggabungkan interpretasi gambar dan teks, memungkinkan pengguna untuk menjalankan tugas yang melibatkan kedua jenis data ini. Misalnya, VLM dapat digunakan untuk menghasilkan gambar dari perintah teks atau mendeskripsikan gambar secara rinci. Seiring perkembangan teknologi, model-model terbaru seperti GPT-4V dari OpenAI dan Google Gemini terus menunjukkan kemampuan yang semakin kompleks. Namun, tantangan utama dalam penggunaan VLM terletak pada kurangnya tolok ukur yang komprehensif untuk menilai kinerja mereka secara akurat.
Dalam upaya untuk mengatasi masalah ini, EXAMS-V menjadi kumpulan data pertama yang menawarkan pengujian multimoda untuk VLM. Kumpulan data ini merupakan perluasan dari dataset EXAMS yang awalnya dirancang untuk large language models (LLM). EXAMS-V mencakup lebih dari 20.000 pertanyaan pilihan ganda yang diambil dari 26 mata pelajaran berbeda dan tersedia dalam 11 bahasa, termasuk Arab, Bulgaria, Mandarin, Kroasia, Inggris, Jerman, dan Rusia. Pertanyaan-pertanyaan ini meliputi berbagai bidang ilmu seperti fisika, kimia, sejarah, geografi, dan matematika.
Keunikan EXAMS-V terletak pada kemampuannya untuk menguji bagaimana model AI dapat memproses dan menalar informasi visual serta teks secara bersamaan. Menurut Preslav Nakov, ketua departemen pemrosesan bahasa alami di MBZUAI, tidak ada kumpulan data lain yang memiliki karakteristik serupa. "Pada kumpulan data lain, gambar dan teks mungkin terpisah, tetapi dengan kumpulan data ini, kami menyediakan seluruh pertanyaan dalam bentuk gambar ke model," jelasnya. EXAMS-V juga mencakup tabel, gambar, grafik, simbol, dan teks, yang memaksa model AI untuk menganalisis berbagai jenis informasi dalam konteks dan memilih jawaban yang paling tepat.
Hasil pengujian awal yang menggunakan EXAMS-V menunjukkan variasi kinerja yang signifikan di antara berbagai model VLM. Misalnya, GPT-4V mencapai akurasi 62 persen untuk pertanyaan dalam bahasa Italia, namun hanya 22 persen untuk pertanyaan dalam bahasa Mandarin. Sementara itu, Google Gemini tampil paling baik dalam bahasa Jerman dengan akurasi 48 persen, tetapi memiliki performa terburuk dalam bahasa Arab dengan hanya 19 persen. Temuan ini menyoroti bahwa kemampuan model AI dapat sangat bervariasi tergantung pada bahasa dan topik yang diuji, serta kompleksitas konten visual dalam pertanyaan.
Nakov juga menyoroti bahwa dalam beberapa kasus, large language models (LLM) yang hanya menggunakan teks atau teks dengan Optical Character Recognition (OCR) mampu mengungguli VLM. Dia menduga bahwa hal ini mungkin karena VLM kurang terlatih dalam menalar gambar secara mendalam, meskipun mereka cukup baik dalam menginterpretasikan apa yang terlihat dalam gambar. "VLM tidak memiliki penalaran yang kuat. Mereka dilatih untuk memahami apa yang ada dalam gambar tetapi tidak pandai memikirkannya," kata Nakov.
Penelitian ini juga mengungkap bagaimana VLM menghadapi tantangan dalam menjawab pertanyaan dalam berbagai bahasa, khususnya bahasa-bahasa yang memiliki akar linguistik yang sama tetapi menggunakan aksara yang berbeda. Sebagai contoh, model ini menunjukkan kinerja yang lebih baik dalam bahasa Kroasia, yang menggunakan alfabet Latin, dibandingkan bahasa Serbia yang menggunakan alfabet Sirilik. Hal ini menunjukkan bahwa keterbatasan model dalam memahami aksara tertentu bisa menjadi faktor signifikan dalam penurunan kinerjanya.
Pengembangan EXAMS-V merupakan tonggak penting dalam dunia kecerdasan buatan, karena terus mendorong batasan kemampuan VLM. Dalam waktu dekat, akan ada kebutuhan yang meningkat untuk kumpulan data yang semakin kompleks dan beragam guna memastikan model AI dapat menyelesaikan berbagai tugas di dunia nyata dengan efisiensi yang tinggi. Seperti yang diungkapkan Nakov, "Jika Anda ingin melihat apakah suatu model itu brilian, salah satu caranya adalah dengan memberinya banyak tugas berbeda yang menguji berbagai kemampuan".