Evasion Attack: Musuh Halus di Dunia AI

Mutiara Aisyah
•
19 Apr 2025 20.03 WIB

Di tengah gempuran adopsi AI di berbagai sektor, mulai dari kamera pengawas hingga sistem diagnosis medis, satu pertanyaan besar mulai mengusik banyak engineer: seberapa bisa kita percaya pada prediksi model saat inputnya sengaja dimanipulasi?

Inilah titik masuk ke konsep evasion attack. Ini bukan jenis serangan yang kasar atau frontal. Tidak ada sistem yang diretas atau data yang dihapus. Tapi hasil akhirnya bisa lebih berbahaya. Model tetap berjalan, inference tetap diproses, hanya saja output-nya sudah tidak bisa dipercaya. Dan kalau ini terjadi di ruang operasi atau di sistem kemudi kendaraan otonom, risikonya bisa sangat nyata.

Skenario Nyata: Ketika Noise Kecil Menyebabkan Masalah Besar

Bayangkan sebuah model yang dilatih untuk mengenali tumor ganas dari citra MRI. Seorang penyerang menambahkan gangguan visual halus, beberapa pixel yang dimodifikasi secara matematis. Bagi dokter, gambar itu tampak seperti biasa. Tapi model mendeteksinya sebagai citra normal tanpa kelainan. Prediksi yang seharusnya menyelamatkan hidup, justru meloloskan bahaya.

Yang membuat ini semakin mengkhawatirkan, evasion attack bisa dilakukan bahkan ketika penyerang tidak punya akses ke model. Dalam skenario black-box attack, penyerang cukup mengamati input dan output, menguji berbagai variasi, lalu menyusun input yang bisa menjebak sistem.

Apa Itu Evasion Attack?

Secara teknis, evasion attack adalah cara untuk mengecoh model AI saat inference. Input dimodifikasi secara halus agar terlihat normal di mata manusia, tetapi cukup berbeda bagi model untuk membuat prediksi yang keliru.

Biasanya, ini dilakukan menggunakan adversarial example, yaitu data yang sudah disusun dengan niat tertentu agar model gagal mengenali pola yang seharusnya. Model tetap aktif, sistem tetap utuh, tapi hasil yang keluar sudah melenceng.

Serangan seperti ini tidak membutuhkan eksploitasi terhadap infrastruktur atau software. Mereka hanya memanfaatkan kelemahan dalam sensitivitas model terhadap pola input. Semakin kompleks model, semakin besar peluang ada celah yang bisa dimanfaatkan.

White-box dan Black-box

Pendekatan serangan biasanya terbagi dua.

White-box attack terjadi saat penyerang tahu banyak tentang model. Mereka tahu arsitektur, bobot, dan fungsi loss yang digunakan. Dengan informasi ini, mereka bisa menghitung arah gradien dan menambahkan gangguan ke input yang secara matematis akan membingungkan model. Salah satu teknik klasik yang digunakan adalah Fast Gradient Sign Method (FGSM), di mana gangguan ditambahkan ke arah gradien negatif untuk menghasilkan kesalahan maksimal dengan gangguan minimal.

Sebaliknya, black-box attack tidak bergantung pada pengetahuan internal model. Penyerang hanya mengandalkan input dan output yang dapat diamati. Dengan cukup banyak percobaan dan analisis hasilnya, mereka bisa memperkirakan decision boundary model dan mulai menyusun serangan yang akurat. Meskipun lebih sulit, pendekatan ini masih sangat efektif di banyak kasus dunia nyata.

Kenapa Ini Bukan Masalah Akademis Semata

Yang membuat evasion attack mengkhawatirkan bukan hanya karena ia bisa mengecoh model, tetapi karena ia sudah muncul dalam berbagai skenario dunia nyata.

Dalam sistem kendaraan otonom, sebuah eksperimen menunjukkan bahwa tanda "STOP" bisa terbaca sebagai "kecepatan maksimum 80 km/jam" hanya dengan menambahkan beberapa stiker kecil yang secara visual hampir tak terlihat. Hasilnya? Mobil bisa terus melaju saat seharusnya berhenti.

Di dunia keamanan siber, malware bisa dimodifikasi agar lolos dari sistem deteksi berbasis machine learning. Payload tetap sama secara fungsional, tetapi tampilannya dimanipulasi agar model deteksi tidak melihatnya sebagai ancaman.

Di sektor medis, perubahan kecil pada citra X-ray atau MRI bisa menyebabkan model gagal mendeteksi kelainan penting. Ini bukan hanya soal akurasi statistik, tapi bisa berdampak langsung pada keputusan klinis.

Pertahanan yang Bisa Dibangun

Tidak ada satu metode pun yang bisa menjadi jawaban tunggal untuk semua jenis evasion attack. Tapi ada beberapa strategi yang bisa dikombinasikan untuk membangun sistem yang lebih tahan terhadap gangguan semacam ini.

Adversarial training adalah salah satu pendekatan yang paling populer. Dalam metode ini, model dilatih dengan menyisipkan adversarial examples ke dalam dataset. Dengan begitu, model dipaksa belajar mengenali pola-pola input yang tidak normal dan tidak gampang terkecoh saat berhadapan dengan data mirip di tahap produksi.

Input preprocessing juga bisa membantu. Proses seperti denoising, normalisasi, atau transformasi tertentu bisa membersihkan input dari gangguan yang disengaja. Beberapa pendekatan bahkan mencoba untuk "mengembalikan" input ke bentuk aslinya sebelum diproses oleh model utama.

Model ensemble menjadi pilihan lain. Dengan menggabungkan beberapa model dengan arsitektur atau pelatihan yang berbeda, peluang kesalahan serempak bisa ditekan. Penyerang mungkin berhasil mengecoh satu model, tapi belum tentu semua model dalam sistem.

Beberapa sistem mulai menambahkan komponen pendeteksi adversarial input. Komponen ini bertugas mengevaluasi input sebelum diteruskan ke model utama. Jika ada ciri-ciri manipulasi atau keanehan statistik, sistem bisa memberikan peringatan atau menghentikan proses inferensi.

Semua strategi ini tentu datang dengan konsekuensi. Latihan yang lebih kompleks. Waktu inferensi yang lebih lama. Biaya komputasi yang lebih tinggi. Tapi untuk sistem yang menyangkut keamanan, kesehatan, atau keputusan penting lainnya, kompromi ini sering kali sepadan.

Rentan di Semua Domain

Evasion attack tidak hanya mengintai model visual. Dalam ranah NLP, hanya dengan mengubah satu atau dua kata, makna bisa bergeser jauh. Model yang awalnya menilai kalimat sebagai positif bisa berubah jadi negatif hanya karena adanya kata minor yang diganti. Contoh klasiknya: kata “great” diganti menjadi “grate”.

Di dunia audio, penyerang bisa menyisipkan suara frekuensi tinggi ke dalam rekaman. Manusia nyaris tidak bisa mendengarnya, tetapi model pengenalan suara bisa membaca sinyal tersebut sebagai instruksi atau kata lain. Ini bisa menyebabkan sistem seperti voice assistant merespons sesuatu yang seharusnya tidak pernah dikatakan.

Itulah mengapa engineer tidak boleh merasa aman hanya karena domain kerja mereka bukan computer vision. Semua domain punya kerentanan masing-masing, dan serangan semacam ini hanya akan semakin canggih seiring waktu.

Membangun AI yang Tahan Guncang

Menjadi engineer AI hari ini tidak cukup hanya tahu cara membuat model dengan akurasi tinggi. Kita juga harus paham bagaimana model kita bisa disalahgunakan atau dimanipulasi. Keamanan dan kepercayaan terhadap output model sama pentingnya dengan performa di benchmark dataset.

Kalau kita tidak mengantisipasi bentuk-bentuk manipulasi seperti ini, kita berisiko membangun sistem yang terlihat bagus di permukaan tapi rapuh saat masuk ke dunia nyata.

AI tidak berdiri sendiri. Ia akan digunakan oleh manusia, berinteraksi dengan sistem lain, dan terpapar oleh pihak yang berniat jahat. Tidak ada jaminan model akan selalu bekerja dengan input ideal. Karena itu, tanggung jawab kita adalah membangun AI yang bukan hanya pintar, tapi juga tahan terhadap trik dan jebakan.

Kalau ada satu pelajaran yang bisa kita ambil dari munculnya evasion attack, itu adalah bahwa dunia nyata jauh lebih liar daripada training set kita.

Dan ya, musuh model kita kadang jauh lebih kreatif daripada kita sendiri.