Menjelajah Data dengan EDA dalam Proyek AI
- Mutiara Aisyah
- •
- 18 Apr 2025 22.38 WIB

Ilustrasi EDA
Di balik setiap model kecerdasan buatan yang presisi, terdapat proses panjang untuk memahami data secara mendalam. Salah satu tahap yang paling krusial namun kerap diremehkan adalah Exploratory Data Analysis (EDA). Dalam konteks proyek AI, EDA bukan sekadar langkah awal yang harus dilalui, melainkan fondasi strategis yang menentukan kualitas akhir dari sistem yang dikembangkan. Tanpa EDA yang matang, bahkan algoritma tercanggih sekalipun hanya akan menghasilkan output yang rapuh.
EDA dan Intuisinya terhadap Data
EDA adalah proses sistematis untuk menganalisis karakteristik utama data sebelum dilakukan pemodelan lebih lanjut. Tujuannya bukan untuk membangun model, melainkan untuk memahami struktur, mendeteksi anomali, menemukan pola, dan menguji asumsi. Dalam dunia AI, di mana data adalah bahan bakar utama, memahami setiap sisi data menjadi keharusan. Sebuah natural language model, misalnya, tidak dapat menangani outliers atau imbalance tanpa konsekuensi serius terhadap akurasinya.
Seorang data scientist yang mahir akan menggunakan EDA seperti seorang detektif menggunakan kaca pembesar. Ia menyusuri distribusi, relasi antar variabel, dan potensi bias yang mungkin tersembunyi. Ia bertanya: Apakah ada ketidakseimbangan kelas yang signifikan? Apakah nilai kosong tersebar secara acak atau sistematis? Apakah ada korelasi tinggi yang mengindikasikan redundansi?
Teknik-Teknik Kunci dalam EDA untuk AI
EDA untuk proyek AI biasanya dilakukan dengan kombinasi statistik deskriptif dan visualisasi. Beberapa teknik yang lazim digunakan meliputi:
- Distribusi Frekuensi dan Statistik Ringkasan
Menghitung mean, median, modus, standar deviasi, dan IQR (interquartile range) dapat memberikan gambaran awal tentang sentralitas dan dispersi data. - Visualisasi Data
Histogram, boxplot, scatterplot, pairplot, hingga heatmap korelasi digunakan untuk mengidentifikasi pola visual, deteksi anomali, dan relasi antar fitur. - Analisis Missing Values
Proyek AI yang melibatkan rekam medis atau data sensor kerap mengandung missing values. EDA membantu menentukan apakah imputation, removal, atau flagging menjadi strategi terbaik. - Multivariate Exploration
Untuk dataset kompleks, hubungan antar lebih dari dua fitur sering kali mengungkap dinamika yang tidak terlihat secara univariat. Teknik seperti PCA (Principal Component Analysis) atau t-SNE digunakan untuk eksplorasi lanjutan. - Target Leakage Detection
Dalam supervised learning, penting untuk menghindari information leakage. EDA bisa mengungkap fitur yang secara tidak langsung memuat informasi target dan harus dikeluarkan dari model.
Studi Kasus: EDA dalam Proyek AI di Dunia Medis
Bayangkan sebuah proyek AI untuk memprediksi kemungkinan komplikasi pasca operasi berdasarkan rekam medis pasien. Tanpa EDA, engineer mungkin langsung melatih model pada dataset yang terlihat lengkap. Namun, EDA bisa mengungkap fakta penting: 15% fitur memiliki missing rate di atas 30%, dan pasien usia lanjut lebih sering memiliki nilai kosong. Ini bisa mengindikasikan bias sistemik.
Selain itu, EDA bisa menunjukkan bahwa variabel “durasi operasi” sangat berkorelasi dengan “jumlah darah yang digunakan”, yang bisa menyebabkan multikolinearitas. Dengan visualisasi distribusi, ditemukan bahwa pasien dengan komplikasi memiliki skewed distribution pada tingkat glukosa darah sebelum operasi. Temuan seperti ini bukan hanya meningkatkan performa model, tapi juga memperkaya interpretasi klinis.
EDA sebagai Alat Refleksi Etika
Dalam pengembangan AI yang adil (fair AI), EDA menjadi jendela untuk mengevaluasi potensi diskriminasi. Apakah data merepresentasikan semua kelompok demografis secara seimbang? Apakah performa model turun signifikan pada kelompok minoritas? Dengan memetakan distribusi berdasarkan gender, ras, atau usia, EDA membantu mencegah bias algoritmik sejak awal.
Misalnya, dalam proyek diagnosis berbasis citra medis, EDA dapat memperlihatkan bahwa mayoritas sampel berasal dari pasien berkulit terang. Jika model dilatih tanpa menyadari hal ini, hasilnya bisa berpotensi diskriminatif terhadap pasien berkulit gelap. EDA bukan hanya tugas teknis, tetapi juga tindakan etis.
Meleburkan EDA dengan Otomasi dan Augmented Analytics
Tren terbaru dalam EDA adalah otomatisasi proses dengan bantuan AI-driven tools. Library seperti Sweetviz, Pandas Profiling, dan Lux mempercepat analisis awal dengan laporan otomatis yang informatif. Dalam skala industri, platform augmented analytics mulai mengintegrasikan EDA dalam siklus machine learning pipeline, menjadikannya bagian yang tak terpisahkan dari MLOps.
Namun, otomatisasi bukan pengganti intuisi manusia. Kepekaan terhadap konteks, pemahaman domain, dan interpretasi atas anomali tetap menjadi kekuatan manusia yang belum tergantikan.
Kesimpulan: EDA adalah Kompas dalam Perjalanan AI
EDA bukan sekadar langkah teknis, tetapi bagian dari critical thinking dalam proses membangun sistem AI yang cerdas dan bertanggung jawab. Ia adalah ruang untuk bertanya, menemukan, dan memahami sebelum mengambil keputusan besar dalam pemodelan. Di dunia AI yang semakin kompleks, kemampuan untuk membaca dan menafsirkan data secara eksploratif menjadi kompetensi yang menentukan keberhasilan jangka panjang.
Tanpa EDA, AI bisa menjadi mesin yang salah arah. Dengan EDA, AI menjadi sistem yang mengakar pada realitas data dan mampu menghasilkan keputusan yang lebih akurat, adil, dan dapat dipercaya.