Analisis data eksplorasi (EDA) digunakan oleh para ilmuwan data untuk menganalisis dan menyelidiki kumpulan data dan meringkas karakteristik utama mereka, sering menggunakan metode visualisasi data.
EDA membantu menentukan cara terbaik untuk memanipulasi sumber data guna mendapatkan jawaban yang Anda butuhkan, sehingga memudahkan ilmuwan data untuk menemukan pola, menemukan anomali, menguji hipotesis, atau memeriksa asumsi.
EDA terutama digunakan untuk melihat apa yang dapat diungkapkan oleh data di luar pemodelan formal atau tugas pengujian hipotesis dan memberikan pemahaman yang lebih baik tentang variabel kumpulan data dan hubungan di antara mereka. Ini juga dapat membantu menentukan apakah teknik statistik yang Anda pertimbangkan untuk analisis data sesuai. Awalnya dikembangkan oleh ahli matematika Amerika John Tukey pada tahun 1970-an, teknik EDA terus menjadi metode yang banyak digunakan dalam proses penemuan data saat ini.
Pelajari cara memanfaatkan basis data yang tepat untuk aplikasi, analitik, dan AI generatif.
Daftar untuk buku elektronik tentang AI generatif
Tujuan utama EDA adalah untuk membantu melihat data sebelum membuat asumsi apa pun. Hal ini dapat membantu mengidentifikasi kesalahan yang jelas, serta lebih memahami pola dalam data, mendeteksi outlier atau kejadian anomali, menemukan hubungan yang menarik di antara variabel.
Ilmuwan data dapat menggunakan analisis eksploratif untuk memastikan hasil yang mereka hasilkan valid dan dapat diterapkan pada hasil dan tujuan bisnis yang diinginkan. EDA juga membantu pemangku kepentingan dengan mengonfirmasi bahwa mereka mengajukan pertanyaan yang tepat. EDA dapat membantu menjawab pertanyaan tentang standar deviasi, variabel kategoris, dan interval kepercayaan. Setelah EDA selesai dan insight diambil, fitur-fiturnya kemudian dapat digunakan untuk analisis atau pemodelan data yang lebih canggih, termasuk machine learning.
Fungsi dan teknik statistik spesifik yang dapat Anda lakukan dengan alat EDA meliputi:
Ada empat jenis utama EDA:
Jenis grafik multivariasi umum lainnya meliputi:
Beberapa alat ilmu data yang paling umum digunakan untuk membuat EDA meliputi:
Untuk menyelami lebih dalam perbedaan antara pendekatan ini, lihat "OLAP vs OLTP: Apa Perbedaannya?"
Gunakan IBM Watson® Studio untuk menentukan apakah teknik statistik yang Anda pertimbangkan untuk analisis data sudah tepat.
Pelajari pentingnya dan peran EDA dan teknik visualisasi data untuk menemukan masalah kualitas data dan untuk persiapan data, yang relevan dengan membangun alur ML.
Pelajari teknik umum untuk mengambil data Anda, membersihkannya, menerapkan rekayasa fitur, dan menyiapkannya untuk analisis awal dan pengujian hipotesis.