Mengungkap Rahasia Statistika
Halo Sobat Data! Adakah di antara kalian yang suka dengan pelajaran matematika? Atau bahkan menjadikan matematika sebagai pelajaran favorit? Jika memang iya, tepat sekali. Pada artikel kali ini, kita akan membahas salah satu cabang dari ilmu matematika yang berperan sebagai dasar dalam Jurusan Sains Data yaitu Statistika.
Dalam sains data, statistik adalah inti dari algoritma machine learning yang canggih, menangkap dan menerjemahkan pola data menjadi bukti yang dapat ditindaklanjuti.Data science menggunakan statistik untuk mengumpulkan, meninjau, menganalisa dan menarik kesimpulan dari data, serta menerapkan model matematika yang diukur ke variabel yang sesuai. Dengan demikian, statistik dalam ilmu data sama pentingnya dengan memahami bahasa pemrograman.
Terdapat dua konsep statistik yang sering digunakan dalam Data Science.
A. Statistika Deskriptif
Statistika deskriptif digunakan untuk meringkas, menyederhanakan, dan mendeskripsikan data dalam bentuk yang lebih mudah dipahami. Dalam sains data, statistika deskriptif sering digunakan pada tahap eksplorasi data untuk mendapatkan pemahaman awal mengenai pola, tren, atau distribusi data. Tujuannya adalah agar kita bisa mengidentifikasi karakteristik penting dari dataset sebelum melanjutkan ke analisis lebih lanjut atau model prediktif.
Statistika deskriptif biasanya melibatkan dua kategori utama:
- Ukuran Pemusatan
– Mean: Nilai rata-rata dari data.
– Median: Nilai tengah dari data yang telah diurutkan.
– Modus: Nilai yang paling sering muncul dalam data. - Ukuran Penyebaran
– Range: Selisih antara nilai terbesar dan terkecil
– Varians: Mengukur seberapa jauh data tersebar dari mean.
– Standar Deviasi: Akar kuadrat dari variansi, menggambarkan seberapa jauh data secara rata-rata dari mean.
– Interquartile Range (IQR): Rentang antara kuartil pertama (Q1) dan kuartil ketiga (Q3), digunakan untuk melihat sebaran data tanpa dipengaruhi oleh outlier. - Ukuran Bentuk Distribusi
– Skewness (Kemencengan): Mengukur asimetri distribusi data. Skewness positif menunjukkan distribusi miring ke kanan, sedangkan skewness negatif menunjukkan distribusi miring ke kiri.
– Kurtosis: Mengukur keruncingan atau ketajaman puncak distribusi. Distribusi dengan kurtosis tinggi memiliki puncak yang tajam, sedangkan distribusi dengan kurtosis rendah cenderung lebih rata. - Visualisasi Statistika Deskriptif
– Histogram: Menunjukkan distribusi frekuensi data.
– Boxplot: Menampilkan penyebaran data, termasuk median, kuartil, dan potensi outlier.
– Scatter plot: Menampilkan hubungan antara dua variabel.
B. Statistika Inferensial
Statistika inferensial digunakan untuk membuat generalisasi, prediksi, atau kesimpulan mengenai populasi berdasarkan sampel data yang diambil dari populasi tersebut. Berbeda dengan statistika deskriptif yang fokus pada meringkas data, statistika inferensial bertujuan untuk mengekstrapolasi informasi dari sampel dan menerapkannya ke populasi yang lebih besar, biasanya dengan bantuan teori probabilitas.
Berikut adalah konsep utama dalam statistika inferensial:
- Populasi dan Sampel
– Populasi: Kumpulan semua objek atau individu yang menjadi objek studi.
– Sampel: Subset dari populasi yang diambil untuk dianalisis. - Estimasi Parameter
– Point Estimate: Perkiraan tunggal dari parameter populasi. Misalnya, rata-rata sampel digunakan untuk mengestimasi rata-rata populasi.
– Interval Estimate: Rentang nilai yang diharapkan mencakup parameter populasi dengan tingkat kepercayaan tertentu, misalnya interval kepercayaan 95%. - Uji Hipotesis
– Hipotesis Nol (H₀): Pernyataan awal yang diasumsikan benar sampai ada bukti sebaliknya, misalnya “Tidak ada perbedaan antara dua kelompok.”
– Hipotesis Alternatif (H₁): Pernyataan yang ingin diuji, misalnya “Ada perbedaan antara dua kelompok.”Statistik Uji: Nilai yang dihitung dari data sampel untuk membantu memutuskan apakah menolak atau menerima hipotesis nol, seperti nilai z atau t. - P-value: Probabilitas mendapatkan hasil setidaknya se-ekstrim yang diamati jika hipotesis nol benar.
- Distribusi Sampling
Statistika inferensial sering kali bergantung pada distribusi sampling, yang merupakan distribusi dari suatu statistik (misalnya rata-rata) yang dihitung dari berbagai sampel yang diambil dari populasi.