Posts

Mengungkap Rahasia Statistika

Halo Sobat Data! Adakah di antara kalian yang suka dengan pelajaran matematika? Atau bahkan menjadikan matematika sebagai pelajaran favorit? Jika memang iya, tepat sekali. Pada artikel kali ini, kita akan membahas salah satu cabang dari ilmu matematika yang berperan sebagai dasar dalam Jurusan Sains Data yaitu Statistika.

Dalam sains data, statistik adalah inti dari algoritma machine learning yang canggih, menangkap dan menerjemahkan pola data menjadi bukti yang dapat ditindaklanjuti.Data science menggunakan statistik untuk mengumpulkan, meninjau, menganalisa dan menarik kesimpulan dari data, serta menerapkan model matematika yang diukur ke variabel yang sesuai. Dengan demikian, statistik dalam ilmu data sama pentingnya dengan memahami bahasa pemrograman.

Terdapat dua konsep statistik yang sering digunakan dalam Data Science.

A. Statistika Deskriptif

Statistika deskriptif digunakan untuk meringkas, menyederhanakan, dan mendeskripsikan data dalam bentuk yang lebih mudah dipahami. Dalam sains data, statistika deskriptif sering digunakan pada tahap eksplorasi data untuk mendapatkan pemahaman awal mengenai pola, tren, atau distribusi data. Tujuannya adalah agar kita bisa mengidentifikasi karakteristik penting dari dataset sebelum melanjutkan ke analisis lebih lanjut atau model prediktif.

Statistika deskriptif biasanya melibatkan dua kategori utama:

  1. Ukuran Pemusatan
    – Mean: Nilai rata-rata dari data.
    – Median: Nilai tengah dari data yang telah diurutkan.
    – Modus: Nilai yang paling sering muncul dalam data.
  2. Ukuran Penyebaran
    – Range: Selisih antara nilai terbesar dan terkecil
    – Varians: Mengukur seberapa jauh data tersebar dari mean.
    – Standar Deviasi: Akar kuadrat dari variansi, menggambarkan seberapa jauh data secara rata-rata dari mean.
    – Interquartile Range (IQR): Rentang antara kuartil pertama (Q1) dan kuartil ketiga (Q3), digunakan untuk melihat sebaran data tanpa dipengaruhi oleh outlier.
  3. Ukuran Bentuk Distribusi
    – Skewness (Kemencengan): Mengukur asimetri distribusi data. Skewness positif menunjukkan distribusi miring ke kanan, sedangkan skewness negatif menunjukkan distribusi miring ke kiri.
    – Kurtosis: Mengukur keruncingan atau ketajaman puncak distribusi. Distribusi dengan kurtosis tinggi memiliki puncak yang tajam, sedangkan distribusi dengan kurtosis rendah cenderung lebih rata.
  4. Visualisasi Statistika Deskriptif
    – Histogram: Menunjukkan distribusi frekuensi data.
    – Boxplot: Menampilkan penyebaran data, termasuk median, kuartil, dan potensi outlier.
    – Scatter plot: Menampilkan hubungan antara dua variabel.

B. Statistika Inferensial

Statistika inferensial digunakan untuk membuat generalisasi, prediksi, atau kesimpulan mengenai populasi berdasarkan sampel data yang diambil dari populasi tersebut. Berbeda dengan statistika deskriptif yang fokus pada meringkas data, statistika inferensial bertujuan untuk mengekstrapolasi informasi dari sampel dan menerapkannya ke populasi yang lebih besar, biasanya dengan bantuan teori probabilitas.

Berikut adalah konsep utama dalam statistika inferensial:

  1. Populasi dan Sampel
    – Populasi: Kumpulan semua objek atau individu yang menjadi objek studi.
    – Sampel: Subset dari populasi yang diambil untuk dianalisis.
  2. Estimasi Parameter
    – Point Estimate: Perkiraan tunggal dari parameter populasi. Misalnya, rata-rata sampel digunakan untuk mengestimasi rata-rata populasi.
    – Interval Estimate: Rentang nilai yang diharapkan mencakup parameter populasi dengan tingkat kepercayaan tertentu, misalnya interval kepercayaan 95%.
  3. Uji Hipotesis
    – Hipotesis Nol (H₀): Pernyataan awal yang diasumsikan benar sampai ada bukti sebaliknya, misalnya “Tidak ada perbedaan antara dua kelompok.”
    – Hipotesis Alternatif (H₁): Pernyataan yang ingin diuji, misalnya “Ada perbedaan antara dua kelompok.”Statistik Uji: Nilai yang dihitung dari data sampel untuk membantu memutuskan apakah menolak atau menerima hipotesis nol, seperti nilai z atau t.
  4. P-value: Probabilitas mendapatkan hasil setidaknya se-ekstrim yang diamati jika hipotesis nol benar.
  5. Distribusi Sampling

Statistika inferensial sering kali bergantung pada distribusi sampling, yang merupakan distribusi dari suatu statistik (misalnya rata-rata) yang dihitung dari berbagai sampel yang diambil dari populasi.

Perkembangan Ilmu Statistika dan Kaitannya dengan Sains Data

Pembelajaran mengenai Sains Data tidak akan terlepas dari ilmu statistika yang
menjadi salah satu pegangan ilmu utama dalam penerapan sains data. Hampir segala bentuk
kegiatan yang dilakukan dalam bidang sains data akan melibatkan ilmu statistika. Statistika
sendiri memiliki sejarah panjang dalam peradaban manusia. Jauh pada jaman sebelum masehi,
statistika telah digunakan oleh bangsa-bangsa Mesopotamia,Cina, dan Mesir untuk
mengumpulkan data menganai besar pajak yang harus dibayar oleh penduduk, jumlah hasil
pertanian yang diproduksi, jumlah pendapatan hasil perdagangan, dan lain sebagainya. Adapun
di masa abad pertengahan, statistika digunakan oleh lembaga gereja untuk mencatat data
kelahiran, kematian, dan perkawinan, serta perceraian. Namun tahukah kamu bagaimana
sejarah perkembangan statistika di dunia ?
Statistika berasal dari kata “status” yang berarti negara. Pada awalnya statistika
berkaitan dengan ilmu mengenai angka-angka (keterangan) berdasarkan perintah raja atau
orang yang memimpin suatu wilayah untuk mengetahui kekayaan negara, jumlah penduduk,
hasil pertanian, modal, dan lain sebagainya. Dari hal tersebut, maka terciptalah Teknik
pencatatan angka-angka pengamatan dalam bentuk daftar dan grafik. Statistika yang
mempelajari cara mengumpulkan dan menyederhanakan data disebut dengan statistika
deskriptif. Statistika deskriptif bisa berkembang tanpa memerlukan dasar matematika yang
kuat, selain kecermatan dalam teknik berhitung. Analisis data pada tahun 1700-an dilakukan
secara deskriptif berdasarkan table frekuensi, rataan, dan ragam sampel. Di tahun 1800-an
menjadi masa awal penggunaan grafik untuk menyajikan data seperti histogram, yang sejalan
dengan penemuan sebaran (kurva) normal. Pada statistika deskriptif tidak ada perbedaan antara
data yang diperoleh dari sampel dengan populasinya dan apa yang dihitung dari sampel yang
digunakan untuk menandai populasi.Oleh karena itu orang-orang pada masa itu mulai mencari
metode lain untuk menyempurnakan kesimpulan dalam melakukan ramalan populasi
berdasarkan angka-angka statistik yang dikumpulkan. Pada akhirnya ilmu statistika semakin
berkembang dengan ditemukannya teori probabilitas dan teori pengambilan keputusan yang
digunakan pada semua bidan dalam kehidupan sehari-hari. Pada tahun 1950-an statistika mulai
digunakan untuk pengambilan keputusan melalui proses generalisasi dan peramalan dengan
memperhatikan factor risiko dan ketidakpastian.
Ilmu statsitika memiliki banyak kaitan dan manfaat dalam segala aspek di kehidupan
sehari-hari terutama di bidang sians data. Jadi apa arti dari statistika ? Perlu diketahui bahwa
statistika perlu dibedakan dengan statistik. Statistik adalah kumpulan angka yang tersusun dari
satu angka atau lebih. Sedangkan statistika adalah ilmu untuk mengumpulkan, Menyusun,
menganalisis, menyajikan, menginterpretasikan suatu data untuk menjadi informasi untuk
membantu pengambilan keputusan yang efektif. Definisi ini hampir sama dengan definisi
umum dari ilmu sains data.
Mengapa statistika penting dipelajari dalam ilmu sains data ? Pada dasarnya ilmu
mengenai statistika menjadi dasar penting bagi seorang data scientist untuk memiliki
pengetahuan dan kemampuan seseorang untuk melakukan evaluasi terhadap suatu data.

Penulis : Alifia Zahra Winesti (Divisi Kominfo)