Posts

Mengungkap Rahasia Statistika

Halo Sobat Data! Adakah di antara kalian yang suka dengan pelajaran matematika? Atau bahkan menjadikan matematika sebagai pelajaran favorit? Jika memang iya, tepat sekali. Pada artikel kali ini, kita akan membahas salah satu cabang dari ilmu matematika yang berperan sebagai dasar dalam Jurusan Sains Data yaitu Statistika.

Dalam sains data, statistik adalah inti dari algoritma machine learning yang canggih, menangkap dan menerjemahkan pola data menjadi bukti yang dapat ditindaklanjuti.Data science menggunakan statistik untuk mengumpulkan, meninjau, menganalisa dan menarik kesimpulan dari data, serta menerapkan model matematika yang diukur ke variabel yang sesuai. Dengan demikian, statistik dalam ilmu data sama pentingnya dengan memahami bahasa pemrograman.

Terdapat dua konsep statistik yang sering digunakan dalam Data Science.

A. Statistika Deskriptif

Statistika deskriptif digunakan untuk meringkas, menyederhanakan, dan mendeskripsikan data dalam bentuk yang lebih mudah dipahami. Dalam sains data, statistika deskriptif sering digunakan pada tahap eksplorasi data untuk mendapatkan pemahaman awal mengenai pola, tren, atau distribusi data. Tujuannya adalah agar kita bisa mengidentifikasi karakteristik penting dari dataset sebelum melanjutkan ke analisis lebih lanjut atau model prediktif.

Statistika deskriptif biasanya melibatkan dua kategori utama:

  1. Ukuran Pemusatan
    – Mean: Nilai rata-rata dari data.
    – Median: Nilai tengah dari data yang telah diurutkan.
    – Modus: Nilai yang paling sering muncul dalam data.
  2. Ukuran Penyebaran
    – Range: Selisih antara nilai terbesar dan terkecil
    – Varians: Mengukur seberapa jauh data tersebar dari mean.
    – Standar Deviasi: Akar kuadrat dari variansi, menggambarkan seberapa jauh data secara rata-rata dari mean.
    – Interquartile Range (IQR): Rentang antara kuartil pertama (Q1) dan kuartil ketiga (Q3), digunakan untuk melihat sebaran data tanpa dipengaruhi oleh outlier.
  3. Ukuran Bentuk Distribusi
    – Skewness (Kemencengan): Mengukur asimetri distribusi data. Skewness positif menunjukkan distribusi miring ke kanan, sedangkan skewness negatif menunjukkan distribusi miring ke kiri.
    – Kurtosis: Mengukur keruncingan atau ketajaman puncak distribusi. Distribusi dengan kurtosis tinggi memiliki puncak yang tajam, sedangkan distribusi dengan kurtosis rendah cenderung lebih rata.
  4. Visualisasi Statistika Deskriptif
    – Histogram: Menunjukkan distribusi frekuensi data.
    – Boxplot: Menampilkan penyebaran data, termasuk median, kuartil, dan potensi outlier.
    – Scatter plot: Menampilkan hubungan antara dua variabel.

B. Statistika Inferensial

Statistika inferensial digunakan untuk membuat generalisasi, prediksi, atau kesimpulan mengenai populasi berdasarkan sampel data yang diambil dari populasi tersebut. Berbeda dengan statistika deskriptif yang fokus pada meringkas data, statistika inferensial bertujuan untuk mengekstrapolasi informasi dari sampel dan menerapkannya ke populasi yang lebih besar, biasanya dengan bantuan teori probabilitas.

Berikut adalah konsep utama dalam statistika inferensial:

  1. Populasi dan Sampel
    – Populasi: Kumpulan semua objek atau individu yang menjadi objek studi.
    – Sampel: Subset dari populasi yang diambil untuk dianalisis.
  2. Estimasi Parameter
    – Point Estimate: Perkiraan tunggal dari parameter populasi. Misalnya, rata-rata sampel digunakan untuk mengestimasi rata-rata populasi.
    – Interval Estimate: Rentang nilai yang diharapkan mencakup parameter populasi dengan tingkat kepercayaan tertentu, misalnya interval kepercayaan 95%.
  3. Uji Hipotesis
    – Hipotesis Nol (H₀): Pernyataan awal yang diasumsikan benar sampai ada bukti sebaliknya, misalnya “Tidak ada perbedaan antara dua kelompok.”
    – Hipotesis Alternatif (H₁): Pernyataan yang ingin diuji, misalnya “Ada perbedaan antara dua kelompok.”Statistik Uji: Nilai yang dihitung dari data sampel untuk membantu memutuskan apakah menolak atau menerima hipotesis nol, seperti nilai z atau t.
  4. P-value: Probabilitas mendapatkan hasil setidaknya se-ekstrim yang diamati jika hipotesis nol benar.
  5. Distribusi Sampling

Statistika inferensial sering kali bergantung pada distribusi sampling, yang merupakan distribusi dari suatu statistik (misalnya rata-rata) yang dihitung dari berbagai sampel yang diambil dari populasi.

Sebuah Gambar Bernilai Angka

Halo Sobat Data! Ungkapan “Sebuah Gambar Bernilai Seribu Angka” dapat diterapkan secara sempurna pada infografis. Tahukah kalian, dalam sains data infografis bukan hanya sekedar seni, tetapi alat yang sangat efektif untuk menyampaikan kompleksitas data secara singkat dan jelas. Pada mading lidasa kali ini, kita akan membahas lebih dalam apa itu infografis.

Infografis adalah representasi visual dari informasi atau data yang dirancang untuk menyajikan informasi dengan cara yang mudah dipahami dan menarik. Infografis digunakan untuk menceritakan hasil analisis data dengan cara yang lebih intuitif, terutama untuk audiens non-teknis. Infografis merupakan jembatan antara data yang kompleks dengan pemahaman manusia

Dibalik definisinya tersebut, terdapat beberapa kekuatan utama infografis:

  • Memudahkan Interpretasi Data yang Rumit. Angka-angka yang kompleks dapat dijelaskan secara visual, sehingga orang-orang yang masih awam dengan data dapat memahami dengan cepat.
  • Memfasilitasi Komunikasi yang Efektif. Dengan infografis temuan penelitian atau analisis data dapat disajikan dalam bentuk yang lebih menarik dan mudah dipahami.
  • Mempermudah Pengambilan Keputusan. Menyajikan informasi penting secara visual, dapat membantu pengambil keputusan untuk merespons data dengan lebih cepat dan akurat.
  • Memperkuat Daya Ingat. Infografis menggabungkan teks, angka, dan elemen visual yang lebih mudah diingat oleh otak manusia dibandingkan dengan teks atau tabel angka murni.

Jika kalian ingin membuat infografis, terdapat 4 rekomendasi tools yang dapat digunakan, diantaranya:

  • Canva
  • Piktochart
  • Tableau
  • Infogram

🤖 Generative Adversarial Network 🤓

Selain memiliki kemampuan untuk memberikan narasi sesuai perintah / prompt dari pengguna, saat ini dunia kecerdasan buatan sedang ramai model yang dapat ‘menggambar’ apa yang kita bayangan yang digunakan sebagai input, GAN atau yang lebih dikenal sebagai *Generative Adversarial Network* pengguna dapat menghasilkan gambar yang serupa dengan apa yang mereka imajinasikan melalui masukan teks yang akan menghasilkan gambar baru.

Tren *Generative Adversarial Network* ini dimulai oleh J. Ian Goodfellow pada 2014 untuk menghasilkan data palsu serealistis mungkin, GAN merupakan salah satu tipe model pembelajaran mendalam yang dapat mempelajari sekumpulan data dan menghasilkan data yang serupa dengan karakteristik yang hampir sama. Seperti menghasilkan foto berupa wajah yang merupakan kombinasi antara beberapa wajah yang berbeda.

Beberapa contoh pengaplikasian GAN :

  • Sintesis Gambar
  • Style Transfer
  • Text Generation
  • Speech Synthesis

GAN terdiri dari sebuah Generator dan Diskriminator. Generator bertugas untuk menghasilkan data palsu, sedangkan Diskriminator akan mencoba untuk membedakan data palsu dengan data yang asli. Kedua hal ini mencoba untuk bersaing dengan satu sama lain dimana Generator akan berusaha mengelabuhi Diskriminator, sedangkan Diskriminator akan berusaha menebak semua gambar palsu yang dihasilkan oleh Generator.

Seiring berjalannya hal ini, Generator akan belajar dan dapat untuk menghasilkan data yang realistis dan Diskriminator juga akan menjadi semakin akurat dalam membedakan data yang asli dengan data yang palsu. Pada akhirnya GAN dapat menghasilkan data dengan kualitas tinggi yang sulit dibedakan dengan data yang asli.

Namun, beberapa oknum tidak bertanggung jawab menggunakan teknologi ini secara tidak etis untuk menghasilkan gambar yang dapat merusak kepercayaan maupun digunakan untuk menyebarkan informasi palsu.

Python 🤝🏻 Excel

Microsoft excel merupakan salah satu alat yang digunakan oleh banyak perusahaan untuk mengolah, menganalisis, dan memvisualisasikan data. Jutaan pengguna menggunakan alat ini untuk membantu mereka mengambil keputusan berdasarkan data. Namun, pengguna Excel kerap menghadapi batasan ketika mereka perlu menjalankan analisis kompleks atau membangun analytics custom mereka, seperti machine learning, data cleaning, dan visualisasi tingkat lanjut.

Itulah sebabnya Microsoft telah mengumumkan pembaruan besar ke Excel yang akan merevolusi kemampuan analisisnya: ✨Python in Excel ✨. Python di Excel adalah fitur baru yang memungkinkan pengguna untuk menulis kode Python langsung ke dalam sel Excel, dan mendapatkan hasil langsung pada spreadsheet, termasuk plot dan visualisasi. Python di Excel berjalan di Microsoft Cloud, sehingga pengguna tidak perlu menginstal apa pun atau khawatir tentang masalah kompatibilitas.

Python adalah salah satu bahasa pemrograman yang paling populer dan kuat untuk ilmu data, dengan ekosistem python yang memiliki berbagai library dan kerangka kerja yang memungkinkan berbagai macam analisis. Dengan Python di Excel, pengguna dapat memanfaatkan library ini untuk meningkatkan alur kerja Excel mereka dan membuat solusi end-to-end yang menggabungkan yang terbaik dari kedua dunia.

Namun, dibalik semua yang ditawarkan pada update Excel kali ini, terdapat beberapa hal yang akan menjadi pertimbangan pengguna seperti environtment python yang digunakan akan berjalan di Microsoft Azure Cloud yang berkerja sama dengan Anaconda untuk membangun runtime standar pada update ini, sehingga kita harus terhubung pada internet untuk melakukan operasi menggunakan python. Untuk perusahaan besar hal ini juga akan menjadi sebuah pilihan sulit, karena harus menggunakan layanan Azure dan tidak dapat menjalankan runtime python secara lokal untuk menjaga keamanan data yang mereka miliki.

Perkembangan Ilmu Statistika dan Kaitannya dengan Sains Data

Pembelajaran mengenai Sains Data tidak akan terlepas dari ilmu statistika yang
menjadi salah satu pegangan ilmu utama dalam penerapan sains data. Hampir segala bentuk
kegiatan yang dilakukan dalam bidang sains data akan melibatkan ilmu statistika. Statistika
sendiri memiliki sejarah panjang dalam peradaban manusia. Jauh pada jaman sebelum masehi,
statistika telah digunakan oleh bangsa-bangsa Mesopotamia,Cina, dan Mesir untuk
mengumpulkan data menganai besar pajak yang harus dibayar oleh penduduk, jumlah hasil
pertanian yang diproduksi, jumlah pendapatan hasil perdagangan, dan lain sebagainya. Adapun
di masa abad pertengahan, statistika digunakan oleh lembaga gereja untuk mencatat data
kelahiran, kematian, dan perkawinan, serta perceraian. Namun tahukah kamu bagaimana
sejarah perkembangan statistika di dunia ?
Statistika berasal dari kata “status” yang berarti negara. Pada awalnya statistika
berkaitan dengan ilmu mengenai angka-angka (keterangan) berdasarkan perintah raja atau
orang yang memimpin suatu wilayah untuk mengetahui kekayaan negara, jumlah penduduk,
hasil pertanian, modal, dan lain sebagainya. Dari hal tersebut, maka terciptalah Teknik
pencatatan angka-angka pengamatan dalam bentuk daftar dan grafik. Statistika yang
mempelajari cara mengumpulkan dan menyederhanakan data disebut dengan statistika
deskriptif. Statistika deskriptif bisa berkembang tanpa memerlukan dasar matematika yang
kuat, selain kecermatan dalam teknik berhitung. Analisis data pada tahun 1700-an dilakukan
secara deskriptif berdasarkan table frekuensi, rataan, dan ragam sampel. Di tahun 1800-an
menjadi masa awal penggunaan grafik untuk menyajikan data seperti histogram, yang sejalan
dengan penemuan sebaran (kurva) normal. Pada statistika deskriptif tidak ada perbedaan antara
data yang diperoleh dari sampel dengan populasinya dan apa yang dihitung dari sampel yang
digunakan untuk menandai populasi.Oleh karena itu orang-orang pada masa itu mulai mencari
metode lain untuk menyempurnakan kesimpulan dalam melakukan ramalan populasi
berdasarkan angka-angka statistik yang dikumpulkan. Pada akhirnya ilmu statistika semakin
berkembang dengan ditemukannya teori probabilitas dan teori pengambilan keputusan yang
digunakan pada semua bidan dalam kehidupan sehari-hari. Pada tahun 1950-an statistika mulai
digunakan untuk pengambilan keputusan melalui proses generalisasi dan peramalan dengan
memperhatikan factor risiko dan ketidakpastian.
Ilmu statsitika memiliki banyak kaitan dan manfaat dalam segala aspek di kehidupan
sehari-hari terutama di bidang sians data. Jadi apa arti dari statistika ? Perlu diketahui bahwa
statistika perlu dibedakan dengan statistik. Statistik adalah kumpulan angka yang tersusun dari
satu angka atau lebih. Sedangkan statistika adalah ilmu untuk mengumpulkan, Menyusun,
menganalisis, menyajikan, menginterpretasikan suatu data untuk menjadi informasi untuk
membantu pengambilan keputusan yang efektif. Definisi ini hampir sama dengan definisi
umum dari ilmu sains data.
Mengapa statistika penting dipelajari dalam ilmu sains data ? Pada dasarnya ilmu
mengenai statistika menjadi dasar penting bagi seorang data scientist untuk memiliki
pengetahuan dan kemampuan seseorang untuk melakukan evaluasi terhadap suatu data.

Penulis : Alifia Zahra Winesti (Divisi Kominfo)

Manfaat Artificial Intelligence(AI) dalam Kehidupan Manusia

Artificial Intelligence(AI) atau kecerdasan buatan dalam bahasa indonesia, adalah kecerdasan yang dimiliki oleh manusia yang dimodelkan di dalam mesin dan diprogram agar bisa berpikir seperti halnya manusia AI juga merupakan salah satu bidang ilmu komputer yang dikhususkan untuk memecahkan masalah kognitif yang umumnya terkait dengan kecerdasan manusia, seperti pembelajaran, pemecahan masalah, dan pengenalan pola. AI biasanya dikaitkan dengan hal hal futuristik dan robot.

Saat ini, teknologi AI sudah sering kita temui dalam kehidupan sehari hari, contohnya adalah google asisten, siri, dan alexa yang merupakan asisten virtual dan bekerja dengan menggunakan teknologi AI, sistem rekomendasi yang biasa kita temukan saat membuka aplikasi dan web e-commerce juga merupakan penerapan dari AI.

Berikut adalah beberapa manfaat Artificial intelligence dalam kehidupan manusia:

  1. Meningkatkan produktivitas 

  dengan adanya AI yang dapat bekerja secara efisien dan cepat, tentunya pekerjaan dapat dilakukan dengan lebih cepat dan menghasilkan lebih banyak dibandingkan manusia, sehingga dapat membantu manusia dalam mengerjakannya dan produktivitasnya akan meningkat.

  1. Cepat, dan efisien

AI yang bekerja secara otomatis dapat dengan cepat melakukan suatu pekerjaan contohnya fitur fitur dalam aplikasi pengedit foto, yang hanya dengan sekali klik dapat mengganti background, mengubah warnanya, bahkan menghilangkan objek tertentu dalam foto.

  1. Membantu meminimalkan kesalahan manusia

fitur fitur seperti autocorrect dalam keyboard, co-pilot di github dapat sangat membantu dalam pekerjaan manusia, sehingga pekerjaan dapat dilakukan lebih cepat dan tepat, contoh lainnya fitur AI di kendaraan roda empat, seperti mobil yang sudah dapat menggunakan sensor untuk menghindari hambatan di jalan raya, dan mengemudi sendiri, tentunya akan meminimalisir terjadinya kecelakaan lalu lintas.

  1. Otomatisasi

pekerjaan pekerjaan yang berkaitan dengan penyeleksian akan dapat dengan mudah dilakukan secara otomatis menggunakan AI, contohnya deteksi spam dalam email, dan bahkan dapat mendeteksi virus.

Itulah beberapa contoh manfaat AI dalam kehidupan manusia, karena teknologi apabila digunakan dengan benar maka akan membawa berbagai manfaat untuk kehidupan umat manusia.