🤖 Generative Adversarial Network 🤓

Selain memiliki kemampuan untuk memberikan narasi sesuai perintah / prompt dari pengguna, saat ini dunia kecerdasan buatan sedang ramai model yang dapat ‘menggambar’ apa yang kita bayangan yang digunakan sebagai input, GAN atau yang lebih dikenal sebagai *Generative Adversarial Network* pengguna dapat menghasilkan gambar yang serupa dengan apa yang mereka imajinasikan melalui masukan teks yang akan menghasilkan gambar baru.

Tren *Generative Adversarial Network* ini dimulai oleh J. Ian Goodfellow pada 2014 untuk menghasilkan data palsu serealistis mungkin, GAN merupakan salah satu tipe model pembelajaran mendalam yang dapat mempelajari sekumpulan data dan menghasilkan data yang serupa dengan karakteristik yang hampir sama. Seperti menghasilkan foto berupa wajah yang merupakan kombinasi antara beberapa wajah yang berbeda.

Beberapa contoh pengaplikasian GAN :

  • Sintesis Gambar
  • Style Transfer
  • Text Generation
  • Speech Synthesis

GAN terdiri dari sebuah Generator dan Diskriminator. Generator bertugas untuk menghasilkan data palsu, sedangkan Diskriminator akan mencoba untuk membedakan data palsu dengan data yang asli. Kedua hal ini mencoba untuk bersaing dengan satu sama lain dimana Generator akan berusaha mengelabuhi Diskriminator, sedangkan Diskriminator akan berusaha menebak semua gambar palsu yang dihasilkan oleh Generator.

Seiring berjalannya hal ini, Generator akan belajar dan dapat untuk menghasilkan data yang realistis dan Diskriminator juga akan menjadi semakin akurat dalam membedakan data yang asli dengan data yang palsu. Pada akhirnya GAN dapat menghasilkan data dengan kualitas tinggi yang sulit dibedakan dengan data yang asli.

Namun, beberapa oknum tidak bertanggung jawab menggunakan teknologi ini secara tidak etis untuk menghasilkan gambar yang dapat merusak kepercayaan maupun digunakan untuk menyebarkan informasi palsu.

Python but faster, it’s Mojo🔥

Jika TypeScript merupakan superscript dari Javascript, maka Mojo🔥 dapat dikatakan sebagai superscript dari Python 🐍. Mojo merupakan bahasa pemrograman baru yang ditujukan untuk pengembang artificial intelligence yang akan terus berkembang.

null

Mojo menggabungkan bahasa pemrograman dinamis dan statis yang berhasil mendapatkan sampai dengan 68.000x 🚀performa python pada umumnya 🤯

Semenjak awal diluncurkannya mojo pada limited-access pada 2 Mei 2023, lebih dari 100K pengembang tertarik dan bermain menggunakan Mojo pada playground yang disediakan, ekosistem dari pengembang yang tertarik dengan bahasa pemrograman yang menjanjikan ini juga terus bertumbuh dari waktu ke waktu.

nullMojo dibangun oleh perusahaan yang dibangun oleh Chris Lattner, orang yang membuat bahasa pemrograman Swift, yang di design untuk pemrograman pada perangkat keras untuk kecerdasan buatan seperti Nvidia cuda core, yang dapat melakukan auto-tuning untuk menyesuaikan kode kita pada perangkat keras yang kita gunakan.

null

Untuk dapat mendapatkan performa yang dijanjikan, pengembang disarankan untuk menggunakan cara penulisan kode dengan memanfaatkan strong type checking pada bahasa pemrograman mojo ini untuk mempermudah *error checking *dan meningkatkan performa kode, meski demikian dynamic typing tetap dapat digunakan meskipun akan mengingkari fungsi dari Mojo itu sendiri.

Meski masih tergolong sebagai bahasa pemrograman yang baru, peluang pekerjaan sebagai pengembang Mojo sudah terbuka dengan minimal pengalaman dalam bahasa ini selama 10 tahun 🤣.

Python 🤝🏻 Excel

Microsoft excel merupakan salah satu alat yang digunakan oleh banyak perusahaan untuk mengolah, menganalisis, dan memvisualisasikan data. Jutaan pengguna menggunakan alat ini untuk membantu mereka mengambil keputusan berdasarkan data. Namun, pengguna Excel kerap menghadapi batasan ketika mereka perlu menjalankan analisis kompleks atau membangun analytics custom mereka, seperti machine learning, data cleaning, dan visualisasi tingkat lanjut.

Itulah sebabnya Microsoft telah mengumumkan pembaruan besar ke Excel yang akan merevolusi kemampuan analisisnya: ✨Python in Excel ✨. Python di Excel adalah fitur baru yang memungkinkan pengguna untuk menulis kode Python langsung ke dalam sel Excel, dan mendapatkan hasil langsung pada spreadsheet, termasuk plot dan visualisasi. Python di Excel berjalan di Microsoft Cloud, sehingga pengguna tidak perlu menginstal apa pun atau khawatir tentang masalah kompatibilitas.

Python adalah salah satu bahasa pemrograman yang paling populer dan kuat untuk ilmu data, dengan ekosistem python yang memiliki berbagai library dan kerangka kerja yang memungkinkan berbagai macam analisis. Dengan Python di Excel, pengguna dapat memanfaatkan library ini untuk meningkatkan alur kerja Excel mereka dan membuat solusi end-to-end yang menggabungkan yang terbaik dari kedua dunia.

Namun, dibalik semua yang ditawarkan pada update Excel kali ini, terdapat beberapa hal yang akan menjadi pertimbangan pengguna seperti environtment python yang digunakan akan berjalan di Microsoft Azure Cloud yang berkerja sama dengan Anaconda untuk membangun runtime standar pada update ini, sehingga kita harus terhubung pada internet untuk melakukan operasi menggunakan python. Untuk perusahaan besar hal ini juga akan menjadi sebuah pilihan sulit, karena harus menggunakan layanan Azure dan tidak dapat menjalankan runtime python secara lokal untuk menjaga keamanan data yang mereka miliki.

Pentingnya Sebuah Sains Data dalam Mengembangkan Bisnis Startup

Data sains kini telah berubah dan berkembang menjadi ilmu yang sangat penting. Di era dimana data begitu mudah dikumpulkan, cara perusahaan menjalankan bisnis pun berubah. Data banyak digunakan dalam mengambil keputusan. Bukan hanya keputusan yang berkaitan langsung dengan penjualan, data juga banyak digunakan untuk mengembangkan user experience yang lebih berkesan.

Apa Itu Data Sains?

Pada mulanya data sains hanya digunakan oleh perusahaan-perusahaan teknologi besar. Seiring dengan perkembangan zaman, pemanfaatan data sains semakin meluas hingga ke bisnis kecil. Peran data sains dalam bisnis pun semakin tidak bisa dilepaskan. Namun sebelum melangkah lebih jauh, apa itu data sains?

Data sains merupakan ilmu yang mempelajari data. Ada tiga pilar penting yang mendukung data sains. Ketiga pilar tersebut adalah bisnis, matematika dan statistik serta teknologi. Dengan pilar tersebut, Anda bisa mengolah data dan mengekstraknya menjadi pengetahuan.

Proses Data Sains

Untuk mengolah data menjadi pengetahuan, ada proses yang dilalui. Berikut 5 proses dalam data sains.

  1. Obtain

Pengolahan data tidak mungkin bisa dilakukan tanpa adanya data. Karena itu, proses pertama dalam data sains adalah mengumpulkan data dari beberapa sumber. Biasanya, data dikumpulkan dari database. Karena itu, kemampuan teknis seperti MySQL dan pemrograman Phyton akan sangat membantu.

  1. Scrub

Dalam proses pengumpulan data, jumlah data yang dikumpulkan biasanya sangat besar. Agar lebih mudah diolah, data tersebut perlu di-filter terlebih dahulu. Dalam proses scrub, data-data yang tidak relevan akan disingkirkan. Biasanya proses standardisasi juga dilakukan di tahap ini.

  1. Explore

Data yang telah di-filter kemudian digali dan diperiksa lebih dalam. Di tahap ini, properti data akan diperiksa dan data mulai dihitung. Untuk mengidentifikasi pola dan tren yang signifikan, data divisualisasikan. Hal ini dilakukan untuk memperoleh gambaran lebih jelas.

  1. Model

Tahapan ini merupakan tahapan di mana model data mulai dibuat. Model data sendiri dibuat untuk mencapai tujuan yang telah ditentukan. Regresi dan prediksi juga digunakan untuk memperkirakan nilai di masa depan sekaligus mengklasifikasikan grup nilai data.

  1. Interpret

Agar lebih mudah dipahami oleh orang awam, model dan data perlu diinterpretasikan. Hasil dari proses data sains kemudian dipresentasikan guna menjawab kebutuhan bisnis. Dalam hal ini, kemampuan komunikasi juga dibutuhkan agar poin-poin penting dapat tersampaikan ke orang-orang yang berkepentingan.

Fungsi Data Sains Bagi Startup

Meski masih kecil, startup sebaiknya juga harus melek data sains. Hal tersebut tidak terlepas dari fungsi data sains bagi startup. Berikut beberapa fungsi data sains yang perlu diketahui.

  1. Prediksi Bisnis

Data sains dapat membantu perusahaan untuk memprediksi bisnis kedepannya. Bagaimana penjualan produk di masa depan, customer dan pelayanan, pola-pola dari data sains dapat memberi gambaran terkait semua itu.

  1. Validasi Produk

Apakah sebuah produk laris atau tidak, semua itu tentu perlu divalidasi. Di sinilah peran data sains untuk mengetahui hal tersebut. Data sains membantu perusahaan memvalidasi produk-produknya. Dengan cara ini, perusahaan bisa mengetahui mana produk yang laku keras di pasaran dan mana yang tidak.

  1. Personalisasi Customer

Pelanggan kini tidak hanya menginginkan kualitas produk yang bagus. Mereka juga menginginkan pelayanan yang prima. Namun jika Anda bisa memberikan pelayanan yang personal, hal tersebut tentu akan lebih dihargai lagi. Data sains membantu perusahaan memahami pelanggannya. Dengan demikian, perusahaan bisa tahu pelayanan seperti apa yang diinginkan oleh pelanggannya.

Pengetahuan adalah senjata yang sangat kuat. Jika dimanfaatkan dengan baik, hal tersebut akan memberi dampak yang sangat besar bagi bisnis. Begitu pula dengan data sains yang pada dasarnya bisa menjadi modal besar, khususnya yang berhubungan dengan customer, untuk dapat membantu dan mendukung bisnis startup dapat semakin berkembang.

Privasi Data: Pentingnya Melindungi Informasi Pribadi

Halo sobat data!

Sobat data pasti tau kan kalau privasi data merupakan salah satu hal paling penting yang perlu diperhatikan dalam era digital saat ini. Dalam dunia data science, privasi data adalah masalah yang harus dipertimbangkan dengan hati-hati loh sobat data, agar data pribadi kita tidak disalahgunakan atau dibocorkan.

Data dan informasi pribadi menjadi bagian penting dari hidup kita di era digital saat ini ya sobat. Kita membagikan banyak informasi pribadi setiap hari, mulai dari nama, alamat, nomor telepon, hingga informasi pembayaran dan lainnya. Meskipun memudahkan kita dalam melakukan transaksi, menyimpan, dan mengakses informasi, hal ini juga membuat kita rentan terhadap risiko privasi data loh sobat data.

Banyak kasus privasi data yang terjadi di seluruh dunia, seperti bocornya data dan informasi pribadi, pencurian identitas, dan lainnya. Hal ini memperlihatkan betapa pentingnya melindungi informasi pribadi kita. Dalam data science, privasi data harus menjadi perhatian utama agar data pribadi individu tidak disalahgunakan atau dibocorkan.

Untuk melindungi privasi data, ada beberapa hal yang dapat dilakukan, seperti:

  1. Menggunakan sandi yang kuat dan unik untuk setiap akun yang dimiliki.
  2. Memastikan bahwa informasi pribadi yang tidak perlu tidak dibagikan.
  3. Menjaga keamanan perangkat yang digunakan, seperti menginstal anti-virus dan mematikan koneksi Wi-Fi saat tidak digunakan.
  4. Memastikan bahwa situs yang digunakan memiliki kebijakan privasi yang baik dan memastikan bahwa informasi pribadi hanya dibagikan dengan situs terpercaya.
  5. Memastikan bahwa data dan informasi pribadi yang tidak digunakan lagi dihapus dan dikosongkan dari perangkat yang digunakan.

Privasi data sangat penting dan harus diperlakukan dengan hati-hati dalam era digital saat ini ya sobat data. Melindungi informasi pribadi adalah tanggung jawab kita semua dan penting untuk memastikan bahwa teknologi digunakan secara bertanggung jawab.

Penulis: Nadea Putri Nur Fauzi

8 Website Keren untuk Meningkatkan Kemampuan Data Science

Halo, Sobat Data!

Pada mading Lidasa (Life Data Science) ini, kita akan bahas tentang website-website keren yang bisa jadi referensi sobat data loh dalam belajar dan meningkatkan skill data science. Yuk simak penjelasannya.

Seperti kita ketahui ya sobat data, bahwa Data science telah menjadi salah satu bidang yang paling diminati di dunia teknologi saat ini. Dalam hal ini, untuk menjadi seorang profesional data science yang handal, Anda perlu selalu belajar dan mengembangkan keterampilan Anda secara terus-menerus. Berikut merupakan website-website yang dapat membantu sobat data dalam meningkatkan skill data science.

  1. Kaggle

Kaggle adalah platform data science yang menyediakan dataset, kompetisi, dan sumber daya belajar untuk para data scientist. Dengan berpartisipasi dalam kompetisi, sobat data dapat mempraktekkan keterampilan data science dalam konteks yang lebih nyata.

  • Medium

Medium adalah platform publikasi online yang menawarkan artikel, blog, dan sumber daya tentang berbagai topik, termasuk data science. Medium juga menyediakan artikel yang ditulis oleh data scientist. Medium dapat menjadi sumber daya yang berguna bagi sobat data jika ingin meningkatkan keterampilannya dan tetap up to date dengan tren terbaru di lapangan.

  • Github

Github merupakan sumber yang bagus untuk mengembangkan keterampilan data science. Github adalah platform untuk pengembangan perangkat lunak kolaboratif dan kontrol versi, dan banyak digunakan oleh data scientist untuk berbagi dan berkolaborasi dalam proyek. Dalam hal ini, GitHub juga menawarkan banyak proyek data science open-source yang dapat diakses dan dipelajari oleh sobat data.

  • Towards Data Science

Towards Data Science adalah platform blog online yang menawarkan artikel tentang berbagai topik data science, termasuk machine learning, kecerdasan buatan, dan analisis data. Disini sobat data dapat menemukan berbagai artikel terbaru mengenai data science, mulai dari perkembangan, ide proyek, langkah pembuatan proyek, dan lain sebagainya.

  • Kdnuggets

KDnuggets adalah situs berita dan sumber daya data science yang menawarkan artikel, berita, tutorial, dan sumber daya lainnya untuk data scientist. Situs ini juga memiliki daftar posisi teratas untuk data scientist, yang dapat membantu sobat data menemukan pekerjaan di bidang data science.

  • Datacamp

DataCamp adalah platform belajar online yang menyediakan berbagai kursus interaktif di bidang data science, termasuk Python, R, SQL, dan machine learning. DataCamp juga menawarkan kursus spesifik yang dikembangkan oleh perusahaan atau institusi tertentu, seperti IBM dan Johns Hopkins University. Di website ini sobat data dapat mengikuti berbagai course ternama tentang data science.

  • Coursera

Coursera adalah platform belajar online yang menawarkan kursus dari universitas dan lembaga akademis terkemuka di seluruh dunia. Coursera juga menyediakan sertifikat untuk menunjukkan keberhasilan sobat data dalam menyelesaikan kursus.

  • Dagshub

DAGsHub adalah platform yang relatif baru yang berfokus pada hosting dan pengelolaan repositori kode untuk proyek pembelajaran mesin. DAGsHub menyediakan berbagai fitur yang dirancang untuk menyederhanakan manajemen dan kolaborasi proyek pembelajaran mesin, termasuk kontrol versi, manajemen himpunan data, dan pelacakan eksperimen. Ini juga terintegrasi dengan kerangka kerja pembelajaran mesin populer seperti PyTorch dan TensorFlow.

Setelah membaca artikel ini, diharapkan sobat data dapat terus belajar dan mengembangkan skill data science. Karena kita ketahui bahwa ilmu data sekarang semakin banyak digunakan dan dibutuhkan oleh berbagai industri.

Penulis: Nadea Putri Nur Fauzi

Memahami Apa Itu Visualisasi Data Beserta Toolsnya

Halo sobat data, pada artikel kali ini, kita akan membahas mengenai visualisasi data. Tahukah kalian, apa sih visualisasi data itu ?

Menurut Mavkinlay Shneiderman, definisi visualisasi adalah menggunakan teknologi komputer sebagai pendukung untuk melakukan penggambaran data visual yang interaktif guna memperkuat pengamatan. Sedangkan menurut Mc Cormick, definisi visualisasi adalah metode menggunakan komputer untuk mentransformasikan simbol menjadi geometrik dan memungkinkan peneliti dalam hal mengamati sumulasi komputasi yang dapat memperkaya proses penemuan ilmiah sehingga dapat mengembangkan pemahaman yang lebih dalam dan tak terduga. Sederhananya, visualisasi data merupakan kumpulan data yang ditampilkan dengan grafis. Dengan menggunakan visualisasi, data yang ditampilkan dapat mempermudah peneliti untuk melihat data yang sulit dilihat dengan pemikiran sehingga peneliti bisa mengamati simulasi dan komputasi, juga memperkaya proses penemuan ilmiah dan mengembangkan pemahaman yang lebih dalam.

Adapun fungsi dari visualisasi data ada banyak sekali loh teman-teman, seperti meningkatkan pemahaman tentang operasional bisnis, meningkatkan nilai produk atau jasa, dan memberdayakan orang dengan advanced analytics. Selain itu, tujuan dilakukannya visualisasi adalah untuk mengeksplor data atau informasi yang ada yang dapat digunakan sebagai salah satu bagian dari elemen pengambilan keputusan, melakukan Analisa terhadap data yang ada dalam bentuk gambar seperti grafik dan tabel yang sudah terhitung sehingga manajemen hanya perlu melakukan pengambilan keputusan dari data, dan mempermudah orang yang melihat agar dapat memahami informasi dalam gambar tersebut.

Nah, agar sobat data dapat merealisasikan fungsi-fungsi yang sudah disebutkan tadi, diperlukan tools-tools terbaik yang dapat membantu sobat data dalam memvisualisasikan data. Beberapa tools yang dapat digunakan untuk melakukan visualisasi data yaitu :

  1. Ms. Excel

Ms. Excel menjadi salah satu tools yang sering digunakan untuk memvisualisasikan data, Ms Excel merupakan spreasheet yang dapat mengerjakan data dalam skala kecil hingga besar. Tidak dapat dipungkiri, Ms Excel memiliki performa yang baik dalam membuat atau merevisi dataset dalam worksheet.

  • Tableau

Tableau juga merupakan tools untuk membuat visualisasi data yang cukup sering digunakan. Adapun kelebihan dari tableau adalah kemampuannya yang bisa menulis kode atau sintaks ketika menggunakan tools visualisasi data.

  • Google Chart

Google chart memungkinkan seseorang membuat grafik dari beberapa data dan langsung menambahkannya ke dalam sebuah halaman web atau worksheet lainnya.

  • Infogram

Infogram merupakan salah satu tools visualisasi data yang bisa memberikan laporan, slide, dasbor, hingga visual media sosial. Ketika digunakan, tools ini dapat memudahkan seseorang atau kelompok dalam berbagi serta menghasilkan pekerjaan yang konsisten dengan template yang dapat disesuaikan.

  • Zoho Analytics

Zoho analytics merupakan salah satu tools visualisasi data yang bisa digunakan untuk menganalisis secara visual sebagai dasbor untuk mendapatkan wawasan yang lebih luas dari suatu informasi.

Bagaimana cobat data? Sudah mengerti kan pentingnya melakukan visualisasi data dalam menyampaikan suatu informasi. Semoga artikel ini dapat menambah pengetahuan kalian mengenai visualisasi data yaa

7 Library Python Populer untuk Data Science

Python Language Programming atau biasa kita sebut dengan bahasa pemrograman python adalah salah satu bahasa komputer yang sering dipakai pada bidang data science. Untuk memudahkan mempelajari dan membuat project data science, python memiliki banyak library yang bisa digunakan dengan mudah. Berikut merupakan 10 library python terpopuler untuk data science:

  1. Pandas

Pandas merupakan salah satu library python untuk mengolah dataframe. Pandas dapat digunakan dengan mudah dan cepat. Pandas sering digunakan untuk data wrangling. Mulai dari membaca data, menghapus data, update data, manipulasi data, menghadle data kosong, dan lainnya.

  • Numpy

Numpy merupakan salah satu library python untuk pengoperasian data array. Yang bisa dilakukan dengan library ini adalah menambah, menghapus, mengganti ukuran data, dan lainnya.

  • Scikit Learn

Scikit learn merupakan salah satu library python untuk pemodelan Machine Learning. Saat ingin membuat model Machine Learning seperti klasifikasi, regresi maupun clustering maka scikit learn selalu digunakan. Berbeda dengan Pandas dan Numpy, scikit learn berfokus pada pemodelan, bukan manipulasi data.

  • Matplotlib

Matplotlib merupakan salah satu library python untuk visualisasi data. Untuk menghasilkan grafik dengan bahasa pemrograman python, library ini sangatlah membantu dalam pembuatannya. Matplotlib juga mudah digunakan. Terdapat banyak grafik yang bisa dibuat dengan library ini seperti bar chart, line chart, pie chart, scatter plot, histogram, dan lainnya.

  • Seaborn

Seaborn merupakan salah satu library python untuk visualisasi data. Sebenarnya seaborn merupakan matplotlib versi lebih canggih. Grafik yang dihasilkan seaborn lebih menarik dan lebih canggih dengan sintaks yang lebih sedikit.

  • Tensorflow

Tensorflow merupakan library python yang cocok digunakan untuk data dengan jumlah yang besar. TensorFlow menyediakan API tingkat tinggi dan tingkat rendah dan digunakan untuk model high performance. Tensorflow mempunyai arsitektur yang kompleks dan tidak mudah digunakan.

  • Keras

Keras merupakan high level API dari TensorFlow untuk membangun dan melatih kode Deep Neural Network. Berbeda dengan tensorflow, keras mempunyai arsitektur yang simpel dan mudah digunakan. Keras juga dibuat khusus untuk python sehingga jauh lebih ramah pengguna, modular, dan dapat mudah disusun daripada TensorFlow.

Selain tujuh library tersebut, pada bidang science juga menggunakan banyak library python seperti scipy, statsmodels, pytorch, plotly dan lain sebagainya.

Ayo ketahui Perbedaan Data Analyst, Data Scientist, dan Data Engineer!

Data adalah sekumpulan keterangan ataupun fakta yang dibuat dengan kata-kata, kalimat, simbol, angka, dan lainnya, didapatkan melalui sebuah proses pencarian dan juga pengamatan yang tepat berdasarkan sumber-sumber tertentu. pengertian lain dari data adalah sebagai suatu kumpulan keterangan atau deskripsi dasar yang berasal dari obyek ataupun kejadian.

  1. Data Analyst

Seorang data analyst bertugas mengumpulkan, membersihkan, dan menafsirkan kumpulan data untuk menjawab pertanyaan atau memecahkan masalah sesuai dengan proyek yang sedang diamati.

Seorang Data Analyst dapat bekerja di banyak industri, termasuk bisnis, keuangan, sains, kedokteran, pemerintahan, dan masih banyak lagi.

Selama proses menganalisis data, seorang data analyst sering menggunakan berbagai macam tools (alat) yang membantu pekerjaan mereka lebih akurat dan efisien.

Beberapa tools tersebut seperti Microsoft Excel, Google Spreadsheet, SQL, Tableau, R atau Python, SAS, Microsoft Power BI, dan Jupyter Notebooks.

fyi, Sebagian besar profesional tingkat pemula yang tertarik untuk terjun ke dunia profesi terkait data dimulai sebagai data analyst.

  1. Data Scientist

Data scientist adalah pekerjaan yang tugasnya adalah untuk mengumpulkan, menafsirkan, dan menganalisis kumpulan data besar (big data), baik yang terstruktur maupun tidak terstruktur.

Pekerjaan data analyst dan data engineer memang dapat terlihat serupa. Keduanya bertugas menemukan trend atau pola dalam data untuk mengungkapkan cara baru bagi perusahaan untuk membuat keputusan bisnis yang lebih baik. Tetapi, data scientist cenderung memiliki tanggung jawab lebih 

Keterampilan yang umumnya harus dimiliki data scientist adalah keahlian di bidang matematika dan statistik, mahir menggunakan berbagai tools (seperti big data tools, machine learning, deep learning, dan lainnya), menguasai bahasa pemrograman (seperti SQL, Python, R, dan lainnya), komunikasi yang baik, dan lain sebagainya.

  1. Data Engineer

Data Engineer adalah pekerjaan bertugas untuk membangun dan memonitor sistem/arsitektur manajemen data yang ada di sebuah perusahaan.

Nantinya sistem akan dimanfaatkan untuk mengumpulkan, mengolah, dan mengubah data mentah yang berjumlah besar atau big data menjadi informasi yang dapat digunakan oleh data scientist dan data analyst.

Tujuan utama dari profesi ini adalah membuat data dapat dengan mudah diakses sehingga perusahaan dapat menggunakannya untuk mengevaluasi dan mengoptimalkan kinerja bisnis perusahaan.

Untuk menjadi data engineer, ada berbagai keterampilan yang harus dimiliki seperti menguasai bahasa pemrograman (Python, Java, R, Hadoop, NoSQL, dan lainnya), databases ETL tools, pipeline, shell script, machine learning, dan lainnya.

Itulah beberapa perbedaan dan penjelasan mengenai Data Scientist, Data Analyst, dan Data Engineer, Semoga bermanfaat !

Perkembangan Ilmu Statistika dan Kaitannya dengan Sains Data

Pembelajaran mengenai Sains Data tidak akan terlepas dari ilmu statistika yang
menjadi salah satu pegangan ilmu utama dalam penerapan sains data. Hampir segala bentuk
kegiatan yang dilakukan dalam bidang sains data akan melibatkan ilmu statistika. Statistika
sendiri memiliki sejarah panjang dalam peradaban manusia. Jauh pada jaman sebelum masehi,
statistika telah digunakan oleh bangsa-bangsa Mesopotamia,Cina, dan Mesir untuk
mengumpulkan data menganai besar pajak yang harus dibayar oleh penduduk, jumlah hasil
pertanian yang diproduksi, jumlah pendapatan hasil perdagangan, dan lain sebagainya. Adapun
di masa abad pertengahan, statistika digunakan oleh lembaga gereja untuk mencatat data
kelahiran, kematian, dan perkawinan, serta perceraian. Namun tahukah kamu bagaimana
sejarah perkembangan statistika di dunia ?
Statistika berasal dari kata “status” yang berarti negara. Pada awalnya statistika
berkaitan dengan ilmu mengenai angka-angka (keterangan) berdasarkan perintah raja atau
orang yang memimpin suatu wilayah untuk mengetahui kekayaan negara, jumlah penduduk,
hasil pertanian, modal, dan lain sebagainya. Dari hal tersebut, maka terciptalah Teknik
pencatatan angka-angka pengamatan dalam bentuk daftar dan grafik. Statistika yang
mempelajari cara mengumpulkan dan menyederhanakan data disebut dengan statistika
deskriptif. Statistika deskriptif bisa berkembang tanpa memerlukan dasar matematika yang
kuat, selain kecermatan dalam teknik berhitung. Analisis data pada tahun 1700-an dilakukan
secara deskriptif berdasarkan table frekuensi, rataan, dan ragam sampel. Di tahun 1800-an
menjadi masa awal penggunaan grafik untuk menyajikan data seperti histogram, yang sejalan
dengan penemuan sebaran (kurva) normal. Pada statistika deskriptif tidak ada perbedaan antara
data yang diperoleh dari sampel dengan populasinya dan apa yang dihitung dari sampel yang
digunakan untuk menandai populasi.Oleh karena itu orang-orang pada masa itu mulai mencari
metode lain untuk menyempurnakan kesimpulan dalam melakukan ramalan populasi
berdasarkan angka-angka statistik yang dikumpulkan. Pada akhirnya ilmu statistika semakin
berkembang dengan ditemukannya teori probabilitas dan teori pengambilan keputusan yang
digunakan pada semua bidan dalam kehidupan sehari-hari. Pada tahun 1950-an statistika mulai
digunakan untuk pengambilan keputusan melalui proses generalisasi dan peramalan dengan
memperhatikan factor risiko dan ketidakpastian.
Ilmu statsitika memiliki banyak kaitan dan manfaat dalam segala aspek di kehidupan
sehari-hari terutama di bidang sians data. Jadi apa arti dari statistika ? Perlu diketahui bahwa
statistika perlu dibedakan dengan statistik. Statistik adalah kumpulan angka yang tersusun dari
satu angka atau lebih. Sedangkan statistika adalah ilmu untuk mengumpulkan, Menyusun,
menganalisis, menyajikan, menginterpretasikan suatu data untuk menjadi informasi untuk
membantu pengambilan keputusan yang efektif. Definisi ini hampir sama dengan definisi
umum dari ilmu sains data.
Mengapa statistika penting dipelajari dalam ilmu sains data ? Pada dasarnya ilmu
mengenai statistika menjadi dasar penting bagi seorang data scientist untuk memiliki
pengetahuan dan kemampuan seseorang untuk melakukan evaluasi terhadap suatu data.

Penulis : Alifia Zahra Winesti (Divisi Kominfo)