Haruskah Kita Mengetahui Apa Itu Metodologi?

METODOLOGI DATA SCIENCE


Dalam istilah sederhana, metodologi dapat diartikan sebagai, memberikan sebuah ide yang jelas tentang metode apa atau peneliti akan memproses dengan cara bagaimana di dalam penelitiannya agar dapat mencapai tujuan penelitian.

A. Pengertian Metodologi Science

Metodologi data science adalah langkah-langkah digunakan dalam proyek data science agar dapat menghasilkan hasil yang optimal yang dapat menjawab pertanyaan dari suatu masalah yang ingin diselesaikan. Metodologi ini tidak bergantung pada teknologi atau tools tertentu.

B. Manfaat Metodologi Science

Manfaat Metodologi Pada Sebuah Penelitian :

1.     Menggunakan metodologi, peneliti dapat memudahkan pekerjaannya agar sampai pada tahap pengambilan keputusan atau kesimpulan-kesimpulan.

2.     Menggunakan metodologi, para peneliti dapat mengatasi berbagai keterbatasan yang ada, misalnya keterbatasan waktu, biaya, tenaga, etik, dan lain-lain..

3.     Kesimpulan yang diambil oleh peneliti dapat terpercaya.

4.     Kesimpulan yang diambil dapat digunakan untuk memecahkan permasalahan.

 C. Berbagai Metodologi Data Science

Terdapat 2 jenis Metodologi didalam data science, yaitu metodologi kegiatan teknis dan metodologi kegiatan bisnis (dan teknis) yang disebut juga metodologi lengkap. Dalam Metodologi teknis ada 2 contoh diantaranya Metodologi Knowledge Discovery and data Mining (KDD) dan Metodologi Sample, Emplore, Modify, Model dan Assess (SEMMA).

Dan untuk metodologi lengkap beberapa contoh diantaranya: Cross-Industry Standard Process for Data Mining (CRISPDM), IBM Data Science Methodology, Microsoft’s Team Data Science Process, dan Domino DataLab Methodology.

1. Metodologi Knowledge Discovery in Database Process (KDD)

 

Knowledge Discovery in Database Process (KDD) adalah salah satu metode yang bisa digunakan dalam melakukan data mining.

Proses dimulai dengan adanya sekumpulan data (dataset) yang akan mengalami serangkaian proses sebagai berikut:

a. Selection: Pemilihan data (data target) yang akan menjadi sampel untuk proses selanjutnya.

b. Preprocessing data: Melakukan serangkaian proses untuk melengkapi data dan menjaga konsistensi data.

c. Transformation: Mengubah representasi data untuk mempermudah danmemperbaiki agar sesuai dengan Teknik data mining yang akan dipergunakan

d. Data Mining: Kegiatan pengembangan model untuk mencari pola dari data yang diberikan

e. Evaluation: Proses interpretasi dan evaluasi pola yang diperoleh apakah pola yang menarik, berguna atau relevan.

2. Metodologi Sample, Emplore, Modify, Model dan Assess (SEMMA)


 

Metodologi SEMMA sesuai dengan namanya melakukan serangkaian kegiatan yang

bersifat siklik (berulang) yaitu:

a. Sample: Proses ekstraksi data untuk mendapatkan dataset yang cukup untuk mendapatkan informasi signifikan namun tidak terlalu besar sehingga mudah untuk diproses selanjutnya.

b. Explore: Proses untuk mengeksplorasi data dengan mencari trend dan anomali untuk mendapatkan pemahaman tentang data

c. Modify: Proses modifikasi data dengan membuat, memilih dan transformasi variable untuk proses pemodelan

d. Model: Proses pemodelan dari data dengan mencari secara otomatis kombinasi data yang dapat dipakai untuk prediksi

e. Assess: Mengevaluasi pola yang ditemukan apakah berguna dan cukup andal

3. Metodologi Cross-Industry Standard Process for Data Mining (CRISP-DM)


 

Cross-Industry Standard Process for Data Mining atau CRISP-DM adalah salah satu model proses datamining (datamining framework) yang awalnya (1996) dibangun oleh 5 perusahaan yaitu Integral Solutions Ltd (ISL), Teradata, Daimler AG, NCR Corporation dan OHRA.

Framework ini kemudian dikembangan oleh ratusan organisasi dan perusahaan di Eropa untuk dijadikan methodology standard non-proprietary bagi data mining.

Masing-masing tahapan CRISP-DM tersebut dijelaskan sebagai berikut:

1. Business Understanding: Kegiatan yang dilakukan antara lain: menentukan tujuan dan persyaratan dengan jelas secara keseluruhan, menerjemahkan tujuan tersebut serta menentukan pembatasan dalam perumusan masalah data mining, dan selanjutnya mempersiapkan strategi awal untuk mencapai tujuan tersebut.

2. Data Understanding: Secara garis besar untuk memeriksa data, sehingga dapat mengidentifikasi masalah dalam data. Tahap ini memberikan fondasi analitik untuk sebuah penelitian dengan membuat ringkasaan (summary) dan mengidentifikasi potensi masalah dalam data.

3. Data Preparation: Secara garis besar untuk memperbaiki masalah dalam data, kemudian membuat variabel derived. Tahap sampling dapat dilakukan disini dan data secara umum dibagi menjadi dua, data training dan data testing.

4. Modeling: Secara garis besar untuk membuat model prediktif atau deskriptif. Pada tahap ini dilakukan metode statistika dan Machine Learning untuk penentuan terhadap teknik data mining, alat bantu data mining, dan algoritma data mining yang akan diterapkan. Lalu selanjutnya adalah melakukan penerapan teknik dan algoritma data mining tersebut kepada data dengan bantuan alat bantu.

5. Evaluation: Melakukan interpretasi terhadap hasil dari data mining yang dihasilkan dalam proses pemodelan pada tahap sebelumnya. Evaluasi dilakukan terhadap model yang diterapkan pada tahap sebelumnya dengan tujuan agar model yang ditentukan dapat sesuai dengan tujuan yang ingin dicapai dalam tahap pertama.

6. Deployment: Perencanaan untuk Deployment dimulai selama Business Understanding dan harus menggabungkan tidak hanya bagaimana untuk menghasilkan nilai model, tetapi juga bagaimana mengkonversi skor keputusan, dan bagaimana untuk menggabungkan keputusan dalam sistem operasional.

4. Metodologi IBM Data Science 


 

 Alur kerja dari Data Scientist adalah sebagai berikut:

a. Business Understanding: memahami apakah tujuan bisnis untuk meningkatkan efisiensi kegiatan atau untuk menambah jenis kegiatan.

b. Analytic Understanding: Berdasarkan pemahaman bisnis sebelumnya, kita harus memutuskan pendekatan analitis mana yang harus diikuti, yaitu:

1. Deskriptif → status saat ini dan informasi yang diberikan.

2. Diagnostik → analisis statistik, apa yang terjadi dan mengapa itu terjadi.

3. Prediktif → meramalkan tren atau kemungkinan kejadian di masa depan.

4. Preskriptif → bagaimana masalah harus diselesaikan

c. Data Requirements: Metode analisis yang telah dipilih sebelumnya menunjukkan isi, format, dan sumber data yang diperlukan untuk dikumpulkan.

d. Data Collenction: Data yang dikumpulkan dapat diperoleh dalam format acak, selanjutnya data yang dikumpulkan harus divalidasi.

e. Data Understanding: mengumpulkan data berdasarkan masalah yang akan dipecahkan. Statistik perlu digunakan untuk memastikan apakah ada nilai yang hilang atau tidak.

f. Data Preparation: melakukan pembersihan data dan pemilihan data.

g. Modelling: Pada tahap ini Data Scientist menentukan apakah data yang disiapkan sudah sesuai atau membutuhkan lebih banyak finishing dan bumbu.

h. Evaluation: Evaluasi model dilakukan selama proses pengembangan model.

i. Deployment: Setelah Data Scientist mendapatkan model terbaik untuk pemecahan masalah bisnis, akan bermanfaat jika stakeholder dapat menggunakannya.

j. Feedback: Setelah proses penyebaran model, stakeholder akan mendapatkan feedback tentang kinerja model. Menganalisis umpan balik memungkinkan Data Scientist untuk menyempurnakan model dan meningkatkan akurasi dan kegunaannya.

5. Metodologi Microsoft's Team Data Science Process 


 

Metodologi lain adalah dari Microsoft. Sama dengan sebelumnya, proses diawali dengan kegiatan Business Understanding. Daftar proses utamanya adalah sebagai berikut:

a. Business Understanding: Kegiatan untuk memahami masalah yang dihadapi

b. Data Acquisition and Understanding: Kegiatan yang meliputi proses pengumpuilan dan eksplorasi data. Data bisa diambil dari data internal (on promise) ataupun dari cloud dan bisa berupa database ataupun file flat. Proses dilakukan melalui pipeline, yang dapat berupa proses batch atau streaming. Eksplorasi (data wrangling) meliputi pembersihan data, validasi dan visualisasi.

c. Modeling: Pengembangan model yang meliputi feature engineering, model fitting, dan model evaluation.

d. Deployment: Pemasangan model ke dalam aplikasi intelijen, suatu web service atau objek pada model store. Proses diakhiri dengan UAT (Customer Acceptance)

 6. Domino Data Lab

 

Metodologi lainnya adalah Metodologi dari Domino (Domino DataLab Methodology). Proses

utama pada metodologi ini adalah:

a. Ideation adalah pemahaman terhadap masalah pada proses bisnis serta identifikasi objektif bisnisnya. Langkah berikutnya adalah melakukan perhitungan terhadap objektif bisnis tersebut beserta Cost-Benefit Analysis.

b. Data Acquisition and Preparation: Menentukan data yang diperlukan baik yang berasal dari sistem internal ataupun eksternal. Setelah proses akuisisi dilakukan eksplorasi terhadap data dan juga proses persiapan data.

c. Research and Development: Pemodelan dilakukan sebagai suatu kegiatan pembuktian hipotesa dan pemodelan. Jika hasil sudah dianggap cukup makadilakukan kegiatan berikutnya sementara jika belum dilakukan perbaikan data atau perubahan hipotesa. Dalam proses eksperimen, selaain metrik statistic dipergunhakan juga KPI organisasi.

d. Validation: Model yang sudah dibuat divalidasi dari sudut bisnis dan teknis sebelum dipasang.

e. Delivery: Deployment yang dimulai dengan perencanaan, lalu pemasangan dan perawatan sistem. Dalam proses ini juga dilakukan UAT (User Acceptance Testing).


Apa saja sih Proses Perbedaan atau Perbandingan antara macam-macam metodologi yang sudah kita bahas tadi?

Beberapa metodologi data science ini adalah kerangka kerja atau framework yang membantu para profesional data science dalam memandu proses bisnis dan analisis data. Meskipun tujuan akhir dari setiap metodologi tersebut adalah untuk menghasilkan pemahaman yang mendalam dan prediksi akurat tentang data, tetapi masing-masing memiliki pendekatan yang berbeda dalam menjalankan tahapan-tahapan yang diperlukan.

Maka dari itu berikut sudah kami rangkum beberapa perbandingan diantara beberapa metodologi data science berikut : 

  • Metodologi Knowledge Discovery and Data Mining (KDD)

Metodologi ini berfokus pada penemuan pengetahuan dari data secara umum, bukan hanya pada permasalahan tertentu atau situasi bisnis. Setiap langkah nya untuk mengiteraksi pengetahuan sesuai dengan ukuran yang telah disesuaikan seperti : Selection, Preprocessing Data, Transformation, Data mining, Evaluation.

  • Metodologi SEMMA  

Metodologi SEMMA dikembangkan oleh perusahaan perangkat lunak SAS. yang dapat memudahkan pengguna untuk memprediksi tentang variabel-variabel yang mengacu melakukan proses sebuah proyek data mining biasanya dipergunakan untuk memudahkan pemahaman proses yang terikat dalam suatu proyek. Metodologi SEMMA sangat fokus pada pemodelan data.

  • Metodologi Cross-Industry Standard Process for Data Mining (CRISP-DM)

CRISP-DM sering digunakan dalam industri karena fokusnya yang kuat pada analisis bisnis dan keberlanjutan proyek. Cross-Industry Standard Procces For Data Mining (CRISP-DM) salah satu model proses datamining yang memiliki 6 tahapan yaitu: Bussiness Understanding, Data Understanding, Data Preparation, Modeling, Evaluation, Deployment nah dalam proses ini tentunya ada beberapa kegiatan yang harus dilakukan ,memeriksa data, persiapan data, model yang digunakan, evaluasi dan perencanaan yang akan digunakan.

  • Metodologi IBM Data Science  

Metodologi ini berfokus pada pemecahan masalah bisnis dengan menggunakan data. untuk mencapai hasil yang maksimal agar suatu pekerjaan memperoleh suatu target yang dapat tercapai dalam pengolahan pengembangan data science tersebut.   

  • Metodologi Microsoft's Team Data Science  

TDSP menekankan pada kerja tim dan kolaborasi dalam proses data science. Metodologi Microsoft’s Team Data Science Process (TDSP) terdiri dari lima tahap, yaitu bisnis memahami masalah, data persiapan dan eksplorasi, model pengembangan, penilaian dan pengujian, dan implementasi.

Apakah Penggunaan Data Science  dapat digunakan dalam Permasalahan Lingkungan ?



Berikut beberapa contoh Penggunaan Data Science dalam Permasalahan Lingkungan :

1.   Data analytics dan Data Science dapat peran penting untuk mempersiapkan perubahan iklim.

2.  Data Science pun dapat dapat digunakan untuk memprediksi tingkat polusi udara di suatu wilayah pada waktu tertentu.

3. Identifikasi Kerusakan Hutan Modeling data science dapat digunakan untuk mengidentifikasi kerusakan hutan akibat deforestasi atau perubahan iklim sekitar.

4.    Data Science dapat digunakan dalam pengelolaan sampah. Hal yang dimaksud adalah data jumlah sampah, jenis sampah, dan lokasi tempat pembuangan sampah dapat digunakan sebagai input dalam model.


 

Komentar