Dalam sebuah project machine learning ada tahapan-tahapan yang perlu dilalui sebelum project tersebut bisa diimplementasi di tahap produksi.

Berikut adalah tahapan-tahapan yang dimaksud menurut buku Hands on Machine Learning karya Aurelien Geron:

  1. Exploratory Data Analysis
    Exploratory data analysis atau EDA bertujuan sebagai analisa awal terhadap data dan melihat bagaimana kualitas data.
  2. Data preprocessing and Data CleaningData preprocessing dan cleaning adalah tahap di mana data diolah lebih lanjut sehingga data siap dipakai dalam pengembangan ML
  3. Model selectionDi tahap ini kita mulai memilih model yang akan dipakai serta melakukan optimasi parameter dari model tersebut.
  4. Model EvaluationKita lalu melakukan evaluasi terhadap model dengan melihat performanya terhadap data testing.
  5. Deployment
    Ketika model dievaluasi, model siap untuk dipakai pada tahap produksi
  6. Monitoring
    Model yang telah dipakai dalam tahap produksi masih harus tetap dimonitor untuk menjaga kualitasnya. Pada tahap produksi model bisa saja menemukan data yang tidak dikenali sehingga performa model dapat menurun.

ML and Business Intelligence

Business Intelligence adalah sebuah bidang yang mengumpulkan data, lalu melihat kenapa sesuatu terjadi di masa lalu.Contohnya di kasus sebuah perusahan produsen coklat. Dari data tahunan yang dikumpulkan, perusahaan tersebut melihat persediaan coklat selalu habis di bulan Februari.Dari hasil analisis data lampau tersebut diketahui bahwa penjualan coklat meningkat di bulan tersebut karena adanya Hari Valentine. Maka melihat pola di masa lampau tersebut, perusahaan dapat mengambil keputusan di tahun berikutnya untuk meningkatkan produksi coklat agar meraih lebih banyak profit.

Sedikit berbeda dengan machine learning pada ML jenis regresi, kita membuat model dengan data di masa lampau dan kita menggunakan data tersebut untuk memprediksi apa yang akan terjadi di masa mendatang.Jadi, dapat disimpulkan bahwa BI adalah bidang yang menjelaskan kenapa suatu hal terjadi di masa lampau dan ML adalah bidang yang mencoba memprediksi apa yang akan terjadi di masa mendatang.
Berikut adalah perbedaan antara BI dan ML yang dirangkum oleh Booz Allen Hamilton.
2020043017240251a058491f59c5cb97d4fcbe8dd971c3.png

ML in Analytic

Di industri, bidang analisis dan machine learning hampir selalu bekerja berdampingan. Analis memungkinkan melihat lebih dalam suatu masalah lalu menentukan apakah masalah tersebut bisa diselesaikan dengan machine learning atau tidak.
Setelah masalah diidentifikasi, maka peran seorang machine learning developer adalah mengimplementasi, mulai dari mengumpulkan data, memilih model yang sesuai, melakukan deployment, dan memonitor model tersebut

Alur kerja machine learning (ML) adalah proses langkah demi langkah untuk membangun dan menerapkan model machine learning yang efektif. Ini melibatkan persiapan data, pemilihan model, pelatihan, evaluasi, dan penyebaran model. Berikut tahapan-tahapnya:

1. Definisi Masalah dan Pengumpulan Data:

  • Menetapkan tujuan: Langkah awal adalah memahami tujuan project machine learning Anda. Apa yang Anda ingin model Anda capai? Contoh: memprediksi harga saham, mengklasifikasi email sebagai spam atau tidak spam, mengenali objek dalam gambar.
  • Pengumpulan data: Kumpulkan data yang relevan dan berkualitas tinggi untuk melatih model Anda. Data bisa berupa teks, gambar, angka, atau kombinasi dari ketiganya. Pastikan data Anda cukup besar dan mewakili masalah yang ingin Anda selesaikan.

2. Praproses Data (Data Preprocessing):

  • Pembersihan data: Data mentah mungkin berisi kesalahan, nilai yang hilang, atau inkonsistensi. Anda perlu membersihkan data Anda untuk memastikan keakuratan dan efisiensi pelatihan model.
  • Transformasi data: Data Anda mungkin perlu diubah ke format yang sesuai untuk model yang Anda pilih. Ini bisa termasuk penskalaan numerik, pengkodean kategorikal, atau teknik lain.
  • Pemisahan data: Pisahkan data Anda menjadi set pelatihan, validasi, dan uji. Set pelatihan digunakan untuk melatih model, set validasi digunakan untuk fine-tuning hiperparameter, dan set uji digunakan untuk evaluasi akhir model.

3. Pemilihan Model dan Pelatihan (Model Selection and Training):

  • Pemilihan model: Pilih model machine learning yang sesuai dengan jenis masalah Anda dan karakteristik data Anda. Contoh: regresi linier untuk prediksi numerik, klasifikasi Naïve Bayes untuk klasifikasi teks, Convolutional Neural Networks (CNN) untuk pengenalan gambar.
  • Pelatihan model: Latih model Anda pada set pelatihan data. Model belajar mengenali pola dan hubungan dalam data. Anda dapat menyesuaikan hiperparameter model untuk meningkatkan performanya.

4. Evaluasi Model (Model Evaluation):

  • Evaluasi metrik: Gunakan metrik evaluasi yang sesuai untuk masalah Anda untuk menilai performa model pada set validasi dan uji. Contoh: akurasi untuk klasifikasi, root mean squared error (RMSE) untuk regresi.
  • Iterasi dan perbaikan: Jika performa model tidak memuaskan, Anda perlu kembali ke langkah sebelumnya dan menyesuaikan proses. Ini bisa berupa mencoba model yang berbeda, preprocessing data lebih lanjut, atau menyesuaikan hiperparameter.

5. Penyebaran Model (Model Deployment):

  • Integrasi model: Setelah puas dengan performa model, Anda perlu menyebarkannya ke lingkungan produksi. Ini bisa berupa mengintegrasikan model ke dalam aplikasi web, sistem perangkat lunak, atau perangkat embedded.
  • Pemantauan dan perbaikan: Terus pantau performa model Anda di lingkungan produksi. Data baru mungkin memerlukan retraining model secara berkala untuk mempertahankan akurasi dan efektivitasnya.

Memahami Alur Kerja Machine Learning Lebih Dalam:

1. Definisi Masalah dan Pengumpulan Data:

  • Memahami bias data: Data yang Anda kumpulkan mungkin mengandung bias, yang dapat memengaruhi performa model Anda. Penting untuk mengidentifikasi dan meminimalkan bias data untuk membangun model yang adil dan akurat.
  • Teknik pengambilan data: Ada berbagai teknik pengambilan data, seperti web scraping, crawling, dan sensor. Pilih teknik yang sesuai dengan jenis data yang Anda butuhkan.

2. Praproses Data:

  • Teknik normalisasi: Normalisasi data membantu memastikan bahwa semua fitur memiliki skala yang sama, yang dapat meningkatkan performa model.
  • Teknik augmentasi data: Augmentasi data dapat membantu meningkatkan jumlah data yang Anda miliki dan meningkatkan performa model, terutama pada dataset kecil.

3. Pemilihan Model dan Pelatihan:

  • Regularisasi: Regularisasi adalah teknik yang membantu mencegah overfitting, yaitu ketika model belajar terlalu banyak dari data pelatihan dan tidak dapat digeneralisasikan dengan baik ke data baru.
  • Optimasi: Algoritma optimasi digunakan untuk menemukan nilai hiperparameter yang optimal untuk model Anda.

4. Evaluasi Model:

  • Cross-validation: Cross-validation adalah teknik yang membantu memperkirakan performa model Anda dengan lebih akurat dan mengurangi risiko overfitting.
  • Analisis kesalahan: Penting untuk menganalisis kesalahan yang dibuat model Anda untuk memahami kelemahannya dan meningkatkannya.

5. Penyebaran Model:

  • Model serving: Model serving adalah proses membuat model Anda tersedia untuk digunakan dalam produksi. Ada berbagai platform model serving yang tersedia, seperti TensorFlow Serving dan Amazon SageMaker.
  • Monitoring dan maintenance: Penting untuk terus memantau performa model Anda di lingkungan produksi dan melakukan maintenance untuk memastikannya tetap akurat dan efektif.

Alur kerja machine learning adalah proses yang kompleks dan dinamis. Dengan memahami berbagai tahapan dan teknik yang terlibat, Anda dapat membangun model machine learning yang lebih efektif dan bermanfaat.

Sumber daya:

Avatar photo

By clasnet

Tinggalkan Balasan

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *