Menerapkan Model Klasifikasi Machine Learning pada RapidMiner

Untuk Klasifikasi Sederhana

Kuncahyo Setyo Nugroho
4 min readFeb 7, 2020
Photo by Christopher Gower on Unsplash Edit by Me

Artikel ini saya mulai dengan mengenalkan RapidMiner terlebih dahulu. So, what’s RapidMiner? dikutip dari official website-nya, RapidMiner adalah …

Data science platform that unites data prep, machine learning & predictive model deployment. Depth for data scientists, simplified for everyone.

Secara sederhana RapidMiner adalah sebuah aplikasi yang digunakan untuk mengolah data sehingga data tersebut dapat menjadi informasi yang berguna. Anda bisa googling untuk mengenal RapidMiner lebih jauh.

Saya berasumsi anda telah mengenal RapidMiner sebelumnya dan memahami workspace dari RapidMiner itu sendiri. Syukur apabila anda sudah mengerti beberapa fungsi operator yang ada. Jika anda baru mengetahui RapidMiner ketika membaca artikel ini, SELAMAT ! karena RapidMiner akan membuat hidup anda lebih mudah dan indah (dalam konteks belajar machine learning). Bagi anda yang pertama kali mencoba RapidMiner lihat video dibawah ini sebagai panduan untuk mengenal workspace RapidMiner.

RapidMiner Studio — GUI Intro Video

Mengapa RapidMiner? Beberapa kali saya telah mencari artikel maupun tutorial selain publikasi jurnal yang membahas tentang RapidMiner dan hasilnya sangat sedikit bacaan yang tersedia dalam bahasa Indonesia. Padahal RapidMiner merupakan aplikasi powerfull yang menyediakan “paket komplit” untuk analisa data, preprocessing hingga visualiasi data. Jadi, tujuan saya menulis artikel tentang RapidMiner adalah untuk memberikan edukasi, berbagi ilmu kepada anda dan untuk catatan pribadi tentunya. Artikel ini saya tunjukan bagi anda sebagai seorang pemula yang ingin belajar tentang machine learning dengan menggunakan aplikasi RapidMiner (anda dapat menggunakan python atau R jika ingin mendapatkan kompleksitas dalam machine learning). Oleh karena itu, saya berusaha untuk membuat setiap artikel tentang RapidMiner ditulis dengan bahasa yang sangat sederhana tanpa banyak menjelaskan secara teoritis maupun matematis. Sedangkan kajian teori yang berkaitan dan mendukung setiap proses akan saya tulis pada artikel terpisah.

Kita mulai dengan membuat proses yang mudah yaitu klasifikasi menggunakan dataset iris. Tujuan dari proses ini adalah dapat memprediksi kelas dari dataset iris yang diberikan.

Basic “Classification” Process

Secara keseluruhan proses yang dibuat seperti gambar dibawah ini. Sangat sederhana dan mudah karena hanya membutuhkan 4 operator.

Proses apply model untuk klasifikasi.

1. Read Data

Ada banyak cara untuk import data ke RapidMiner, salah satunya adalah menggunakan operator “Read”. RapidMiner mendukung banyak format seperti Ms. Excel, CSV, SPSS, Ms. Access dan lainya. Pada repository RapidMiner juga menyediakan beberapa sampel data yang siap digunakan.

Untuk artikel ini kita menggunakan dataset iris yang sudah tersedia di repository RapidMiner.

Cari sampel data pada repository, pilih Iris lalu drag & drop ke workspace RapidMiner.

2. Multiply

Operator multiply digunakan untuk membuat salinan objek pada RapidMiner. Operator ini mengambil objek dari port input dan mengirimkan salinannya ke port output. Setiap port yang terhubung membuat salinan yang independen (tidak terikat). Jadi ketika mengubah satu salinan tidak berpengaruh pada salinan yang lainnya.

3. Select Model: k-NN

Operator k-NN menghasilkan model berdasarkan algoritma k-Nearest Neighbor yang dapat digunakan untuk klasifikasi maupun regresi. Algoritma k-NN didasarkan pada jarak tetangga terdekat sebagai nilai prediksi dari instance yang baru. Pada artikel ini nilai k ditentukan k=3. Anda bisa merubah nilai dari parameter k pada model k-NN di RapidMiner.

4. Apply Model

Operator Apply Model digunakan untuk menerapkan model yang telah dilatih sebelumnya menggunakan data training pada unlabeled data (data testing). Tujuannya adalah untuk mendapatkan prediksi pada unlabeled data (data testing) yang belum memiliki label. Yang perlu diperhatikan adalah data testing harus memiliki urutan, jenis, maupun peran atribut yang sama dengan data training.

Hasil

Jika proses dijalankan maka menghasilkan seperti gambar dibawah ini.

Contoh hasil prediksi dari proses yang dijalankan.

Kita telah berhasil melakukan prediksi terhadap kelas (label) pada dataset iris. Jika dilihat prediksi yang dilakukan hampir benar semua. Anda bisa mencoba menggunakan sampel data yang lain atau menggunakan dataset anda sendiri.

Penutup

Sangat mudah kan? Hanya drag & drop operator ke workspace RapidMiner. Anda perlu memahami setiap fungsi operator beserta parameternya dan tentunya pemahaman tentang teori machine learning karena akan sangat membantu ketika anda mulai membangun proses anda sendiri sehingga menghasilkan model yang baik. Ingat, RapidMiner hanyalah sebuah aplikasi, jika ingin menguasi machine learning anda harus belajar tentang teorinya. Semakin banyak anda belajar dan mencoba, semakin cepat pula anda menguasinya 😎.

Nah, dari proses klasifikasi menggunakan model k-NN diatas, kita belum mengetahui tingkat akurasinya. Oleh karena itu, pada artikel berikutnya saya akan membahas bagaimana cara memvalidasi sebuah model pada RapidMiner agar kita bisa mengetahui seberapai baik proses (model) yang kita buat.

Referensi

  1. RapidMiner Documentation (https://docs.rapidminer.com)
  2. RapidMiner 9: Operator Reference Manual (https://docs.rapidminer.com/latest/studio/operators/rapidminer-studio-operator-reference.pdf)

--

--

Kuncahyo Setyo Nugroho

Learn about Computer Science. Interested in the scientific field of Artificial Intelligence, related to Natural Language Processing. ☕