Karya Muda

Pre-Processing

Friday 29 September 2017

Posted by Akhyar

Add Comments

Nama : Muhammad Aulia Akhyar

NIM : 140500270

Contoh Ide Teks Mining

Contoh Ide Text Mining : "Analisis Sentimen pada Path"

Langkah-langkah Text Pre-processing pada "Analisis Sentimen Post pada path" :

Contoh : Misal terdapat input kalimat seperti :

Update status gagal terus, giliran sms sampah,cepet masuk @telkomsel http://t.co/Ul8fxv3xYz

gambar 1.1

Maka setelah melalui proses RemoveURLMentionHashtag maka Post tersebut berubah menjadi seperti ini :

Update status gagal terus, giliran sms sampah,cepet masuk

gambar 1.2

Maka setelah melalui proses ToLowerCase maka huruf besar dalam kalimat tersebut berubah menjadi huruf kecil :

update status gagal terus, giliran sms sampah,cepet masuk dasar.

gambar 1.3

Kemudian setelah proses penghilangan delimiter dan penguraian kalimat maka hasilnya adalah sebagai berikut :

gambar 1.4

Tahapan Pre-Processing

Berdasarkan ketidak teraturan struktur data teks, maka proses sistem temu kembali informasi ataupun text mining memerlukan beberapa tahap awal yang pada intinya adalah mempersiapkan agar teks dapat diubah menjadi lebih terstruktur. Salah satu implementasi dari text mining adalah tahap Text Preprocessing.

Tahap Text Preprocessing adalah tahapan dimana aplikasi melakukan seleksi data yang akan diproses pada setiap dokumen. Proses preprocessing ini meliputi (1) case folding, (2) tokenizing, (3) filtering, dan (4) stemming.

Tahap Preprocessing

1. Case Folding

Tidak semua dokumen teks konsisten dalam penggunaan huruf kapital. Oleh karena itu, peran Case Foldingdibutuhkan dalam mengkonversi keseluruhan teks dalam dokumen menjadi suatu bentuk standar (biasanya huruf kecil atau lowercase). Sebagai contoh, user yang ingin mendapatkan informasi “KOMPUTER” dan mengetik “KOMPOTER”, “KomPUter”, atau “komputer”, tetap diberikan hasil retrieval yang sama yakni “komputer”. Case folding adalah mengubah semua huruf dalam dokumen menjadi huruf kecil. Hanya huruf ‘a’ sampai dengan ‘z’ yang diterima. Karakter selain huruf dihilangkan dan dianggap delimiter.

2. Tokenizing

Tahap Tokenizing adalah tahap pemotongan string input berdasarkan tiap kata yang menyusunnya. Contoh dari tahap ini dapat dilihat pada gambar dibawah ini.

Tahap Tokenizing

Tokenisasi secara garis besar memecah sekumpulan karakter dalam suatu teks ke dalam satuan kata, bagaimana membedakan karakter-karakter tertentu yang dapat diperlakukan sebagai pemisah kata atau bukan.

Sebagai contoh karakter whitespace, seperti enter, tabulasi, spasi dianggap sebagai pemisah kata. Namun untuk karakter petik tunggal (‘), titik (.), semikolon (;), titk dua (:) atau lainnya, dapat memiliki peran yang cukup banyak sebagai pemisah kata.

Dalam memperlakukan karakter-karakter dalam teks sangat tergantung pada kontek aplikasi yang dikembangkan. Pekerjaan tokenisasi ini akan semakin sulit jika juga harus memperhatikan struktur bahasa (grammatikal).

3. Filtering

Tahap Filtering adalah tahap mengambil kata-kata penting dari hasil token. Bisa menggunakan algoritma stoplist (membuang kata kurang penting) atau wordlist (menyimpan kata penting). Stoplist/stopword adalah kata-kata yang tidak deskriptif yang dapat dibuang dalam pendekatan bag-of-words. Contoh stopwords adalah “yang”, “dan”, “di”, “dari” dan seterusnya. Data stopword dapat diambil dari jurnal Fadillah Z Tala berjudul ”A Study of Stemming Effects on Information Retrieval in Bahasa Indonesia”

Tahap Filtering

Kata-kata seperti “dari”, “yang”, “di”, dan “ke” adalah beberapa contoh kata-kata yang berfrekuensi tinggi dan dapat ditemukan hampir dalam setiap dokumen (disebut sebagai stopword). Penghilangan stopword ini dapat mengurangi ukuran index dan waktu pemrosesan. Selain itu, juga dapat mengurangi level noise.

Namun terkadang stopping tidak selalu meningkatkan nilai retrieval. Pembangunan daftar stopword (disebut stoplist) yang kurang hati-hati dapat memperburuk kinerja sistem Information Retrieval (IR). Belum ada suatu kesimpulan pasti bahwa penggunaan stopping akan selalu meningkatkan nilai retrieval, karena pada beberapa penelitian, hasil yang didapatkan cenderung bervariasi.

4. Stemming

Pembuatan indeks dilakukan karena suatu dokumen tidak dapat dikenali langsung oleh suatu Sistem Temu Kembali Informasi atau Information Retrieval System (IRS). Oleh karena itu, dokumen tersebut terlebih dahulu perlu dipetakan ke dalam suatu representasi dengan menggunakan teks yang berada di dalamnya.

Teknik Stemming diperlukan selain untuk memperkecil jumlah indeks yang berbeda dari suatu dokumen, juga untuk melakukan pengelompokan kata-kata lain yang memiliki kata dasar dan arti yang serupa namun memiliki bentuk atau form yang berbeda karena mendapatkan imbuhan yang berbeda.

Sebagai contoh kata bersama, kebersamaan, menyamai, akan distem ke root word-nya yaitu “sama”. Namun, seperti halnya stopping, kinerja stemming juga bervariasi dan sering tergantung pada domain bahasa yang digunakan.

Proses stemming pada teks berbahasa Indonesia berbeda dengan stemming pada teks berbahasa Inggris. Pada teks berbahasa Inggris, proses yang diperlukan hanya proses menghilangkan sufiks. Sedangkan pada teks berbahasa Indonesia semua kata imbuhan baik itu sufiks dan prefiks juga dihilangkan.

Tahap Stemming

Data mining menggunakan WEKA

Wednesday 27 September 2017

Posted by Akhyar

Add Comments

TUGAS DATA MINING

MENGGUNAKAN APLIKASI WEKA

Nama : Muhammad Aulia Akhyar

NIM : 140500270

Assalammualaikum Warahmatullahi Wabarakatuh

Pada kesempatan kali ini saya akan menjelaskan sedikit penggunaan aplikasi WEKA serta contoh dari pengklsifikasian dengan menggunakan metode Naive Bayes, tutorial ini tercipta guna sebagai salah satu tugas kuliah dari Mata Kuliah Data Mining, selamat membaca.

Buka Aplikasi WEKA

Yang pertama dilakukan sudah pasti yaitu membuka aplikasi WEKA yang nantinya akan kita gunakan dalam me-mining data, ketika aplikasi sedang proses membuka, maka akan muncul seperti pada gambar dibawah ini.

Buka Data yang Akan Diolah

Sebelum kita mengolah data yang akan kita olah nantinya, terlebih dahulu kita harus membuka file yang akan kita olah, dengan mengklik menu explorer. Setelah itu klik tab open file dan carilah data yang akan kita gunakan, dalam kasus ini saya menggunakan data yang berjudul chronic kidney disease, silahkan melihat gambar dibawah ini:

Lalu data akan tampil pada WEKA seperti gambar yang ada dibawah ini:

Menyimpan dengan format CSV

Setelah kita membuka file data tadi, maka kita harus menyimpannya dengan format CSV, maka gantilah format dengan mengklik pilihan files of types dari yang berformat arff, menjadi CSV, seperti gambar yang ada dibawah ini:

Dan untuk pemformatan data menjadi CSV telah selesai, selanjutnya kita akan membahas proses analisis data di WEKA dengan metode Naive Bayes.

Analisis Data dengan Metode Naive Bayes

Naive bayesian klasifikasi adalah suatu klasifikasi berpeluang sederhana berdasarkan aplikasi teorema Bayes dengan asumsi antar variabel penjelas saling bebas (independen). Dalam hal ini, diasumsikan bahwa kehadiran atau ketiadaan dari suatu kejadian tertentu dari suatu kelompok tidak berhubungan dengan kehadiran atau ketiadaan dari kejadian lainnya.

Naive Bayesian dapat digunakan untuk berbagai macam keperluan antara lain untuk klasifikasi dokumen, deteksi spam atau filtering spam, dan masalah klasifikasi lainnya. Dalm hal ini lebih disorot mengenai penggunaan teorema Naive Bayesian untuk spam filtering

Teorema Naive Bayesian memiliki beberapa kelebihan dan kekurangan yaitu sebagai berikut :

Keuntungan Naive Bayesian :

Menangani kuantitatif dan data diskrit
Kokoh untuk titik noise yang diisolasi, misalkan titik yang dirata – ratakan ketika mengestimasi peluang bersyarat data.
Hanya memerlukan sejumlah kecil data pelatihan untuk mengestimasi parameter (rata – rata dan variansi dari variabel) yang dibutuhkan untuk klasifikasi.
Menangani nilai yang hilang dengan mengabaikan instansi selama perhitungan estimasi peluang
Cepat dan efisiensi ruang
Kokoh terhadap atribut yang tidak relevan

Kekurangan Naive Bayesian :

Tidak berlaku jika probabilitas kondisionalnya adalah nol, apabila nol maka probabilitas prediksi akan bernilai nol juga
Mengasumsikan variabel bebas

Untuk membuat data dengan Naive Bayes, maka ikuti langkah di bawah berikut ini.

Klik Open file, lalu pilih file yang tadi kita gunakan, lalu klik filter dan pilih atribute numerictonominal seperti gambar dibawah ini:

Selanjutnya pindah pada tab classify, pada menu classifier yang tersedia, carilah NaiveBayes sebagai model klasifikasi yang kita gunakan, setelah itu klik start pada aplikasi, maka tampilan akhir untuk peng-klasifikasian menggunakan metode NaiveBayes adalah seperti pada gambar di bawah ini.

Sekian dan Terimakasih atas perhatian nya.

Sumassalammualaikum Warahmatullahi Wabarakatuh

Mempercepat Koneksi internet

Tuesday 21 July 2015

Posted by Unknown

Add Comments

Software

Helo Sobat, perkara internet lambat adalah salah satu hal yang membuat kita kesal, ada banyak cara untuk mempercepat jaringan internet, salah satunya dengan menggunakan aplikasi speedy fox. Langsung aja download disini ya sobat, ane males ngetik panjang-panjang hehe :v
Download Di Sini

Mendaftar dan Download Razer Cortex

Friday 22 May 2015

Posted by Unknown

4 Comments

Software

Selamat datang di postingan sobat :D

Di postingan saya pada kali ini, saya ingin memberikan Tutorial untuk membuat akun Razer Cortex, bagi para gamer sejati tentu mengetahui apa itu Software Razer Cortex. Razer Cortex merupakan suatu Software yang di kembangkan oleh Razer Corp yang berguna untuk mengoptimalkan sebuah game pada PC dengan meng-Kill program-program yang tidak digunakan, namun akan secara otomatis kembali di Run saat kita berhenti bermain game. Berikut adalah penampakannya.

Untuk teman-teman yang belum mendaftar, silahkan daftar Di sini. Silahkan isi Data pada form yang sudah disediakan. Untuk Kolom Reefer silahkan mengisi dengan email dwirahmatislami@gmail.com

Dan silahkan download Installer Razer Cortex Di Sini

Source : http://www.seinse.co/2014/03/cara-daftar-akun-razer-game-booster.html

Karya Muda

Popular posts

Pre-Processing

Data mining menggunakan WEKA

Mempercepat Koneksi internet

Mendaftar dan Download Razer Cortex

Labels