Senin, 30 November 2009

Algoritma Stemming Bahasa Indonesia

Seorang teman saya yang bernama Bofandra Muhammad (dewa !!!!) telah berhasil membuat algoritma stemming sederhana untuk bahasa Indonesia. Lalu, saya coba ubah kodenaya menjadi berbasis OOP dan saya Upload ke PHPclasses. Jika Anda ada yang tertarik, silakan download di link dibawah ini, lisensinya Gratis !! GPL

http://www.phpclasses.org/browse/package/5825.html

Namun, adakah yang bertanya apakah Stemming itu ?
Stemming adalah salah satu teknik yang digunakan dalam Pemrosesan Bahasa Alami (NLP) untuk mengembalikan bentuk suatu kata menjadi bentuk Root-nya dan tidak perlu sesuai dengan tata yang ada di Kamus Bahasa. Berbeda sekali dengan Lemmatization, lemmatization adalah pengembalian bentuk kata ke bentuk lemma / semula yang harus sesuai dengan tata yang ada di Kamus Bahasa.

contoh :
studying, studied   =>   stemming   =>   stud
see, saw => stemming => s

tapi,
studying, studied  => lemmatization => study
see, saw => lemmatization => see

Penggunaan stemming sangat banyak sekali di bidang NLP, misalkan untuk masalah Text Classifier. tentu kata-kata seperti studying, studied mempunyai maksud dan bobot yang sama ketika kita membicarakan masalah otomatisasi klasifikasi text, Jadi, stemming terhadap kedua kata ini akan meningkatkan performansi sistem. Bidang lain yang memanfaatkan stemming adalah bidang IRS [Information Retrieval System].

ok segini dulu .....
--
:) Mohon Koreksi jika ada yang salah, saya hanyalah manusia biasa yang sedang belajar di DUNIA ini...

1 komentar:

  1. Wah, keren.. :) Kalau boleh tau, pakai algoritma apa ini, Pak?

    BalasHapus