Jumat, 11 Desember 2009

Part-of-speech(POS) tagging bahasa indonesia

Part-of-Speech tagging adalah sebuah pekerjaan NLP. Sebagian besar kegiatan yang dilakukan di bidang NLP seperti Information Extraction, Question-Answering, Speech Recognition, Intelligent Tutoring System, Parser, dan yang lainnya membutuhkan sistem POS Tagging ini untuk pemrosesan awalnya. Sayangnya, untuk bahasa Indonesia sistem ini hanya sedikit, publikasinya kurang, dan belum ada yang menyediakan untuk di download. Tentunya saya dan Anda merasa sedih akan hal ini, padahal Bahasa Indonesia ini diucapkan oleh lebih dari 200 Juta Jiwa [etnologue].

Apa sih part-of-speech tagging itu?
Part-of-speech tagging adalah sebuah sistem yang memberikan label kata secara otomatis pada suatu kalimat. Misalkan, ada kalimat saya makan nasi dan ada label KG=kata ganti, VV=kata kerja, NN=kata benda. Sistem akan menerima input berupa kalimat tersebut, outputnya adalah:

saya/KG makan/VV nasi/NN

sepertinya mudah ??
memang terlihat mudah, tetapi masih banyak hal yang harus diperhatikan mengingat yang melakukan pelabelan ini adalah komputer dan bukan manusia. Masalah yang dihadapi oleh para peneliti POS tagging ada dua:
  1. Kata Ambigu : saya bisa terkena bisa ular. kedua kata bisa disamping mepunyai kelas kata yang berbeda. lalu bagaimana kita membedakannya ??
  2. Kata OOV (Out-of-vocabulary) : sebelum melakukan pelabelan kelas kata, sistem perlu melakukan training data terlebih dahulu. lalu bagaimana dengan kata yang tidak terdapat pada data learning atau corpus?
Metode untuk mengembangkan sistem ini ada 3 tipe:
  1. Menggunakan metode Rule Base. sistem mempunyai aturan pelabelan dimana pengetahuan berasal dari ahli linguistik.
  2. Menggunakan metode Statistik.
  3. Menggunakan metode Transformation Based => bisa dibilang gabungan kedua metode diatas.
untuk metode statistik beberapa yang sering digunakan adalah CRF(conditional random field) , HMM(hidden markov model), dll. penanganan OOV sendiri mempunyai metode sendiri.

Saya sudah buat sistem Part-of-Speech tagging menggunakan First Order Hidden Markov Model. sebenarnya sistem ini saya ingin khususkan untuk bahasa Indonesia. Saya ingin buktikan kalau dunia NLP Indonesia tidak kalah dengan yang lain. Hanya saja, saya belum mempunyai Corpus Bahasa Indonesia(sekarang sedang proses pengembangan).Oh iya, satu lagi, sistem saya ini juga masih belum bisa menangani OOV. OOV mempunyai label sendiri yaitu label "OOV"

Jika ada yang berminat dengan program HMM-bigram saya (mungkin untuk riset), silakan kontak Email saya di :
alfan dot farizki at gmail

Program POS Tagging ini gratis dan berlisensi GPL, semoga bermanfaat untuk NLP Indonesia....

7 komentar:

  1. Kak, kalau boleh tau apakah POS Tagging yang kakak bangun bisa d terapkan pada PHP?

    BalasHapus
  2. Kak,sudah saya email. mohon dibalas. thank you

    BalasHapus
  3. hai mas Alfan, mohon dibalas email saya ya. terima kasih

    BalasHapus
  4. Selamat Pagi kak Alfan, mohon dibalas email saya ya. terima kasih banyak.
    mohon bantuannya

    BalasHapus
    Balasan
    1. Blog ini sudah lama, dan alamat email saya pun sudah berubah. Silakan kirim ke alamat email yang baru, alfan dot farizki et gmail

      Hapus
  5. Selamat Pagi, Pak Alfan. mohon dibalas email saya ya. terima kasih

    BalasHapus