Rabu, 10 Maret 2010

Release : IPostagger_v1.0-beta, HMM-based POS Tagger Bahasa Indonesia

IPostagger merupakan Engine POS Tagger yang menerapkan konsep HMM, tetapi disesuaikan untuk kasus bahasa indonesia yang beberapa katanya mempunyai awalan atau akhiran. IPostagger dibuat di Laboratorium Grafika dan Intelegensia Buatan, Teknik Informatika, ITB oleh Saya.

Jika Anda ingin menggunakan POS Tagger ini, jangan lupa cite ke :
Alfan Farizki Wicaksono, Ayu Purwarianti. HMM Based POS Tagger for Bahasa Indonesia. On Proceedings of 4th International MALINDO (Malay - Indonesian Language) Workshop. 2nd August 2010.

Paper lain bisa dilihat di : http://ir.cs.ui.ac.id/malindo2010/program.php

Fitur yang ada di IPostagger ini:
1. Kita bisa memilih model bahasa yang digunakan(NGrams) mau Bigram atau Trigram
2. Ada metode penanganan OOV menggunakan Affix Tree, kita bisa memilih mau menggunakan Prefix saja, Suffix Saja, atau gabungan keduanya.
3. Menggunakan metode Smoothing Deleted Linier Interpolation untuk Trigram dan JELINEC-MERCER untuk Bigram

Klaim : Dijamin akurasinya diatas 95% tergantung Corpus dan Tagset yang Anda punya

Lisensi : GPL gan !, open source !

Bonus : Corpus Bahasa Indonesia 8 MB buatan UI-BPPT

Contact: xxx@gmail.com
xxx : alfan.farizki

5 komentar:

  1. POS taggernya udah di-port ke python dan di-host di AppEngine (pake parameter hardcode (0 0 0 1)), http://nlp.pebbie.net/tag

    BalasHapus
  2. wah trimakasih banyak pak,sangat bermanfaat..kebetulan saya juga sedang riset tentang opinion mining dala bahasa Indonesia :)

    BalasHapus
  3. mas,
    paper yang di informatika.org gak bisa di downloa lagi ya ?

    BalasHapus
  4. Saat ini cara mengaksesnya seperti apa ya? apa ada alamat url untuk POST API Request yang bisa dugunakan

    BalasHapus