Kamis, 01 April 2010

NLP resource yang tersedia untuk bahasa Indonesia

Seperti yang saya sebutkan pada postingan sebelumnya, penelitian NLP bahasa Indonesia sangat penting sekali. untuk menunjang penelitian NLP bahasa Indonesia, dibutuhkan pula beberapa resource NLP seperti Corpus, Lexicon, Kamus, Thesaurus, Wordnet, dll...

Pada postingan ini saya mencoba untuk memberikan beberapa link yang dapat digunakan oleh teman-teman untuk mengakses beberapa resource atau tools NLP. Semoga bermanfaat untuk penelitian NLP bahasa Indonesia:

Indonesian POS Tagger
Untuk POS Tagger, Anda bisa menggunakan IPOSTagger v1.0 beta buatan saya[promosi :D]. POS Tagger ini dirancang agar bisa bekerja dengan baik untuk kasus bahasa Indonesia. Anda dapat menghubungi saya jika membutuhkan sistem POS Tagger...
www.informatika.org/~ayu/2010postagger.pdf

Indonesian Morphological Analyzer
MA untuk bahasa Indonesia sudah banyak dikembangkan di UI. Silakan hubungi Lab. Information Retrieval, Ilmu Komputer UI. http://ir.cs.ui.ac.id

Indonesian Named Entity Recognizer
Kalau ini cuma ada di UI nih..yaitu Bapak DR.Zainal Arifin Hasibuan. http://www.cs.ui.ac.id/staf/zhasibua/website%20zainal%20ok2_files/page0002.htm

Indonesian Parser
Jika Anda membutuhkan parser, di ITB sudah dikembangkan Parser. Tetapi masih rule based. Silakan kontak saya atau langsung ke dosen ITB, Ibu DR. Ayu P.

Indonesian Text-To-Speech
Silakan kontak Bapak DR. Arry Arman, Dosen Teknik Elektro ITB. di Lab. Digital Signal Processing. Beliau mengembangkan indoTTS. TTS pertama untuk bahasa Indonesia.

Indonesian  Automatic Speech Recognition
Silakan kontak BPPT. Disana sudah dikembangkan Indonesian ASR dengan nama Perisalah.

Corpus
tesedia Tagged Corpus untuk kasus POS Tagger, dan juga Paralel corpus yang berguna untuk membentuk Machine Translation.
Sudah tersedia Tagged Corpus ukuran 8MB buatan Universitas Indonesia, tetapi sayangnya, kualitasnya masih kurang bagus. Tetapi Anda dapat memodifikasi corpus ini. Sedangkan Parallel Corpus yang ada dibuat di BPPT.

Kumpulan Lexicon bahasa Indonesia
yang buat Mas Ismail Fahmi...

Kamus, Thesaurus, Glosarium
Silakan, buat Crawler sendiri untuk mengambil resource kata yang dibutuhkan. gimana caranya bisa kontak Mas Ismail Fahmi yang saya sebutkan diatas.

Indonesian Wordnet
Anda bisa mengakses indonesia wordnet dari project AsianWordnet
Silakan dipelajari, disediakan API buat aksesnya...

dan masih banyak lagi,....nanti klo ada yang baru akan saya Update lagi.

2 komentar:

  1. yang name entity bukannya pak indra budi ya fan??

    BalasHapus
  2. Mas,yg kyk sentiwordnet utk bahasa indonesia ga ada ya? kebetulan sy lg mau bikin tesis tentang sentiment analysis dalam bahasa Indonesia ini...

    BalasHapus