Rabu, 20 Maret 2013

Movie Review Corpus Berbahasa Indonesia (v1.0)

Saya membangun sebuah corpus berbahasa Indonesia untuk sentiment analysis. Corpus ini merupakan kumpulan Movie Review (Resensi Film) berbahasa Indonesia yang diberi label "positif" atau "negatif" terkait sentimen yang dikandung di dalam dokumen yang bersangkutan.

Corpus ini mirip dengan IMDB corpus yang terkenal yang dibangun oleh Cornell University [1], hanya saja ukuran corpus berbahasa Indonesia ini lebih kecil.

  • #Positive Docs  : 381
  • #Negative Docs : 384
  • #Docs (total) : 765
Corpus ini merupakan corpus movie review berbahasa Indonesia pertama (sepengetahuan saya). Semoga corpus ini berguna untuk teman-teman yang ingin melakukan riset di bidang sentiment analysis / opinion mining dengan data berbahasa Indonesia. Franky dan Dr. Ruli sebelumnya melakukan riset sentiment analysis dengan menggunakan IMDB corpus yang diterjemahkan ke bahasa Indonesia secara otomatis [2].

Jika teman-teman tertarik dengan corpus ini, silakan kirim email ke alfan |titik| farizki |a/t| gmail ATAU alfan |a/t| cs |titik| ui |titik| ac |titik| id.



[1] http://www.cs.cornell.edu/people/pabo/movie-review-data. Data ini pertama kali digunakan oleh Bo Pang dan Lillian Lee, "A Sentimental Education: Sentiment Analysis Using Subjectivity Summarization Based on Minimum Cuts'',  Proceedings of the ACL, 2004.
[2] Franky dan Ruli Manurung, "Machine Learning Based Sentiment Analysis of Automatic Indonesian Translations of English Movie Reviews", In Proceedings of the International Conference on Advanced Computational Intelligence and Its Applications 2008 (ICACIA 2008). Depok, Indonesia, 1-2 September 2008.


21 Maret 2013
Alfan F. Wicaksono

5 komentar:

  1. Assalamuslaikum
    Bang alfan ada ga ya nlp buat tagging bahasa indonesia yang open source buat dioprek2 ? :D
    Makasi babg

    BalasHapus
  2. bang Alfan, POS tagger menggunakan neural apa pernah dicoba untuk bahasa Indonesia

    BalasHapus
  3. bang alfan, boleh minta corpusnya , tolong kirim ke email saya jemzginting@gmail.com. Terimakasih

    BalasHapus
  4. Permisi bang alfan, corpus ini masih tersedia untuk umum ?

    BalasHapus
  5. Bang boleh minta corpusnya buat skrips, .tolong kirimke riho2311@gmail.com

    BalasHapus