Kamis, 20 Januari 2011

Apa itu Sentiment Analysis / Opinion Mining ?

Apa itu Sentiment Analysis / Opinion Mining ?

Opinion Mining / Sentiment Analysis (sebagian besar researcher menganggap dua istilah ini sama/interchangeable) merupakan sebuah cabang penelitian di domain Text Mining yang mulai booming pada awal tahun 2002-an. Riset-nya mulai marak semenjak paper dari B.Pang dan L.Lee [1] keluar. Secara umum, Sentiment analysis ini dibagi menjadi 2 kategori besar :
  1. Coarse-grained sentiment analysis
  2. Fined-grained sentiment analysis
Coarse-grained sentiment analysis - kita mencoba melakukan proses analysis pada level Dokumen. Singkatnya adalah kita mencoba mengklasifikasikan orientasi sebuah dokumen secara keseluruhan. Orientasi ini ada 3 jenih : Positif, Netral, Negatif. Akan tetapi, ada juga yang menjadikan nilai orientasi ini bersifat kontinu / tidak diskrit.

Fined-grained sentiment analysis - kategori kedua ini yang sedang Naik Daun sekarang. Maksudnya adalah para researcher sebagian besar fokus pada jenis ini. Obyek yang ingin diklasifikasi bukan berada pada level dokumen melainkan sebuah kalimat pada suatu dokumen.
contoh :
  • Saya tidak suka programming. (negatif)
  • Hotel yang baru saja dikunjungi sangat indah sekali. (positif)
Hingga sekarang, hampir sebagian besar penelitian di bidang sentiment analysis hanya ditujukan untuk Bahasa Inggris karena memang Tools/Resources untuk bahasa inggris sangat banyak sekali. Beberapa resources yang sering digunakan untuk sentiment analysis adalah SentiWordNet dan WordNet.

Sentiment analysis terdiri dari 3 subproses besar [2]. Masing-masing subproses ini bisa kita jadikan bahan/topik riset secara terpisah karena masing-masing subproses ini membutuhkan teknik yang tidak mudah :
  1. Subjectivity Classification
  2. Orientation Detection
  3. Opinion Holder and Target Detection
Subjectivity Classification - menentukan kalimat yang merupakan opini.
  • A bike has 2 wheels VS It is a good bike !

Orientation Detection - setelah berhasil diklasifikasi untuk kategori Opini, sekarang kita tentukan apakah dia positif, negatif, netral ?
  • It is a good bike ! VS ah, It is a bad bike !

Opinion Holder and Target Detection - menentukan bagian yang merupakan Opinion Holder dan bagian yang merupakan Target.
  • Harry said it is a good bike.

[1] Silakan gunakan search engine dengan kata kunci sentiment analysis B. Pang L. Lee
[2] Taras Zagibalov (slide) and J. Caroll. Automatic seed word selection for unsupervised sentiment classification of chinese text. In proceedings of the 22nd international conference on computational linguistics. vol 1, page 1073 (ACL)