Senin, 13 Desember 2010

Introduction to WordNet : Lexical Database for English

Assalamu'alaikum teman-teman semua,

Sekarang kita akan melakukan kajian terhadap salah satu Tools yang sangat berguna di dunia Text Mining yaitu WordNet. WordNet merupakan basis data lexical untuk bahasa inggris. WordNet melalukan pengelompokan kata atau collocations (collocation adalah beberapa kata yang muncul bersama (berurutan) dan membentuk makna tertentu, contoh "car pool") dalam satu himpunan yang disebut synset. Jadi, di dalam WordNet, ada banyak sekali synset.

Seperti yang sudah disebutkan sebelumnya, setiap synset mengandung kata-kata yang bersinonim atau collocations  yang bersinonim. Kata/collocation yang mempunyai makna/semantic yang berbeda, akan berada pada synset yang berbeda pula. Defini asli dari synset (berdasarkan dokumentasi asli WordNet) : a set of words that are interchangeable in some context without changing the truth value of the preposition in which they are embedded.

Berikut adalah contoh Synset (diambil dari WordNet Online - dengan kata kunci "good") :
  • S: (adj) estimable, good, honorable, respectable (deserving of esteem and respect) "all respectable companies give guarantees"; "ruined the family's good name"
  • S: (adj) beneficial, good (promoting or enhancing well-being) "an arms limitation agreement beneficial to all countries"; "the beneficial effects of a temperate climate"; "the experience was good for her"
Synset pertama terdiri dari kata estimable, good, honorable, dan respectable. Synset kedua terdiri dari kata beneficial, dan good. Kita bisa lihat disini bahwa kedua synset ini mempunyai semantik yang berbeda. Setiap kata pada synset yang sama bersifat interchangable dalam sebuah kalimat. Kata good adalah polisemi : bentuk tekstual sama, tetapi mempunyai semantik yang berbeda-beda.

WordNet juga menyediakan Relasi semantik antar synset. Relasi semantik antar synset ini tergantung pula dari Part-of-Speech katanya, misal berikut (dikutip langsung dari Wikipedia) : 
  • Nouns
    • hypernyms: Y is a hypernym of X if every X is a (kind of) Y (canine is a hypernym of dog, because every dog is a member of the larger category of canines)
    • hyponyms: Y is a hyponym of X if every Y is a (kind of) X (dog is a hyponym of canine)
    • coordinate terms: Y is a coordinate term of X if X and Y share a hypernym (wolf is a coordinate term of dog, and dog is a coordinate term of wolf)
    • holonym: Y is a holonym of X if X is a part of Y (building is a holonym of window)
    • meronym: Y is a meronym of X if Y is a part of X (window is a meronym of building)
  • Verbs
    • hypernym: the verb Y is a hypernym of the verb X if the activity X is a (kind of) Y (to perceive is an hypernym of to listen)
    • troponym: the verb Y is a troponym of the verb X if the activity Y is doing X in some manner (to lisp is a troponym of to talk)
    • entailment: the verb Y is entailed by X if by doing X you must be doing Y (to sleep is entailed by to snore)
    • coordinate terms: those verbs sharing a common hypernym (to lisp and to yell)
Relasi semantik tersebut belaku untuk setiap kata atau collocations yang ada di dalam synset yang berhubungan. Selain itu, WordNet juga menyediakan relasi antar kata (yang hanya berlaku antar kata) seperti antonim.

WordNet menyediakan polysemy count : jumlah synset yang mengandung sebuah kata. WordNet juga menyediakan Frequency Score : seberapa sering sebuah kata muncul pada sense/semantik tertentu.

Tidak ada komentar:

Posting Komentar