Synonym Measurement Through Semantic Similarity Using the SOC-PMI Method

Uswatun Hasanah, Bambang Pilu Hartato, Mitra Yulianti, Saeful Haq Faruqi


Abstract: Measurement of synonyms can be an important task in measuring word similarity. This work cannot be done syntactically, but must dig deeper about its semantics. Semantic relations can be anything, such as synonyms, antonyms, hyponymy, homonymy and polysemy. This research works on finding synonym values using the Second Order Co-occurrence Pointwise Mutual Information (SOC-PMI) method. The data used are 30 questions on the TOEFL exam. Each question consists of one word as a question and four reference answers as alternative answers. The results show very low accuracy (30%) since there are only 9 out of 30 answers that actually show the synonym. In addition, the LCS method was also tested to get a character-based similarity score. LCS method is able to achieve a higher similarity score of 43.33%. Finally, the idea of hybrid method by combining character-based and semantic-based methods can be considered in longer words to produce a fairer similarity score.

Abstrak: Pengukuran sinonim dapat menjadi pekerjaan yang penting dalam mengukur kemiripan kata. Pekerjaan ini tidak dapat dilakukan secara sintaksis, tetapi harus dilakukan dengan menggali lebih dalam tentang semantiknya. Hubungan semantik dapat berupa apa saja, seperti sinonim, antonim, hiponim, homonim, dan polisemi. Penelitian ini berusaha untuk menemukan nilai-nilai sinonim menggunakan metode Second Order Co-occurrence Pointwise Mutual Information (SOC-PMI). Data yang digunakan adalah 30 pertanyaan pada ujian TOEFL. Setiap pertanyaan terdiri dari satu kata sebagai pertanyaan dan empat jawaban referensi sebagai jawaban alternatif. Hasil menunjukkan nilai akurasi yang sangat rendah (30%) karena hanya ada 9 dari 30 jawaban yang benar-benar menunjukkan sinonim. Selain itu, metode LCS juga diuji untuk mendapatkan skor kemiripan berdasarkan karakternya. Metode LCS mampu mencapai skor kemiripan yang lebih tinggi yaitu 43,33%. Akhirnya, gagasan metode hybrid dengan menggabungkan metode berbasis karakter dan metode berbasis semantik semantik dapat dipertimbangkan untuk kata-kata yang lebih panjang agar menghasilkan skor kesamaan yang lebih adil.


SOC-PMI; Semantic Similarity; Synonym; Corpus-based method

Full Text:

pdf (Indonesian)


