趙 煜 蔡皖東 樊 娜
摘要:針對現(xiàn)有中文詞匯語義傾向性計算方法存在較少考慮深層語義影響因素的問題,提出了一種利用詞匯分布相似度的中文語義傾向性計算方法,該方法分2個步驟完成:①利用依存句法分析和統(tǒng)計工具獲取詞匯在語料庫中的分布相似度,并綜合知網(HowNet)和漢語連詞特征信息優(yōu)化語料庫統(tǒng)計結果,計算中文詞匯問的語義相似度;②采用無向帶權圖劃分的聚類方法來實現(xiàn)中文詞匯語義傾向推斷,由于獲取最優(yōu)聚類結果是一個NP難問題,所以采用貪心算法求解近似最優(yōu)值,通過在自建的語料庫上進行測試,并與利用語料庫統(tǒng)計信息、利用HowNet等2個詞匯語義傾向性計算系統(tǒng)進行比較,結果是所提方法的準確率達到了80%,表明在提高中文詞匯語義傾向性計算的準確性方面是可行、有效的,
關鍵詞:中文信息處理;詞匯分布相似度;語義傾向;依存句法分析;知網
中圖分類號:TP39文獻標志碼:A文章編號:0253-987X(2009)06-0033-05