〔摘 要〕相似度計(jì)算是自動(dòng)問答領(lǐng)域里的重要內(nèi)容。為了保證候選答案集中各答案能具備合理的排序,解決傳統(tǒng)自動(dòng)問答系統(tǒng)不能高效的綜合評(píng)價(jià)相似度問題,提出利用綜合指數(shù)法對(duì)關(guān)鍵詞相似度、語義相似度等進(jìn)行綜合評(píng)價(jià),得到綜合相似度。并針對(duì)部分候選答案冗余信息過多,不利于答案提取的情況,設(shè)計(jì)了衰減相似度參數(shù),用來解決句子冗余信息對(duì)答案提取的影響。實(shí)驗(yàn)結(jié)果表明,綜合指數(shù)法的相似度算法能夠有效的提高問答的正確率。
〔關(guān)鍵詞〕自動(dòng)問答;答案抽??;相似度;綜合指數(shù)法
網(wǎng)絡(luò)新技術(shù)的迅速發(fā)展,使得一些搜索服務(wù)可以幫助用戶迅速跳過所有不相關(guān)的信息。其中有一項(xiàng)服務(wù)是自動(dòng)問答技術(shù)[1],該技術(shù)提供精確的特定問題的答案。比如提出一個(gè)問題,“2012年國內(nèi)生產(chǎn)總值最高的國家是?”自動(dòng)問答系統(tǒng)將直接回答一個(gè)國家的名稱。一段時(shí)間以來,很多研究機(jī)構(gòu)都對(duì)自動(dòng)問答技術(shù)做了相關(guān)的研究,這其中,有關(guān)于問句和答案進(jìn)行相似度對(duì)比的算法,逐漸成為自動(dòng)問答系統(tǒng)中比較重要的內(nèi)容[2]。目前,相似度計(jì)算領(lǐng)域提出了很多算法,如文獻(xiàn)[3]提出的基于分詞的資源整合、文獻(xiàn)[4]提出的基于語句相似度計(jì)算系統(tǒng)等。這些相似度計(jì)算模型解決了答案選取過程中的句子排序問題,提出了相關(guān)的解決方案。但是,這些方案提出的備選答案尚待完善,部分作為答案出現(xiàn)的句子或單詞在提取后,結(jié)果有時(shí)并不能讓人們滿意。