趙沛時(shí),葛 亮,張曉陽(yáng)(.啟明信息技術(shù)股份有限公司,長(zhǎng)春,30;.吉林大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,長(zhǎng)春,300)
?
基于交通知識(shí)的移動(dòng)智能問(wèn)答系統(tǒng)
趙沛時(shí)1,葛 亮1,張曉陽(yáng)2
(1.啟明信息技術(shù)股份有限公司,長(zhǎng)春,130122;2.吉林大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,長(zhǎng)春,130012)
摘要:交通知識(shí)與人的生命安全息息相關(guān)。針對(duì)如何方便快捷的獲取交通知識(shí),設(shè)計(jì)并實(shí)現(xiàn)了以即時(shí)通訊軟件微信為人機(jī)交互媒介的移動(dòng)智能自動(dòng)問(wèn)答系統(tǒng)。首先,對(duì)文本進(jìn)行特征向量提取,并對(duì)同義詞進(jìn)行歸一化,消除同義詞對(duì)查詢準(zhǔn)確率的干擾;然后,綜合詞頻和詞性信息計(jì)算文本關(guān)鍵特征的權(quán)值;最后采用BM25模型計(jì)算問(wèn)題與知識(shí)庫(kù)中文本信息的相似度,返回與問(wèn)題最相似的答案。實(shí)驗(yàn)表明,本系統(tǒng)的移動(dòng)性強(qiáng),人機(jī)交互友好,查詢準(zhǔn)確度高。
關(guān)鍵詞:智能問(wèn)答; 微信; BM25;同義詞歸一化;文本相似度
在現(xiàn)代生活中,交通知識(shí)與人的生命安全息息相關(guān)。根據(jù)百度百科:在中國(guó),每一分鐘就有一人因交通事故傷殘,每五分鐘就有一人因交通事故死亡。每天因車禍死亡的有300人左右,每年因車禍死亡的有10萬(wàn)人左右。造成交通事故的主要原因是人們對(duì)交通知識(shí)的匱乏。面對(duì)突發(fā)性交通事故,缺乏合理的應(yīng)對(duì)知識(shí)會(huì)造成更大的二次傷害。通過(guò)科目考試、宣傳手冊(cè)、公益廣告等方式普及交通安全知識(shí)受益面窄、社會(huì)成本高,且人在緊張、慌亂中會(huì)出現(xiàn)短暫的記憶遺忘。如何以低成本、簡(jiǎn)單、快捷的方式普及交通安全知識(shí)是交通系統(tǒng)面臨的問(wèn)題。隨著人工智能技術(shù)的發(fā)展和智能手機(jī)的普及,基于交通知識(shí)的移動(dòng)智能問(wèn)答系統(tǒng)是一種有效的解決方式。
智能問(wèn)答系統(tǒng)要解決的首要問(wèn)題是信息檢索。信息檢索分為搜索引擎和自動(dòng)問(wèn)答系統(tǒng)兩種方式。百度、谷歌搜索屬于搜索引擎檢索方式的應(yīng)用,這種方式需用戶輸入和結(jié)果關(guān)聯(lián)的一個(gè)或多個(gè)關(guān)鍵詞,通過(guò)檢索算法獲得結(jié)果信息,結(jié)果信息的價(jià)值與輸入的關(guān)鍵詞緊密相關(guān)。自動(dòng)問(wèn)答系統(tǒng)是根據(jù)自然語(yǔ)言描述的問(wèn)題,通過(guò)檢索直接返回答案。這類應(yīng)用如微軟的Encarta3和MIT的START。對(duì)于自動(dòng)智能問(wèn)答系統(tǒng)有很多研究,文獻(xiàn)[1-4]主要研究了智能問(wèn)答系統(tǒng)中的相似度計(jì)算問(wèn)題,提高了系統(tǒng)檢索的準(zhǔn)確率,文獻(xiàn)[5-7]研究了問(wèn)答系統(tǒng)的構(gòu)建。上述研究都是都是基于WEB的方式實(shí)現(xiàn)的,在交互方式上并不能滿足如今移動(dòng)互聯(lián)網(wǎng)發(fā)展的需要。
目前,手機(jī)等移動(dòng)終端具有小巧靈活等特點(diǎn),逐漸取代PC機(jī)。作為具有海量用戶群體的微信公眾平臺(tái),是目前移動(dòng)應(yīng)用的絕好載體。微信公眾平臺(tái)在圖書(shū)館、醫(yī)院、電子政務(wù)等領(lǐng)域都有了創(chuàng)新性的應(yīng)用,文獻(xiàn)[13-15]主要研究了微信公眾平臺(tái)的搭建。上述研究實(shí)現(xiàn)的問(wèn)答系統(tǒng)在做檢索時(shí)都是基于關(guān)鍵詞的搜索,這種方式?jīng)]有考慮語(yǔ)義信息,更不能處理同義詞的干擾?;诖?,本文結(jié)合自然語(yǔ)言處理技術(shù)、數(shù)據(jù)庫(kù)技術(shù)和微信公眾平臺(tái)開(kāi)發(fā)接口,以交通知識(shí)為依托,設(shè)計(jì)并實(shí)現(xiàn)了基于微信的智能問(wèn)答系統(tǒng)。該系統(tǒng)在做信息檢索時(shí)綜合考慮詞頻和詞性信息,并對(duì)同義詞進(jìn)行了處理,實(shí)驗(yàn)表明本文實(shí)現(xiàn)的系統(tǒng)具有靈活、方便、查詢準(zhǔn)確率高等特點(diǎn)。
2.1 關(guān)鍵特征提取。關(guān)鍵特征是將自然語(yǔ)言表示的語(yǔ)句,進(jìn)行中文分詞,并去掉一些與語(yǔ)句含義關(guān)聯(lián)程度較小的詞語(yǔ)后,剩余的詞語(yǔ)作為該語(yǔ)句的關(guān)鍵特征。進(jìn)行中文分詞之前應(yīng)該對(duì)語(yǔ)句進(jìn)行去除語(yǔ)句中的空格、去除標(biāo)點(diǎn)符號(hào)、將英文大寫(xiě)轉(zhuǎn)換為小寫(xiě)、進(jìn)行繁簡(jiǎn)轉(zhuǎn)化將繁體轉(zhuǎn)化為簡(jiǎn)體等預(yù)處理工作。
問(wèn)答系統(tǒng)并不用保證每個(gè)詞語(yǔ)都會(huì)精確的切分,而一些專有名詞或?qū)φZ(yǔ)句檢索有重要意義的詞語(yǔ)應(yīng)該被精確的切分出來(lái),例如“交通信號(hào)燈”應(yīng)該為一個(gè)詞語(yǔ)不應(yīng)被切分。為了提高語(yǔ)句的檢索效率,本文添加自定義詞典user_dict,將一些交通術(shù)語(yǔ)、符號(hào)等添加到自定義詞典中。這樣在對(duì)語(yǔ)句進(jìn)行分詞時(shí)就可以正確的切分存在于詞典中的詞語(yǔ)。且隨著系統(tǒng)的使用,自定義詞典中的詞語(yǔ)將不斷的添加修改和完善。對(duì)語(yǔ)句進(jìn)行分詞后,要根據(jù)停用詞表stopword去掉與語(yǔ)句含義無(wú)關(guān)的詞。
2.2 同義詞處理。問(wèn)答系統(tǒng)中,一般查詢信息較短,由于同義詞的存在會(huì)導(dǎo)致檢索的準(zhǔn)確率低。例如“交通信號(hào)燈”是正規(guī)的書(shū)面語(yǔ)言,而日常生活中將其稱為:“交通燈”或“紅綠燈”。為解決由于同義詞的存在而導(dǎo)致檢索準(zhǔn)確率低的問(wèn)題,本文構(gòu)建同義詞典,將同義詞以鍵值對(duì)的關(guān)系添加到同義詞典中SimilarDict(key,value)。例如上述交通信號(hào)燈將{“交通燈”,“交通信號(hào)燈”}、{“紅綠燈”“交通信號(hào)燈”}添加到同義詞典中。對(duì)由1.1節(jié)中精確分詞并去停用詞后得到的關(guān)鍵詞集合S=(S1,S2,… Sn),進(jìn)行同義詞處理算法思想如下:
FOR Si IN S:
IF Si IN SimilarDict:
Si=v;//v是同義詞典中的value值
END IF
END FOR
這樣將所有的存在同義詞典中的同義詞都進(jìn)行了歸一化,消除了同義詞對(duì)檢索準(zhǔn)確度的干擾。
2.3 相似度的計(jì)算。一般的檢索算法中,僅考慮詞頻作為關(guān)鍵詞的權(quán)值,而忽略了單詞本身的重要程度。例如“酒后駕車”,若只考慮詞頻,那么“酒后”和“駕車”的權(quán)值都是1。而這句話的重點(diǎn)應(yīng)該在于“酒后”。所以為了更準(zhǔn)確的描述關(guān)鍵詞的重要程度以提高系統(tǒng)檢索的準(zhǔn)確度,本文根據(jù)不同詞性設(shè)置不同的權(quán)值。由于自定義詞典中存在的是一些必須進(jìn)行精確分詞的術(shù)語(yǔ)或名詞,顧其權(quán)重最高為1。具體權(quán)值表如表1所示。
表1:詞性權(quán)值表
本文計(jì)算語(yǔ)句相似度的方法采用以BM25算法為基礎(chǔ),通過(guò)將IDF算法與詞性權(quán)重相結(jié)合的方法計(jì)算文本特征的權(quán)值,用以提高算法的檢索準(zhǔn)確度。BM25模型是由Okapi信息檢索系統(tǒng)所實(shí)現(xiàn)。一般公式如下:
其中,Q為查詢問(wèn)句,qi為對(duì)Q進(jìn)行分詞處理后得到的一個(gè)關(guān)鍵特征,d為一個(gè)檢索結(jié)果文檔。Wi為關(guān)鍵特征qi的權(quán)重。R(qi,d)是關(guān)鍵特征qi與文檔d的相關(guān)性得分。
對(duì)于公式(1)中的權(quán)值Wi,較為常用的是IDF。IDF公式如下:
其中,N取值為全部文檔數(shù)的數(shù)量,n(qi)為包含了qi的文檔數(shù)。由公式(2)可以看出,當(dāng)包含某一關(guān)鍵特征qi的文檔越多時(shí),IDF(qi)的值越小,因?yàn)楹芏辔臋n中都包含關(guān)鍵特征qi,說(shuō)明qi的區(qū)分度不好。
為了達(dá)到更好檢索效果,本文引入詞性權(quán)重。設(shè)IDF在權(quán)重中所占比重為a,詞性所占比重為b,對(duì)于關(guān)鍵特征qi的詞性權(quán)值為Wpi。則對(duì)于關(guān)鍵特征qi的綜合權(quán)重為:
經(jīng)實(shí)驗(yàn)測(cè)試,a,b取值均為0.5時(shí)算法準(zhǔn)確度比較好。則公式(3)變?yōu)椋?/p>
對(duì)于公式(1)中關(guān)鍵特征qi與文檔d的相關(guān)性得分R(qi,d),其一般性公式為:
公式(5)中k1,k2,b為調(diào)節(jié)因子,一般根據(jù)經(jīng)驗(yàn)設(shè)置,本文中,k1=1.5,b=0.75。fi為關(guān)鍵特征qi在d中的頻率,qfi為qi在Q中的頻率。dl為d的長(zhǎng)度,avgdl為所有文檔的平均長(zhǎng)度。在絕大多數(shù)的情況中,qi在Q中只會(huì)出現(xiàn)1次,因此公式(5)簡(jiǎn)化為:
由公式(6)可知b越大,文檔的長(zhǎng)度對(duì)相關(guān)性得分的影響就越大。
綜上, BM25算法相關(guān)性得分公式為:
公式(8)為本文最終采用的文本相關(guān)性得分公式,兩文本之間得分越高,兩文本越相似。
2.4 智能問(wèn)答算法實(shí)現(xiàn)。本文使用BM25算法模型,并引入IDF方法和詞性權(quán)重相結(jié)計(jì)算關(guān)鍵特征權(quán)值。圖1所示為算法的流程圖。其算法思想如下:
圖1:智能問(wèn)答算法流程圖
輸入:有關(guān)交通知識(shí)的問(wèn)句
輸出:與輸入問(wèn)句相同或者相關(guān)度很好的問(wèn)題與答案。
1)初始化:加載自定義詞典,連接數(shù)據(jù)庫(kù)等;
2)輸入有關(guān)交通知識(shí)的問(wèn)句Qa;
3)加載問(wèn)題庫(kù)中所有問(wèn)題字段Qb;
4)對(duì)Qa和Qb進(jìn)行文本預(yù)處理,得到預(yù)處理后的文本Qap=Pretreatment(Qa);Qbp=Pretreatment(Qb);
5)對(duì)Qap和Qbp進(jìn)行分詞,并去掉停用詞,得到文本的關(guān)鍵特征。Qap_C=Cut(Qap),Qbp_C=Cut(Qbp);
6)對(duì)關(guān)鍵特征進(jìn)行同義詞處理,Q=Synonym(Qap_C),d=Synonym(Qbp_C)。
7)使用BM25算法計(jì)算輸入問(wèn)題的關(guān)鍵特征Q與問(wèn)題庫(kù)中每個(gè)問(wèn)題字段關(guān)鍵特征d的相關(guān)性分?jǐn)?shù)。并存儲(chǔ)到字典dict_ score中;
8)在dict_score中選擇相關(guān)性好的N個(gè)問(wèn)題,通過(guò)查找問(wèn)題知識(shí)庫(kù)中的數(shù)據(jù),返回給用戶相關(guān)的問(wèn)題與答案。
3.1 系統(tǒng)結(jié)構(gòu)。本系統(tǒng)以微信認(rèn)證訂閱號(hào)為交互平臺(tái),以問(wèn)題匹配算法和知識(shí)數(shù)據(jù)庫(kù)技術(shù)為核心模塊,以交通知識(shí)作為知識(shí)庫(kù),搭建了移動(dòng)智能問(wèn)答系統(tǒng)。系統(tǒng)結(jié)構(gòu)如圖2所示。
微信應(yīng)用程序是用戶的人機(jī)交互界面,用戶關(guān)注微信公眾平臺(tái)成為粉絲,通過(guò)手機(jī)微信應(yīng)用程序向系統(tǒng)推送問(wèn)題。
微信公眾平臺(tái)可以接收和發(fā)送圖文、音頻、視頻等多媒體信息,同時(shí)在開(kāi)發(fā)者模式下,具有豐富的可編程接口。
微信服務(wù)器主要功能是實(shí)現(xiàn)信息轉(zhuǎn)發(fā),將信息轉(zhuǎn)發(fā)到綁定的智能問(wèn)答服務(wù)器。同時(shí)也接收智能問(wèn)答服務(wù)器返回的信息,并將信息推送到手機(jī)端微信應(yīng)用程序。
智能問(wèn)答服務(wù)器是系統(tǒng)的核心。它在接收到微信服務(wù)器的請(qǐng)求后,首先對(duì)問(wèn)句進(jìn)行去空格、中文分詞、過(guò)濾停用詞、提取關(guān)鍵詞等操作;然后通過(guò)相似度算法計(jì)算用戶問(wèn)句和知識(shí)庫(kù)存儲(chǔ)信息的相似度;以TOP-N的方式選擇相似度高的N個(gè)問(wèn)題,認(rèn)為這N個(gè)問(wèn)題是知識(shí)庫(kù)中問(wèn)句和用戶問(wèn)句是相同問(wèn)題或最相似的問(wèn)題,通過(guò)檢索知識(shí)庫(kù)獲取該問(wèn)題答案;最后將答案發(fā)送給微信服務(wù)器,再由微信服務(wù)器推送給用戶手機(jī)端的微信。
3.2 微信公眾平臺(tái)開(kāi)發(fā)接口。通過(guò)使用微信公眾平臺(tái)開(kāi)發(fā)接口可以實(shí)現(xiàn)接收消息、發(fā)送消息等普通功能,也可以實(shí)現(xiàn)獲取用戶地理位置、生成帶參數(shù)二維碼等高級(jí)功能,但是許多高級(jí)功能只有認(rèn)證服務(wù)號(hào)才具有,提高了使用門(mén)檻。本系統(tǒng)的功能僅通過(guò)使用微信接收文本消息、發(fā)送文本消息兩種基本開(kāi)發(fā)接口實(shí)現(xiàn)。
(1)接收文本:接收文本:微信用戶在向微信公眾賬號(hào)發(fā)消息時(shí),微信服務(wù)器將消息以XML格式的數(shù)據(jù)包POST到開(kāi)發(fā)者填寫(xiě)的URL上。
XML數(shù)據(jù)格式如下:
(2)回復(fù)文本消息:用戶發(fā)送消息給微信公眾帳號(hào)時(shí),微信服務(wù)器會(huì)對(duì)智能問(wèn)答服務(wù)器產(chǎn)生一個(gè)POST請(qǐng)求,智能問(wèn)答服務(wù)器進(jìn)行處理后,在響應(yīng)包中將問(wèn)題答案以特定XML結(jié)構(gòu),返回給微信服務(wù)器。
XML數(shù)據(jù)格式如下:
上述XML中各個(gè)參數(shù)具體描述見(jiàn)文獻(xiàn)[13]。
3.3 微信公眾及平臺(tái)搭建。微信公眾帳號(hào)共分為三大類:企業(yè)號(hào)、訂閱號(hào)、服務(wù)號(hào),其中每大類又分為認(rèn)證和未認(rèn)證兩種。首先申請(qǐng)公眾賬號(hào),獲取微信公眾帳號(hào)后,登陸微信公眾平臺(tái)管理系統(tǒng)(http://mp.weixin.qq.com)進(jìn)行設(shè)置。打開(kāi)開(kāi)發(fā)者中心頁(yè)面,點(diǎn)擊“修改配置”按鈕,填寫(xiě)智能問(wèn)答系統(tǒng)服務(wù)器所在地址(URL),隨意填寫(xiě)用于生成簽名的Token字段,手動(dòng)填寫(xiě)或者隨機(jī)生成用于加密密鑰的EncodingAESKey字段。
提交信息后,微信服務(wù)器將發(fā)送帶有四個(gè)參數(shù)的GET請(qǐng)求到智能問(wèn)答系統(tǒng)所在的服務(wù)器地址URL上,這四個(gè)參數(shù)為:signature、timestamp、nonce、echostr。微信服務(wù)器將前三個(gè)參數(shù)進(jìn)行排序、拼接成一個(gè)字符串并進(jìn)行SHA1加密,最后將獲得加密后的字符串與signature對(duì)比。對(duì)比成功后,用戶請(qǐng)求通過(guò)微信服務(wù)器轉(zhuǎn)發(fā)到智能問(wèn)答系統(tǒng)服務(wù)器由智能問(wèn)答系統(tǒng)服務(wù)器對(duì)信息進(jìn)行處理,智能問(wèn)答系統(tǒng)服務(wù)器將處理后的結(jié)果返回給微信服務(wù)器,最后,微信服務(wù)器將結(jié)果送到用戶手機(jī)端微信應(yīng)用程序。
圖2:系統(tǒng)結(jié)構(gòu)
4.1 實(shí)驗(yàn)數(shù)據(jù)。收集整理2千多條交通知識(shí),將每條知識(shí)分成問(wèn)題和答案兩個(gè)部分,構(gòu)建知識(shí)庫(kù)。知識(shí)庫(kù)部分內(nèi)容如圖3所示。其中question字段是問(wèn)題部分,answer字段為問(wèn)題對(duì)應(yīng)的答案,weights字段是用于記錄該問(wèn)題被查詢的次數(shù)。整理交通知識(shí)有關(guān)詞語(yǔ),構(gòu)建自定義分詞詞典和同義詞詞典。
4.2 實(shí)驗(yàn)結(jié)果及分析。本文所實(shí)現(xiàn)的智能問(wèn)答系統(tǒng)主要應(yīng)用到交通領(lǐng)域,若問(wèn)題描述清楚,則答案基本唯一。隨機(jī)抽取120個(gè)問(wèn)題進(jìn)行檢索,若返回的結(jié)果中,正確答案出現(xiàn)在TOP-N中,則認(rèn)為匹配正確。表2所示為在N=3、相似度閾值為0.8時(shí),對(duì)120個(gè)問(wèn)題做4組對(duì)比試驗(yàn)的結(jié)果。
表2:相似度測(cè)試結(jié)果
由實(shí)驗(yàn)結(jié)果可以看出,由于問(wèn)答系統(tǒng)中的文本信息較短,同義詞處理要比詞性權(quán)值處理對(duì)最終檢索準(zhǔn)確率的影響大,且在對(duì)文本信息做同義詞處理和加入詞性權(quán)值后準(zhǔn)確率有明顯的提高。
用戶通過(guò)移動(dòng)端的微信客戶端提問(wèn)有關(guān)交通知識(shí)的問(wèn)題,經(jīng)由智能問(wèn)答算法計(jì)算知識(shí)庫(kù)中的問(wèn)題與用戶問(wèn)題的相似度,返回兩個(gè)結(jié)果。其結(jié)果如圖4所示。
圖4:微信問(wèn)答結(jié)果
本文以自然語(yǔ)言處理技術(shù)、數(shù)據(jù)庫(kù)技術(shù)為核心技術(shù),微信公眾平臺(tái)為用戶交互媒介,實(shí)現(xiàn)了交通知識(shí)的移動(dòng)智能問(wèn)答系統(tǒng)。經(jīng)實(shí)際使用表明,本系統(tǒng)信息獲取便捷、準(zhǔn)確,在規(guī)范日常交通行為、青少年交通知識(shí)教育、突發(fā)交通事故應(yīng)對(duì)方案檢索等領(lǐng)域具有一定實(shí)用價(jià)值。系統(tǒng)在智能技術(shù)方面還需要優(yōu)化。
圖3:知識(shí)庫(kù)部分內(nèi)容
參考文獻(xiàn)
[1]陰紅志,張帆,丁鼎,趙斌. AnswerSeeker:基于互聯(lián)網(wǎng)挖掘的智能問(wèn)答系統(tǒng)[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2010,01:6-17.
[2]康海燕,李飛娟,蘇文杰. 基于問(wèn)句表征的web智能問(wèn)答系統(tǒng)[J].北京信息科技大學(xué)學(xué)報(bào)(自然科學(xué)版),2011,01:36-41.
[3]張江濤,杜永萍. 基于語(yǔ)義鏈的檢索在QA系統(tǒng)中的應(yīng)用[J].計(jì)算機(jī)科學(xué),2013,02:257-260+300.
[4]周永梅,陶紅,陳姣姣,張?jiān)佘S. 自動(dòng)問(wèn)答系統(tǒng)中的句子相似度算法的研究[J]. 計(jì)算機(jī)技術(shù)與發(fā)展,2012,05:75-78.
[5]劉芳,于斐. 面向醫(yī)療行業(yè)的智能問(wèn)答系統(tǒng)研究與實(shí)現(xiàn)[J].微電子學(xué)與計(jì)算機(jī),2012,11:95-98.
[6]侯麗敏,張永強(qiáng). 面向課程的中文FAQ自動(dòng)問(wèn)答系統(tǒng)模型[J].計(jì)算機(jī)與現(xiàn)代化,2014,10:20-24.
[7]王北斗,竇志,陳純,卜佳俊. 支持評(píng)價(jià)類問(wèn)題與電影智能搜索的問(wèn)答系統(tǒng)構(gòu)建[J]. 大連理工大學(xué)學(xué)報(bào),2011,S1:93-97. [8]張秋,楊玲,王曼. 高校圖書(shū)館微信公眾平臺(tái)服務(wù)發(fā)展現(xiàn)狀及對(duì)策[J]. 圖書(shū)館建設(shè),2014,02:61-65+69.
[9]張正. 圖書(shū)館微信公眾平臺(tái)的構(gòu)建[J]. 國(guó)家圖書(shū)館學(xué)刊,2014,02:26-31.
[10]劉路遙, 楊祚, 曹戰(zhàn)強(qiáng), 等. 醫(yī)院微信公眾號(hào)的技術(shù)與應(yīng)用現(xiàn)狀研究[J]. 中國(guó)數(shù)字醫(yī)學(xué), 2014(8): 35-37.
[11]黃永剛, 劉素溫, 騰騰, 等. 微信公眾平臺(tái)在門(mén)診就醫(yī)流程中的應(yīng)用研究[J]. 中國(guó)數(shù)字醫(yī)學(xué), 2015, 10(5): 105-106. [12]龔花萍, 劉帥. 基于微信平臺(tái)的政務(wù)信息公開(kāi)新模式[J]. 現(xiàn)代情報(bào), 2014, 34(4): 62-66.
[13]曹小平,程靜. 基于微信自助查詢系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J]. 重慶工商大學(xué)學(xué)報(bào)(自然科學(xué)版),2014,02:66-69.
[14]錢(qián)海鋼. 基于微信的移動(dòng)圖書(shū)館服務(wù)系統(tǒng)APP應(yīng)用實(shí)踐[J].河北科技圖苑,2013,06:89-92.
[15]沈奎林,邵波,趙華. 利用微信構(gòu)建圖書(shū)館智能問(wèn)答系統(tǒng)[J].圖書(shū)館學(xué)研究,2015,08:75-80.
[16]Robertson S E, Walker S, Jones S, et al. Okapi at TREC-3.[J]. 1996.
Mobile intelligent question answering system based on traffic knowledge.Computer Engineering and Applications
Zhao Peishi1,Ge Liang1,Zhang Xiaoyang2
(1.qiming information technology co.,LTD, Changchun,130122,China;2.College of Computer Science and Technology,Jilin University,Changchun,130012,China)
Abstract:Traffic knowledge is closely related to people's life and safety.Aiming at how to obtain the traffic knowledge conveniently and quickly,the mobile intelligent question answering system,which is based on the instant communication software WeChat,was designed and implemented. Firstly,extract the feature vector of the text,and normalized synonyms,eliminating the interference of synonyms on query accuracy. Secondly,calculation of critical feature weights according to the part of speech and word frequency. Finally,according to the BM25 model to calculate the similarity of text,return the most similar answer to the question. Experiments show that the system features strong mobility,man-machine friendly interaction and high query accuracy.
Keywords:intelligent question and answer;WeChat;BM25 model;normalized synonyms;text similarity