鎮(zhèn)麗華,王小林,楊思春
(1.南通大學(xué)管理學(xué)院,江蘇南通226019;2.安徽工業(yè)大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,安徽馬鞍山243032)
自動(dòng)問(wèn)答系統(tǒng)中問(wèn)句分類研究綜述
鎮(zhèn)麗華1,王小林2,楊思春2
(1.南通大學(xué)管理學(xué)院,江蘇南通226019;2.安徽工業(yè)大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,安徽馬鞍山243032)
問(wèn)句分類作為問(wèn)答系統(tǒng)所要處理的第一步,在問(wèn)答系統(tǒng)中起著至關(guān)重要的作用,其準(zhǔn)確性直接影響最終抽取的答案的正確性。從問(wèn)句分類的概念出發(fā),先對(duì)問(wèn)句分類體系、特征提取、問(wèn)句分類方法等進(jìn)行闡述,然后重點(diǎn)分析了用于問(wèn)句分類的幾個(gè)主流學(xué)習(xí)模型,并對(duì)幾個(gè)模型作了比較分析,最后指出了當(dāng)前問(wèn)句分類的研究難點(diǎn)和未來(lái)的研究方向。
問(wèn)答系統(tǒng);問(wèn)句分類;特征提??;分類模型
問(wèn)答系統(tǒng)是目前自然語(yǔ)言處理和信息檢索領(lǐng)域的一個(gè)研究熱點(diǎn),它允許用戶以自然語(yǔ)言形式提出問(wèn)題,并采用自然語(yǔ)言處理技術(shù)自動(dòng)地將簡(jiǎn)潔、正確的回答返回給用戶[1-2]。與傳統(tǒng)的搜索引擎相比,問(wèn)答系統(tǒng)能更好地滿足用戶從互聯(lián)網(wǎng)上快速、準(zhǔn)確地獲取信息的需求。
問(wèn)答系統(tǒng)一般包括問(wèn)句分析、信息檢索和答案抽取3個(gè)主要部分[3-4],典型問(wèn)答系統(tǒng)的體系結(jié)構(gòu)如圖1所示。其中,問(wèn)句分類作為問(wèn)答系統(tǒng)的首要環(huán)節(jié),為系統(tǒng)知道用戶想要尋找什么類型的答案提供重要信息。
小雞在地板上跑著,特寫(xiě)周澤贍?zhēng)Φ哪?。旁邊放著一個(gè)裝雞的小紙箱子,墻上的溫度計(jì)顯示三十?dāng)z氏度。客廳的電視播放著電視劇。周澤贍將泡好的米放在塑料瓶蓋里,喂給小雞吃。小雞跑到周澤贍的拖鞋上,屁股一撅,把屎拉在了地板上。周澤贍仍是笑著,拿衛(wèi)生紙把屎擦了,再到衛(wèi)生間里按照步驟洗手。這時(shí)鏡頭快剪小雞拉屎、周澤贍洗手的畫(huà)面,重復(fù)多次后,在最后一次時(shí)周澤贍沒(méi)有立即去洗手,而是等到小雞再拉一次時(shí)再洗,小雞已經(jīng)長(zhǎng)成有羽毛的樣子了,同電視劇的集數(shù)變化也可顯現(xiàn)時(shí)間的流逝。
問(wèn)句分類是指在確定的分類體系下,根據(jù)問(wèn)句的內(nèi)容自動(dòng)地確定問(wèn)句關(guān)聯(lián)的類別[5],這種對(duì)應(yīng)關(guān)系可以用一種映射函數(shù)來(lái)表示:
其中:X表示問(wèn)句實(shí)例集合;{C1,C2,…,Cn}表示問(wèn)句類別集合;G負(fù)責(zé)將未知類別的問(wèn)句x∈X根據(jù)先驗(yàn)信息或者某種規(guī)則映射到類別集合中的某個(gè)類別Ci中去。
問(wèn)句分類的作用主要體現(xiàn)在以下2個(gè)方面:
當(dāng)商家不提供運(yùn)費(fèi)險(xiǎn)時(shí)消費(fèi)者需進(jìn)行購(gòu)買運(yùn)費(fèi)險(xiǎn)的決策,根據(jù)圖1可知此時(shí)的決策需要考慮以下四種情況下的總損失,即為消費(fèi)者購(gòu)買運(yùn)費(fèi)險(xiǎn)決策時(shí)的“期望損失”。
(1)問(wèn)句分類能夠有效地減少候選答案空間,提高系統(tǒng)返回答案的準(zhǔn)確率。例如,用戶輸入查詢語(yǔ)句“國(guó)際奧委會(huì)是什么時(shí)候成立的?”經(jīng)過(guò)問(wèn)句分類,知道這個(gè)問(wèn)句屬于時(shí)間類,在答案抽取階段,系統(tǒng)把不含時(shí)間的候選句子過(guò)濾掉,從而有效地較少了候選答案空間。
You cannot know the truth from ingredient list 8 48
其次,學(xué)校應(yīng)制定一套完整的、與教師職業(yè)道德規(guī)范相配套的、可行性較強(qiáng)的師德考核制度,并將其作為評(píng)優(yōu)評(píng)先、職稱晉升的重要依據(jù)。將模范教師樹(shù)立為榜樣,大力宣傳其優(yōu)秀事跡,進(jìn)行正面引導(dǎo);嚴(yán)肅處理違反職業(yè)道德規(guī)范而又屢教不改的教師,防微杜漸,力求在榜樣的引領(lǐng)、制度的約束及輿論的壓力之下,使其受到深刻教育。
問(wèn)句分類作為問(wèn)答系統(tǒng)一個(gè)重要的子模塊,能夠?qū)?wèn)答系統(tǒng)的后續(xù)流程查找候選答案和答案抽取有很好的指導(dǎo)作用,一個(gè)好的問(wèn)句分類模塊能夠在很大程度上提高問(wèn)答系統(tǒng)的性能。
要對(duì)問(wèn)句進(jìn)行分類,首先就要知道問(wèn)句有哪些類型,而問(wèn)句的類型是由采用的分類體系決定的。當(dāng)前問(wèn)句分類體系還沒(méi)有統(tǒng)一標(biāo)準(zhǔn),大多數(shù)研究人員根據(jù)分類依據(jù)的不同將分類體系劃分為3種:基于答案類型的問(wèn)句分類體系[9]、基于問(wèn)句語(yǔ)義信息的問(wèn)句分類體系[10]和基于混合信息的問(wèn)句分類體系[11]。現(xiàn)有的問(wèn)答系統(tǒng)大多采用的是基于答案類型的分類體系,這種分類體系具有易建立、分類粒度細(xì)、覆蓋面廣等優(yōu)點(diǎn),特別是具有層次結(jié)構(gòu)的分類體系,能夠提供更高的分類精度和更多的約束條件。
在國(guó)際上比較權(quán)威的是UIUC的問(wèn)句分類體系[8],它是個(gè)基于答案類型的層次分類體系,把問(wèn)句分為6個(gè)大類(ABBR,DESC,ENTY,HUM,LOC,NUM),50個(gè)小類,每個(gè)大類包含著不重復(fù)的小類。表1給出了廣泛應(yīng)用于英文問(wèn)句分類的UIUC問(wèn)句分類體系。
很快選好一款跑步鞋,售貨員小伙子說(shuō),如果掃碼加品牌微信號(hào),鞋子即可五折,如果不掃,則是七折。掃個(gè)碼便宜兩成,我想這劃得來(lái)。掃完碼之后,手機(jī)屏幕出現(xiàn)注冊(cè)畫(huà)面,要求填寫(xiě)姓名、性別、年齡、手機(jī)號(hào);因?yàn)閽吡舜a,手機(jī)號(hào)碼已經(jīng)自動(dòng)出現(xiàn)在注冊(cè)欄里。這一下引起了我的警覺(jué)。姓名、年齡、性別、手機(jī)號(hào)已是我的基本身份信息,依據(jù)這些信息甚至可以在網(wǎng)上對(duì)我進(jìn)行定位跟蹤。
對(duì)于問(wèn)句分類的研究很多是借鑒文本分類的思想,兩者都是通過(guò)分析文本中包含的信息來(lái)確定文本所屬類別。但是問(wèn)句不同于文本,問(wèn)句一般都比較短,包含的詞匯信息較少,沒(méi)有足夠的上下文環(huán)境,因此需要對(duì)問(wèn)句要進(jìn)行更深層次的分析,使問(wèn)句獲取更優(yōu)的特征信息,從而提高問(wèn)句的分類精度。
表1 UIUC問(wèn)句分類體系Tab.1 Question classification system of UIUC
表2 中文問(wèn)句分類體系Tab.2 Chinese question classification system
中文問(wèn)句分類體系在小類劃分上更細(xì)致,較細(xì)的分類體系能夠使得抽取的答案更精確。然而,較細(xì)的分類體系勢(shì)必會(huì)影響問(wèn)句分類的準(zhǔn)確率。這需要在今后的研究工作中對(duì)問(wèn)句分類的標(biāo)準(zhǔn)做進(jìn)一步研究,最后能得到折衷的分類體系。
其中q為問(wèn)句類別變量,Q1,Q2,…,Qn為對(duì)問(wèn)句進(jìn)行分詞、去除停用詞后的特征項(xiàng),由于分母不變,所以只需處理分子。根據(jù)詞袋模型,可以將問(wèn)句簡(jiǎn)化為
上述詞袋、詞塊和詞性特征都是問(wèn)句的表層特征,雖然提取簡(jiǎn)單,但僅提取這些特征很難提高問(wèn)句的分類精度。一般來(lái)說(shuō),詞意決定了整個(gè)問(wèn)句的語(yǔ)義[16-17]基礎(chǔ)。Li等[9]提出了用語(yǔ)義詞典(WordNet)來(lái)分類,把WordNet的上位詞和下位詞作為一部分特征進(jìn)行分類,大類(6大類)和小類(50小類)的分類精度最高達(dá)到92.5%和85.00%。孫景廣等[18]提出使用知網(wǎng)作為語(yǔ)義資源選取分類特征,選取問(wèn)句疑問(wèn)詞、疑問(wèn)意向詞、疑問(wèn)意向詞在知網(wǎng)的首項(xiàng)義原等作為分類特征,使得分類精度顯著提高。命名實(shí)體(NE)也被作為重要的語(yǔ)義特征用于問(wèn)句分類,命名實(shí)體是指句子中有確切含義的名詞短語(yǔ),每個(gè)命名實(shí)體都表現(xiàn)了很強(qiáng)的語(yǔ)義信息,跟問(wèn)句類別有著非常緊密的關(guān)系[19]。例如問(wèn)句“誰(shuí)是第一個(gè)進(jìn)入太空的中國(guó)人?”中包含了數(shù)字和地名兩個(gè)命名實(shí)體,可以將它們加入到問(wèn)句特征中。此外,把類別關(guān)聯(lián)詞(RELWord)也作為語(yǔ)義特征。對(duì)于每一個(gè)類別,都會(huì)有一些特殊詞跟其緊密相連,通過(guò)對(duì)每個(gè)類別的問(wèn)答對(duì)進(jìn)行統(tǒng)計(jì)計(jì)算,提取出在每個(gè)類別問(wèn)答對(duì)中頻繁出現(xiàn)的詞,將其作為與該類別相關(guān)的語(yǔ)義詞。如果問(wèn)句中出現(xiàn)了詞“牛奶”,就將與該詞相關(guān)的“食物”加入到問(wèn)句特征中去。
(2)問(wèn)句分類還能夠決定答案選擇策略[6-8],根據(jù)不同的問(wèn)句類型調(diào)節(jié)對(duì)不同問(wèn)題的答案選擇策略。如,對(duì)于問(wèn)句“安徽省的簡(jiǎn)稱是什么?”如果能分析出問(wèn)題是詢問(wèn)簡(jiǎn)寫(xiě)類別的,抽取文檔中簡(jiǎn)寫(xiě)類的文檔作為候選答案,這樣定位和檢驗(yàn)相應(yīng)的答案就顯得相對(duì)容易。
要從整體把握問(wèn)句的語(yǔ)義信息就要對(duì)問(wèn)句進(jìn)行句法分析,句法分析是在給定文法下分析自然語(yǔ)言的層次結(jié)構(gòu)[5,12],是自然語(yǔ)言處理的熱點(diǎn)問(wèn)題之一。目前,基于依存文法的句法分析受到廣泛關(guān)注。依存文法的句法結(jié)構(gòu)的主要元素是語(yǔ)義依存關(guān)系,即句子中詞對(duì)的二元關(guān)系,其中一個(gè)記為核心詞,另一個(gè)記為依存詞,依存關(guān)系反映的是核心詞和依存詞在句法上的依賴關(guān)系[20]。文獻(xiàn)[12]使用基于依存句法的句法分析結(jié)果,提取問(wèn)句的主干、疑問(wèn)詞及疑問(wèn)詞附屬成分作為分類的特征,大大提高了分類精度。
使用分類器對(duì)問(wèn)句進(jìn)行分類,就要將特征轉(zhuǎn)化成向量的形式輸入到分類器中。由于每一個(gè)單獨(dú)的特征在問(wèn)句分類中所起的作用不大,所以要提高分類的準(zhǔn)確性就要將幾種特征組合使用。特征的組合方式主要有兩種:直接附加特征方式和基于詞袋的特征綁定方式[21-22]。直接附加特征的方式簡(jiǎn)單直觀,即將一個(gè)或幾個(gè)特征作為單獨(dú)的特征模板直接加到詞袋特征后面去,但這樣就增加了整個(gè)特征空間的維數(shù),而且有的特征本身效果就不明顯,附加特征會(huì)帶來(lái)一些噪聲,降低分類精度,所以將哪些特征進(jìn)行附加還要針對(duì)特征的特點(diǎn)進(jìn)行選擇。基于詞袋的特征綁定是把詞性、命名實(shí)體、詞意和依存關(guān)系等作為詞匯的屬性,將其和詞匯綁定在一起作為一個(gè)特征,這種組合方式可以更有效地體現(xiàn)詞匯本身的含義。
UIUC的分類體系是針對(duì)英文分類的。哈工大的文勖等[12]在國(guó)外已有分類體系的基礎(chǔ)上根據(jù)漢語(yǔ)自身特點(diǎn),定義了表2所示的中文問(wèn)句分類體系,含7個(gè)大類,每個(gè)大類根據(jù)實(shí)際情況又定義了一些小類,共60小類。
江蘇省在工程建設(shè)中,注重加強(qiáng)資金管理,按照分級(jí)管理、分級(jí)負(fù)責(zé)、??顚S玫脑瓌t嚴(yán)格財(cái)務(wù)制度,規(guī)范財(cái)務(wù)行為,堅(jiān)決杜絕資金截留、擠占和挪用情況的發(fā)生,為工程建設(shè)順利進(jìn)行提供資金保障。
其中:fi是一個(gè)特征函數(shù),其值為0或1;λi是模型參數(shù),參數(shù)λi估計(jì)常用方法是Darroch提出的通用迭代縮放法(Generalized Iterative Scaling,GIS)和Della Pietra提出的改進(jìn)迭代算法(Improved Iterative Scaling,IIS)[35]。
目前,在問(wèn)句分類中所用的統(tǒng)計(jì)模型主要有:貝葉斯模型(Bayes Model)、支持向量機(jī)模型(SVM)、K-近鄰模型(KNN)、最大熵模型(ME)。
4.1 貝葉斯模型
貝葉斯模型是利用類別的先驗(yàn)概率和特征項(xiàng)的分布對(duì)于類別的條件概率來(lái)計(jì)算文本屬于某一類別的后驗(yàn)概率,并將使得后驗(yàn)概率最大的類別作為文本類別。對(duì)于問(wèn)句分類,一般都采用張宇等提出的改進(jìn)貝葉斯模型[14],假設(shè)詞與詞之間是相互獨(dú)立的,即詞袋模型,數(shù)學(xué)形式表示為
在對(duì)問(wèn)句分類之前,要對(duì)問(wèn)句進(jìn)行預(yù)處理(分詞、去除停用詞),將問(wèn)句表示成特征向量。根據(jù)國(guó)外的相關(guān)實(shí)驗(yàn),詞袋特征是最常用的特征之一,即忽略詞序、句法及語(yǔ)法,將問(wèn)句僅看成一個(gè)詞的集合,這個(gè)集合中的詞出現(xiàn)都是獨(dú)立的,不依賴于其他詞的出現(xiàn)[13]。這顯然與事實(shí)不符,所以單純基于詞袋進(jìn)行問(wèn)句分類精度并不高,張宇等[14]利用詞袋模型并采用TFIDF加權(quán),用改進(jìn)的貝葉斯進(jìn)行分類,在65個(gè)小類上的平均準(zhǔn)確率為72.4%。李鑫[15]提到詞塊(N-gram)特征,它是假設(shè)某個(gè)詞的出現(xiàn)只與前面n-1個(gè)詞相關(guān),常用的有二元的Bi-gram和三元的Tri-gram,這與單純的詞袋特征相比多n-1個(gè)歷史特征,包含了一定量的詞序信息。詞性作為詞的語(yǔ)法特征,在英語(yǔ)句子理解中有很重要的作用,但是漢語(yǔ)中的詞性作用卻不是那么明顯。
其中
一站式家裝服務(wù)物流配送的模式對(duì)于家居建材市場(chǎng)以及家裝行業(yè)有著很大的意義,每一個(gè)企業(yè)都需要根據(jù)自己的優(yōu)劣勢(shì)選擇適合自己的物流模式。在家裝市場(chǎng)“僧多粥少”的激烈競(jìng)爭(zhēng)下,家裝企業(yè)謀求生存和發(fā)展應(yīng)注重從供應(yīng)鏈的角度切入,積極尋找降低成本并提高服務(wù)的空間,這一突破口就是物流配送。
SVM(Support Vector Machine)是基于結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則的分類學(xué)習(xí)方法,其原理可簡(jiǎn)單描述為:通過(guò)事先選擇的非線性映射(核函數(shù))將輸入向量x映射到一個(gè)高維特征空間,在這個(gè)空間構(gòu)造最優(yōu)分類超平面,以將兩類樣本無(wú)錯(cuò)誤地分開(kāi)(訓(xùn)練錯(cuò)誤率為0),而且要使兩類(標(biāo)記為y∈{-1,1})的分類空隙最大,前者保證經(jīng)驗(yàn)風(fēng)險(xiǎn)最小,后者使推廣性的界中的置信范圍最?。捶诸惼鞯慕Y(jié)構(gòu)風(fēng)險(xiǎn)最?。?,這樣可使在原始空間非線性可分的問(wèn)題變?yōu)楦呔S空間中線性可分的問(wèn)題[29,30]。SVM決策函數(shù)的基本形式為
式中:counter(q,Qi)表示特征Qi在類別q中出現(xiàn)的次數(shù);N表示問(wèn)句類型個(gè)數(shù);counter(Qi)表示特征Qi在訓(xùn)練集中出現(xiàn)的總次數(shù);M表示特征Qi在M種問(wèn)題類型中出現(xiàn)。此外,改進(jìn)的貝葉斯模型還針對(duì)語(yǔ)料庫(kù)分布不均勻?qū)δ承┨囟ㄔ~(如“什么”)做了TF-IDF加權(quán)處理。
采用貝葉斯分類器的代表性研究主要有:Dell Zhang在文獻(xiàn)[10]中分別以詞袋和詞塊作為特征,并在規(guī)模不同的訓(xùn)練集上用樸素貝葉斯對(duì)英文問(wèn)句進(jìn)行分類,大類和小類的最高準(zhǔn)確率分別為83.2%和67.8%;Krystle Kocik在文獻(xiàn)[26]中提取英文問(wèn)句首兩個(gè)單詞、問(wèn)句長(zhǎng)度和問(wèn)句焦點(diǎn)為特征,大類和小類準(zhǔn)確率分別達(dá)到88.6%和73.4%;文獻(xiàn)[14]將改進(jìn)貝葉斯模型引入到中文問(wèn)句問(wèn)類中,但是在進(jìn)行分類時(shí)只側(cè)重詞頻這一單一特征,使得分類精度得不到保證;文勖等在文獻(xiàn)[12]中使用句法分析的結(jié)果,提取問(wèn)句的主干和疑問(wèn)詞及其附屬成分作為分類特征,大類和小類的精度分別達(dá)到86.62%和71.92%;田衛(wèi)東等[27]分析知問(wèn)句中的疑問(wèn)詞和中心詞等關(guān)鍵詞對(duì)問(wèn)句所屬類型起決定性作用,提出利用自學(xué)習(xí)方法建立疑問(wèn)詞-類別和疑問(wèn)詞+中心詞-類別兩種規(guī)則,并結(jié)合改進(jìn)貝葉斯進(jìn)行分類,準(zhǔn)確率達(dá)到84%;許莉等[28]利用依存句法分析問(wèn)句的主干,從語(yǔ)義信息角度分析問(wèn)句主干從而提取出問(wèn)句的特征詞,也取得較好的分類效果。
4.2 支持向量機(jī)模型
首先,學(xué)生們進(jìn)行角色扮演游戲,模擬17世紀(jì)末18世紀(jì)初的國(guó)際貿(mào)易。學(xué)生們分別扮演商人、買家、海關(guān)人員等角色,相互討價(jià)還價(jià),買進(jìn)賣出。過(guò)程中,學(xué)生須知道自己扮演角色的商業(yè)規(guī)則,要辦清關(guān)手續(xù),要考慮運(yùn)輸中可能會(huì)遇到風(fēng)暴或海盜等因素。最終把貨物都運(yùn)到目的地、能賺錢(qián)的組就算獲勝。
水痘是帶狀皰疹病毒引起病毒性疾病,可以口服給藥,不用輸液。有傳染性,家中未出過(guò)水痘或未打過(guò)疫苗的人都應(yīng)注意隔離,家中的水痘或帶狀皰疹患者也應(yīng)該和沒(méi)生病的寶寶隔離。
這是個(gè)二次規(guī)劃問(wèn)題,可以找到全局最優(yōu)解ai,而且w→可以由以下公式得
此時(shí)根據(jù)鎖相環(huán)輸出的同步電壓過(guò)零點(diǎn)可以計(jì)算出各換流閥產(chǎn)生觸發(fā)脈沖的時(shí)刻。其中換流閥3、5、1處產(chǎn)生觸發(fā)信號(hào)時(shí)刻分別對(duì)應(yīng)上半橋ab換相、bc換相、ca換相,6、2、4處產(chǎn)生觸發(fā)信號(hào)時(shí)刻分別對(duì)應(yīng)下半橋ab換相、bc換相、ca換相,相應(yīng)的下半橋換相時(shí)間滯后上半橋半個(gè)周期,因此可以統(tǒng)一分析,各上半橋換相時(shí)刻對(duì)應(yīng)的電角度分別為:
SVM構(gòu)造的是一個(gè)二值分類器,但問(wèn)句分類是個(gè)多值分類問(wèn)題[31],通常的解決方法是通過(guò)構(gòu)造多個(gè)二值支持向量機(jī)的組合來(lái)解決,主要有一對(duì)一組合模式和一對(duì)多組合模式,一對(duì)一組合模式已被證明其性能優(yōu)于一對(duì)多模式[32]。
將SVM作為分類器的代表性研究主要有Zhang等[10]利用樹(shù)核函數(shù)提取特征,在詞匯的基礎(chǔ)上引入句法結(jié)構(gòu)特征進(jìn)行英文分類,在UIUC問(wèn)題集上準(zhǔn)確率達(dá)到了80.2%;李鑫等[15]提出采用基于錯(cuò)誤驅(qū)動(dòng)集成分類器,用規(guī)則方法TBL作為統(tǒng)計(jì)方法SVM的補(bǔ)充,利用來(lái)自WordNet的同義詞集和名詞的上位概念及Minipar的依存關(guān)系等語(yǔ)言知識(shí)作為分類特征,在公開(kāi)測(cè)試集中取得91.4%的分類精度;楊思春等[21]提出在提取問(wèn)句中詞袋、詞性、詞義等基本特征及其對(duì)應(yīng)的詞袋綁定特征的基礎(chǔ)上,通過(guò)將基本特征與詞袋綁定特征進(jìn)行融合,采用SVM分類器在哈工大中文問(wèn)句集上實(shí)驗(yàn),分類精度獲得顯著提升,在77個(gè)小類上的分類精度達(dá)到83.4%。
4.3 K-近鄰模型
K-近鄰(K-Nearest Neighbor,KNN)算法的基本思想是:把訓(xùn)練集中的每個(gè)樣本用特征向量表示,對(duì)于每一個(gè)測(cè)試樣本,利用相似度函數(shù)計(jì)算該測(cè)試樣本與訓(xùn)練集中每一個(gè)樣本的相似度,找出K個(gè)最相似的樣本,而每個(gè)相似樣本對(duì)應(yīng)一個(gè)類別,計(jì)算測(cè)試樣本屬于各個(gè)類別的權(quán)值,最后選擇權(quán)值最大的類別作為該測(cè)試樣本的類別。可用下式表示
式中:Q為測(cè)試問(wèn)句,di為最近鄰的K個(gè)問(wèn)句,y為類別屬性函數(shù),若di∈Cj,結(jié)果為1,否則為0,n為問(wèn)句類別數(shù)。
將KNN模型應(yīng)用于問(wèn)句分類的相關(guān)研究工作主要有:Sundblad在文獻(xiàn)[33]中僅以詞袋為特征進(jìn)行英文分類,在TREC10問(wèn)句集上大類和小類準(zhǔn)確率分別為67.2%和60.0%;賈可亮等在文獻(xiàn)[34]中利用知網(wǎng)(HowNet)義原樹(shù)計(jì)算問(wèn)句之間的語(yǔ)義相似度,并以此作為句子之間的距離矢量,利用KNN算法構(gòu)造分類器進(jìn)行問(wèn)句分類,在所采用的分類體系上達(dá)到89.8%的精確率。
4.4 最大熵模型
最大熵模型(Maximum Entropy Models)是個(gè)比較成熟的統(tǒng)計(jì)模型,適合解決分類問(wèn)題,目前在文本分類、詞性標(biāo)注、組塊識(shí)別等領(lǐng)域獲得成功應(yīng)用。其基本思想是:對(duì)未知的不做任何假設(shè),即在只掌握關(guān)于未知分布的部分知識(shí)時(shí),應(yīng)選取符合這些知識(shí)并且使得熵最大的概率分布。
對(duì)本地傳統(tǒng)產(chǎn)業(yè),不要只看到市場(chǎng)價(jià)格低賺不到錢(qián)沒(méi)有過(guò)開(kāi)發(fā)價(jià)值的一面,更要看到當(dāng)前的生產(chǎn)方式落后、工效低、消耗大、技術(shù)水平低、具有巨大的提升空間,通過(guò)分工合作、采用先進(jìn)生產(chǎn)技術(shù)和設(shè)備贏利潛力很大,且創(chuàng)業(yè)和就業(yè)前景很好的一面.其實(shí),只要傳統(tǒng)產(chǎn)業(yè)內(nèi)部各環(huán)節(jié)建立起分工合作的生產(chǎn)方式,并在此基礎(chǔ)上應(yīng)用先進(jìn)的生產(chǎn)技術(shù)和設(shè)備,農(nóng)業(yè)的產(chǎn)業(yè)化改造就有了起步,產(chǎn)品在市場(chǎng)上就有了競(jìng)爭(zhēng)力,外出務(wù)工人員回鄉(xiāng)創(chuàng)業(yè)、就業(yè)的機(jī)會(huì)就會(huì)不斷增加.從上面的分析中我們可以發(fā)現(xiàn),華堂村各項(xiàng)傳統(tǒng)產(chǎn)業(yè)的許多環(huán)節(jié)都可實(shí)行分工合作的生產(chǎn)方式來(lái)提高工效,降低消耗,提升技術(shù)水平,如:
對(duì)于訓(xùn)練樣本集T={(x1,y1),(x2,y2),…,(xn,yn)},其中xi(0<i<n+1)表示特征向量,yi(0<i<n+1)表示樣本對(duì)應(yīng)類別。在給定樣本T和相關(guān)約束條件下,存在一個(gè)唯一的概率模型P(y|x),其熵的分布最大,一般形式為:
當(dāng)前問(wèn)句分類的方法主要集中在兩方面:基于經(jīng)驗(yàn)規(guī)則的方法和基于統(tǒng)計(jì)的機(jī)器學(xué)習(xí)方法[23-24]。早期的研究主要是基于規(guī)則的方法,它是通過(guò)預(yù)先定義好的規(guī)則或模板來(lái)判定問(wèn)句所屬的類別[23,25]。這種方法雖然簡(jiǎn)單易行,但是需要花費(fèi)過(guò)多的人力、物力編寫(xiě)大量規(guī)則,此外,由于漢語(yǔ)的構(gòu)成語(yǔ)法比較復(fù)雜,要窮舉出所有的規(guī)則實(shí)屬不易,所以基于人工規(guī)則的方法有很大的局限性?,F(xiàn)在基于統(tǒng)計(jì)的機(jī)器學(xué)習(xí)方法由于通用性強(qiáng)、易于移植和擴(kuò)展等優(yōu)點(diǎn)被廣泛應(yīng)用,它先提取能表達(dá)各個(gè)問(wèn)句類型的特征向量,再對(duì)真實(shí)的已標(biāo)注的問(wèn)句語(yǔ)料進(jìn)行統(tǒng)計(jì)學(xué)習(xí)建立分類器,最后通過(guò)分類器實(shí)現(xiàn)對(duì)測(cè)試問(wèn)句的類別標(biāo)注。這種方法的關(guān)鍵在于提取問(wèn)句的特征向量,特征向量的優(yōu)良性直接影響著分類器的精度。
將最大熵模型應(yīng)用于問(wèn)句分類的相關(guān)研究工作主要有:Kocik在文獻(xiàn)[26]中提出將統(tǒng)計(jì)學(xué)方法中的最大熵分類法用于英文問(wèn)句分類,提取問(wèn)句焦點(diǎn)、問(wèn)句長(zhǎng)度、命名實(shí)體、詞塊等作為特征,大類和小類精度分別達(dá)到89.8%和85.4%,該方法的準(zhǔn)確率優(yōu)于當(dāng)時(shí)其他所有方法;Minh Le Nguyen在文獻(xiàn)[36]中提出將子樹(shù)挖掘方法用于問(wèn)句分類,該方法將問(wèn)句進(jìn)行分解,提取分解后的樹(shù)的子樹(shù)作為特征,用最大熵模型進(jìn)行分類,在TREC數(shù)據(jù)集上小類準(zhǔn)確率為83.6%;孫景廣等在文獻(xiàn)[18]中提出以問(wèn)題的疑問(wèn)詞、句法結(jié)構(gòu)、疑問(wèn)意向詞、疑問(wèn)意向詞在知網(wǎng)中的首義原作為分類特征,使用最大熵模型進(jìn)行分類,大類和小類的分類精度分別達(dá)到92.18%和83.86%;李茹等在文獻(xiàn)[37]中通過(guò)構(gòu)建一系列漢語(yǔ)框架語(yǔ)義特征來(lái)表達(dá)每個(gè)問(wèn)題的語(yǔ)義信息,再使用最大熵模型進(jìn)行中文問(wèn)題的自動(dòng)分類,與傳統(tǒng)的問(wèn)題分類技術(shù)相比,漢語(yǔ)框架語(yǔ)義信息的加入使得中文問(wèn)題分類的精度得到了顯著提高。
4.5 4種分類模型的比較
上面4節(jié)對(duì)常用于問(wèn)句分類的4種分類模型的基本思想和相關(guān)的研究工作做了簡(jiǎn)要介紹,表3從理論框架、線性關(guān)系、時(shí)間效率、分類精度及優(yōu)缺點(diǎn)這6個(gè)方面對(duì)這幾種模型做了比較分析。
表3 4種分類模型的比較Tab.3 Comparison of four classifier models
提取和選擇各種有效的問(wèn)句特征是問(wèn)句分類最大的難點(diǎn),也是決定分類結(jié)果好壞的關(guān)鍵所在。由于漢語(yǔ)的復(fù)雜性,無(wú)法判斷每個(gè)詞匯對(duì)分類的貢獻(xiàn)差別,而且問(wèn)句比較短,包含的特征較少,表層詞語(yǔ)信息并非都能充分反映問(wèn)句到底問(wèn)的是什么,因此如何合理地分配權(quán)值、無(wú)噪音地?cái)U(kuò)展、加入語(yǔ)法語(yǔ)義規(guī)則以及如何獲取所需特征都是難點(diǎn)所在。
由于問(wèn)句分類這一領(lǐng)域涉及面比較廣,如資源庫(kù)的建立、自然語(yǔ)言理解、統(tǒng)計(jì)理論和機(jī)器學(xué)習(xí)等,所以仍有一些問(wèn)題需要改進(jìn),未來(lái)的研究可以考慮以下幾個(gè)方向:
日本的啤酒也值得破例一飲嗎?飛赴東瀛的兩天前,參加一個(gè)餐敘,一位在日本生活過(guò)多年的朋友告訴我:“值!”于是,在京都、大阪的十幾天里,便不再約束自己,想喝便喝,親近日本啤酒。結(jié)果呢?感覺(jué)還真的不錯(cuò);更有價(jià)值的是,在啤酒之外,我還在更高層次上,有了始料未及的重大收獲。
(1)語(yǔ)言處理平臺(tái)的改進(jìn)。對(duì)問(wèn)句進(jìn)行分類首先要對(duì)問(wèn)句進(jìn)行預(yù)處理,提取特征都是在預(yù)處理的結(jié)果上進(jìn)行的,分詞、詞性標(biāo)注的正確率直接影響問(wèn)句分類的正確率,但是目前使用的LTP平臺(tái)效果并不是很理想,很多問(wèn)句分類的錯(cuò)誤都是由于分詞與詞性標(biāo)注的錯(cuò)誤導(dǎo)致的。例如問(wèn)句“遼寧又稱為什么?”經(jīng)過(guò)分詞和詞性標(biāo)注處理后結(jié)果為“遼寧|ns;又|d;稱|v;為什么|r;?|wp;”,這樣該問(wèn)句很容易被誤歸為原因類?;跅l件隨機(jī)場(chǎng)(CRF)的分詞和詞性標(biāo)注技術(shù)方法是當(dāng)前比較熱門(mén)的研究方法,可以考慮在此基礎(chǔ)上改善分詞和詞性標(biāo)注技術(shù)。
(2)問(wèn)句集的完善。中文問(wèn)句分類精度達(dá)不到英文問(wèn)句分類水平一方面是漢語(yǔ)的復(fù)雜性,還有一個(gè)原因就是受到語(yǔ)料庫(kù)規(guī)模和質(zhì)量的限制,一般來(lái)說(shuō),訓(xùn)練語(yǔ)料的規(guī)模越大,問(wèn)句覆蓋面越廣,學(xué)習(xí)的分類模型越完善,分類的效果也就越好,因此有必要擴(kuò)充語(yǔ)料。一方面可以考慮從Sogou問(wèn)問(wèn)、百度知道等問(wèn)答社區(qū)搜索問(wèn)句擴(kuò)充訓(xùn)練集,另一方面也可以采用半監(jiān)督或者無(wú)監(jiān)督主動(dòng)學(xué)習(xí)構(gòu)建訓(xùn)練集。
發(fā)達(dá)國(guó)家的綠色消費(fèi)水平之所以高,原因之一是他們?cè)诰G色農(nóng)產(chǎn)品的營(yíng)銷上形成了完整的體系。相對(duì)而言我國(guó)綠色營(yíng)銷起步較晚,綠色消費(fèi)的意識(shí)不強(qiáng)。在營(yíng)銷方面缺乏相應(yīng)的人才,尤其是綠色營(yíng)銷人才缺口較大,真正了解綠色營(yíng)銷的人也是少之又少。綠色營(yíng)銷人才的嚴(yán)重匱乏,導(dǎo)致酥梨綠色營(yíng)銷專業(yè)性不強(qiáng),系統(tǒng)性較差。
(3)訓(xùn)練數(shù)據(jù)均衡。訓(xùn)練數(shù)據(jù)在問(wèn)句類別上數(shù)量的不平衡導(dǎo)致分類器在不同的類別上表現(xiàn)出不同的性能,因此在主動(dòng)自動(dòng)擴(kuò)大訓(xùn)練語(yǔ)料規(guī)模的時(shí)候要更加注重語(yǔ)料的平衡性。
(4)分類器配合。現(xiàn)在大部分對(duì)分句分類的研究都基于單個(gè)分類器,多種分類器的并行組合和投票方法在問(wèn)句分類上的性能,也是需要進(jìn)一步研究的問(wèn)題。
(5)分類體系的統(tǒng)一。目前的分類體系還沒(méi)有一個(gè)統(tǒng)一的標(biāo)準(zhǔn),各個(gè)系統(tǒng)都根據(jù)系統(tǒng)的應(yīng)用領(lǐng)域自行定義類別,這也導(dǎo)致了訓(xùn)練數(shù)據(jù)很難共享。今后需要對(duì)問(wèn)句分類的標(biāo)準(zhǔn)做進(jìn)一步研究,以期得到一個(gè)折衷的分類體系。
問(wèn)句分類作為問(wèn)答系統(tǒng)的重要模塊,其主要目的就是確定用戶所提問(wèn)句的類型,它對(duì)后面的答案抽取策略有著間接決定性作用,因此提高問(wèn)句分類精度也是在改善整個(gè)系統(tǒng)的性能。本文從問(wèn)句分類體系、問(wèn)句特征提取和分類模型三個(gè)方面綜述了近年來(lái)自動(dòng)問(wèn)答系統(tǒng)中問(wèn)句分類的研究進(jìn)展,在分析了當(dāng)前問(wèn)句分類中存在的難點(diǎn)的同時(shí),又提出了今后在語(yǔ)言處理平臺(tái)、問(wèn)句集、分類器等方面的研究方向,為進(jìn)一步研究設(shè)計(jì)出更高性能的問(wèn)句分類器奠定了堅(jiān)實(shí)的基礎(chǔ)。
[1]張江濤,杜永萍.基于語(yǔ)義鏈的檢索在QA系統(tǒng)中的應(yīng)用[J].計(jì)算機(jī)科學(xué),2013,40(2):257-260.
[2]錢(qián)強(qiáng),龐林斌,高尚.一種基于詞共現(xiàn)圖的受限領(lǐng)域自動(dòng)問(wèn)答系統(tǒng)[J].計(jì)算機(jī)應(yīng)用研究,2013,30(3):841-843.
[3]鄭實(shí)福,劉挺,秦兵,等.自動(dòng)問(wèn)答綜述[J].中文信息學(xué)報(bào),2002,16(6):46-52.
[4]劉挺,秦兵,張宇,等.信息檢索系統(tǒng)導(dǎo)論[M].北京:機(jī)械工業(yè)出版社,2008:21-255.
[5]嵇宇,王榮波,諶志群.基于句法分析和二次貝葉斯模型的受限域問(wèn)題分類[J].計(jì)算機(jī)應(yīng)用,2012,32(6):1685-1687,1689.
[6]Huang Z H,Thint M,Celikyilmaz A.Investigation of question classifier in question answering[C]//Proceedings of the 2009 Conference on Empirical Methods in Natural Language Processing(EMNLP).Singapore:Association for Computational Linguistics, 2009:543-550.
[7]蘇斐,高德利,葉晨.Web問(wèn)答系統(tǒng)中問(wèn)句理解的研究[J].測(cè)試技術(shù)學(xué)報(bào),2012,26(3):207-212.
[8]毛先領(lǐng),李曉明.問(wèn)答系統(tǒng)研究綜述[J].計(jì)算機(jī)科學(xué)與探索,2012,6(3):193-207.
[9]Li X,Roth D.Learning Question Classifiers:the role of semantic information[J].Journal of Natural Language Engineering,2006, 12(3):229-250.
[10]Zhang D,Lee W S.Question classification using support vector machines[C]//Proceedings of the 26th annual international ACM SIGIR conference on Research and development in information retrieval.New York:ACM Press,2003:26-32.
[11]姜東洋.基于知網(wǎng)的中文問(wèn)答系統(tǒng)問(wèn)題理解與研究[D].遼寧:大連理工大學(xué),2007.
[12]文勖,張宇,劉挺.基于句法結(jié)構(gòu)分析的中文問(wèn)題分類[J].中文信息學(xué)報(bào),2006,20(2):33-39.
[13]程澤凱,陸小藝.文本分類中的特征選擇方法[J].安徽工業(yè)大學(xué)學(xué)報(bào):自然科學(xué)版,2004,21(3):220-224.
[14]張宇,劉挺,文勖.基于改進(jìn)貝葉斯模型的問(wèn)題分類[J].中文信息學(xué)報(bào),2005,19(2):100-105.
[15]李鑫,黃萱菁,吳立德.基于錯(cuò)誤驅(qū)動(dòng)算法組合分類器及其在問(wèn)題分類中的應(yīng)用[J].計(jì)算機(jī)研究與發(fā)展,2008,45(3):535-541.
[16]Wu Y Z,Zhao J,Xu B.Chinese question classification from approach and semantic view[C]//Proceedings of the SecondAsia Information Retrieval Symposium.Ieju Island,Korea:[s.n.],2005:485-490.
[17]Huang Z H,Thint M,Qin Z C.Question classification using head words and their hypernyms[C]//Proceedings of the 2008 Conference in Empirical Methods in Natural Language Processing(EMNLP).Honolulu:Association for Computational Linguistics, 2008:927-936.
[18]孫景廣,蔡?hào)|風(fēng),呂德新.基于知網(wǎng)的中文問(wèn)題自動(dòng)分類[J].中文信息學(xué)報(bào),2007,21(1):90-95.
[19]余正濤,樊孝忠,郭劍毅.基于支持向量機(jī)的漢語(yǔ)問(wèn)句分類[J].華南理工大學(xué)學(xué)報(bào):自然科學(xué)版,2005,33(9):25-29.
[20]Li X,Roth D.The role of semantic information in learning question classifiers[C]//Proceedings of the 1st International Joint Conference on Natural Language Processing.Berlin:[s.n.],2004:451-458.
[21]楊思春,高超,秦峰,等.融合基本特征和詞袋綁定特征的問(wèn)句特征模型[J].中文信息學(xué)報(bào),2012,26(5):46-52.
[22]楊思春,高超,戴新宇,等.基于詞袋綁定的問(wèn)句新特征自動(dòng)生成[J].北京理工大學(xué)學(xué)報(bào),2012,32(6):590-595.
[23]Hovy E,Gerber L,Hermjakob U,et al.Toward semantics-based answer pinpointing[C]//Proceedings of the first international conference on Human Language Technology(HLT)research.Stroudsburg:Association for Computational Linguistics,2001:1-7.
[24]張志昌,張宇,劉挺,等.開(kāi)放域問(wèn)答技術(shù)研究進(jìn)展[J].電子學(xué)報(bào),2009,37(5):1058-1067.
[25]Magnini B,Nergri M,Prevete R,et al.Mining knowledge from repeated co-occurrences:DIOGENE at TREC 2002[C]//Proceedings of the 11th Text Retrieval Conference.Gaithersburg:NIST Press,2002.
[26]Kocik K.Question classification using maximum entropy models[D].Sydney:the University of Sydney,2004.
[27]田衛(wèi)東,高艷影,祖永亮.基于自學(xué)習(xí)規(guī)則和改進(jìn)貝葉斯結(jié)合的問(wèn)題分類[J].計(jì)算機(jī)應(yīng)用研究,2010,27(8):2869-2871.
[28]許莉,王大玲,夏秀峰.基于句法和語(yǔ)義信息的問(wèn)句特征提取方法[J].計(jì)算機(jī)工程,2010,36(21):65-66,70.
[29]Zhang X G.Introduction statistical learning theory and support vector machine[J].ActaAutomatica Sinica,2000,26(1):32-42.
[30]陳欣,鄭嘯,焦媛媛,等.一種基于支持向量機(jī)的垃圾微博識(shí)別方法[J].安徽工業(yè)大學(xué)學(xué)報(bào):自然科學(xué)版,2013,30(10):440-445.
[31]延霞,范士喜.面向問(wèn)答社區(qū)的粗粒度問(wèn)句分類算法[J].計(jì)算機(jī)應(yīng)用與軟件,2013,30(1):219-222,286.
[32]Hsu C W,Lin C J.A comparison of methods for multiclass support vector machines[J].IEEE Transactions on Neural networks, 2002,13(23):415-425.
[33]Sundblad H.A Re-examination of question classification[C]//Proceedings of the 16th Nordic Conference of Computational Linguistics NODALIDA-2007.Tartu,Estonia:[s.n.],2007:394-397.
[34]賈可亮,樊孝忠,許進(jìn)忠.基于KNN的漢語(yǔ)問(wèn)句分類[J].微電子學(xué)與計(jì)算機(jī),2008,25(1):156-158.
[35]Berger A,Pietra V,Pietra S.A maximum entropy approach to natural language processing[J].Computational Linguistics,1996, 22(1):39-71.
[36]Nguyen M L,Nguyen T T,Shimazu A.Subtree mining for question classification problem[C]//Proceedings of the 20th International Joint Conference onArtificial Intelligence.San Francisco:Morgan Kaufmann Publishers Inc,2007:1695-1700.
[37]李茹,宋小香,王文晶.基于漢語(yǔ)框架網(wǎng)的中文問(wèn)題分類[J].計(jì)算機(jī)工程與應(yīng)用,2009,45(31):111-114,137.
責(zé)任編輯:丁吉海
Overview on Question Classification in Question-answering System
ZHEN Lihua1,WANG Xiaolin2,YANG Sichun2
(1.School of Management,Nantong University,Nantong 226019,China;2.School of Computer Science and Technology,Anhui University of Technology,Ma'anshan 243002,China)
Question classification,as the first step of question-answering system,plays an important role in the system.Its accuracy affects the final extraction of the answer directly.Based on the concept of question classification,this paper first elaborated the question classification system,the question classification method and the question classification feature extraction.Then it focused on the several mainstream learning models for question classification,and made a comparison of these models.Finally the current research difficulties of question classification and the future research trend were indicated.
question-answering system;question classification;feature extraction;classification model
TP391
A
10.3969/j.issn.1671-7872.2015.01.010
2014-09-24
國(guó)家自然科學(xué)基金項(xiàng)目(61003311);安徽省高校省級(jí)自然科學(xué)基金項(xiàng)目(KJ2011A040)
鎮(zhèn)麗華(1988-),女,江蘇南通人,碩士,主要研究方向?yàn)樽匀徽Z(yǔ)言處理。
王小林(1964-),男,安徽安慶人,教授,主要研究方向?yàn)槿斯ぶ悄?、中文信息處理?/p>
1671-7872(2015)-01-0048-07
安徽工業(yè)大學(xué)學(xué)報(bào)(自然科學(xué)版)2015年1期