唐 勇
(常州紡織服裝職業(yè)技術(shù)學(xué)院常州213164)
基于領(lǐng)域本體的自動應(yīng)答系統(tǒng)典型問句分析*
唐勇
(常州紡織服裝職業(yè)技術(shù)學(xué)院常州213164)
基于領(lǐng)域本體來研究自動問答系統(tǒng)中用戶問句的分析與處理方法。通過構(gòu)建旅游領(lǐng)域的本體知識庫,梳理了旅游電商領(lǐng)域各種概念之間的關(guān)聯(lián)。通過在本體知識庫中加入程度形容詞類和疑問詞類,定義這些詞語與本體中概念類的修飾和指代關(guān)系。分析了如何利用本體知識庫對用戶的四種典型問句進(jìn)行處理,為后續(xù)問句的答案處理提供了技術(shù)準(zhǔn)備。
領(lǐng)域本體 自動應(yīng)答 問句分析
隨著電子商務(wù)的普及和發(fā)展,越來越多的企業(yè)需要構(gòu)建自動應(yīng)答系統(tǒng)為用戶提供實(shí)時(shí)的業(yè)務(wù)咨詢和問題解決方案,在此過程中如何理解用戶提出的問題并返回準(zhǔn)確的答案,即問句的分析與匹配是自動應(yīng)答系統(tǒng)的實(shí)現(xiàn)基礎(chǔ)。
中文問句分析與匹配的主要方法有:基于關(guān)鍵詞匹配的分析、基于概念的分析、基于模式匹配的分析和基于語義理解的分析[1]。其中,基于關(guān)鍵詞匹配的分析依據(jù)向量空間模型計(jì)算關(guān)鍵詞在常見問題集合中出現(xiàn)的頻率,選擇匹配值高的問題作為答案[2],其缺點(diǎn)是割裂了關(guān)鍵詞之間語義關(guān)系;基于語義理解的分析考慮了問句中關(guān)鍵詞之間的依存關(guān)系,包括內(nèi)在聯(lián)系和修飾關(guān)系[3],常利用知網(wǎng)或同義詞詞林對問句中的關(guān)鍵詞進(jìn)行詞語相似度計(jì)算[5]。然而,知網(wǎng)和同義詞詞林給出的是詞與詞之間的普遍意義,沒有結(jié)合特定領(lǐng)域的知識。
本文以旅游電子商務(wù)中用戶在線咨詢?yōu)閼?yīng)用場景,構(gòu)建面向旅游電子商務(wù)的知識本體,分析該領(lǐng)域用戶咨詢的特點(diǎn),分析問句的問點(diǎn)、對象和疑問詞等關(guān)鍵特征,然后在本體知識庫中匹配問句、抽取問題答案。
本體被定義為“共享概念模型的明確的形式化規(guī)范說明”,它以計(jì)算機(jī)可讀的方式為現(xiàn)實(shí)世界中各種事物或現(xiàn)象做了概念定義,并描述了這些概念之間的相互關(guān)系,使得知識的重用和共享成為可能。領(lǐng)域本體是指特定領(lǐng)域中概念與概念之間的相互關(guān)系,提供了該領(lǐng)域的相關(guān)詞匯和概念。
Protege軟件是斯坦福大學(xué)開發(fā)的本體編輯和知識獲取工具,能夠快速的進(jìn)行本體建模。針對旅游電子商務(wù)領(lǐng)域涉及到的相關(guān)概念,根據(jù)Gruber提出本體構(gòu)建的五個準(zhǔn)則,使用protege軟件構(gòu)建旅游電子商務(wù)的本體,如圖1所示。該本體中主要涉及到人、景點(diǎn)、交通工具、組織機(jī)構(gòu)、地理位置、線路和票據(jù)等類,這些類又可以進(jìn)一步劃分為若干子類,比如人可以分為客戶和導(dǎo)游;組織機(jī)構(gòu)分為:景點(diǎn)管理機(jī)構(gòu)、旅行社、酒店和保險(xiǎn)公司等;景點(diǎn)可以劃分為人文景點(diǎn)和自然景點(diǎn);票據(jù)包括門票、車票和住宿發(fā)票等。
本體中的類具有數(shù)據(jù)屬性和對象屬性。其中,數(shù)據(jù)屬性表明類具有的某種狀態(tài),比如景點(diǎn)類具有開放時(shí)間、關(guān)閉時(shí)間、面積大小等屬性;車票類具有價(jià)格、發(fā)車時(shí)間等屬性。對象屬性表明多個實(shí)體類之間的相互關(guān)聯(lián),例如:預(yù)定屬性表示客戶和酒店之間的“預(yù)定”關(guān)系,其定義域?yàn)榭蛻?,值域?yàn)榫频?;交通工具和景點(diǎn)之間具有“到達(dá)”的屬性關(guān)系等。
中文問句的類型大致可以劃分為是非問句、正反問句、選擇型問句和特指問句,如表1所示。
表1 中文問句類型及結(jié)構(gòu)分析
1、“是非問句”一般以疑問詞結(jié)尾。通過定義一個“是非疑問詞”列表來檢測,若問句中含有是非疑問詞,則進(jìn)一步判斷問句結(jié)構(gòu)是否為“名詞+形容詞+疑問代詞”,若是,那么問點(diǎn)應(yīng)是名詞的某種屬性,而該屬性可能被多種形容詞修飾。
例如,“恐龍園貴嗎?”這句話實(shí)際上是想詢問恐龍園門票的價(jià)格。修飾價(jià)格的形容詞除了“貴”之外還可能是“高、低、便宜”等。在本體中添加“程度類”與“屬性類”,其中“程度類”包含了“高、低、遠(yuǎn)、近、大、小、多、少、貴、便宜”等形容詞語?!皩傩灶悺卑恕皟r(jià)格、距離、面積、價(jià)格,等級”等的名詞。定義價(jià)格屬性的值域?yàn)椤案?、低、貴、便宜”等,面積屬性的值域?yàn)椤按?、小”等。如圖2中紅色虛線所示。當(dāng)在本體中查詢形容詞“貴”的修飾關(guān)系時(shí)可以得到價(jià)格屬性,進(jìn)而發(fā)現(xiàn)價(jià)格屬性的擁有者是門票類,問句被轉(zhuǎn)化為“恐龍園+門票+價(jià)格”。進(jìn)一步挖掘可以回溯到景點(diǎn)管理機(jī)構(gòu)、景點(diǎn)和位置信息。類似的,“恐龍園大嗎?”則通過形容詞“大”和“恐龍園”景點(diǎn)推出其修飾的是“面積”,因此返回“恐龍園+面積”的相關(guān)信息。
“是非問句”還有可能是“主語+謂語+賓語+疑問代詞”或“主語+介詞+賓語+疑問代詞”的結(jié)構(gòu)。對此類型可以直接在本體中查詢主語和賓語的關(guān)聯(lián)關(guān)系。例如“常州有地鐵嗎?”提取出“常州”和“地鐵”,通過本體查詢可以獲取“常州”是位置類的實(shí)例,“地鐵”是交通工具類的實(shí)例,在本體模型中位置和交通工具之間為“擁有”關(guān)系。例如“恐龍園在常州嗎?”提取出“常州”和“恐龍園”,通過本體查詢可知“恐龍園”是景點(diǎn)類的實(shí)例,它與位置類的實(shí)例“常州”之間是“位于”的關(guān)系。
部分“特指問句”具有“多+程度形容詞”的結(jié)構(gòu)。例如“市區(qū)到恐龍園有多遠(yuǎn)?”可以提取程度形容詞,按照“是非問句”的分析方式進(jìn)行處理。
2、“正反問句”含有“肯定否定組合詞”。例如“可不可以”、“能不能”、“是否”等,可以將其轉(zhuǎn)換為是非問句。例如“恐龍園門票貴不貴”被轉(zhuǎn)換為“恐龍園門票貴嗎”,“常州有沒有地鐵嗎?”被轉(zhuǎn)化為“常州有地鐵嗎?”。然后按照“是非問句”的方法進(jìn)行處理。
3、“選擇問句”含有“是……還是”的選擇項(xiàng)。可以根據(jù)此特征將問句劃分為兩個“是非問句”。例如“去常州是坐汽車快還是坐火車快?”被轉(zhuǎn)化為“去常州做汽車快嗎?”和“去常州做火車快嗎?”兩個是非問句。在本體中的關(guān)系如圖3所示。汽車和火車都是交通工具類的子類,而常州是位置類的實(shí)例。在本體模型中路線類具有時(shí)間,時(shí)間類又被程度詞“快、慢、長、短”等修飾,而路線和位置是到達(dá)關(guān)系。通過在本體中查找程度詞“快”并結(jié)合位置類和交通工具類可以返回有關(guān)路線的信息。
4、“特指問句”通常用疑問詞代替未知的部分,這些疑問詞包括“怎么、什么、哪里”等。例如“常州恐龍園在哪里?”。在旅游電商領(lǐng)域特指問句的問點(diǎn)一般集中在時(shí)間、位置、路線、交通等方面。將疑問詞分為位置疑問詞,例如“哪兒、哪里、哪個”等;方式疑問詞,例如“如何、怎么”等;針對物的疑問代詞包括“哪些、哪個、什么”等。在本體中建立“疑問代詞”類,并設(shè)置與位置、路線、交通、景點(diǎn)等類之間具有“疑問指代”的關(guān)聯(lián)關(guān)系。以路線和位置類為例,它們和“疑問代詞”類之間具有圖3所示的關(guān)聯(lián)關(guān)系。
借助哈工大語言云系統(tǒng)的分析可以得出圖4所示的語句依存關(guān)系。若疑問代詞在語句中的成分是賓語(POB或VOB),那么提取出主語(SVB);若疑問代詞為主語(SVB),則提取出賓語部分;進(jìn)一步在本體中查詢疑問詞的修飾的對象是位置、方式還是事物。若疑問詞在句子中作為修飾成分ATT或ADV,那么提取出句子的主語和賓語部分,結(jié)合疑問詞在本體中可以修飾對象進(jìn)行本體查詢。
根據(jù)對問句的分析將“選擇問句”、“正反問句”、帶有“多+形容詞”的特指問句轉(zhuǎn)換為“是非問句”。其流程處理為提取問句的主語、賓語等實(shí)體名詞;在本體中查找被“程度詞”修飾的類;結(jié)合這些修飾類和主語名詞在本體中進(jìn)行匹配。對于“特指問句”則在本體中查找疑問代詞的指代類,結(jié)合這個類和語句中的實(shí)體名詞在本體中進(jìn)行三元組的匹配。
基于Protege構(gòu)建的本體可以被保存為xml格式的文檔。本體的查詢可以使用SparQL技術(shù),SparQL是W3C組織推薦的標(biāo)準(zhǔn)本體查詢語言,其語法結(jié)構(gòu)類似數(shù)據(jù)查詢語言SQL。例如在旅游本體中查詢“到達(dá)常州的旅行線路”可以采用以下的語句。
PREFIXtour:
SELECT?rout
FROM
WHERE{?site tour:location"changzhou".
?rout tour:weblog?site.}
本文介紹了領(lǐng)域本體的概念并使用Protege工具構(gòu)建了旅游領(lǐng)域本體;根據(jù)旅游電商自動問答系統(tǒng)的需求,分析了該領(lǐng)域內(nèi)常用的四種典型問句:是非問句、選擇問句、正反問句和特指問句。通過在本體中加入程度形容詞、疑問代詞,將典型問句中常用的疑問詞與旅游本體的類通過對象屬性有效關(guān)聯(lián)起來;詳細(xì)闡述了如何利用本體識別典型問句的潛在含義,從而為自動應(yīng)答系統(tǒng)的答案抽取提供了技術(shù)準(zhǔn)備。
[1]王恒.中文問答系統(tǒng)的研究與實(shí)現(xiàn)[D].哈爾濱工業(yè)大學(xué).2008:23-25.
[2]秦兵,劉挺等.基于常問問題集的中文問答系統(tǒng)研究[J].哈爾濱工業(yè)大學(xué)學(xué)報(bào).2003(35):10.
[3]強(qiáng)繼朋.FAQ系統(tǒng)中的問句相似度研究[D].合肥工業(yè)大學(xué).2013:12-14.
[4]郭艷華,周昌樂.一種漢語語句依存關(guān)系網(wǎng)協(xié)動生成方法研究[J].杭州電子工業(yè)學(xué)院學(xué)報(bào),2000,20(4):24-32
[5]田久樂,趙蔚.基于同義詞詞林的詞語相似度計(jì)算方法[J].吉林大學(xué)學(xué)報(bào).2010(06):605.
Analysis on the Typical Question of Auto-answering System Based on Domain Ontology
TangYong
(Changzhou Textile and Garment InstituteChangzhou213164)
To research the method of question analysis and processing in auto-answering system based on domain ontology.This paper sorted out the the relationship between different concepts in the field of tourism e-commerce by building the domain ontology knowledge base.Defined the modified and referential relationships between the domain concepts and classes of adjective words and interrogative words which are adding to the domain ontology knowledge base.Analyzed how to use the domain ontology knowledge base to process the four typical question in the tourism e-commerce field,which will give the technical preparation for the following answers processing in auto-answering system.
Domain ontologyAuto-answeringQuestion analysis
TP391.12
A
160801-7352
常州紡織服裝職業(yè)技術(shù)學(xué)院應(yīng)用技術(shù)類課題(編號:CFK201512)
唐勇(1982~),男(漢族),安徽滁州人,碩士,講師。研究領(lǐng)域:電子商務(wù)。