亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于BDI的語義搜索及其在數(shù)字旅游中的應(yīng)用

        2016-09-08 10:41:34李銀勝沈劍平
        計算機(jī)應(yīng)用與軟件 2016年8期
        關(guān)鍵詞:詞典語義特征

        陳 昊 李銀勝 沈劍平

        (復(fù)旦大學(xué)軟件學(xué)院 上海 201203) (電子商務(wù)交易技術(shù)國家工程實驗室 上海 201203)

        ?

        基于BDI的語義搜索及其在數(shù)字旅游中的應(yīng)用

        陳昊李銀勝沈劍平

        (復(fù)旦大學(xué)軟件學(xué)院上海 201203) (電子商務(wù)交易技術(shù)國家工程實驗室上海 201203)

        目前的上下文處理方法對語義技術(shù)支持不足,導(dǎo)致語義搜索在精準(zhǔn)度和智能化上存在局限。提出一種基于BDI(Belief-Desire-Intention)的語義搜索方法,對動態(tài)上下文進(jìn)行語義描述,利用BDI機(jī)制優(yōu)化搜索結(jié)果。該方法將用戶查詢、動態(tài)上下文與BDI框架的Belief融合,通過產(chǎn)品特征語義、業(yè)務(wù)語義推理上下文特征和搜索目標(biāo)特征作為Desire,通過基于MinHash的語義相似度計算進(jìn)行候選Intention排序。結(jié)合項目需求,在JADEX開源BDI Agent環(huán)境下,開發(fā)了基于上述語義搜索的旅游產(chǎn)品搜索系統(tǒng)。該系統(tǒng)通過ID3決策樹提取用戶當(dāng)前行程的上下文特征實現(xiàn)了語義搜索功能,實驗表明該方法搜索準(zhǔn)確率相比僅使用語義相似度搜索方法明顯提高,能夠滿足旅游產(chǎn)品搜索的要求。

        BDI語義搜索上下文

        0 引 言

        CNNIC的統(tǒng)計數(shù)據(jù)表明,截至2014年6月,我國搜索用戶規(guī)模達(dá)5.07億,較2013年12月增長1783萬人,用戶對搜索個性化、智能化的搜索需求增加[1]。電子商務(wù)發(fā)展使各行各業(yè)向互聯(lián)網(wǎng)轉(zhuǎn)型,傳統(tǒng)信息檢索系統(tǒng)由于對上下文考慮不足,面對各種不同應(yīng)用場景時,準(zhǔn)確度難以有較大提高。例如在旅游領(lǐng)域,游客安排行程時考慮因素復(fù)雜,需要在電商網(wǎng)站分析比對各種產(chǎn)品信息,由于缺乏上下文支持,較難獲得個性化的搜索結(jié)果,用戶需耗費(fèi)大量精靈尋找滿足行程需求的產(chǎn)品。

        目前互聯(lián)網(wǎng)上常見的全文搜索引擎與電商平臺的搜索功能中,均有語義技術(shù)應(yīng)用。全文搜索引擎一般使用文本模型如概率模型、語言模型進(jìn)行建模,結(jié)合知識圖譜技術(shù)實現(xiàn)更精準(zhǔn)的搜索[3,4];電商網(wǎng)站如淘寶、京東等,面向領(lǐng)域,使用文本模型、反作弊模型、服務(wù)質(zhì)量模型等進(jìn)行多層次篩選。語義技術(shù)從傳統(tǒng)的概念匹配、歧義消解[5,6],到現(xiàn)在更多與信息檢索緊密結(jié)合,用于解決日益嚴(yán)重的信息過載問題。

        為提供良好用戶體驗,語義搜索需要上下文處理技術(shù)的支持,而目前相關(guān)應(yīng)用存在以下局限:1)語義搜索類應(yīng)用對上下文考慮不足,尚未與上下文緊密結(jié)合;2)查詢歷史、用戶信息等靜態(tài)資源作為搜索上下文,使用離線分析解決智能化問題導(dǎo)致實時性較低;3)使用業(yè)務(wù)規(guī)則的方法在處理業(yè)務(wù)復(fù)雜的場景如旅游產(chǎn)品搜索時規(guī)則庫構(gòu)造復(fù)雜難以維護(hù)。

        本文結(jié)合筆者參與的旅游集散網(wǎng)(Travelhub.cn)項目,在用戶搜索過程中,需要根據(jù)用戶行程單中已添加的行程安排,提供個性化的旅游產(chǎn)品搜索結(jié)果??紤]到傳統(tǒng)方法的不足之處,本文提出了一種基于BDI的語義搜索方法,該方法使用JADEX[2]開源BDI Agent環(huán)境,從產(chǎn)品特征語義,業(yè)務(wù)語義出發(fā)構(gòu)建語義詞典,結(jié)合動態(tài)上下文推理搜索目標(biāo),將MinHash語義相似度用于選項匹配。本文實現(xiàn)了針對旅游產(chǎn)品的語義搜索原型系統(tǒng)。該系統(tǒng)使用ID3決策樹多維度動態(tài)提取搜索上下文特征,改進(jìn)語義搜索對實時、動態(tài)的上下文支持,提高精準(zhǔn)度和智能化程度。

        1 相關(guān)工作

        語義搜索需要上下文處理技術(shù)的支持以提高用戶體驗。上下文從來源上可區(qū)分為三類,用戶上下文,資源上下文和系統(tǒng)上下文[7]。用戶上下文指用戶本身信息及其在檢索過程中隱含的信息;資源上下文指選項本身包含的上下文信息,例如網(wǎng)頁中的超鏈接等。系統(tǒng)上下文指系統(tǒng)所采用的檢索模型,檢索界面等。對這些上下文信息的處理方法主要有以下幾類:

        1) 規(guī)則推理方法

        該方法通過顯式反饋,偽反饋收集上下文信息,如用戶在搜索過程中,系統(tǒng)向用戶提出問題,或由用戶主動設(shè)定上下文,如淘寶等網(wǎng)站中在搜索商品時可自行設(shè)置搜索的情景、偏好等,作為搜索權(quán)重調(diào)整依據(jù)。相關(guān)應(yīng)用可以獲取最準(zhǔn)確的上下文信息,但無法為用戶提供簡潔的體驗。另外規(guī)則條件需要構(gòu)造專家知識庫,維護(hù)工作量大。

        2) 機(jī)器學(xué)習(xí)方法

        此類方法一般通過隱式反饋收集上下文信息,如面向用戶上下文的方法,如點擊流反饋模型[8],啟發(fā)式二元投票模型[9],相關(guān)應(yīng)用有基于Oracle Spatial空間數(shù)據(jù)和MapXtreme的個性化行程定制[11]等,缺點是對數(shù)據(jù)記錄進(jìn)行離線分析導(dǎo)致對動態(tài)上下文信息支持不足;另一類面向資源上下文,如在網(wǎng)頁對象排序中將網(wǎng)頁對象本身屬性作為上下文,如基于超鏈接分析的HITS算法[10]等,缺點是算法根據(jù)特定選項類型構(gòu)造,通用性不足。相比前者,機(jī)器學(xué)習(xí)方法具有更好的用戶體驗,但相關(guān)應(yīng)用在處理上下文時,對上下文的動態(tài)性、實時性考慮不足。

        3) Agent方法

        Agent方法利用了Agent架構(gòu)本身的自治性、社會性、反映性、能動性特點,如文獻(xiàn)[12]將基于Agent的將語義搜索應(yīng)用于UDDI中的Web服務(wù)發(fā)現(xiàn),但未考慮上下文。Agent架構(gòu)繁多,文獻(xiàn)[13]中提出了使用BDI架構(gòu)的Agent建模方法。文獻(xiàn)[14]在此基礎(chǔ)上,構(gòu)建了一種BDI Agent平臺的運(yùn)行框架。目前該框架已有多種實現(xiàn),如JADEX等。BDI框架的應(yīng)用通常適用于根據(jù)外界環(huán)境變化觸發(fā)動作,來完成指定的目標(biāo)。如文獻(xiàn)[15]實現(xiàn)了一個基于BDI的旅游個人助理Agent,根據(jù)處理用戶在旅游行程中的位置變化個性化搜索結(jié)果,文獻(xiàn)[16]利用BDI推理框架將用戶模型作為上下文,通過AHP層次分析法實現(xiàn)了基于用戶模型的產(chǎn)品推薦。BDI Agent架構(gòu)設(shè)計使得其在適合用于處理動態(tài)上下文,但主要基于傳統(tǒng)搜索的混合加權(quán),與語義技術(shù)結(jié)合尚不緊密,有待完善。

        總結(jié)以上三類方法,其優(yōu)缺點如表1所示。

        表1 上下文處理技術(shù)優(yōu)缺點總結(jié)

        為改善現(xiàn)有語義搜索技術(shù)中上下文處理方法的動態(tài)性、實時性,本文參考Agent方法,以及其中的BDI架構(gòu),設(shè)計了一種基于BDI的語義搜索方法。將該方法用于BDI推理中的Belief生成,Desire推理,Intention匹配計算,并實現(xiàn)了面向旅游產(chǎn)品語義搜索的應(yīng)用,在利用語義匹配較好精準(zhǔn)度同時,能夠適應(yīng)行程的動態(tài)上下文需求。

        2 基于BDI的語義搜索方法

        2.1BDI基礎(chǔ)架構(gòu)

        BDI架構(gòu)包含三個主要概念,Belief(信念),即Agent具有的上下文信息,資源信息的集合。Desire(期望),即Agent期望達(dá)到或保持的狀態(tài)。Intention(意圖),基于BDI架構(gòu)的Agent通過執(zhí)行Intention來接近或達(dá)到Desire的狀態(tài)。

        Belief包含用戶查詢,選項數(shù)據(jù)和外部上下文數(shù)據(jù)。搜索上下文變化,用戶查詢輸入均會導(dǎo)致Belief的更新,查詢輸入觸發(fā)事件,引起B(yǎng)DI Agent內(nèi)部狀態(tài)變化,Agent將根據(jù)Belief生成Desire。在Desire的執(zhí)行和推理過程中,需要通過可執(zhí)行動作的Intention權(quán)重來選取適當(dāng)?shù)膭幼鲌?zhí)行。

        BDI Agent執(zhí)行的基本流程如圖1所示。

        圖1 BDI Agent執(zhí)行流程

        圖1分為以下三個主要環(huán)節(jié):1)用戶發(fā)起查詢后,BDI Agent首先需要根據(jù)用戶輸入的內(nèi)容與上下文信息,更新Belief內(nèi)容,如用戶查詢的特征詞、用戶上下文的內(nèi)容等;2)更新內(nèi)容結(jié)合Belief中已有的領(lǐng)域語義詞典、候選項特征,生成Desire,即用戶期望的選項特征;3)根據(jù)該特征,執(zhí)行語義搜索,計算Intention與Desire間的語義相似度,得到最符合用戶Desire的Intention,執(zhí)行并向用戶展示結(jié)果。

        下文將介紹在環(huán)節(jié)1中的Belief構(gòu)造和更新方式,環(huán)節(jié)2中使用Belief內(nèi)容生成Desire的方法和環(huán)節(jié)3中Intention語義搜索的相似度權(quán)重計算。

        2.2Belief構(gòu)造與更新

        Belief含義為Agent對世界和自身的認(rèn)識,Agent的Belief包含三個部分:

        1) 會話上下文數(shù)據(jù)用戶的每次會話包含了查詢目標(biāo),可能關(guān)聯(lián)多次查詢。以查找旅游產(chǎn)品為例,用戶可能先輸入由地理位置形容的關(guān)鍵詞“附近的餐飲”,再補(bǔ)充輸入產(chǎn)品的類別信息“高端”等,可自動將產(chǎn)品類別限制為“餐飲”,提高檢索效率。

        2) 產(chǎn)品數(shù)據(jù)及其領(lǐng)域語義詞典產(chǎn)品數(shù)據(jù)中的產(chǎn)品特征將用于后期Intention的權(quán)重計算。例如產(chǎn)品的種類、特點、關(guān)鍵概念等。語義詞典則用于消除特征中的歧義,實現(xiàn)語義化的搜索。本文構(gòu)建的旅游領(lǐng)域語義詞典使用TF-IDF,對排除停止詞后的語料提取旅游產(chǎn)品描述中的關(guān)鍵概念。在此基礎(chǔ)上,選取屬于旅游產(chǎn)品領(lǐng)域詞典子集的高頻詞作為旅游產(chǎn)品特征。

        3) 外部上下文數(shù)據(jù)外部上下文數(shù)據(jù)將用于業(yè)務(wù)規(guī)則的觸發(fā),例如旅游場景中,當(dāng)前已選擇的旅游產(chǎn)品、天氣、地理位置等。上下文數(shù)據(jù)提取方法根據(jù)適用場景有所區(qū)別,提取出的外部上下文的特征作為選項匹配的依據(jù)之一。

        Belief有以下兩種更新方式:

        1) 用戶行為更新按用戶輸入更新會話上下文數(shù)據(jù)和高實時性的外部上下文數(shù)據(jù)。

        2) 后臺異步更新考慮實現(xiàn)階段的性能問題,對性能要求高,實時性要求低的數(shù)據(jù),如旅游產(chǎn)品數(shù)據(jù)的領(lǐng)域語義詞典和旅游產(chǎn)品概念的提取,采取后臺更新的策略,Agent不會主動感知Belief的更新。當(dāng)用戶發(fā)起新查詢時,Agent會使用最新版本的數(shù)據(jù)進(jìn)行推理。

        2.3Desire生成策略

        Desire含義為Agent需求目標(biāo),即對搜索目標(biāo)的具體特征要求。在旅游場景中,Desire即為用戶期望產(chǎn)品的特征,這些特征從用戶的查詢中獲取。Desire依據(jù)業(yè)務(wù)規(guī)則的推理結(jié)果和用戶輸入生成。Desire最終表達(dá)為一組語義特征集合,用于Intention傾向的計算。

        Desire生成方法如下:

        1) 基于用戶查詢內(nèi)容對用戶查詢內(nèi)容進(jìn)行分詞后,提取其中的有效特征,直接作為Desire中的語義特征集合。

        2) 基于上下文信息例如用戶的行程選擇反映了其旅行目的等因素。上下文信息的使用方法眾多,受上下文信息種類的約束。如文獻(xiàn)[15]在構(gòu)建上下文信息時以地理位置等信息構(gòu)建。文獻(xiàn)[16]以用戶模型作為上下文。為保證上下文的全面性,Desire的推理方法是可擴(kuò)展的。本文的后續(xù)實現(xiàn)基于旅游場景,考慮到旅游行程的連續(xù)性、動態(tài)性特點,通過選取具有類似特征但尚未選擇的產(chǎn)品作為搜索的上下文,可在多維度上使用決策樹進(jìn)行分類,將ID3決策樹規(guī)則作為上下文特征的生成依據(jù)。

        生成語義特征后,將合并特征并使用語義詞典的關(guān)系,如同義關(guān)系等,消除特征歧義,形成本次查詢的Desire。

        2.4Intention權(quán)重計算

        在Desire生成完成后,對每個待計算Intention的行為,其排序依據(jù)Desire中的語義特征集合使用基于特征相似度的算法計算相似度作為其Intention權(quán)重。

        計算特征相似度的方法主要有基于空間向量模型的歐氏距離,余弦相似度,基于哈希的MinHash,漢明距離等方法,以及基于主題相似度的LAS、PLSA等方法[17]。搜索是一種在線的、同步的動作,具有較高實時性要求,因此選擇能快速批量估算多個集合相似度的MinHash算法。

        定于語義詞典為特征全集C,特定產(chǎn)品特征為Cs,Desire中包含了一組由用戶查詢和上下文信息得出的期望特征組的集合Sd={C1,C2,…,Cn}。Intention需要計算對于每個產(chǎn)品實體的相似程度。MinHash方法基于Jaccard進(jìn)行相似度計算原理,當(dāng)兩個集合重復(fù)度越高,Jaccard越趨向于1。MinHash則使用隨機(jī)抽樣方法估算集合交集概率,將C1,C2,…,Cn與Cs所含集合映射到特征項[t1-tn]之間,其中t1,t2,…,tn∈C,隨機(jī)選擇[t1-tn]的一個排列組合,Tn∈Cx則此行標(biāo)記為1,否則標(biāo)記為0,依次查找第一次出現(xiàn)的行。矩陣取值公式如下:

        (1)

        表2為C1{t1,t4,…},C2{t1,t2,t4,…},C3{t3,…},C4{t4,…}時的示例。

        表2 基于MinHash的產(chǎn)品特征相似度計算示例

        對于C1列,根據(jù)第一次出現(xiàn)1的列數(shù)作進(jìn)行哈希,得到h1(C1)=0,h1(C2)=0,h1(C3)=2,h1(C4)=3。通過多次抽取隨機(jī)排列得到N個MinHash函數(shù)h1,h2,…,hn,依此對每一列都計算N個MinHash值。對于兩個集合,根據(jù)N個哈希值中相等的比例,即可估計出兩集合的Jaccard相似度如下:

        (2)

        其中:

        (3)

        該方法通??梢砸淮芜M(jìn)行多個產(chǎn)品實體特征的計算,而旨在選項數(shù)量較多時,所有產(chǎn)品Cd并集的維度數(shù)要小于產(chǎn)品實體特征Cs個數(shù),因此可同時降低空間復(fù)雜度和時間復(fù)雜度,提高效率。傾向計算完成后,將執(zhí)行按相似度高低順序返回選項的動作,滿足Desire要求。

        3 基于BDI的旅游產(chǎn)品語義搜索Agent實現(xiàn)

        3.1系統(tǒng)總體架構(gòu)

        本文系統(tǒng)實現(xiàn)依托于旅游集散網(wǎng)(Travelhub.cn)數(shù)字旅游平臺。該數(shù)字旅游平臺是一個基于面向服務(wù)架構(gòu)的協(xié)同平臺,支持旅游產(chǎn)品的智能推薦和搜索,其移動客戶端支持用戶自由將各類產(chǎn)品組成行程單,因此需要在用戶搜索時分析上下文,給出合適的旅游產(chǎn)品,提升用戶體驗。

        結(jié)合項目需求,本文基于一種BDI Agent的Java實現(xiàn)JADEX,將語義搜索應(yīng)用于該項目的旅游產(chǎn)品搜索中,并以行程單中的當(dāng)前已安排行程作為語義搜索上下文。JADEX與BDI架構(gòu)中的Belief-Desire-Intention表述略有區(qū)別,BDI中的Belief,Desire和Intention分別對JADEX中的Belief,Goal和Plan。Agent會根據(jù)外部變化會觸發(fā)動作,通過選取執(zhí)行Plan來達(dá)成Goal。

        基于BDI的語義搜索系統(tǒng)總體架構(gòu)如圖2所示。

        圖2 總體架構(gòu)圖

        其中數(shù)據(jù)層包括內(nèi)存中的會話級別生命周期的上下文數(shù)據(jù)和數(shù)據(jù)庫中的持久化的旅游產(chǎn)品數(shù)據(jù),旅游產(chǎn)品數(shù)據(jù)需要通過文本特征提取生成每個產(chǎn)品的特征,并使用語義詞典消除歧義。JADEX推理框架的Belief,Goal和Plan直接訪問數(shù)據(jù)庫或內(nèi)存中的上下文數(shù)據(jù)。

        業(yè)務(wù)層主要為JADEX推理框架,特征提取部分用于生成語義詞典,并根據(jù)旅游產(chǎn)品的文本描述和屬性提取特征詞,進(jìn)行離線預(yù)處理。JADEX框架則使用ID3提取上下文的特征詞,與用戶輸入結(jié)合,進(jìn)行MinHash相似度的Plan篩選和執(zhí)行。

        展現(xiàn)層主要基于Phone Gap實現(xiàn)的HTML5移動端界面,用于記錄用戶已選行程單,展示搜索結(jié)果。

        在本文設(shè)計的BDI Agent搜索應(yīng)用,根據(jù)用戶當(dāng)前已加入行程單產(chǎn)品和搜索歷史作為上下文,提取行程特征,結(jié)合用戶輸入智能選取合理的旅游產(chǎn)品。語義搜索其執(zhí)行流程如圖3所示。

        圖3 JADEX執(zhí)行流程

        在執(zhí)行上述流程前,首先需要進(jìn)行語義詞典和產(chǎn)品特征的預(yù)處理。在預(yù)處理完成后,搜索執(zhí)行時首先依賴上下文模塊將搜索上下文更新至Agent的Belief,并推理出目標(biāo)特征存入Goal中,最后執(zhí)行Plan的匹配與篩選。

        3.2語義詞典與產(chǎn)品特征預(yù)處理

        旅游產(chǎn)品的語義搜索依賴領(lǐng)域語義詞典,旅游領(lǐng)域語義詞典通過對旅游產(chǎn)品的特征進(jìn)行提取獲得特征詞。通過關(guān)系詞典,如同義詞典等為特征詞增加關(guān)系。

        旅游產(chǎn)品語義特征數(shù)據(jù)源來自:

        1) 旅游產(chǎn)品屬性,如酒店的星級分類、景區(qū)的類型等。

        2) 產(chǎn)品描述描的文本特征。產(chǎn)品描述特征提取主要流程如圖4所示。

        圖4 產(chǎn)品特征提取主要流程

        本文使用中文語法分詞器IK Analyzer[19]處理產(chǎn)品描述的中文分詞。該分詞器支持分詞歧義排除功能和自定義拓展次,停用詞庫,適用于定制特定領(lǐng)域的分詞詞庫。

        分詞完成后,使用TF-IDF提取產(chǎn)品描述特征詞。本文選取了各類旅游產(chǎn)品中銷量較高的產(chǎn)品作為語料庫,用于IDF值計算,將特征詞前K個最高TF-IDF值的作為產(chǎn)品的語義特征,由于存在停用詞不完整等問題,TF-IDF得到的分詞結(jié)果需要人工確認(rèn)后才能在語義詞典中啟用。旅游產(chǎn)品語義特征中包含了TF-IDF值,用于后續(xù)可能存在的歧義消解。每個特征詞對應(yīng)一個GUID。

        通常語義詞典中包含的關(guān)系有同義、反義、部分、屬于等。考慮到旅游產(chǎn)品搜索業(yè)務(wù)特點,同義詞關(guān)系可減少特征相似度計算時的誤差,屬于關(guān)系需用于上下文傾向推理時的維度生成。因此本文向詞典概念之間增加了同義,屬于兩類關(guān)系:

        1) 同義關(guān)系的概念組合為概念簇,本文借助中文辭海數(shù)據(jù)庫,將“同義”概念連接,并為每一個同義概念簇指定GUID,用于匹配時,在同義詞簇中的概念使用GUID表示。

        2) 屬于概念通過屬于關(guān)系關(guān)聯(lián),作為上下文傾向推理時的決策維度。屬于概念參考旅游行程設(shè)計時的考慮因素,手工添加,詳細(xì)說明見基于決策樹的上下文傾向推理。

        語義詞典、產(chǎn)品特征耗時較長,需要首先完成初始化,Agent啟動后可直接使用這些數(shù)據(jù)進(jìn)行Goal期望特征生成與Plan的語義匹配。

        3.3上下文語義特征解析

        系統(tǒng)將用戶行程安排作為用戶檢索的上下文,作為Agent的Belief。上下文從應(yīng)用的行程單下獲取,行程中包含用戶已添加的旅游產(chǎn)品,以及在將產(chǎn)品加入行程單同時未選擇的產(chǎn)品,隱含本次行程的各種特點,使用決策樹的方式對旅游行程特征進(jìn)行提取。對生成的決策樹,轉(zhuǎn)換為條件表達(dá)方式,作為檢索依據(jù)。上下文傾向特征生成是一個上下文-行程特征-產(chǎn)品特征的轉(zhuǎn)換過程。

        決策樹訓(xùn)練集包括兩部分:1) 行程單中的已選擇產(chǎn)品,chosen屬性標(biāo)記為TRUE;2) 加入行程單時搜索結(jié)果中的未選擇產(chǎn)品,chosen屬性標(biāo)記為FALSE。因檢索過程是同步的,本文依據(jù)旅游行程制定時的考慮因素,將“屬于”概念的根結(jié)點分為價格維度、時間維度、地理維度、特征維度、交通維度、與語義詞典中的概念或概念簇手動分類。如價格維度下使用了“奢華”同義詞概念簇、“經(jīng)濟(jì)”同義詞概念簇等;地理維度使用語義詞典中來自產(chǎn)品“所在地”屬性的概念。如表3所示。

        表3 旅游行程的特征維度及其示例

        以在行程單中搜索一處景點為例,其行程單中其他景點及其未選擇景點的特征可從行程的其他已選和隱式的未選擇實例使用ID3決策樹訓(xùn)練,以此作為Goal權(quán)重的計算依據(jù)。如圖5所示。

        圖5 上下文決策樹生成

        在選擇結(jié)果為TRUE的葉節(jié)點上,可以得到如價格、時間、地理、特征、交通五個維度的值。所有為TRUE的葉節(jié)點可組合為一組用于JADEX推理執(zhí)行的Goal目標(biāo)特征。若K為決策樹的TRUE葉節(jié)點數(shù),則會生成K種目標(biāo)概念。如在該結(jié)果下,上下文相關(guān)的特征為:

        1) [簇2{經(jīng)濟(jì)…},概念{上海},概念{古鎮(zhèn)}];

        2) [簇2{經(jīng)濟(jì)…},概念{上海},概念{文化}]。

        依據(jù)該特征組,即可與旅游產(chǎn)品特征進(jìn)行第2.4節(jié)中所述的MinHash的相似度計算,用于Agent搜索執(zhí)行過程中的Plan匹配和執(zhí)行。

        3.4語義搜索執(zhí)行

        用戶發(fā)起查詢后,使用IK Analyzer對查詢進(jìn)行分詞和特征化,作為觸發(fā)Agent狀態(tài)改變的事件。同一會話的查詢會記入Agent的Desire中,用于生成此次查詢的目標(biāo)概念。例如用戶在查詢中增加“豪華”詞項后,如果沒有指明產(chǎn)品類別,系統(tǒng)將嘗試從Desire中追溯此次會話可能指代的產(chǎn)品類別,查詢的構(gòu)造將作為Goal更新的依據(jù)。

        基于JADEX平臺的Agent需要初始化自身的Belief,加載產(chǎn)品數(shù)據(jù)和語義詞典,執(zhí)行期間動態(tài)更新上下文數(shù)據(jù)及其特征。JADEX平臺可通過Java 注解配置Agent的Belief、Goal和Plan的配置。其中不同Goal類型如表4所示。

        表4 JADEX中Goal的分類及含義[2]

        同一行程下的用戶查詢會綁定一個會話ID,每個Agent對應(yīng)一個會話,設(shè)定超時時間,非活動的Agent會定期銷毀,降低內(nèi)存負(fù)擔(dān)。新啟動的Agent將生成一個與之對應(yīng)的頂層Achieve Goal。對于旅游產(chǎn)品搜索應(yīng)用中的每一個頂級Achieve Goal,其目標(biāo)在于檢索出與用戶查詢特征最相似的N個產(chǎn)品。頂級Achieve Goal下,關(guān)聯(lián)了以下Goal和Plan:1) Maintain Goal用于維持當(dāng)前查詢的產(chǎn)品類型,根據(jù)會話信息增加例如查詢產(chǎn)品種類限制,提高檢索效率;2) 抽象查詢Plan,執(zhí)行動作為查詢旅游產(chǎn)品Plan;3) 產(chǎn)品Plan,每個產(chǎn)品Plan對應(yīng)一個產(chǎn)品,執(zhí)行動作為返回其對應(yīng)的旅游產(chǎn)品。檢索旅游產(chǎn)品Plan的方法使用基于MinHash的語義特征相似度??紤]性能問題,使用語義特征相似度方法計算時,降低了產(chǎn)品數(shù)量維度數(shù),減少相似度計算時間消耗。

        4 實驗與評價

        本文實現(xiàn)的基于BDI的旅游產(chǎn)品語義搜索將用戶加入行程單中的產(chǎn)品,即當(dāng)前行程安排作為上下文,可以獲得更適應(yīng)上下文的搜索結(jié)果。為驗證有效性,本文參考文獻(xiàn)[18]總結(jié)的搜索評價指標(biāo),從前K項準(zhǔn)確率、召回率等進(jìn)行對比,并結(jié)合實驗結(jié)果和本文方法流程特點進(jìn)行分析總結(jié)。

        本文使用模擬用戶的實驗方法,數(shù)據(jù)來源如下:

        1) 旅游產(chǎn)品數(shù)據(jù)來自旅游集散網(wǎng)(Travelhub.cn)。

        2) 標(biāo)準(zhǔn)行程來自馬蜂窩(Mafengwo.cn)等旅游攻略網(wǎng)站。

        其中各類旅游產(chǎn)品數(shù)據(jù)總量27 676項,標(biāo)準(zhǔn)行程收集5組。本文將行程單內(nèi)容與旅游產(chǎn)品數(shù)據(jù)ID匹配,隨機(jī)選取行程單產(chǎn)品的特征詞,模擬構(gòu)造了10組查詢項,將搜索到的“可接受”產(chǎn)品作為準(zhǔn)確結(jié)果。上下文的構(gòu)建則隨機(jī)選取行程中的其他旅游產(chǎn)品及其“忽略”產(chǎn)品用于ID3上下文特征決策樹訓(xùn)練。通過真實的標(biāo)準(zhǔn)行程構(gòu)造模擬用戶搜索上下文,對搜索的準(zhǔn)確率、召回率進(jìn)行測試,步驟如下:

        1) 收集行程單。將特定行程點上標(biāo)準(zhǔn)旅游產(chǎn)品的可替代產(chǎn)品記為“可接受”產(chǎn)品。其中可替代旅游產(chǎn)品限制為與標(biāo)準(zhǔn)旅游產(chǎn)品特征項Jaccard相似度大于0.3,旅游產(chǎn)品所在地距離不超過30公里。其他30公里內(nèi)的同類產(chǎn)品記為“忽略”產(chǎn)品,用于模擬上下文。

        2) 分別使用基于Jaccard相似度的語義搜索和使用BDI Agent的方法中下文的語義搜索進(jìn)行查詢。本文將對比傳統(tǒng)Jaccard的相似度與BDI Agent方法。

        3) 根據(jù)特定的行程,分析前K項搜索結(jié)果,屬于“可接受”產(chǎn)品的作為準(zhǔn)確結(jié)果。

        由于用戶對排序靠前的搜索結(jié)果更關(guān)心,本文對K=15時的檢索結(jié)果進(jìn)行比對分析,考慮到查詢項對準(zhǔn)確率召回率存在影響,取每組查詢項的最好結(jié)果,見表5所示。

        表5 基于Jaccard相似度和基于BDI Agent搜索結(jié)果比對

        續(xù)表5

        根據(jù)以上結(jié)果,下文將從兩個角度分析本文所實現(xiàn)的BDI語義搜索Agent:1)從實驗結(jié)果分析傳統(tǒng)語義搜索和上下文增強(qiáng)的BDI語義搜索實際效果;2)從流程上分析BDI語義搜索和傳統(tǒng)上下文處理方法的區(qū)別和優(yōu)勢。

        從實驗結(jié)果來看,在K=15時,基于BDI的語義搜索相比傳統(tǒng)語義搜索在大多數(shù)情況下具有更高的準(zhǔn)確率和召回率。因此通過動態(tài)上下文語義,基于BDI的語義搜索可改善產(chǎn)品傳統(tǒng)語義搜索的準(zhǔn)確率和召回率。

        從流程上來看,基于BDI的語義搜索通過用戶搜索旅游產(chǎn)品過程中,行程單中的記錄項目的上下文內(nèi)容實時生成Desire特征,相比規(guī)則推理的方法,動態(tài)生成Desire而不依賴用戶顯式輸入和大量規(guī)則庫,具有較好的體驗,便于維護(hù)。相比基于機(jī)器學(xué)習(xí)的上下文處理方法,由于上下文數(shù)據(jù)量不大,可以用于ID3決策樹的實時運(yùn)算,動態(tài)性好;由于基于用戶對行程搜索項的選擇結(jié)果,上下文的來源具有針對性;相比其他BDI Agent方法,本文方法使用BDI增強(qiáng)了語義搜索,結(jié)合語義詞典消歧和MinHash相似度估算方法,不再局限于低維度的權(quán)重匹配,與語義技術(shù)緊密結(jié)合。

        總體來看,BDI語義搜索相比其他方法,將動態(tài)上下文和語義搜索緊密結(jié)合,改善了語義搜索對動態(tài)上下文的支持,提高了精準(zhǔn)度。

        5 結(jié) 語

        傳統(tǒng)上下文處理技術(shù)對動態(tài)上下文支持不夠,較難與語義搜索在不同動態(tài)上下文場景下緊密結(jié)合,以滿足用戶對搜索體驗的智能化需求。

        本文結(jié)合筆者參與的數(shù)字旅游項目需求,提出的基于BDI的語義搜索方法。該方法對傳統(tǒng)語義搜索加以改進(jìn),使用BDI Agent實現(xiàn)適用于動態(tài)上下文的語義搜索。該方法將檢索內(nèi)容與動態(tài)上下文作為Agent的Belief,使用語義詞典,從語義和業(yè)務(wù)維度出發(fā),推理上下文特征和檢索目標(biāo)作為 Desire,以MinHash語義相似度計算作為Intention選擇依據(jù)進(jìn)行語義搜索。本文基于一種開源BDI Agent實現(xiàn)JADEX,開發(fā)了基于BDI語義搜索的旅游產(chǎn)品語義搜索模塊??紤]旅游產(chǎn)品的業(yè)務(wù)特點,將旅游行程安排作為動態(tài)上下文,通過語義相似度匹配旅游產(chǎn)品,實驗表明搜索準(zhǔn)確率相比僅使用語義相關(guān)性搜索方法明顯提高,且利用BDI Agent架構(gòu)特點改善了傳統(tǒng)上下文處理方法對語義技術(shù)和上下文動態(tài)性支持不足的問題,具有應(yīng)用意義。

        后續(xù)工作中,我們將補(bǔ)充完善上下文內(nèi)容和領(lǐng)域語義詞典,針對其他業(yè)務(wù)規(guī)則因素進(jìn)行擴(kuò)展,如旅游中的天氣因素,季節(jié)因素,以及行程的路徑規(guī)劃等,使BDI的語義搜索能更智能地融入數(shù)字旅游應(yīng)用中。

        [1] CNNIC. 中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計報告[R]. 2014.

        [2] Lars Braubach. JADEX Overview [EB/OL]. [2014-06-23]. http://www.activecomponents.org/bin/view/Documentation/Overview.

        [3] Sullivan D. Google Launches Knowledge Graph to Provide Answers, Not Just Links [EB/OL]. [2013-04-20]. http://searchengineland.com/google-launches-knowledge-graph-121585.

        [4] Paiva S, Ramos-Cabrer M, Gil-Solla A. GSSP-A generic Semantic Search Platform[J]. Procedia Technology, 2012, 5(1):388-396.

        [5] Jihyun Lee, Jeong Hoon Park, Myung Jae Park, et al. An Intelligent Query Processing for Distributed Ontologies[J].The Journal of Systems & Software, 2009, 83(1):85-95.

        [6] Anthony Ha. Kngine Aims To Build A Natural Language-Driven App That Can Answer Any Question[EB/OL]. [2012-11-30]. http://techcrunch.com/2012/11/30/kngine/.

        [7] 田萱, 李冬梅. 上下文檢索研究綜述[J]. 計算機(jī)科學(xué), 2011,38(9):18-24.

        [8] Shen X, Tan B, Zhai C. Implicit User Modeling for Personalized Search[C]//Proceedings of the 14thACM International Conference on Information and Knowledge Management, 2005:824-831.

        [9] White R W, Jose J M, Ruthven I. An Implicit Feedback Approach for Interactive Information Retrieval[J]. Information Processing and Management, 2004, 42(1):166-190.

        [10] 馬瑞新, 鄧貴仕, 王曉. 基于擴(kuò)散理論的HITS算法在Web挖掘中的研究與優(yōu)化[J]. 計算機(jī)應(yīng)用研究, 2012, 29(1):145-147.

        [11] 林俊, 杜軍平. 智能旅游行程導(dǎo)航系統(tǒng)[J]. 計算機(jī)應(yīng)用,2009, 29(1):369-371.

        [12] Celik D, Elgi A, A Semantic Search Agent Approach: Finding Appropriate Semantic Web Services based on User Request Term[C]//Proceedings of ITI 3rdInternational Conference on Information and Communications Technology, 2005:675-687.

        [13] Anand S Rao, Michael P Georgeff. Modeling Rational Agents within a BDI-Architecture[C]//Proceedings of the 2ndInternational Conference on Principles of Knowledge Representation and Reasoning, 1991:473-484.

        [14] Anand S Rao, Michael P George. BDI Agents: From Theory to Practice[C]//Proceedings of the 1stInternational Conference on Multi-Agent Systems, 1995:312-319.

        [15] Ana Casali, Llu′is Godo. Modeling Travel Assistant Agents: a Graded BDI Approach[J]. Artificial Intelligence in Theory and Practice, 2006, 217(1):415-424.

        [16] 周豐. 面向需求的用戶建模及服務(wù)推薦研究[D]. 上海. 復(fù)旦大學(xué),2014.

        [17] 孫海霞, 錢慶, 成穎. 基于本體的語義相似度計算方法研究綜述[J].現(xiàn)代圖書情報技術(shù), 2010,26(1):51-56.

        [18] Stefan Buttcher, Charles L A Clarke, Gordon V Cormack. Information Retrieval, Implementation and Evaluation Search Engines [M]. China Machine Press, 2012.

        [19] 林良益. 中文分詞庫IK Analyzer[EB/OL]. [2015-01-21].http://www.oschina.net/p/ikanalyzer/.

        BDI-BASED SEMANTIC SEARCH AND ITS APPLICATIONS IN E-TOURISM

        Chen HaoLi YinshengShen Jianping

        (SchoolofSoftware,FudanUniversity,Shanghai201203,China) (NationalEngineeringLabofEcommerceTechnologies,Shanghai201203,China)

        Current context processing method does not support semantic technology very well, this leads to the limits of semantic search in both accuracy and intelligence. In this paper, we propose a BDI-based semantic search approach, it makes semantic description on dynamic context and uses BDI mechanism to optimise search results. The approach integrates user’s query and dynamic contexts with Belief in BDI framework, reasons the context features through products feature semantics and business semantics, and searches objects features as agent’s Desire, finally it calculates the candidate Intention order through MinHash-based semantic similarity. In combination with the requirement of project, we develop the search system of tourism products in environment of open source BDI Agent of JADEX engine, the system is based on the above mentioned semantic search. Through ID3 decision tree the system extracts context features of current itinerary of users to implement the semantic search function. Experiment shows that the search accuracy of the approach improved significantly relative to the search methods only using semantic similarity, it can satisfy the demand of tourism products search.

        Belief-desire-intention (BDI)Semantic searchContext

        2015-03-15。國家科技支撐計劃項目(2012BAH18F06)。陳昊,碩士生,主研領(lǐng)域:電子商務(wù)。李銀勝,副教授。沈劍平,博士生。

        TP3

        A

        10.3969/j.issn.1000-386x.2016.08.007

        猜你喜歡
        詞典語義特征
        語言與語義
        米沃什詞典
        文苑(2019年24期)2020-01-06 12:06:50
        如何表達(dá)“特征”
        不忠誠的四個特征
        評《現(xiàn)代漢語詞典》(第6版)
        抓住特征巧觀察
        詞典例證翻譯標(biāo)準(zhǔn)探索
        “上”與“下”語義的不對稱性及其認(rèn)知闡釋
        認(rèn)知范疇模糊與語義模糊
        線性代數(shù)的應(yīng)用特征
        河南科技(2014年23期)2014-02-27 14:19:15
        中文字幕乱码亚洲三区| 国产艳妇av在线出轨| 中国老太老肥熟女视频| 日本一区二区三区高清视| 色88久久久久高潮综合影院| 牲欲强的熟妇农村老妇女| 性做久久久久久久| 综合中文字幕亚洲一区二区三区| 亚洲男人天堂黄色av| 九九精品国产亚洲av日韩| 深夜国产成人福利在线观看女同| 国产精品亚洲在钱视频| 亚洲精品乱码久久久久久| 永久免费观看国产裸体美女| 色伊人国产高清在线| 国产又湿又爽又猛的视频| 国产精品理论片在线观看| 亚洲美女又黄又爽在线观看| 中文无码日韩欧免费视频| 精品少妇一区二区三区入口| 色爱av综合网站| 国产午夜成人久久无码一区二区| 国产午夜精品一区二区三区软件| 久久久久国产一级毛片高清版A | 曰批免费视频播放免费直播| 久久成人永久免费播放| 午夜一区二区三区福利视频| 欧美肥婆性猛交xxxx| 久久久久99精品国产片| 日本亚洲成人中文字幕| 日本最新一区二区三区视频观看| 亚洲国产一区二区a毛片| 人妻被猛烈进入中文字幕| 麻豆精品在线视频观看| 真人做人试看60分钟免费视频| av在线色| 在线观看女同一区二区| 九九影院理论片私人影院| 国产zzjjzzjj视频全免费| 亚洲男人在线无码视频| 两人前一后地插着她丰满 |