亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        智能文本搜索新技術(shù)

        2012-08-18 10:13:40王占一徐蔚然郭軍
        智能系統(tǒng)學(xué)報(bào) 2012年1期
        關(guān)鍵詞:評(píng)測(cè)博客文檔

        王占一,徐蔚然,郭軍

        (1.北京郵電大學(xué)模式識(shí)別與智能系統(tǒng)實(shí)驗(yàn)室,北京 100876;2.北京郵電大學(xué)信息與通信工程學(xué)院,北京 100876)

        智能文本搜索新技術(shù)

        王占一1,2,徐蔚然1,2,郭軍1,2

        (1.北京郵電大學(xué)模式識(shí)別與智能系統(tǒng)實(shí)驗(yàn)室,北京 100876;2.北京郵電大學(xué)信息與通信工程學(xué)院,北京 100876)

        面對(duì)當(dāng)今互聯(lián)網(wǎng)上海量的信息,以及搜索信息準(zhǔn)確、高效、個(gè)性化等需求,提出了一套包括信息檢索、信息抽取和信息過濾在內(nèi)的智能文本搜索新技術(shù).首先舉薦了與信息檢索新技術(shù)相關(guān)的企業(yè)檢索、實(shí)體檢索、博客檢索、相關(guān)反饋?zhàn)尤蝿?wù).然后介紹了與信息抽取技術(shù)相關(guān)的實(shí)體關(guān)聯(lián)和實(shí)體填充子任務(wù),以及與信息過濾技術(shù)相關(guān)的垃圾郵件過濾子任務(wù).這些關(guān)鍵技術(shù)融合在一起,在多個(gè)著名的國際評(píng)測(cè)中得到應(yīng)用,如美國主辦的文本檢索會(huì)議評(píng)測(cè)和文本分析會(huì)議評(píng)測(cè),并且在互聯(lián)網(wǎng)輿情、短信輿情和校園網(wǎng)對(duì)象搜索引擎等實(shí)際系統(tǒng)中得到了檢驗(yàn).

        智能文本搜索;文本檢索;文本分析

        隨著互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展,網(wǎng)絡(luò)上的信息呈爆炸式增長.用戶需要在這些海量信息數(shù)據(jù)中找到自己需要的內(nèi)容,不是簡(jiǎn)單定位到某一個(gè)網(wǎng)站或網(wǎng)頁,而是越精準(zhǔn)、全面越好.同時(shí)他們希望使用盡量少的描述就可以找到自己感興趣的內(nèi)容,不帶有任何垃圾信息.如何滿足用戶對(duì)這些信息的高精度、高效率、個(gè)性化、完備性等需求,是當(dāng)前信息檢索和數(shù)據(jù)挖掘面臨的新問題.

        傳統(tǒng)的文本搜索基于數(shù)據(jù)庫查詢、關(guān)鍵詞搜索等技術(shù),有很強(qiáng)的局限性.而智能文本搜索解決的是數(shù)據(jù)海量、數(shù)據(jù)稀疏、大量并發(fā)請(qǐng)求、數(shù)據(jù)特征演進(jìn)、主客觀交叉等困難問題,從技術(shù)角度來說,智能文本搜索融合了信息的檢索、抽取、過濾等方面.檢索是由用戶提出查詢請(qǐng)求,系統(tǒng)根據(jù)這個(gè)需求對(duì)Web信息進(jìn)行查詢并給出結(jié)果.抽取是把文本里包含的信息進(jìn)行結(jié)構(gòu)化處理,變成表格一樣的組織形式.過濾是系統(tǒng)根據(jù)預(yù)先設(shè)定的條件,對(duì)Web中與該條件相符的信息進(jìn)行獲取、隔離或封堵[1].

        為了探索前沿技術(shù),解決上述問題,各國學(xué)術(shù)界、產(chǎn)業(yè)界和政府部門都給予了高度關(guān)注,一系列評(píng)測(cè)活動(dòng)應(yīng)運(yùn)而生.文本檢索會(huì)議(text retrieval conference,TREC)作為文本檢索領(lǐng)域最權(quán)威的評(píng)測(cè)會(huì)議,關(guān)注著檢索技術(shù)的最新發(fā)展,比較客觀地反映了十幾年來的研究趨勢(shì).TREC是由美國國家技術(shù)標(biāo)準(zhǔn)局(NIST)和美國國防部(DOD)聯(lián)合主辦,創(chuàng)立于1992年,主要目的是通過提供評(píng)價(jià)大型文本檢索方法所必需的基礎(chǔ)設(shè)施來支持對(duì)信息檢索的研究[2].關(guān)注TREC,有利于加強(qiáng)各個(gè)科研機(jī)構(gòu)和企業(yè)之間的交流,有利于評(píng)價(jià)檢索方法在實(shí)際問題中的效果,也有利于加快實(shí)驗(yàn)室的技術(shù)商品化的速度.

        TREC的參賽隊(duì)伍從開始的22個(gè)發(fā)展到2010年的75個(gè).北京郵電大學(xué)模式識(shí)別實(shí)驗(yàn)室多年來致力于模式識(shí)別和網(wǎng)絡(luò)搜索技術(shù),從2005年開始參加TREC的多項(xiàng)評(píng)測(cè)并取得了較好的成績(jī),如垃圾郵件過濾、企業(yè)檢索、博客檢索、實(shí)體檢索、相關(guān)反饋等.同時(shí),該團(tuán)隊(duì)還參加了國家“863”計(jì)劃項(xiàng)目中文本分類、SigHan分詞、TAC和中文傾向性分析等評(píng)測(cè).評(píng)測(cè)中涉及的任務(wù)除了用于新技術(shù)的研究,也是為了解決實(shí)際問題.基于評(píng)測(cè)中的智能文本搜索新技術(shù),一些實(shí)際系統(tǒng)也相應(yīng)地被開發(fā)出來,并在實(shí)際應(yīng)用中得到了檢驗(yàn).

        本文以權(quán)威評(píng)測(cè)為主線,詳細(xì)介紹智能文本搜索新技術(shù).第1部分以企業(yè)檢索、實(shí)體檢索、博客檢索和相關(guān)反饋為例介紹信息檢索新技術(shù);第2部分以文本分析會(huì)議評(píng)測(cè)為例介紹信息抽取新技術(shù);第3部分以垃圾郵件過濾為例介紹信息過濾新技術(shù);第4部分介紹以上述技術(shù)為核心的實(shí)際應(yīng)用系統(tǒng),如互聯(lián)網(wǎng)輿情系統(tǒng)、短信輿情系統(tǒng)、校園對(duì)象搜索引擎系統(tǒng)等;最后是總結(jié)和展望部分.

        1 信息檢索

        1.1 企業(yè)檢索

        文本檢索會(huì)議從2005—2008年制訂了企業(yè)檢索(enterprise track)評(píng)測(cè)任務(wù)[3],企業(yè)檢索的目的是研究在企業(yè)內(nèi)部數(shù)據(jù)中的用戶檢索行為,主要包含郵件檢索(2005—2006 年)[4-5]、文檔檢索(2007—2008年)[6]和專家檢索(2005—2008 年)任務(wù).其中,專家檢索是重點(diǎn)和難點(diǎn),它的目的是尋找企業(yè)中關(guān)于某一主題的專家.具體地,專家檢索需要分成兩部分來解決:一是確定所給語料集中的專家,二是計(jì)算查詢與專家的相關(guān)度.專家的標(biāo)識(shí)主要是姓名和郵箱,定位專家的方法主要有命名實(shí)體識(shí)別、查詢?nèi)嗣斜?、匹配郵箱、稱謂、職務(wù)等.在實(shí)際中,這些方法經(jīng)常綜合運(yùn)用.

        1.1.1 二階排序模型

        二階排序模型的主要思路是通過文檔為橋梁,計(jì)算查詢和專家的相關(guān)度.如式(1),檢索的第1階段是普通的文檔檢索,找出一定數(shù)量的相關(guān)文檔,計(jì)算出查詢Q和文檔Di的相關(guān)度Score(Di,Q);第2階段計(jì)算事先確定好的專家Ej和這些文檔的相關(guān)度Score(Ej,Di);最后綜合文檔和查詢的相關(guān)度得到查詢和專家的相關(guān)度Score(Ej,Q),就可以對(duì)和查詢相關(guān)的專家排序了.

        式中:Nr表示第1階段得到的文檔中,用于第2階段的文檔數(shù)量.

        文檔檢索使用的算法包括語言模型、KL距離、BM25等.計(jì)算專家Ej和這些文檔的相關(guān)度Score(Ej,Di)可以使用式(2):

        式中:n(fij)表示文檔Di中某一專家的名字和郵箱出現(xiàn)的次數(shù),N是語料集中文檔的數(shù)目,d(fj)是出現(xiàn)該專家名字和郵箱的文檔數(shù)目.

        二階排序模型思路清晰,有理論依據(jù)且易于實(shí)現(xiàn),但它以整篇文檔為橋梁,單純以專家名或郵箱代表全部的專家信息,方法較為粗糙,沒有在文檔中做更細(xì)致的挖掘.

        1.1.2 專家經(jīng)驗(yàn)?zāi)P?/p>

        專家經(jīng)驗(yàn)?zāi)P偷闹饕悸肥翘崛<以谖臋n中的上下文組成該專家的“經(jīng)驗(yàn)”,再計(jì)算專家經(jīng)驗(yàn)的概率.提取上下文的過程相當(dāng)于為該專家開了一個(gè)“窗口”,因此也叫作專家窗口模型.筆者認(rèn)為專家名或郵箱的上下文是與該專家密切聯(lián)系的信息,那么在確定一個(gè)專家的同時(shí)將其前后一定數(shù)量的詞也提取出來組成新的文檔,這個(gè)文檔就是包含該專家相關(guān)信息的文檔.因此只要檢索到這個(gè)文檔就認(rèn)為該專家和查詢是相關(guān)的.這個(gè)過程表示為

        式中:Ed表示由專家經(jīng)驗(yàn)組成的文檔.另外,經(jīng)過反復(fù)的實(shí)驗(yàn)發(fā)現(xiàn),窗口的長度取專家前后各150個(gè)詞效果最好.表1給出了二階排序和專家經(jīng)驗(yàn)2種模型的性能比較.

        表1 2種專家檢索模型的對(duì)比Table 1 Comparison of two kinds of expert track model

        1.2 實(shí)體檢索

        實(shí)體檢索,或稱實(shí)體追蹤(entity track)是2009年TREC評(píng)測(cè)新增加的一項(xiàng)任務(wù)[7].它可以看作是從2005—2008年的專家檢索任務(wù)發(fā)展而來.與專家檢索相比,它具有更新更豐富的內(nèi)容.許多使用搜索引擎的用戶本意并不是找出各種各樣的文檔,而是想知道答案是哪些具體的實(shí)體,因此,文本搜索的核心任務(wù)是相關(guān)實(shí)體查找(related entity finding,REF).REF需要解決的問題是:給出一個(gè)輸入實(shí)體,連同它的名字、主頁、目標(biāo)實(shí)體的類型,還有描述它們之間關(guān)系的文本,找出與目標(biāo)類型相符的實(shí)體,這些實(shí)體能夠表示前面要求的與輸入實(shí)體的關(guān)系.對(duì)于每個(gè)查詢,要求輸出實(shí)體的排序,且每個(gè)實(shí)體必須有惟一的主頁.筆者的工作主要關(guān)注3個(gè)方面:針對(duì)每個(gè)查詢,找出相關(guān)的實(shí)體;依據(jù)檢索模型,對(duì)實(shí)體進(jìn)行排序;為每個(gè)實(shí)體賦予一個(gè)主頁.

        1.2.1 實(shí)體抽取

        與專家檢索首先要定位專家相似,實(shí)體檢索的前提是必須找出與查詢相關(guān)的實(shí)體,而且盡量提高查準(zhǔn)率和查全率,這就要用到實(shí)體抽取的技術(shù).通常,實(shí)體抽取主要分為基于統(tǒng)計(jì)和基于規(guī)則2種.基于統(tǒng)計(jì)的方法例如最大熵(maximum entropy)[8]或條件隨機(jī)場(chǎng)(conditional random field)[9]將人名、地名等命名實(shí)體標(biāo)識(shí)出來.基于規(guī)則的方法例如構(gòu)建命名實(shí)體詞典,用詞典過濾出符合要求的實(shí)體.

        為了更準(zhǔn)確、更全面地抽取實(shí)體,可以將幾種方法混合使用,即規(guī)則-統(tǒng)計(jì)-規(guī)則.首先通過觀察語料集、構(gòu)造查詢?cè)谒阉饕婊蚓S基百科中查找特殊網(wǎng)頁,這種網(wǎng)頁多數(shù)以表格的方式呈現(xiàn),或者有其他明顯的特征.然后通過適當(dāng)?shù)囊?guī)則將這些可信度較高的實(shí)體抽取出來.這種方法可以保證準(zhǔn)確率,但是實(shí)體的數(shù)量不夠.接下來使用文檔檢索得到相關(guān)度最高的前N(N=5)篇文檔,使用基于統(tǒng)計(jì)的命名實(shí)體識(shí)別工具抽取出與目標(biāo)實(shí)體類型相同的實(shí)體.調(diào)整N可以保證實(shí)體的數(shù)量,但是準(zhǔn)確率不高,這就又要用到基于規(guī)則的方法.利用維基百科中每個(gè)詞條的語義標(biāo)簽建立各種實(shí)體類型的映射規(guī)則,如對(duì)于組織名(organization),以“組織”、“公司”等開頭的標(biāo)簽,采集這些標(biāo)簽對(duì)應(yīng)的實(shí)體,建立實(shí)體詞典,前面用工具抽取出的“實(shí)體”再經(jīng)過詞典過濾,添加到實(shí)體列表中.

        1.2.2 檢索模型

        有了實(shí)體列表就可以依據(jù)檢索模型對(duì)實(shí)體排序了.在實(shí)體檢索任務(wù)中,根據(jù)查詢、文檔、實(shí)體三者的關(guān)系,形象地構(gòu)建了2種模型:文檔中心模型和實(shí)體中心模型.

        文檔中心模型將文檔d看作查詢q和實(shí)體e的橋梁,查詢和實(shí)體的相關(guān)度由合并q、d的相關(guān)度和e、q的相關(guān)度得到.文檔中心模型借鑒了專家檢索中的二階思路,不同之處在于專家換成了實(shí)體.第1階段計(jì)算查詢和文檔的相關(guān)度使用的是語言模型和推理網(wǎng)絡(luò).第2階段計(jì)算實(shí)體和文檔的相關(guān)度也是一個(gè)檢索的過程,可以采用概率模型等,將實(shí)體轉(zhuǎn)換成查詢后就和第1階段相同了.

        實(shí)體中心模型是實(shí)體處在結(jié)構(gòu)的中層,文檔或文檔的片斷在底層支撐實(shí)體,實(shí)體與頂層的查詢直接相連.與文檔中心模型不同,實(shí)體中心模型只需要1次檢索過程.

        單純用文檔支持實(shí)體過于粗糙,參考專家經(jīng)驗(yàn)?zāi)P?,取?shí)體的上下文作為與實(shí)體相關(guān)的信息.這里的上下文稱為片斷,同樣也取實(shí)體前后的150個(gè)詞,將某個(gè)實(shí)體的各個(gè)片斷匯集在一起,形成一個(gè)新的文檔.實(shí)體與實(shí)體文檔一一對(duì)應(yīng),利用查詢與這些文檔的相關(guān)度就可以直接對(duì)實(shí)體進(jìn)行排序.排序的具體算法有前面提到的語言模型、BM25等.

        1.2.3 確定主頁

        與專家不同,實(shí)體需要一個(gè)主頁與之對(duì)應(yīng),也是在網(wǎng)絡(luò)上的惟一標(biāo)識(shí).為實(shí)體分配主頁的方法主要有3種:1)計(jì)算實(shí)體和各相關(guān)文檔的相關(guān)度,取相關(guān)度最高的作為主頁,這種方法依賴于文檔的內(nèi)容;2)制定規(guī)則,將實(shí)體與文檔的URL作比較,找出相似度最高的作為主頁;3)利用已有的外部資源,如搜索引擎排序靠前的網(wǎng)頁、維基百科的參考鏈接等.實(shí)際應(yīng)用中混合使用這3種方法,相互補(bǔ)充,達(dá)到盡量準(zhǔn)確分配主頁的目的.

        1.3 博客檢索

        文本檢索會(huì)議TREC從2006年起制定了博客檢索任務(wù)(Blog track),最初只對(duì)博客的觀點(diǎn)度及其與查詢的相似性進(jìn)行研究.博客檢索從2008年起開始關(guān)注對(duì)博客傾向性的分析,并于2009年提出博客精選任務(wù),該任務(wù)將博客的傾向性分為3類:“個(gè)人的(personal)”或“官方的(official)”;“深入分析的(in-depth)”或“淺層描述的(shallow)”;“表達(dá)觀點(diǎn)的(opinionated)”或“描述事實(shí)的(factual)”,其目的是在博客關(guān)于查詢的相似性檢索的基礎(chǔ)上進(jìn)一步對(duì)博客的傾向性進(jìn)行檢索和排序.筆者參加了2007—2010年的博客檢索任務(wù),并于2009年在多項(xiàng)評(píng)測(cè)指標(biāo)中都取得了第1名的優(yōu)異成績(jī).

        1.3.1 博客精選(Blog distillation)

        隨著各大博客網(wǎng)站的推出和興起,網(wǎng)絡(luò)上涌現(xiàn)出海量的博客用戶,這些博客內(nèi)容豐富多彩,種類多樣,同時(shí)也充斥著各種感情色彩,可謂魚龍混雜.在信息如此泛濫的情況下來判斷相對(duì)比較具體的一些話題的傾向性是有困難的,因此有必要事先挑選出一些與話題相關(guān)性大的博客,再判斷其傾向性.這也是把話題檢索作為傾向性檢索基礎(chǔ)的原因.

        在2009和2010年的話題檢索任務(wù)中,筆者使用的方法基本相同,都是將其看作Learning to Rank問題,即通過學(xué)習(xí)博文的排序,利用一定的算法來獲得博客的排序.針對(duì)這一問題,采用Voting模型[10],即一個(gè)博客里的博文被看作是這個(gè)博客的支持者,該博客里的博文對(duì)于話題的相關(guān)性就越大,同時(shí)相關(guān)的博文數(shù)量越多,該博客的相關(guān)性就越大,排序越靠前.

        具體的方法如下:將所有的數(shù)據(jù)以博文為單位輸入Indri建立索引,用話題Q在Indri里進(jìn)行查詢,得到博文的相關(guān)性分?jǐn)?shù)和排序.通過此排序來獲得博客排序,如式(3):

        式中:B表示一個(gè)博客,博客B中的一篇博文用p表示,Score(B,Q)表示一個(gè)博客的相關(guān)性得分,Score(p,Q)表示從Indri中獲得的博文的相關(guān)性分?jǐn)?shù),|B|表示一個(gè)博客下博文的數(shù)量.將獲得的相關(guān)博客的分?jǐn)?shù)排序,排在前100的被認(rèn)為是與話題最相關(guān)的博客.

        1.3.2 個(gè)人與官方(personal vs.official)

        博客的興起使個(gè)人和組織的言論表達(dá)變得更加便利,然而因特網(wǎng)用戶可能不大喜歡宣傳性、商業(yè)性的博客,更加喜歡以個(gè)人的名義發(fā)表的文章,這樣就使得個(gè)人、組織搜索的研究變得具有現(xiàn)實(shí)意義.

        博客的個(gè)人、組織檢索,是TREC評(píng)測(cè)2009年新增加的一項(xiàng)子任務(wù),被安排在話題檢索之后.在話題檢索中,得到與話題相關(guān)的博客,再對(duì)其進(jìn)行個(gè)人、組織檢索.最近2年分別采用了2種不同的方法來進(jìn)行個(gè)人、組織檢索.

        2009年主要采用了組織機(jī)構(gòu)名的區(qū)分方法,因?yàn)楣俜?組織的博客的書寫慣例,一般會(huì)將組織名稱放在文章的開頭位置,有種“開門見山”的感覺;所以根據(jù)相同的組織機(jī)構(gòu)名稱在文章中出現(xiàn)的頻率和位置來給相關(guān)的博客進(jìn)行打分,最后根據(jù)分?jǐn)?shù)的高低來進(jìn)行排序和檢索,即可分別得到個(gè)人和組織的博客.

        2010年主要采用了基于機(jī)器學(xué)習(xí)的分類方法,將個(gè)人和組織的檢索看作是一種分類的問題,在訓(xùn)練模型中,利用機(jī)器學(xué)習(xí)的方法來分別構(gòu)建含有個(gè)人和組織信息的詞典.在構(gòu)建詞典前會(huì)做一個(gè)文本特征降維的處理,然后利用VSM模型用這2個(gè)詞典對(duì)相關(guān)博客進(jìn)行打分和排序[11],最后分別得到個(gè)人和組織的博客.

        1.3.3 表達(dá)觀點(diǎn)與描述事實(shí)(opinionated vs.factual)

        博客的觀點(diǎn)度與客觀度排序評(píng)測(cè)旨在開發(fā)一種有效的檢索系統(tǒng),使其能根據(jù)博客中關(guān)于某話題所表達(dá)一種觀點(diǎn)或陳述一個(gè)事實(shí)的強(qiáng)烈程度,來對(duì)這些博客進(jìn)行排序.

        筆者在2008和2009年都使用了同一種情感分析模型[12],對(duì)于博客的觀點(diǎn)度打分如式(4):

        式中:Npos和Nneg分別代表主觀和客觀的博文數(shù).

        與前2年不同,2010年的博客檢索中使用了基于詞典的方法,主要分為3個(gè)步驟:

        1)利用信息增益與互信息自動(dòng)生成“主觀詞詞典”和“客觀詞詞典”.通過信息增益在訓(xùn)練集中挑選對(duì)觀點(diǎn)型博客和客觀型博客區(qū)分度高的詞,作為詞典的候選詞.由信息增益生成的候選詞并沒有被分類為“觀點(diǎn)型”或“客觀型”,為了生成最終的2種詞典,利用互信息進(jìn)一步將這些候選詞分為“觀點(diǎn)型”和“客觀型”[13].

        2)計(jì)算觀點(diǎn)度得分和客觀度得分.對(duì)于每個(gè)查詢q和詞典中的詞t,在相關(guān)文檔集中計(jì)算TF-IDF權(quán)重wtfidf(t),同時(shí)用一種詞權(quán)重模型[14]計(jì)算查詢權(quán)重wbol(q),然后將2個(gè)權(quán)重相加得到博客的觀點(diǎn)度得分Sop和客觀度得分Sfa.

        3)排序.首先在相關(guān)文檔集中找到每篇博客的相關(guān)性得分Score(B,Q),然后將Score(B,Q)×Sop和Score(B,Q)×Sfa分別作為觀點(diǎn)度排序和客觀度排序的最終得分.

        1.3.4 深入分析與淺層描述(in-depth vs.shallow)

        2009年首次提出博客的深淺度分析任務(wù).筆者提出了L-Qtf系數(shù)進(jìn)行博文的深淺度分析[15].然后根據(jù)每一個(gè)博客下深度博文與淺度博文的數(shù)量,得到每一個(gè)博客的深度分析程度或淺度分析程度的排序.最后將每一個(gè)博客深淺度的排序值與相應(yīng)的博客精選的相關(guān)性值合并得到最終結(jié)果.

        1)根據(jù)L-Qtf系數(shù)進(jìn)行每一篇博文的深淺度分析:

        式中:ft和fqt分別為查詢中的單詞在博文中的詞頻和在查詢中的詞頻,在計(jì)算ft和fqt之前,進(jìn)行詞干化處理(stemming),其作用是將詞的各個(gè)詞形變化還原為同一詞干,例如“selling”和“sells”是“sell”的不同詞形,這樣的處理可以提高查詢?cè)~在博文中的覆蓋率;ld為博文的長度;lavg為同一查詢下全部相關(guān)博文的平均長度;在實(shí)驗(yàn)中參數(shù)s設(shè)置為0.2.

        2)根據(jù)博文的L-Qtf系數(shù)進(jìn)行博客的深淺度分析.在同一查詢下,根據(jù)L-Qtf系數(shù)的值對(duì)博文進(jìn)行排序,取該排序的前45%判定為深度表述的博文,后45%判定為淺度表述的博文.計(jì)算每一個(gè)博客下深度表述博文與淺度表述博文數(shù)量的差值,并對(duì)該博客下博文的數(shù)量進(jìn)行歸一化,得到該博客的深淺度分析結(jié)果Si.

        式中:Score(bx,Q)為深淺度分析結(jié)果,為了區(qū)分下面的合并方法,用Si表示.

        3)與博客的相關(guān)性結(jié)果合并得到最終排序.一個(gè)博客深淺度分析的最終結(jié)果不能僅依賴于深淺度分析,還要考慮該博客對(duì)于查詢?cè)~的相關(guān)性,所以提出了以下的合并模型:

        式中:Snorm(B,Q)為每個(gè)博客的相關(guān)性.

        1.4 相關(guān)反饋

        相關(guān)反饋是TREC在2008年發(fā)布的一項(xiàng)新任務(wù),基本的任務(wù)是:對(duì)于一個(gè)給定的查詢,對(duì)文檔集索引中抽取相關(guān)文檔,得到初始查詢結(jié)果;然后再給定一些標(biāo)注過的與查詢相關(guān)或無關(guān)的文檔,通過標(biāo)記文檔選擇擴(kuò)展詞,對(duì)查詢進(jìn)行重構(gòu);最后重新查詢得到反饋結(jié)果.2008年采用了傳統(tǒng)的Rocchio算法,即正負(fù)反饋的方法.2009年相關(guān)反饋主要采用了文本分類、語言模型提取擴(kuò)展詞的方法[16],其效果較好.2010年的相關(guān)反饋在2009年方法的基礎(chǔ)之上加入了實(shí)體擴(kuò)展、擴(kuò)展詞分類兩部分.

        1.4.1 結(jié)構(gòu)流程

        2010年相關(guān)反饋方法的流程如圖1所示.

        圖1 相關(guān)反饋的流程Fig.1 The flow chart of relevance feedback

        1.4.2 擴(kuò)展詞抽取

        擴(kuò)展詞主要有2種:通過語言模型計(jì)算的權(quán)重排序得到的詞[17]和通過相似性KL距離計(jì)算得到的命名實(shí)體.擴(kuò)展詞的來源是初始查詢結(jié)果通過標(biāo)記文本分類得到的相關(guān)文檔類.

        語言模型進(jìn)行擴(kuò)展詞抽取主要思想是將相關(guān)文檔類看作一個(gè)模型[18],通過估計(jì)模型生成詞的概率來對(duì)詞進(jìn)行排序.詞在相關(guān)文檔類模型中的概率分布如式(5):

        式中:Pml(t,d)是詞t在文檔d中的歸一化頻率,Pavg(t)是詞t的平均詞頻,(t,d)是一個(gè)風(fēng)險(xiǎn)函數(shù),fct是t在文檔類中的總詞頻,cs是相關(guān)文檔集長度.

        一些查詢往往與特定的領(lǐng)域或主題相關(guān),這些領(lǐng)域內(nèi)部的人物、機(jī)構(gòu)、地點(diǎn)等通常能有助于區(qū)分相關(guān)文檔和不相關(guān)文檔[19].因此,可以將這些命名實(shí)體(包括人名、地名、組織機(jī)構(gòu))作為擴(kuò)展查詢的一部分.抽取的主要方法步驟是:1)對(duì)相關(guān)文檔集進(jìn)行命名實(shí)體標(biāo)注,標(biāo)注出人、組織和地名3類命名實(shí)體;2)基于命名實(shí)體的詞頻對(duì)實(shí)體進(jìn)行排序,得到詞頻較高的前20個(gè)命名實(shí)體;3)去掉這20個(gè)命名實(shí)體中的噪聲實(shí)體,噪聲實(shí)體是指在相關(guān)文檔集和不相關(guān)文檔集中都經(jīng)常出現(xiàn)的實(shí)體;4)計(jì)算去噪后每個(gè)實(shí)體和相關(guān)文檔的KL距離[20],找到與相關(guān)文檔距離最近的5個(gè)實(shí)體加入到擴(kuò)展詞集合中.

        1.4.3 擴(kuò)展詞分類

        通過語言模型提取出的擴(kuò)展詞,并不是都能改善原始查詢的結(jié)果;因此采用對(duì)擴(kuò)展詞進(jìn)行分類的方法,選擇對(duì)原始查詢改善效果比較好的擴(kuò)展詞,使得查詢能夠得到更好的優(yōu)化.在擴(kuò)展詞分類實(shí)驗(yàn)中,分類器采用LIBSVM,特征選取方面,主要考慮的是擴(kuò)展詞的分布特點(diǎn)、擴(kuò)展詞與查詢?cè)~之間的共現(xiàn)頻度和距離等特征,訓(xùn)練樣本來源于2009年TERC相關(guān)反饋評(píng)測(cè)的數(shù)據(jù).

        根據(jù)擴(kuò)展詞對(duì)原始查詢的不同影響,將擴(kuò)展詞分為好擴(kuò)展和壞擴(kuò)展2種,并進(jìn)行擴(kuò)展詞標(biāo)注.好擴(kuò)展是指當(dāng)在擴(kuò)展查詢中該擴(kuò)展詞的權(quán)重為w時(shí),返回的結(jié)果比原始查詢好,即正反饋;當(dāng)權(quán)重為-w時(shí),返回結(jié)果比原始查詢差,即負(fù)反饋.壞擴(kuò)展與之相反.實(shí)驗(yàn)中取w=0.01.

        使用LIBSVM[21]進(jìn)行SVM的訓(xùn)練和預(yù)測(cè).按照前面提到的標(biāo)注方法,對(duì)2009年相關(guān)反饋提取的擴(kuò)展詞進(jìn)行了標(biāo)注,為避免正負(fù)樣本比例不協(xié)調(diào)的問題而影響分類效果,最后選定191個(gè)樣本作為訓(xùn)練樣本,其中131個(gè)負(fù)樣本,60個(gè)正樣本.在訓(xùn)練過程中,采取了交叉驗(yàn)證的方法,將數(shù)據(jù)平均分成5組,并保證每一組數(shù)據(jù)有12個(gè)正樣本,最后達(dá)到的平均準(zhǔn)確率為69.268 34%.

        1.4.4 查詢擴(kuò)展

        根據(jù)給定的原始查詢和從相關(guān)文檔集合中抽取的擴(kuò)展詞進(jìn)行查詢擴(kuò)展.擴(kuò)展過程中查詢的格式如下[22]:

        其中:“query”為原始查詢,“terms”為語言模型抽取、SVM分類過的擴(kuò)展詞,“named entity”為通過KL距離抽取的命名實(shí)體.原始查詢的權(quán)重設(shè)為1.0,擴(kuò)展詞權(quán)重設(shè)為0.2.

        2 信息抽取

        一般情況下,被用戶認(rèn)為有用的信息隱藏在大量文字中,或散亂分布在各種各樣的網(wǎng)頁中.如何將這些符合特定需求的信息抽取出來,是當(dāng)前文本搜索領(lǐng)域的熱點(diǎn)問題.著名的文本分析會(huì)議(text analysis conference,TAC)就將焦點(diǎn)放在信息的抽取和關(guān)聯(lián)分析上.TAC是由IAD(information access division)組織的一個(gè)評(píng)測(cè),該評(píng)測(cè)自2008年舉辦以來,已經(jīng)進(jìn)行了3屆,最初是從 TREC評(píng)測(cè)的 Question Answering Track發(fā)展起來的[23].筆者自2009年已經(jīng)連續(xù)2年參加了該評(píng)測(cè)的實(shí)體關(guān)聯(lián)和實(shí)體填充[24]2項(xiàng)任務(wù),并在評(píng)測(cè)中取得了較為優(yōu)異的成績(jī).

        2.1 實(shí)體關(guān)聯(lián)任務(wù)及關(guān)鍵技術(shù)

        實(shí)體關(guān)聯(lián)(entity linking)的任務(wù)是根據(jù)每一個(gè)query的標(biāo)題和支持文檔找到KB中的惟一節(jié)點(diǎn)和它對(duì)應(yīng),或者返回空(表示該節(jié)點(diǎn)不和任何KB中的節(jié)點(diǎn)對(duì)應(yīng)).其中:KB(knowledge base)這個(gè)數(shù)據(jù)集中存放所有的KB節(jié)點(diǎn);query是評(píng)測(cè)開始時(shí)官方提供的數(shù)據(jù),一個(gè)query包含1個(gè)title(標(biāo)題)和1篇支持文檔.

        1)系統(tǒng)總體框架.系統(tǒng)主要包括以下幾個(gè)模塊:實(shí)體檢索、命名實(shí)體識(shí)別、相似性判斷、自動(dòng)摘要,如圖2.基本思想是,首先對(duì)每一個(gè)實(shí)體query進(jìn)行實(shí)體檢索,得到一批實(shí)體候選列表,然后針對(duì)每一個(gè)候選實(shí)體進(jìn)行排序和相似度的打分,從而得到最終的結(jié)果.

        2)實(shí)體檢索.在評(píng)測(cè)中,往往面對(duì)的是海量文本,如果對(duì)于每一個(gè)查詢都去遍歷KB,那么其響應(yīng)速度是不能接受的;因此,通常需要對(duì)KB建立索引,在TAC評(píng)測(cè)中,選用Indri作為建立索引的工具.

        圖2 實(shí)體關(guān)聯(lián)的流程Fig.2 The flow chart of entity linking

        3)命名實(shí)體識(shí)別.TAC評(píng)測(cè)中的query都是一個(gè)實(shí)體,并且該實(shí)體可能是以下3種類別之一:人名、地名、組織機(jī)構(gòu)名.首先需要判斷該query是哪一種類別的實(shí)體,從而方便后續(xù)的處理,在TAC評(píng)測(cè)中,使用了斯坦福大學(xué)提供的命名實(shí)體識(shí)別開源工具包.

        4)判定方法.在評(píng)測(cè)中,需要對(duì)1個(gè)query和1個(gè)文檔進(jìn)行相似度的計(jì)算,采用了以下2種方法:

        a)基于VSM模型的相似度判斷:

        b)基于KL距離的相似度判斷:

        5)實(shí)體關(guān)聯(lián)的改進(jìn).在2010年的TAC評(píng)測(cè)中,筆者加入了許多規(guī)則,這些規(guī)則的引入主要來自于對(duì)原始數(shù)據(jù)的觀察,通過加入相關(guān)的這些規(guī)則,效果有了提高.

        2.2 實(shí)體填充任務(wù)及關(guān)鍵技術(shù)

        實(shí)體填充(slot filling)任務(wù)即在測(cè)試集中尋找與目標(biāo)實(shí)體(查詢)相關(guān)的信息,填充目標(biāo)實(shí)體預(yù)先規(guī)定的一系列屬性值.目標(biāo)實(shí)體分為2類:人名和組織機(jī)構(gòu),人名共有26種屬性需要填充,組織機(jī)構(gòu)共有16種屬性需要填充.屬性有single和list的不同,其中single為只能有一個(gè)答案的屬性,如人的生日;list為可以有多個(gè)答案的屬性,如人的子女.

        1)系統(tǒng)總體框架.實(shí)體填充系統(tǒng)的總體框架由4個(gè)部分組成:實(shí)體檢索模塊、命名實(shí)體識(shí)別模塊、關(guān)系抽取模塊、結(jié)果決策模塊,如圖3.實(shí)體檢索模塊通過Indri檢索平臺(tái),獲取和查詢實(shí)體最相關(guān)的前25篇相關(guān)文檔及其相關(guān)度權(quán)值.命名實(shí)體識(shí)別模塊使用斯坦福NER工具包識(shí)別人名、地名、組織機(jī)構(gòu)名,使用時(shí)間規(guī)則模板匹配識(shí)別時(shí)間.關(guān)系抽取模塊是實(shí)體填充系統(tǒng)的核心模塊,把實(shí)體填充當(dāng)作一個(gè)關(guān)系抽取任務(wù),在這一模塊中同時(shí)采用基于規(guī)則模板的方法與基于統(tǒng)計(jì)的方法.結(jié)果決策模塊對(duì)關(guān)系抽取模塊的結(jié)果進(jìn)行優(yōu)選得出最終結(jié)果.

        圖3 實(shí)體填充的流程Fig.3 The flow chart of slot filling

        2010年實(shí)體填充的整體實(shí)現(xiàn)框架與2009年大體相同,但細(xì)節(jié)上有所改進(jìn),例如增加了URL的識(shí)別.采用基于規(guī)則方法識(shí)別為主、基于統(tǒng)計(jì)CRF識(shí)別方法做補(bǔ)充的實(shí)現(xiàn)方案.即當(dāng)2種方法同時(shí)出現(xiàn)“single”的值,優(yōu)選選擇規(guī)則類方法;對(duì)于非“single”的值,綜合考慮文檔對(duì)于query的相關(guān)性值SEL和填充結(jié)果的可信度值SSF,選擇最優(yōu)的若干個(gè)結(jié)果進(jìn)行優(yōu)選得出最終結(jié)果.

        2)基于規(guī)則模板的方法.a)識(shí)別 URL(網(wǎng)址)和LIST(title職稱、charge罪名、cause of death 死因、religion宗教等).其中URL識(shí)別采用正則表達(dá)式方法,LIST主要從訓(xùn)練語料中統(tǒng)計(jì)而來.b)根據(jù)規(guī)則模板輸出實(shí)體填充結(jié)果.

        3)基于統(tǒng)計(jì)的方法.基于統(tǒng)計(jì)的方法是一種半監(jiān)督的機(jī)器學(xué)習(xí)方法,它將實(shí)體關(guān)系抽取看作一種多分類問題,從文本中抽取訓(xùn)練所需要的特征,然后利用條件隨機(jī)場(chǎng)形成分類器.

        利用9種特征來訓(xùn)練CRFs:詞對(duì)、詞特征、詞性特征、順序特征、動(dòng)詞位置特征、實(shí)體位置特征、二值特征、動(dòng)詞特征和類型特征.由于實(shí)體關(guān)系識(shí)別是一種多分類問題,而類別數(shù)越多,模型的準(zhǔn)確率也會(huì)下降.為了盡可能降低類別數(shù),根據(jù)目標(biāo)實(shí)體的類型(人名或組織名)將初始的訓(xùn)練語料初步分為2份,然后再根據(jù)詞對(duì)中的第2個(gè)詞是否為命名實(shí)體,進(jìn)一步將訓(xùn)練語料二次劃分,最后用CRFs形成了4種分類器,這樣做也提高了系統(tǒng)的整體效率.

        4)結(jié)果合并.綜合考慮文檔對(duì)于query的相關(guān)性值SEL和填充結(jié)果的可信度值SSF,選擇最優(yōu)的1個(gè)或若干個(gè).選擇策略如式(6)所示.

        式中:Value(Q,slot,doc)即為綜合考慮文檔對(duì)于query的相關(guān)性值和填充結(jié)果的可信度值的權(quán)值.對(duì)于基于機(jī)器學(xué)習(xí)的方法,CRF++工具包[25]可以為識(shí)別結(jié)果提供可信度值,記為crfvalue,即該判別結(jié)果正確的概率,SSF=crfvalue;對(duì)于基于規(guī)則的方法,優(yōu)先選取基于規(guī)則方法的結(jié)果,設(shè)置填充結(jié)果可信度值為1,SSF=1.實(shí)體關(guān)聯(lián)提供相關(guān)文檔的同時(shí)提供該文檔的相關(guān)度值,記為SEL.其中參數(shù)μ設(shè)置為0.5.

        3 信息過濾

        近年來,隨著互聯(lián)網(wǎng)技術(shù)的迅速發(fā)展,垃圾信息的數(shù)量在網(wǎng)絡(luò)上呈現(xiàn)上升趨勢(shì),信息過濾成為一個(gè)業(yè)內(nèi)的難題和挑戰(zhàn).以垃圾郵件為例,TREC從2005—2007年組織了垃圾郵件過濾評(píng)測(cè)(spam track)[26-27],目的是盡可能找到一種好的垃圾郵件過濾模型,保證過濾的有效性和可重復(fù)性滿足需求.主要任務(wù)包括即時(shí)反饋、延時(shí)反饋、主動(dòng)學(xué)習(xí)和部分反饋等[28].筆者參加了其中的3屆評(píng)測(cè),2005年在參賽的國內(nèi)隊(duì)伍中成績(jī)是最好的.

        當(dāng)前的垃圾郵件過濾技術(shù)可以大致劃分為黑名單技術(shù)、人力驅(qū)動(dòng)的啟發(fā)式過濾以及基于機(jī)器學(xué)習(xí)的過濾[29].這些技術(shù)中,樸素貝葉斯方法受到廣泛關(guān)注.

        3.1 樸素貝葉斯分類器

        樸素貝葉斯分類器簡(jiǎn)單有效,經(jīng)常用于文本分類的應(yīng)用和實(shí)驗(yàn)中.垃圾郵件過濾屬于文本分類問題,因此該分類器被廣泛使用于垃圾郵件過濾.樸素貝葉斯分類器是一種基于概率的方法,基本思想是通過觀察一些詞是否在郵件中出現(xiàn)來判斷是垃圾還是非垃圾,如式(7):

        式中:wk是組成郵件的詞,L是類別的集合.常用的樸素貝葉斯模型有 multi-variate Bernoulli模型、Poisson Na?ve Bayes模型以及 multinomial模型.它們的不同之處主要在于如何計(jì)算P(wk|Ci).對(duì)于垃圾郵件過濾問題,只有2個(gè)類別:垃圾郵件C+和非垃圾郵件C-,那么一封郵件M的對(duì)數(shù)得分可寫為

        如果Score(M)>0,待分類郵件被標(biāo)注為C+類(垃圾郵件),反之被標(biāo)注為C-類(非垃圾郵件).過濾模型如圖4所示.在有監(jiān)督情況下,用戶判斷垃圾郵件過濾器的結(jié)果并反饋給過濾器,而過濾器依據(jù)反饋進(jìn)行自動(dòng)學(xué)習(xí).系統(tǒng)開始運(yùn)行時(shí)并不預(yù)設(shè)標(biāo)準(zhǔn),即是一個(gè)無初始記憶的分類器,而后不斷更新達(dá)到最佳效果.系統(tǒng)關(guān)于垃圾郵件的知識(shí)均是從理想用戶的反饋中得到的.

        圖4 垃圾郵件過濾的流程Fig.4 The flow chart of spam filtering

        3.2 加權(quán)樸素貝葉斯分類器

        假設(shè)郵件的不同部分對(duì)過濾的貢獻(xiàn)是不同的,某些部分對(duì)過濾的幫助更大.若郵件分為S個(gè)部分,每個(gè)部分由Nd個(gè)詞組成,d=1,2,…,S.那么樸素貝葉斯分類器的一個(gè)簡(jiǎn)單推廣就是為郵件的不同部分賦予不同的權(quán)值α.式(7)可以更新成為

        式中:αd為權(quán)值,d=1,2,…,S.式(8)用Nd和郵件長度正規(guī)化后可以寫成

        那么給定訓(xùn)練集后,參數(shù)集α就可以用最大似然準(zhǔn)則求解了.在實(shí)際中,劃分的方法有很多.可以按結(jié)構(gòu)劃分各部分,如標(biāo)題、郵件頭、正文、附件等,也可以按詞的不同概率將郵件劃分成不同的部分.

        3.3 分類器集成

        Bagging是一種將一些弱分類器集成的技術(shù).弱分類器指的是準(zhǔn)確率比50%高一點(diǎn)的分類器.在分類過濾任務(wù)中,將弱分類器集成在一起,經(jīng)過演進(jìn)和變換達(dá)到最佳效果.基于Bagging技術(shù)的樸素貝葉斯垃圾郵件過濾器,通過選擇好的集成方法有助于提升過濾系統(tǒng)的性能.常用的方法主要有嵌入決策樹和分類錯(cuò)誤加權(quán)等.

        4 實(shí)際系統(tǒng)

        4.1 互聯(lián)網(wǎng)輿情系統(tǒng)

        北京郵電大學(xué)模式識(shí)別與智能系統(tǒng)實(shí)驗(yàn)室的互聯(lián)網(wǎng)輿情監(jiān)控分析系統(tǒng)依托自主研發(fā)的文本搜索和文本挖掘技術(shù),通過新聞、論壇、博客、微博、視頻網(wǎng)站等內(nèi)容源的自動(dòng)采集與跟蹤,進(jìn)行敏感話題過濾分析、智能話題聚類分類、主題監(jiān)測(cè)、專題聚焦和各類數(shù)據(jù)的統(tǒng)計(jì)分析,實(shí)現(xiàn)應(yīng)用單位對(duì)相關(guān)網(wǎng)絡(luò)輿情監(jiān)督管理的需要,為決策層全面掌握輿情動(dòng)態(tài),做出正確輿論引導(dǎo)提供分析依據(jù).

        4.2 短信輿情系統(tǒng)

        短信是人們?nèi)粘I钪羞M(jìn)行通信的重要手段,通過對(duì)短信文本的分析,可以掌握大眾平時(shí)的輿論導(dǎo)向,并且可以幫助政府職能部門盡早地發(fā)現(xiàn)一些不良的、危及安全的不法短信.但是短信有其自身的特點(diǎn):短小、口語化等,這也給分析帶來了很大的難度.因此,基于短信進(jìn)行輿情分析既有一定的學(xué)術(shù)價(jià)值,也有一定的現(xiàn)實(shí)意義.

        短信輿情系統(tǒng)主要有以下一些模塊:短信分類模塊根據(jù)短信的內(nèi)容將短信分到不同的類別,并且可以通過訓(xùn)練自動(dòng)調(diào)整各類別下關(guān)鍵詞的權(quán)重;敏感過濾模塊可以過濾出涉及國家和人民生命財(cái)產(chǎn)安全的非法短信;發(fā)送方式分析模塊可以判斷出一條短信的發(fā)送方式,例如群發(fā)、轉(zhuǎn)發(fā)、直發(fā)等,從而可以獲知什么樣的短信被大規(guī)模群發(fā),并進(jìn)行有針對(duì)性的跟蹤;短信溯源和用戶交際圈模塊可以根據(jù)某一用戶或某一短信進(jìn)行全方位地分析,從而掌握某用戶的動(dòng)態(tài).

        通過短信輿情系統(tǒng),可以更好地加強(qiáng)對(duì)短信數(shù)據(jù)的監(jiān)控,掌握普通用戶的輿情情況,為政府職能部門制定相關(guān)決策,追蹤某些特殊的現(xiàn)象提供手段.

        4.3 校園對(duì)象搜索引擎系統(tǒng)

        校園對(duì)象搜索引擎(campus object search engine,COSE),是一款在校園網(wǎng)內(nèi)工作,致力于幫助用戶尋找人物、組織機(jī)構(gòu)以及課程信息的垂直搜索引擎.從COSE的名字就可以看出該系統(tǒng)所針對(duì)的服務(wù)對(duì)象是校園中的學(xué)生群體.COSE的主要特點(diǎn)在于它融入了信息抽取中的命名實(shí)體識(shí)別和實(shí)體關(guān)系抽取這2項(xiàng)技術(shù),可以自動(dòng)識(shí)別網(wǎng)頁中的人名、課程名以及機(jī)構(gòu)組織名,建立實(shí)體(也稱對(duì)象)數(shù)據(jù)庫,并且根據(jù)對(duì)象名在網(wǎng)頁中抽取其關(guān)系(也稱相關(guān)屬性),建立相關(guān)屬性數(shù)據(jù)庫,供用戶查詢檢索時(shí)使用.

        COSE系統(tǒng)包含的模塊有:網(wǎng)絡(luò)爬蟲與索引、中文分詞、命名實(shí)體識(shí)別、實(shí)體關(guān)系抽取和查詢重構(gòu).COSE采用廣度優(yōu)先搜索策略,只抓取各個(gè)大學(xué)網(wǎng)站域名下的網(wǎng)頁信息,建立網(wǎng)頁文檔庫及索引.這可以在很大一定程度上屏蔽掉大量無用的廣告網(wǎng)頁和新聞網(wǎng)頁.對(duì)網(wǎng)頁文檔建索引能加快查找和排序的速度,COSE系統(tǒng)綜合使用全文索引技術(shù)和動(dòng)態(tài)文檔索引技術(shù).中文分詞是命名實(shí)體識(shí)別和實(shí)體關(guān)系抽取的前提和基礎(chǔ),COSE中的中文分詞技術(shù)綜合應(yīng)用基于字符串匹配和基于統(tǒng)計(jì)的中文分詞技術(shù).命名實(shí)體識(shí)別是COSE系統(tǒng)的關(guān)鍵技術(shù)之一,采用基于統(tǒng)計(jì)與基于規(guī)則相結(jié)合的識(shí)別方法.實(shí)體關(guān)系抽取是COSE系統(tǒng)中的另一項(xiàng)關(guān)鍵技術(shù),鑒于正則表達(dá)式的靈活性和強(qiáng)大的字符串匹配能力,COSE系統(tǒng)借助成熟的Python字符處理規(guī)則,提出一種正則表達(dá)式方案抽取對(duì)象屬性信息.COSE中查詢重構(gòu)模塊旨在解決以下2種形式的查詢:1)復(fù)雜查詢:查詢的不是單純實(shí)體;2)問題式查詢:比如某某老師屬于哪個(gè)學(xué)院.在用戶使用COSE進(jìn)行檢索時(shí),系統(tǒng)會(huì)返回2類信息:一類是與通用搜索引擎相似的和查詢相關(guān)的網(wǎng)頁信息,另一類則是相關(guān)網(wǎng)頁中包含的命名實(shí)體及其相關(guān)屬性.

        5 總結(jié)與展望

        傳統(tǒng)的文本搜索技術(shù)已經(jīng)難以滿足用戶的需求,融合了信息檢索、信息抽取和信息過濾等技術(shù)的智能文本搜索新技術(shù)是當(dāng)前的研究熱點(diǎn).

        信息檢索技術(shù)不再是單純的按相關(guān)度呈現(xiàn)各個(gè)網(wǎng)頁,更多的是對(duì)網(wǎng)頁內(nèi)容的深度挖掘、組織并反饋,提高檢索的準(zhǔn)確性、完備性、個(gè)性化程度.企業(yè)檢索主要研究在企業(yè)內(nèi)部數(shù)據(jù)中的用戶檢索行為,主要包含郵件檢索、文檔檢索和專家檢索任務(wù),使用了二階排序模型和專家經(jīng)驗(yàn)?zāi)P?實(shí)體檢索主要關(guān)注查找相關(guān)實(shí)體,除了使用文檔中心模型和實(shí)體中心模型外,還加入了實(shí)體抽取的關(guān)鍵技術(shù)和用來惟一標(biāo)識(shí)實(shí)體的主頁.博客檢索對(duì)博客中出現(xiàn)的觀點(diǎn)及其與查詢的相似性進(jìn)行研究,在此基礎(chǔ)上對(duì)傾向性作分析,主要分為3類:個(gè)人與官方、表達(dá)觀點(diǎn)與描述事實(shí)、深入分析與淺層描述.相關(guān)反饋利用給定的與查詢相關(guān)或無關(guān)的標(biāo)注文檔,選擇擴(kuò)展詞,對(duì)查詢進(jìn)行重構(gòu),通過重排序改善原有檢索系統(tǒng)的性能.

        信息抽取技術(shù)在文本分析會(huì)議評(píng)測(cè)中得到很好的體現(xiàn).該評(píng)測(cè)分為實(shí)體關(guān)聯(lián)和實(shí)體填充2個(gè)任務(wù),深度剖析文本信息,致力于識(shí)別、分析、整合文本中出現(xiàn)的實(shí)體.信息抽取技術(shù)非常重要,為其他工作的順利進(jìn)行起到了基礎(chǔ)性作用.

        信息過濾的關(guān)鍵技術(shù)被應(yīng)用在垃圾郵件過濾評(píng)測(cè)中.該評(píng)測(cè)的目的是盡可能找到一種好的垃圾郵件過濾模型,保證過濾的有效性和可重復(fù)性,主要任務(wù)包括即時(shí)反饋、延時(shí)反饋、主動(dòng)學(xué)習(xí)和部分反饋等.其中加權(quán)樸素貝葉斯和分類器集成的方法表現(xiàn)出了良好的效果.

        信息檢索、抽取和過濾三大技術(shù)是相互聯(lián)系的,經(jīng)常融合在一起,發(fā)揮最大的作用.例如:在檢索之前要抽取有價(jià)值的信息,過濾掉垃圾信息;抽取和過濾中也可以使用檢索的方法進(jìn)行初步處理;抽取和過濾都有基于規(guī)則和基于統(tǒng)計(jì)的方法等.這些都很好地在互聯(lián)網(wǎng)輿情、短信輿情和校園對(duì)象搜索引擎等系統(tǒng)中得到了體現(xiàn).新的智能文本搜索技術(shù)將是未來熱門的研究方向,并且具有巨大的發(fā)展前景.

        [1]郭軍.Web搜索[M].北京:高等教育出版社,2009:1-3.

        [2]方慧.TREC發(fā)展歷程及現(xiàn)狀分析[J].新世紀(jì)圖書館,2010(1):57.FANG Hui.On developing course and status analysis of TREC[J].New Century Library,2010(1):57.

        [3]BALOG K,SOBOROFF I,THOMAS P,et al.Overview of the TREC 2008 enterprise track[EB/OL]. [2010-12-15].http://trec.nist.gov/pubs/trec17/papers/ENTERPRISE.OVERVIEW.pdf.

        [4]RU Zhao,CHEN Yuehua,XU Weiran,et al.TREC2005 enterprise track experiments at BUPT[EB/OL].[2010-12-15].http://trec.nist.gov/pubs/trec14/papers/beijinguof-pt.ent.pdf.

        [5]RU Zhao,LI Qian,XU Weiran,et al.BUPT at TREC 2006:enterprise track[EB/OL]. [2010-12-15].http://trec.nist.gov/pubs/trec15/papers/beijing-upt.ent.final.pdf.

        [6]BAILEY P,CRASWELL N.Overview of the TREC 2007 enterprise track[EB/OL]. [2010-12-15].http://trec.nist.gov/pubs/trec16/papers/ENT.OVERVIEW16.pdf.

        [7]WANG Zhanyi,LIU Dongxin,XU Weiran,et al.BUPT at TREC 2009:entity track[EB/OL]. [2010-12-15].http://trec.nist.gov/pubs/trec18/papers/bupt.ENT.pdf.

        [8]ZHANG Suxiang,WEN Juan,WANG Xiaojie,et al.Automatic entity relation extraction based on maximum entropy[C]//Proceedings of the Sixth International Conference on Intelligent Systems Design and Applications.Ji’nan,China,2006:540-544.

        [9]LAFFERTY J D,MCCALLUM A,PEREIRA F C N.Conditional random fields:probabilistic models for segmenting and labeling sequence data[C]//Proceedings of the International Conference on Machine Learning.San Francisco,USA:Morgan Kaufmann Publishers Inc,2001:282-289.

        [10]MACDONALD C,OUNIS I.Voting for candidates:adapting data fusion techniques for an expert search task[C]//Proceedings of the 15th ACM International Conference on InformationandKnowledgeManagement.New York,USA:ACM,2006:387-396.

        [11]MANNING C D,RAGHAVAN P,SCHUTZE H,An introduction to information retrieval[M].Cambridge,UK:Cambridge University Press,2008:120-126.

        [12]WILSON T,WIEBE J,HOFFMANN P,Recognizing contextual polarity in phrase-level sentiment analysis[C]//Proceedings of the Conference on Human Language Technology and Empirical Methods in Natural Language Processing.Stroudsburg,USA:Association for Computational Linguistics,2005:347-354.

        [13]MANNING C D,SCHTZE H.Foundations of statistical natural language processing[M].Cambridge,USA:The MIT Press,1999.

        [14]AMATI G.Probabilistic models for information retrieval based on divergence from randomness[D].Glasgow,UK:University of Glasgow,2003.

        [15]SINGHAL A,BUCKLEY C,MITRA M.Pivoted document length normalization[C]//Proceedings of the 19th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval.New York,USA:ACM,1996:21-29.

        [16]LI Si,LI Xinsheng.PRIS at 2009 relevance feedback track:experiments in language model for relevance feedback[EB/OL]. [2010-12-15].http://trec.nist.gov/pubs/trec18/papers/pris.RF.pdf.

        [17]LALMAS M,MACFARLANE A,RUGER S.Advances in information retrieval[M].New York,USA:Springer-Verlag,2002:74-172.

        [18]PONTE J M,CROFT W B.A language modeling approach to information retrieval[C]//Proceedings of the 21th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval.New York,USA:ACM,1998:275-281.

        [19]WANG Bingqing,HUANG Xuanjing.Relevance feedback based on constrained clustering:FDU at TREC’09[EB/OL].[2010-12-15].http://trec.nist.gov/pubs/trec18/papers/fudanu.RF.pdf.

        [20]LAVRENKO V,CROFT W B.Relevance-based language models[C]//Proceedings of the 24th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval.New York,USA:ACM,2001:120-127.

        [21]CHANG Chihchung,LIN Chihjen.LIBSVM:a library for support vector machines[EB/OL]. [2011-04-09].http://www.csie.ntu.edu.tw/~cjlin/libsvm/index.html.

        [22]The Lemur Project.INDRI:language modeling meets inference networks[EB/OL]. [2011-03-23].http://www.lemurproject.org/indri/.

        [23]TAC 2009.Knowledge base population track[EB/OL].(2009-09-29) [2010-12-16].http://apl.jhu.edu/~paulmac/kbp.html.

        [24]TAC 2010.Knowledge base population(KBP2010)track[EB/OL].(2010-09-12)[2010-12-16].http://nlp.cs.qc.cuny.edu/kbp/2010/.

        [25]CRF++:yet another CRF toolkit[EB/OL]. [2010-12-16].http://crfpp.sourceforge.net/.

        [26]YANG Zhen,XU Weiran,CHEN Bo,et al.PRIS Kidult anti-SPAM solution at the TREC 2005 spam track:improving the performance of naive Bayes for spam detection[EB/OL]. [2010-12-15].http://trec.nist.gov/pubs/trec14/papers/beijingu-of-pt.spam.pdf.

        [27]YANG Zhen,XU Wei,CHEN Bo,et al.BUPT at TREC 2006:spam track[EB/OL]. [2010-12-15].http://trec.nist.gov/pubs/trec15/papers/beijing-upt.spam.final.pdf.

        [28]CORMACK G V.TREC 2007 spam track overview[EB/OL]. [2010-12-15].http://trec.nist.gov/pubs/trec16/papers/SPAM.OVERVIEW16.pdf.

        [29]楊震.文本分類和聚類中若干問題的研究[D].北京:北京郵電大學(xué),2007:10-86.

        YANG Zhen.Research on key problems in text classification and clustering[D].Beijing:Beijing University of Posts and Telecommunications,2007:10-86.

        王占一,男,1984年生,博士研究生,主要研究方向?yàn)樾畔⑦^濾和信息檢索等.在國內(nèi)外重要期刊和會(huì)議上發(fā)表學(xué)術(shù)論文10篇,獲發(fā)明專利2項(xiàng).

        徐蔚然,男,1975年生,副教授,主要研究方向?yàn)樾畔z索、模式識(shí)別和機(jī)器學(xué)習(xí).主持參加了 TREC、TAC、ACE等國際著名檢索評(píng)測(cè),并且獲得優(yōu)異成績(jī),參與多項(xiàng)國家級(jí)科研項(xiàng)目,發(fā)表學(xué)術(shù)論文20余篇.

        郭軍,男,1959年生,教授,博士生導(dǎo)師,主要研究方向?yàn)槟J阶R(shí)別、網(wǎng)絡(luò)管理、信息檢索、基于內(nèi)容的信息安全等.主持多項(xiàng)“863”計(jì)劃項(xiàng)目和國家自然科學(xué)基金項(xiàng)目,獲省部級(jí)獎(jiǎng)勵(lì)多項(xiàng),發(fā)表學(xué)術(shù)論文上百篇,獲授權(quán)專利5項(xiàng).

        New technologies of intelligent text search

        WANG Zhanyi1,2,XU Weiran1,2,GUO Jun1,2
        (1.Pattern Recognition and Intelligent System(PRIS)Laboratory,Beijing University of Posts and Telecommunications,Beijing 100876,China;2.School of Information and Communication Engineering,Beijing University of Posts and Telecommunications,Beijing 100876,China)

        To adapt to the massive amount of information on the internet and the need for accuracy,efficiency,and individualization,a set of technologies of intelligent text search including information retrieval,extraction,and filtering were proposed.First,new technologies of information retrieval were illustrated including the subtasks of enterprise retrieval,entity retrieval,blog retrieval,and relevance feedback.Second,the subtask of entity linking and slot filling related to information extraction was introduced.Finally,the subtask of spam e-mail filtering related to information filtering was described.These technologies were converged for application in many well-known international evaluations.These include the text retrieval conference(TREC)and text analysis conference(TAC)sponsored in the USA,and these technologies of intelligent text search were proven in practical applications such as public opinions on the Internet,short message opinions,and the campus object search engine(COSE).

        intelligent text search;text retrieval;text analysis

        TP393

        A

        1673-4785(2012)01-0040-10

        10.3969/j.issn.1673-4785.201101001

        http://www.cnki.net/kcms/detail/23.1538.TP.20120218.1616.001.html

        2011-01-02. 網(wǎng)絡(luò)出版時(shí)間:2012-02-18.

        國家自然科學(xué)基金資助項(xiàng)目(60905017);高等學(xué)校學(xué)科創(chuàng)新引智計(jì)劃項(xiàng)目(B08004).

        王占一.E-mail:wangzhanyi@gmail.com.

        猜你喜歡
        評(píng)測(cè)博客文檔
        有人一聲不吭向你扔了個(gè)文檔
        次時(shí)代主機(jī)微軟XSX全方位評(píng)測(cè)(下)
        次時(shí)代主機(jī)微軟XSX全方位評(píng)測(cè)(上)
        攻坡新利器,TOKEN VENTOUS評(píng)測(cè)
        Canyon Ultimate CF SLX 8.0 DI2評(píng)測(cè)
        中國自行車(2017年1期)2017-04-16 02:54:06
        基于RI碼計(jì)算的Word復(fù)制文檔鑒別
        Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
        博客天下
        博客天下(2015年2期)2015-09-15 14:12:57
        不讓他人隨意下載Google文檔
        電腦迷(2012年4期)2012-04-29 06:12:13
        博客相冊(cè)
        博客天下(2009年12期)2009-08-21 07:35:10
        亚洲无人区乱码中文字幕| 天天碰免费上传视频| 男男受被攻做哭娇喘声视频| 美女啪啪国产| 国内精品久久久久久久久蜜桃| 青青草绿色华人播放在线视频 | 国产自拍精品在线视频| 亚洲 欧美 偷自乱 图片| 波多野结衣久久精品99e| a级大胆欧美人体大胆666| 国产成人77亚洲精品www| 男女男生精精品视频网站| 日本在线观看一二三区| 人妻熟妇乱又伦精品视频| 亚洲精品乱码8久久久久久日本 | av资源在线永久免费观看| 国产激情一区二区三区不卡av| 一区二区三区中文字幕p站| 热久久国产欧美一区二区精品 | 亚洲伊人久久大香线蕉综合图片| 狠狠狠狠狠综合视频| 亚洲一区二区懂色av| 极品嫩模大尺度av在线播放| 精品无码无人网站免费视频| 黑人玩弄人妻中文在线| 亚洲色大成在线观看| 少妇性l交大片免费快色| 亚洲av无码乱码国产麻豆| 国产精品亚韩精品无码a在线| 国产成人久久精品区一区二区| 国产精品女人一区二区三区| 欧美又大又硬又粗bbbbb| 人妻少妇av中文字幕乱码| 亚洲高清中文字幕精品不卡| 日本免费久久高清视频| 丰满多毛的大隂户毛茸茸| 亚洲综合欧美在线| 国产成人亚洲精品一区二区三区 | 国产精品国产三级国产一地 | 天天躁夜夜躁av天天爽| 亚洲精品国产精品国自产观看|