亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        智能中文農(nóng)業(yè)垂直搜索引擎體系的架構(gòu)與實(shí)現(xiàn)

        2015-01-06 18:29:49陳燕紅
        湖北農(nóng)業(yè)科學(xué) 2014年12期
        關(guān)鍵詞:體系架構(gòu)

        摘要:針對(duì)互聯(lián)網(wǎng)農(nóng)業(yè)信息的多樣性、復(fù)雜性以及我國(guó)“三農(nóng)”的特殊性,研究并實(shí)現(xiàn)了智能中文農(nóng)業(yè)垂直搜索引擎AgriRoom,介紹了AgriRoom的體系架構(gòu)和系統(tǒng)實(shí)現(xiàn)中涉及到的關(guān)鍵技術(shù):基于網(wǎng)頁(yè)分類和多元線性回歸分析的信息過濾技術(shù)、物理存儲(chǔ)模式的分頁(yè)式倒排索引技術(shù)、基于隨機(jī)索引和潛在語(yǔ)義分析的語(yǔ)義檢索模型。該系統(tǒng)目前已投入使用,取得了較顯著的應(yīng)用效果。

        關(guān)鍵詞:農(nóng)業(yè)信息;垂直搜索引擎;體系架構(gòu)

        中圖分類號(hào):TP393.02 ? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A ? ? ? 文章編號(hào):0439-8114(2014)12-2913-05

        The Architecture and Implementation of Intelligent Chinese Agriculture

        Vertical Search Engine

        CHEN Yan-hong

        (College of Computer and Information Engineering, Xinjiang Agriculture University, Urumqi ?830052, China)

        Abstract:For the diversity and complexity of agricultural information on the Internet, and the particularity of “three rural” in China, the AgriRoom which was a intelligent Chinese agriculture vertical search engine was studied and achieved. The architecture of AgriRoom and the key technologies related to the system implementation included: information filtering technology based on web page classification and multiple linear regression analysis, tabbed inverted index in physical storage mode, semantic retrieval model based on random index and latent semantic analysis. Now, the system has been put into use, and made significant application effect.

        Key words:agricultural information;vertical search engine;architecture

        20世紀(jì)90年代初,搜索引擎開始應(yīng)用于農(nóng)業(yè)領(lǐng)域,多由商業(yè)公司開發(fā),也有一些是由組織機(jī)構(gòu)和政府部門研發(fā)的。從搜索引擎的質(zhì)量來看,組織機(jī)構(gòu)、政府部門開發(fā)和維護(hù)的農(nóng)業(yè)搜索引擎的質(zhì)量高于商業(yè)公司,主要是因?yàn)檎块T和組織機(jī)構(gòu)都是農(nóng)業(yè)相關(guān)部門,擁有先天優(yōu)勢(shì)。典型代表有美國(guó)農(nóng)業(yè)網(wǎng)絡(luò)信息中心(AGNIC)與美國(guó)普林斯頓建立的Agriscape Search等[1]。2007年,中國(guó)首個(gè)農(nóng)業(yè)垂直搜索引擎——“農(nóng)搜”上線,是目前全球數(shù)據(jù)量最大的中文農(nóng)業(yè)垂直搜索引擎,其實(shí)現(xiàn)了“全文檢索+語(yǔ)義檢索”的智能檢索功能[2]。同年上線的“華農(nóng)在線”利用自然語(yǔ)言語(yǔ)義分析技術(shù)實(shí)現(xiàn)了信息處理的應(yīng)用和在農(nóng)業(yè)行業(yè)的垂直搜索。與此同時(shí),我國(guó)還出現(xiàn)了一些提供農(nóng)業(yè)信息搜索功能的網(wǎng)站。隨著搜索引擎技術(shù)的發(fā)展,面對(duì)我國(guó)“三農(nóng)”的特殊性以及互聯(lián)網(wǎng)農(nóng)業(yè)信息的多樣性和復(fù)雜性,許多問題需要探討,本研究構(gòu)建了智能中文農(nóng)業(yè)垂直搜索引擎AgriRoom,并從體系的架構(gòu)、信息過濾、物理存儲(chǔ)模式以及語(yǔ)義檢索模型等方面進(jìn)行了介紹,為構(gòu)建智能中文農(nóng)業(yè)垂直搜索引擎奠定了基礎(chǔ)。

        1 ?智能中文農(nóng)業(yè)垂直搜索引擎體系的架構(gòu)

        課題組基于前期研究成果設(shè)計(jì)并實(shí)現(xiàn)了一個(gè)功能完備的智能農(nóng)業(yè)垂直搜索引擎AgriRoom,其體系架構(gòu)如圖1所示。AgriRoom作為專注于互聯(lián)網(wǎng)農(nóng)業(yè)信息的垂直搜索引擎,從初始的種子站點(diǎn)到主題詞庫(kù)等都體現(xiàn)了農(nóng)業(yè)特性,同時(shí)系統(tǒng)還具有專門的信息過濾模塊篩選與農(nóng)業(yè)相關(guān)性高的網(wǎng)頁(yè),從而既可以節(jié)約存儲(chǔ)空間,又保證了信息的準(zhǔn)確性。同時(shí),為后期高效地檢索打下良好的基礎(chǔ)及保證系統(tǒng)的查準(zhǔn)率和查全率,AgriRoom采用基于雙索引庫(kù)模式的潛在語(yǔ)義檢索方式。首先,系統(tǒng)利用索引模塊建立高效的分頁(yè)式倒排索引庫(kù);然后,利用檢索模塊將其轉(zhuǎn)換為雙重語(yǔ)義空間,為后面的語(yǔ)義檢索作準(zhǔn)備。體系的架構(gòu)圖見圖1。

        1)專業(yè)網(wǎng)絡(luò)蜘蛛[1]從農(nóng)業(yè)種子站點(diǎn)列表中獲得網(wǎng)頁(yè)的URL,如果該地址不在舍棄URL隊(duì)列中,則對(duì)互聯(lián)網(wǎng)中相應(yīng)的Web服務(wù)器進(jìn)行網(wǎng)頁(yè)抓取,并解析抓取的網(wǎng)頁(yè),提取該網(wǎng)頁(yè)中的超鏈接信息和網(wǎng)頁(yè)內(nèi)容信息送信息過濾模塊。然后,網(wǎng)絡(luò)蜘蛛再繼續(xù)抓取下一個(gè)網(wǎng)頁(yè)進(jìn)行同樣的處理。

        2)信息過濾模塊接到專業(yè)網(wǎng)絡(luò)蜘蛛送來的已解析頁(yè)面后,根據(jù)農(nóng)業(yè)主題詞庫(kù)中的主題詞及其權(quán)值,分析該頁(yè)面的內(nèi)容是否與農(nóng)業(yè)主題相關(guān)、是否是垃圾網(wǎng)頁(yè)或?qū)Ш巾?yè)面。如果頁(yè)面與農(nóng)業(yè)主題相關(guān)度比設(shè)定的閾值低或頁(yè)面為垃圾頁(yè)面,則將此頁(yè)面的URL送入舍棄URL隊(duì)列。否則,將頁(yè)面送入索引模塊準(zhǔn)備建立索引,同時(shí),還將該頁(yè)面存入農(nóng)業(yè)網(wǎng)頁(yè)數(shù)據(jù)庫(kù)中。

        3)索引模塊將獲得的頁(yè)面信息,進(jìn)行相應(yīng)處理后,建立分頁(yè)式倒排索引并存入索引庫(kù)[3]中。

        4)當(dāng)所有抓取的頁(yè)面都被索引后,檢索模塊讀取分頁(yè)式倒排索引庫(kù)中的索引,通過隨機(jī)索引[4]和潛在語(yǔ)義分析[5]建立較高效的雙重語(yǔ)義空間。endprint

        5)用戶輸入查詢條件后,檢索模塊對(duì)其進(jìn)行解析和處理,轉(zhuǎn)換為標(biāo)準(zhǔn)的查詢語(yǔ)句;檢索模塊將查詢語(yǔ)句和語(yǔ)義空間中的信息進(jìn)行語(yǔ)義分析后,獲得查詢結(jié)果。最后,形成結(jié)果頁(yè)面返回給用戶。

        2 ?智能中文農(nóng)業(yè)垂直搜索引擎體系的關(guān)鍵技術(shù)

        AgriRoom的實(shí)現(xiàn)需要綜合應(yīng)用多項(xiàng)技術(shù),除了常規(guī)的網(wǎng)頁(yè)抓取[1]、中文分詞技術(shù)[6]外還涉及到了3項(xiàng)關(guān)鍵技術(shù):信息過濾技術(shù)、分頁(yè)式倒排索引技術(shù)以及語(yǔ)義檢索技術(shù)。

        2.1 ?信息過濾

        為了有效地減小索引規(guī)模和提高系統(tǒng)效率,AgriRoom采用了一種基于網(wǎng)頁(yè)分類技術(shù)和多元回歸分析[7]的信息過濾模型如圖2所示。整個(gè)工作流程可以分為訓(xùn)練過程和測(cè)試過程。在訓(xùn)練過程中,訓(xùn)練集實(shí)例經(jīng)過預(yù)處理(文本抽取、中文分詞)、抽取特征項(xiàng)、向量表示后,構(gòu)建多元線性回歸的數(shù)學(xué)模型,最后進(jìn)行回歸分析獲得回歸方程;在信息過濾過程中,每一個(gè)待過濾的中文網(wǎng)頁(yè)經(jīng)過預(yù)處理、向量表示后,代入多元回歸方程中,判定該網(wǎng)頁(yè)是否為農(nóng)業(yè)網(wǎng)頁(yè)。

        從圖2可以看出,構(gòu)建該信息過濾模型的關(guān)鍵因素包括:建立訓(xùn)練集、網(wǎng)頁(yè)預(yù)處理、特征選擇算法、多元線性回歸分析:

        1)建立訓(xùn)練集。訓(xùn)練集是研究的起點(diǎn)和基礎(chǔ),但是與眾多的面向英文的標(biāo)準(zhǔn)網(wǎng)頁(yè)訓(xùn)練集相比,標(biāo)準(zhǔn)的中文網(wǎng)頁(yè)訓(xùn)練集的起步很晚。到目前為止,只有一些中文文本訓(xùn)練集,還沒有出現(xiàn)標(biāo)準(zhǔn)的中文網(wǎng)頁(yè)訓(xùn)練集。為了解決該問題,動(dòng)員100個(gè)學(xué)生手工在互聯(lián)網(wǎng)上采集農(nóng)業(yè)網(wǎng)頁(yè)50 000張,其中,35 000張作為訓(xùn)練集,15 000張作為測(cè)試集;然后,以百度作為網(wǎng)絡(luò)蜘蛛的種子站點(diǎn),在互聯(lián)網(wǎng)上隨機(jī)抓取 12 000張網(wǎng)頁(yè),人工挑出7 000張非農(nóng)業(yè)網(wǎng)頁(yè),其中的4 000張作為訓(xùn)練集,3 000張作為測(cè)試集。通過反復(fù)測(cè)試,最終確定訓(xùn)練集實(shí)例用于信息過濾。

        2)網(wǎng)頁(yè)預(yù)處理。網(wǎng)頁(yè)預(yù)處理過程主要包括網(wǎng)頁(yè)正文抽取;借助于中文分詞工具對(duì)抽取后的文本進(jìn)行中文分詞;對(duì)分詞后的結(jié)果建立索引。

        3)特征選擇算法。特征詞不但是用來建立回歸模型的因子,也是區(qū)分農(nóng)業(yè)網(wǎng)頁(yè)和非農(nóng)業(yè)網(wǎng)頁(yè)的最關(guān)鍵因素,特征詞選取方法將對(duì)模型的識(shí)別效果產(chǎn)生重大影響。文本在深入研究了中文網(wǎng)頁(yè)分類中典型的特征詞提取方法的基礎(chǔ)上,結(jié)合實(shí)際應(yīng)用提出了一種新的特征詞選取方法,其步驟如下:

        a.從農(nóng)業(yè)訓(xùn)練集索引文件中獲取農(nóng)業(yè)訓(xùn)練集分詞結(jié)果集合Term1(t1,t2,…,tn)和對(duì)應(yīng)文檔頻率集合Df1(df1,df2,…,dfn);

        b.從非農(nóng)業(yè)訓(xùn)練集索引文件中獲取非農(nóng)業(yè)訓(xùn)練集分詞結(jié)果集合Term2(t1,t2,…,tm)和對(duì)應(yīng)文檔頻率集合Df2(df1,df2,…,dfm);

        c.從集合Df1中查詢Term1中所有詞條ti的文檔頻率,記為ny_dfi,再?gòu)募螪f2中查詢?cè)~ti的文檔頻率dfi,記為fny_dfi,計(jì)算詞條ti在農(nóng)業(yè)訓(xùn)練集和非農(nóng)業(yè)訓(xùn)練集中文檔頻率差值的絕對(duì)值C,即C=ABS(ny_dfi-fny_dfi)。對(duì)詞條ti按C值逆序排序,選取C值大于預(yù)先設(shè)定的閾值的詞條ti為區(qū)分農(nóng)業(yè)網(wǎng)頁(yè)和非農(nóng)業(yè)網(wǎng)頁(yè)的特征詞。通過分別比較不同分詞工具的特征詞選取結(jié)果,最終確定了前100個(gè)特征詞(表1)。

        4)多元線性回歸分析。多元回歸分析[8]是一種處理自變量與因變量的統(tǒng)計(jì)相關(guān)關(guān)系的一種數(shù)理統(tǒng)計(jì)方法。雖然自變量和因變量之間沒有確定性的函數(shù)關(guān)系,但可以設(shè)法找出最能代表它們之間關(guān)系的數(shù)學(xué)表達(dá)形式?;貧w分析有很廣泛的應(yīng)用,例如經(jīng)驗(yàn)公式的求得、因素分析、產(chǎn)品質(zhì)量的控制等。在進(jìn)行中文農(nóng)業(yè)網(wǎng)頁(yè)識(shí)別過程中,利用獲得的前40個(gè)特征詞和MATLAB進(jìn)行多元線性回歸分析,最終獲得可用于分類的回歸方程,即分類器:y= -0.368 4+0.187 4x[0]+0.210 4x[1]+0.202 4x[2]+0.125 8x[3]+0.364 2x[4]+0.188 2x[5]+0.135 7x[6]+0.083 7x[7]+0.126 8x[8]+0.045 5x[9]+0.061 6x[10]+0.053 8x[11]+0.105 0x[12]+0.097 0x[13]+0.404 0x[14]+0.071 1x[15]-0.018 4x[16]+0.076 1x[17]-0.372 7x[18]+0.118 8x[19]-0.098 9x[20]+0.078 7x[21]+0.065 8x[22]-0.088 4x[23]-0.054 9x[24]-0.028 5x[25]+0.047 5x[26]-0.083 6x[27]+0.036 6x[28]-0.134 3x[29]+0.003 4x[30]+0.004 5x[31]+0.034 4x[32]+0.045 6x[33]+0.020 3x[34]+0.038 0x[35]-0.063 9x[36]-0.026 6x[37]+0.092 7x[38]-0.083 2x[39]。

        式中的x[i]為第i個(gè)特征詞的對(duì)應(yīng)值,若該詞在網(wǎng)頁(yè)中出現(xiàn)了,x[i]的值為1,否則為0;最終計(jì)算出的y值如果大于0,說明網(wǎng)頁(yè)為農(nóng)業(yè)網(wǎng)頁(yè),否則不是農(nóng)業(yè)網(wǎng)頁(yè)。

        2.2 ?分頁(yè)式倒排索引

        為了解決常規(guī)倒排索引的檢索效率低、不易更新等缺點(diǎn)[9],AgriRoom采用一種分頁(yè)式倒排索引結(jié)構(gòu)(圖3)。該倒排索引的存儲(chǔ)模式采用數(shù)據(jù)庫(kù)與磁盤文件混合存儲(chǔ),只將文檔集合D存入數(shù)據(jù)庫(kù)中而將詞條集合T和倒排索引集合IT存入磁盤文件中。為了提高檢索速度,AgriRoom將倒排索引散列為100份。每個(gè)文件夾下有3個(gè)文件,分別是IND、SITES和URLS,均為順序文件。其中,IND文件中存儲(chǔ)了每個(gè)詞條在SITES文件中的偏移量(SitesOffset),包含該詞條的站點(diǎn)個(gè)數(shù)(SiteCount)、該詞條的文檔個(gè)數(shù)(UrlCount)以及詞條在文檔集合D中出現(xiàn)的總次數(shù)(TotalCount)。SITES文件中存儲(chǔ)了詞條在各站點(diǎn)(Site_ID)倒排索引中的偏移量(UrlsOffset)。URLS文件存儲(chǔ)詞條的倒排索引并按照Site_ID聚合。endprint

        為了提高倒排索引的檢索和更新效率,倒排索引文件在磁盤中以分頁(yè)方式存儲(chǔ)[10]。為了減少文件頁(yè)內(nèi)碎片,AgriRoom將倒排索引集合IT存入多個(gè)文件中,每個(gè)文件具有不同頁(yè)大小,并在配置文件中指定每個(gè)文件的路徑、文件名以及頁(yè)大?。?yè)大小是文件系統(tǒng)頁(yè)大小的整數(shù)倍)。每個(gè)倒排文件有一個(gè)頭頁(yè)(HeadPage)和若干個(gè)數(shù)據(jù)頁(yè)(DataPage)。在頭頁(yè)中存儲(chǔ)該文件的頁(yè)大小(PageSize)、頁(yè)個(gè)數(shù)(PageCount)以及下一個(gè)空閑頁(yè)的頁(yè)號(hào)(NextFreePageNo)。在數(shù)據(jù)頁(yè)中存儲(chǔ)該頁(yè)的頁(yè)號(hào)(PageNo),如果單個(gè)詞條的倒排索引數(shù)據(jù)長(zhǎng)度大于數(shù)據(jù)頁(yè)的大小則存儲(chǔ)下一個(gè)數(shù)據(jù)頁(yè)的頁(yè)號(hào)(NextPageNo)、索引長(zhǎng)度以及索引數(shù)據(jù)。一個(gè)數(shù)據(jù)頁(yè)中最多只能存一個(gè)詞條的倒排索引數(shù)據(jù)。由于HASH數(shù)據(jù)結(jié)構(gòu)在內(nèi)存中的等值查找性能最好,所以詞條集合T和倒排索引集合IT在內(nèi)存中以HASH數(shù)據(jù)結(jié)構(gòu)存儲(chǔ)以提高檢索效率。倒排文件和詞典文件在磁盤和內(nèi)存中的結(jié)構(gòu)如圖4所示。

        2.3 ?基于雙重語(yǔ)義空間的語(yǔ)義檢索模型

        檢索技術(shù)是智能中文農(nóng)業(yè)垂直搜索引擎實(shí)現(xiàn)高效檢索的核心技術(shù)之一,針對(duì)語(yǔ)義檢索的現(xiàn)狀和存在的問題,AgriRoom采用了一種新型的基于雙重語(yǔ)義空間的語(yǔ)義檢索模型[11]。該檢索模型的基本思路是將檢索過程分解為兩個(gè)階段:①利用改進(jìn)后的隨機(jī)索引技術(shù)[11]生成農(nóng)業(yè)測(cè)試集的文檔空間和詞空間,然后獲得查詢句的語(yǔ)義向量,與文檔空間中的向量進(jìn)行比較,獲得初選文檔列表;②利用潛在語(yǔ)義分析技術(shù)生成文檔空間的文檔相似度矩陣[12],利用文檔間的相似度值,對(duì)初選文檔列表中大于指定閾值的文檔查找相關(guān)文檔,并更新文檔列表,最終獲得結(jié)果列表返回給用戶。AgriRoom的語(yǔ)義檢索模型見圖5。

        3 ?系統(tǒng)的實(shí)現(xiàn)

        基于系統(tǒng)的總體設(shè)計(jì)和相關(guān)研究成果,課題組構(gòu)建了功能完備的智能中文農(nóng)業(yè)垂直搜索引擎AgriRoom。從種子站點(diǎn)開始抓取互聯(lián)網(wǎng)中的相關(guān)網(wǎng)頁(yè),并經(jīng)過信息過濾后,建立農(nóng)業(yè)網(wǎng)頁(yè)數(shù)據(jù)庫(kù)和分頁(yè)式倒排索引庫(kù),再經(jīng)過進(jìn)一步的語(yǔ)義分析后,建立語(yǔ)義索引庫(kù),最終能夠?yàn)橛脩籼峁┓奖?、?zhǔn)確的農(nóng)業(yè)信息檢索服務(wù)。

        3.1 ?開發(fā)環(huán)境與工具

        系統(tǒng)開發(fā)的硬件環(huán)境為:64位曙光刀片服務(wù)器,其主要配置為4 GB內(nèi)存,260 GB硬盤容量;軟件配置為:Redhat Linux操作系統(tǒng),其內(nèi)核為2.6.31.5-127.fc12.i686.PAE,編譯器為GCC 4.4.2,Web服務(wù)器為Apache 2.x。系統(tǒng)的后臺(tái)數(shù)據(jù)庫(kù)為:MySQL。

        3.2 ?系統(tǒng)運(yùn)行實(shí)例

        在IE地址欄內(nèi)輸入相應(yīng)網(wǎng)址訪問AgriRoom的首頁(yè)面,結(jié)果如圖6所示。

        在搜索框中輸入“新疆棉花價(jià)格”后,搜索結(jié)果如圖7所示。

        在檢索結(jié)果頁(yè)面內(nèi)點(diǎn)擊第一個(gè)結(jié)果的超鏈接即可跳轉(zhuǎn)到該網(wǎng)頁(yè),結(jié)果如圖8所示。

        4 ?小結(jié)

        面對(duì)海量的互聯(lián)網(wǎng)信息資源,如何快速而有效地獲取個(gè)性化的農(nóng)業(yè)知識(shí)和信息資源成為數(shù)字農(nóng)業(yè)迫切需要解決的問題。智能中文農(nóng)業(yè)垂直搜索引擎的出現(xiàn)將有效解決農(nóng)業(yè)信息“迷航”問題。因此研究構(gòu)建了智能中文農(nóng)業(yè)垂直搜索引擎的關(guān)鍵技術(shù),提出了基于網(wǎng)頁(yè)分類和多元線性回歸分析的信息過濾技術(shù)、分頁(yè)式倒排索引技術(shù)以及基于隨機(jī)索引和潛在語(yǔ)義分析的語(yǔ)義檢索模型。最終,構(gòu)建了功能完備的智能中文農(nóng)業(yè)垂直搜索引擎AgriRoom。經(jīng)過實(shí)際應(yīng)用證明,該系統(tǒng)能夠?yàn)橛脩籼峁┓奖?、?zhǔn)確的農(nóng)業(yè)信息檢索服務(wù)。

        參考文獻(xiàn):

        [1] CHRISTOPHER M, PRABHAKAR R. An Introduction to Information Retrieval[M]. Cambridge:Cambridge University Press,2008.

        [2] 陳 ?苒,董占球.WWW信息搜索技術(shù)研究[J].計(jì)算機(jī)工程與應(yīng)用,2001,37(14):62-64.

        [3] CHULEERAT J, CANASAI K. Building Inverted Files Through Efficient Dynamic Hashing [A].The Sixth National Computer Science and Engineering Conference[C]. Princeton, New Jersey:CiteSeer, 2002.

        [4] COHEN T, SCHVANEVELDT R, WIDDOWS D.Reflective random indexing and indirect inference: A scalable method for discovery of implicit connections[J].Journal of Biomedical Informatics, 2010,43(2):240-256.

        [5] DEERWESTER S,DUMAIS S T, LANDAUER T K ,et al. Indexing by latent semantic analysis[J].Journal of the Society for Information Science,1990,41(6):391-407.

        [6] 單松巍,馮是聰,李曉明.幾種典型特征選取方法在中文網(wǎng)頁(yè)分類上的效果比較[J].計(jì)算機(jī)工程與應(yīng)用,2003,39(22):146-148.

        [7] 劉艷民.中文網(wǎng)頁(yè)分類方法研究[J].微電子學(xué)與計(jì)算機(jī),2009, 26(9):167-169.

        [8] 茆詩(shī)松,程依明,濮曉龍.概率論與數(shù)理統(tǒng)計(jì)教程[M].北京:高等教育出版社,2009.

        [9] NGOCANH V,ALISTATR M. Inverted index compression using word-aligned binary codes[J]. Information Retrieval, 2007,8(1):151-166.

        [10] 劉小珠,彭智勇,陳 ?旭.高效的隨機(jī)訪問分塊倒排文件自索引技術(shù)[J].計(jì)算機(jī)學(xué)報(bào), 2010,33(6):977-987.

        [11] 陳燕紅,張?zhí)t,馮向萍,等.基于雙重語(yǔ)義空間的農(nóng)業(yè)信息檢索模型研究[J].新疆農(nóng)業(yè)大學(xué)學(xué)報(bào),2012,35(3):253-258.

        [12] LANDAUER T K,DUMAIS S T. A solution to Platos problem: The latent semantic analysis theory of acquisition,induction,and representation of knowledge[J]. Psychological Review,1997,104(2):211-240.endprint

        為了提高倒排索引的檢索和更新效率,倒排索引文件在磁盤中以分頁(yè)方式存儲(chǔ)[10]。為了減少文件頁(yè)內(nèi)碎片,AgriRoom將倒排索引集合IT存入多個(gè)文件中,每個(gè)文件具有不同頁(yè)大小,并在配置文件中指定每個(gè)文件的路徑、文件名以及頁(yè)大?。?yè)大小是文件系統(tǒng)頁(yè)大小的整數(shù)倍)。每個(gè)倒排文件有一個(gè)頭頁(yè)(HeadPage)和若干個(gè)數(shù)據(jù)頁(yè)(DataPage)。在頭頁(yè)中存儲(chǔ)該文件的頁(yè)大小(PageSize)、頁(yè)個(gè)數(shù)(PageCount)以及下一個(gè)空閑頁(yè)的頁(yè)號(hào)(NextFreePageNo)。在數(shù)據(jù)頁(yè)中存儲(chǔ)該頁(yè)的頁(yè)號(hào)(PageNo),如果單個(gè)詞條的倒排索引數(shù)據(jù)長(zhǎng)度大于數(shù)據(jù)頁(yè)的大小則存儲(chǔ)下一個(gè)數(shù)據(jù)頁(yè)的頁(yè)號(hào)(NextPageNo)、索引長(zhǎng)度以及索引數(shù)據(jù)。一個(gè)數(shù)據(jù)頁(yè)中最多只能存一個(gè)詞條的倒排索引數(shù)據(jù)。由于HASH數(shù)據(jù)結(jié)構(gòu)在內(nèi)存中的等值查找性能最好,所以詞條集合T和倒排索引集合IT在內(nèi)存中以HASH數(shù)據(jù)結(jié)構(gòu)存儲(chǔ)以提高檢索效率。倒排文件和詞典文件在磁盤和內(nèi)存中的結(jié)構(gòu)如圖4所示。

        2.3 ?基于雙重語(yǔ)義空間的語(yǔ)義檢索模型

        檢索技術(shù)是智能中文農(nóng)業(yè)垂直搜索引擎實(shí)現(xiàn)高效檢索的核心技術(shù)之一,針對(duì)語(yǔ)義檢索的現(xiàn)狀和存在的問題,AgriRoom采用了一種新型的基于雙重語(yǔ)義空間的語(yǔ)義檢索模型[11]。該檢索模型的基本思路是將檢索過程分解為兩個(gè)階段:①利用改進(jìn)后的隨機(jī)索引技術(shù)[11]生成農(nóng)業(yè)測(cè)試集的文檔空間和詞空間,然后獲得查詢句的語(yǔ)義向量,與文檔空間中的向量進(jìn)行比較,獲得初選文檔列表;②利用潛在語(yǔ)義分析技術(shù)生成文檔空間的文檔相似度矩陣[12],利用文檔間的相似度值,對(duì)初選文檔列表中大于指定閾值的文檔查找相關(guān)文檔,并更新文檔列表,最終獲得結(jié)果列表返回給用戶。AgriRoom的語(yǔ)義檢索模型見圖5。

        3 ?系統(tǒng)的實(shí)現(xiàn)

        基于系統(tǒng)的總體設(shè)計(jì)和相關(guān)研究成果,課題組構(gòu)建了功能完備的智能中文農(nóng)業(yè)垂直搜索引擎AgriRoom。從種子站點(diǎn)開始抓取互聯(lián)網(wǎng)中的相關(guān)網(wǎng)頁(yè),并經(jīng)過信息過濾后,建立農(nóng)業(yè)網(wǎng)頁(yè)數(shù)據(jù)庫(kù)和分頁(yè)式倒排索引庫(kù),再經(jīng)過進(jìn)一步的語(yǔ)義分析后,建立語(yǔ)義索引庫(kù),最終能夠?yàn)橛脩籼峁┓奖?、?zhǔn)確的農(nóng)業(yè)信息檢索服務(wù)。

        3.1 ?開發(fā)環(huán)境與工具

        系統(tǒng)開發(fā)的硬件環(huán)境為:64位曙光刀片服務(wù)器,其主要配置為4 GB內(nèi)存,260 GB硬盤容量;軟件配置為:Redhat Linux操作系統(tǒng),其內(nèi)核為2.6.31.5-127.fc12.i686.PAE,編譯器為GCC 4.4.2,Web服務(wù)器為Apache 2.x。系統(tǒng)的后臺(tái)數(shù)據(jù)庫(kù)為:MySQL。

        3.2 ?系統(tǒng)運(yùn)行實(shí)例

        在IE地址欄內(nèi)輸入相應(yīng)網(wǎng)址訪問AgriRoom的首頁(yè)面,結(jié)果如圖6所示。

        在搜索框中輸入“新疆棉花價(jià)格”后,搜索結(jié)果如圖7所示。

        在檢索結(jié)果頁(yè)面內(nèi)點(diǎn)擊第一個(gè)結(jié)果的超鏈接即可跳轉(zhuǎn)到該網(wǎng)頁(yè),結(jié)果如圖8所示。

        4 ?小結(jié)

        面對(duì)海量的互聯(lián)網(wǎng)信息資源,如何快速而有效地獲取個(gè)性化的農(nóng)業(yè)知識(shí)和信息資源成為數(shù)字農(nóng)業(yè)迫切需要解決的問題。智能中文農(nóng)業(yè)垂直搜索引擎的出現(xiàn)將有效解決農(nóng)業(yè)信息“迷航”問題。因此研究構(gòu)建了智能中文農(nóng)業(yè)垂直搜索引擎的關(guān)鍵技術(shù),提出了基于網(wǎng)頁(yè)分類和多元線性回歸分析的信息過濾技術(shù)、分頁(yè)式倒排索引技術(shù)以及基于隨機(jī)索引和潛在語(yǔ)義分析的語(yǔ)義檢索模型。最終,構(gòu)建了功能完備的智能中文農(nóng)業(yè)垂直搜索引擎AgriRoom。經(jīng)過實(shí)際應(yīng)用證明,該系統(tǒng)能夠?yàn)橛脩籼峁┓奖?、?zhǔn)確的農(nóng)業(yè)信息檢索服務(wù)。

        參考文獻(xiàn):

        [1] CHRISTOPHER M, PRABHAKAR R. An Introduction to Information Retrieval[M]. Cambridge:Cambridge University Press,2008.

        [2] 陳 ?苒,董占球.WWW信息搜索技術(shù)研究[J].計(jì)算機(jī)工程與應(yīng)用,2001,37(14):62-64.

        [3] CHULEERAT J, CANASAI K. Building Inverted Files Through Efficient Dynamic Hashing [A].The Sixth National Computer Science and Engineering Conference[C]. Princeton, New Jersey:CiteSeer, 2002.

        [4] COHEN T, SCHVANEVELDT R, WIDDOWS D.Reflective random indexing and indirect inference: A scalable method for discovery of implicit connections[J].Journal of Biomedical Informatics, 2010,43(2):240-256.

        [5] DEERWESTER S,DUMAIS S T, LANDAUER T K ,et al. Indexing by latent semantic analysis[J].Journal of the Society for Information Science,1990,41(6):391-407.

        [6] 單松巍,馮是聰,李曉明.幾種典型特征選取方法在中文網(wǎng)頁(yè)分類上的效果比較[J].計(jì)算機(jī)工程與應(yīng)用,2003,39(22):146-148.

        [7] 劉艷民.中文網(wǎng)頁(yè)分類方法研究[J].微電子學(xué)與計(jì)算機(jī),2009, 26(9):167-169.

        [8] 茆詩(shī)松,程依明,濮曉龍.概率論與數(shù)理統(tǒng)計(jì)教程[M].北京:高等教育出版社,2009.

        [9] NGOCANH V,ALISTATR M. Inverted index compression using word-aligned binary codes[J]. Information Retrieval, 2007,8(1):151-166.

        [10] 劉小珠,彭智勇,陳 ?旭.高效的隨機(jī)訪問分塊倒排文件自索引技術(shù)[J].計(jì)算機(jī)學(xué)報(bào), 2010,33(6):977-987.

        [11] 陳燕紅,張?zhí)t,馮向萍,等.基于雙重語(yǔ)義空間的農(nóng)業(yè)信息檢索模型研究[J].新疆農(nóng)業(yè)大學(xué)學(xué)報(bào),2012,35(3):253-258.

        [12] LANDAUER T K,DUMAIS S T. A solution to Platos problem: The latent semantic analysis theory of acquisition,induction,and representation of knowledge[J]. Psychological Review,1997,104(2):211-240.endprint

        為了提高倒排索引的檢索和更新效率,倒排索引文件在磁盤中以分頁(yè)方式存儲(chǔ)[10]。為了減少文件頁(yè)內(nèi)碎片,AgriRoom將倒排索引集合IT存入多個(gè)文件中,每個(gè)文件具有不同頁(yè)大小,并在配置文件中指定每個(gè)文件的路徑、文件名以及頁(yè)大?。?yè)大小是文件系統(tǒng)頁(yè)大小的整數(shù)倍)。每個(gè)倒排文件有一個(gè)頭頁(yè)(HeadPage)和若干個(gè)數(shù)據(jù)頁(yè)(DataPage)。在頭頁(yè)中存儲(chǔ)該文件的頁(yè)大?。≒ageSize)、頁(yè)個(gè)數(shù)(PageCount)以及下一個(gè)空閑頁(yè)的頁(yè)號(hào)(NextFreePageNo)。在數(shù)據(jù)頁(yè)中存儲(chǔ)該頁(yè)的頁(yè)號(hào)(PageNo),如果單個(gè)詞條的倒排索引數(shù)據(jù)長(zhǎng)度大于數(shù)據(jù)頁(yè)的大小則存儲(chǔ)下一個(gè)數(shù)據(jù)頁(yè)的頁(yè)號(hào)(NextPageNo)、索引長(zhǎng)度以及索引數(shù)據(jù)。一個(gè)數(shù)據(jù)頁(yè)中最多只能存一個(gè)詞條的倒排索引數(shù)據(jù)。由于HASH數(shù)據(jù)結(jié)構(gòu)在內(nèi)存中的等值查找性能最好,所以詞條集合T和倒排索引集合IT在內(nèi)存中以HASH數(shù)據(jù)結(jié)構(gòu)存儲(chǔ)以提高檢索效率。倒排文件和詞典文件在磁盤和內(nèi)存中的結(jié)構(gòu)如圖4所示。

        2.3 ?基于雙重語(yǔ)義空間的語(yǔ)義檢索模型

        檢索技術(shù)是智能中文農(nóng)業(yè)垂直搜索引擎實(shí)現(xiàn)高效檢索的核心技術(shù)之一,針對(duì)語(yǔ)義檢索的現(xiàn)狀和存在的問題,AgriRoom采用了一種新型的基于雙重語(yǔ)義空間的語(yǔ)義檢索模型[11]。該檢索模型的基本思路是將檢索過程分解為兩個(gè)階段:①利用改進(jìn)后的隨機(jī)索引技術(shù)[11]生成農(nóng)業(yè)測(cè)試集的文檔空間和詞空間,然后獲得查詢句的語(yǔ)義向量,與文檔空間中的向量進(jìn)行比較,獲得初選文檔列表;②利用潛在語(yǔ)義分析技術(shù)生成文檔空間的文檔相似度矩陣[12],利用文檔間的相似度值,對(duì)初選文檔列表中大于指定閾值的文檔查找相關(guān)文檔,并更新文檔列表,最終獲得結(jié)果列表返回給用戶。AgriRoom的語(yǔ)義檢索模型見圖5。

        3 ?系統(tǒng)的實(shí)現(xiàn)

        基于系統(tǒng)的總體設(shè)計(jì)和相關(guān)研究成果,課題組構(gòu)建了功能完備的智能中文農(nóng)業(yè)垂直搜索引擎AgriRoom。從種子站點(diǎn)開始抓取互聯(lián)網(wǎng)中的相關(guān)網(wǎng)頁(yè),并經(jīng)過信息過濾后,建立農(nóng)業(yè)網(wǎng)頁(yè)數(shù)據(jù)庫(kù)和分頁(yè)式倒排索引庫(kù),再經(jīng)過進(jìn)一步的語(yǔ)義分析后,建立語(yǔ)義索引庫(kù),最終能夠?yàn)橛脩籼峁┓奖?、?zhǔn)確的農(nóng)業(yè)信息檢索服務(wù)。

        3.1 ?開發(fā)環(huán)境與工具

        系統(tǒng)開發(fā)的硬件環(huán)境為:64位曙光刀片服務(wù)器,其主要配置為4 GB內(nèi)存,260 GB硬盤容量;軟件配置為:Redhat Linux操作系統(tǒng),其內(nèi)核為2.6.31.5-127.fc12.i686.PAE,編譯器為GCC 4.4.2,Web服務(wù)器為Apache 2.x。系統(tǒng)的后臺(tái)數(shù)據(jù)庫(kù)為:MySQL。

        3.2 ?系統(tǒng)運(yùn)行實(shí)例

        在IE地址欄內(nèi)輸入相應(yīng)網(wǎng)址訪問AgriRoom的首頁(yè)面,結(jié)果如圖6所示。

        在搜索框中輸入“新疆棉花價(jià)格”后,搜索結(jié)果如圖7所示。

        在檢索結(jié)果頁(yè)面內(nèi)點(diǎn)擊第一個(gè)結(jié)果的超鏈接即可跳轉(zhuǎn)到該網(wǎng)頁(yè),結(jié)果如圖8所示。

        4 ?小結(jié)

        面對(duì)海量的互聯(lián)網(wǎng)信息資源,如何快速而有效地獲取個(gè)性化的農(nóng)業(yè)知識(shí)和信息資源成為數(shù)字農(nóng)業(yè)迫切需要解決的問題。智能中文農(nóng)業(yè)垂直搜索引擎的出現(xiàn)將有效解決農(nóng)業(yè)信息“迷航”問題。因此研究構(gòu)建了智能中文農(nóng)業(yè)垂直搜索引擎的關(guān)鍵技術(shù),提出了基于網(wǎng)頁(yè)分類和多元線性回歸分析的信息過濾技術(shù)、分頁(yè)式倒排索引技術(shù)以及基于隨機(jī)索引和潛在語(yǔ)義分析的語(yǔ)義檢索模型。最終,構(gòu)建了功能完備的智能中文農(nóng)業(yè)垂直搜索引擎AgriRoom。經(jīng)過實(shí)際應(yīng)用證明,該系統(tǒng)能夠?yàn)橛脩籼峁┓奖?、?zhǔn)確的農(nóng)業(yè)信息檢索服務(wù)。

        參考文獻(xiàn):

        [1] CHRISTOPHER M, PRABHAKAR R. An Introduction to Information Retrieval[M]. Cambridge:Cambridge University Press,2008.

        [2] 陳 ?苒,董占球.WWW信息搜索技術(shù)研究[J].計(jì)算機(jī)工程與應(yīng)用,2001,37(14):62-64.

        [3] CHULEERAT J, CANASAI K. Building Inverted Files Through Efficient Dynamic Hashing [A].The Sixth National Computer Science and Engineering Conference[C]. Princeton, New Jersey:CiteSeer, 2002.

        [4] COHEN T, SCHVANEVELDT R, WIDDOWS D.Reflective random indexing and indirect inference: A scalable method for discovery of implicit connections[J].Journal of Biomedical Informatics, 2010,43(2):240-256.

        [5] DEERWESTER S,DUMAIS S T, LANDAUER T K ,et al. Indexing by latent semantic analysis[J].Journal of the Society for Information Science,1990,41(6):391-407.

        [6] 單松巍,馮是聰,李曉明.幾種典型特征選取方法在中文網(wǎng)頁(yè)分類上的效果比較[J].計(jì)算機(jī)工程與應(yīng)用,2003,39(22):146-148.

        [7] 劉艷民.中文網(wǎng)頁(yè)分類方法研究[J].微電子學(xué)與計(jì)算機(jī),2009, 26(9):167-169.

        [8] 茆詩(shī)松,程依明,濮曉龍.概率論與數(shù)理統(tǒng)計(jì)教程[M].北京:高等教育出版社,2009.

        [9] NGOCANH V,ALISTATR M. Inverted index compression using word-aligned binary codes[J]. Information Retrieval, 2007,8(1):151-166.

        [10] 劉小珠,彭智勇,陳 ?旭.高效的隨機(jī)訪問分塊倒排文件自索引技術(shù)[J].計(jì)算機(jī)學(xué)報(bào), 2010,33(6):977-987.

        [11] 陳燕紅,張?zhí)t,馮向萍,等.基于雙重語(yǔ)義空間的農(nóng)業(yè)信息檢索模型研究[J].新疆農(nóng)業(yè)大學(xué)學(xué)報(bào),2012,35(3):253-258.

        [12] LANDAUER T K,DUMAIS S T. A solution to Platos problem: The latent semantic analysis theory of acquisition,induction,and representation of knowledge[J]. Psychological Review,1997,104(2):211-240.endprint

        猜你喜歡
        體系架構(gòu)
        “廣譜式”創(chuàng)新創(chuàng)業(yè)教育的體系架構(gòu)與理論價(jià)值研究
        科技資訊(2017年1期)2017-03-27 10:18:43
        分析智慧教育體系架構(gòu)與關(guān)鍵支撐技術(shù)
        云計(jì)算:體系架構(gòu)與關(guān)鍵技術(shù)
        基于SDN的OpenFlow管控標(biāo)準(zhǔn)接口協(xié)議研究
        基于國(guó)產(chǎn)軟硬件的行業(yè)大數(shù)據(jù)體系架構(gòu)研究
        基于分布式星群的空間信息網(wǎng)絡(luò)體系架構(gòu)與關(guān)鍵技術(shù)
        關(guān)于應(yīng)急移動(dòng)通信體系架構(gòu)及組網(wǎng)技術(shù)分析
        智慧健康物聯(lián)網(wǎng)體系架構(gòu)研究
        以培養(yǎng)工程能力為導(dǎo)向的工程建設(shè)管理綜合訓(xùn)練中心建設(shè)實(shí)踐探索
        云計(jì)算體系架構(gòu)與關(guān)鍵技術(shù)
        久久精品亚洲成在人线av乱码| 国产午夜影视大全免费观看| 中文 国产 无码免费| 人妻少妇精品一区二区三区| 日本免费播放一区二区| 少妇无套裸按摩呻吟无呜| 国内精品伊人久久久久网站| 日本不卡在线视频二区三区| 亚洲公开免费在线视频| 国产自拍伦理在线观看| 亚洲男人综合久久综合天堂| 欧美成人精品a∨在线观看| 无码国产精品一区二区高潮| 国产免费看网站v片不遮挡| 一区二区三区四区日韩亚洲| 亚洲国产免费不卡视频| 国产婷婷色一区二区三区| 亚洲精品92内射| 亚洲欧美日韩一区二区在线观看| 国内精品久久人妻性色av| 亚洲国产精品成人av在线不卡 | 国产中文字幕乱码在线| 操老熟妇老女人一区二区| 亚洲精品av一区二区| 99精品人妻无码专区在线视频区 | 亚洲av成熟国产一区二区| 影视av久久久噜噜噜噜噜三级| 成人h动漫精品一区二区| 欧美综合自拍亚洲综合百度| 国产麻豆一区二区三区在| 亚洲欧洲成人精品香蕉网| 老熟妻内射精品一区| 国产成人亚洲精品2020| 日本啪啪视频一区二区| 刺激一区仑乱| 老熟女高潮一区二区三区| caoporon国产超碰公开| 国产成人亚洲系列毛片| 又紧又大又爽精品一区二区| 欧美成a人片在线观看久| 欧美亚洲日韩国产人成在线播放|