亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        中國(guó)農(nóng)業(yè)科學(xué)院網(wǎng)站平臺(tái)智能搜索技術(shù)與方法研究

        2015-03-29 08:23:29楊曉蓉
        安徽農(nóng)業(yè)科學(xué) 2015年35期
        關(guān)鍵詞:信息

        孫 洋, 楊曉蓉

        (中國(guó)農(nóng)業(yè)科學(xué)院農(nóng)業(yè)信息研究所,北京 100081)

        ?

        中國(guó)農(nóng)業(yè)科學(xué)院網(wǎng)站平臺(tái)智能搜索技術(shù)與方法研究

        孫 洋, 楊曉蓉

        (中國(guó)農(nóng)業(yè)科學(xué)院農(nóng)業(yè)信息研究所,北京 100081)

        為了解決原有檢索技術(shù)已經(jīng)不能滿足中國(guó)農(nóng)業(yè)科學(xué)院網(wǎng)站檢索需求的問(wèn)題,研究了智能搜索引擎方面相關(guān)的關(guān)鍵技術(shù)和方法。探討了利用智能搜索引擎關(guān)鍵技術(shù)在中國(guó)農(nóng)科院網(wǎng)站平臺(tái)改進(jìn)搜索技術(shù)的方法,將搜索結(jié)果與現(xiàn)有的搜索技術(shù)在中國(guó)農(nóng)科院網(wǎng)站平臺(tái)搜索時(shí)所得到的結(jié)果相比較,結(jié)果表明,基于智能搜索引擎方面的關(guān)鍵技術(shù)改進(jìn)的搜索平臺(tái)在檢索結(jié)果上明顯占優(yōu),實(shí)際應(yīng)用效果令人滿意。

        智能搜索技術(shù);全文檢索;中國(guó)農(nóng)業(yè)科學(xué)院網(wǎng)站搜索服務(wù)

        自互聯(lián)網(wǎng)誕生和普及以來(lái),網(wǎng)絡(luò)信息和資源浩瀚如海,并且網(wǎng)絡(luò)數(shù)據(jù)繼續(xù)呈現(xiàn)爆炸式增長(zhǎng)趨勢(shì),《2014年中國(guó)網(wǎng)民搜索行為研究報(bào)告》[1]顯示,在通用搜索引擎中的查詢需求中,大量網(wǎng)民搜索的內(nèi)容與本地生活息息相關(guān),截至2014年6月,我國(guó)搜索引擎用戶規(guī)模已達(dá)50 749萬(wàn),較2013年同期增長(zhǎng)3 711萬(wàn),增長(zhǎng)率為7.9%,網(wǎng)民使用率為80.3%。自2011年以來(lái),搜索引擎在網(wǎng)民中的使用率一直維持在80%左右,是我國(guó)網(wǎng)民的第二大互聯(lián)網(wǎng)應(yīng)用,具有不可替代的基礎(chǔ)性作用。因此,如何使網(wǎng)絡(luò)用戶快捷、準(zhǔn)確和有效地定位需求信息成為信息服務(wù)提供者不斷努力的方向。搜索引擎是一種對(duì)網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行搜索、提取、組織、處理并提供檢索服務(wù)的工具,目前存在商業(yè)搜索引擎和站內(nèi)搜索引擎兩大搜索陣營(yíng)。面對(duì)信息海量化發(fā)展現(xiàn)狀,站內(nèi)搜索因其針對(duì)性強(qiáng),在一定的檢索范圍內(nèi)的便利性,更能滿足用戶的檢索需求,并為后續(xù)研究用戶行為提供來(lái)源保障。

        中國(guó)農(nóng)業(yè)科學(xué)院網(wǎng)站門戶網(wǎng)站(www.caas.net.cn/)作為國(guó)內(nèi)農(nóng)業(yè)最高學(xué)術(shù)機(jī)構(gòu)和農(nóng)業(yè)技術(shù)成果展示中心,成為科研機(jī)構(gòu)發(fā)布信息、提供服務(wù)、提高社會(huì)影響力的重要平臺(tái);中國(guó)農(nóng)業(yè)科技信息網(wǎng)(www.cast.net.cn/)立足農(nóng)業(yè)科技信息的傳播,成為為廣大網(wǎng)絡(luò)用戶提供實(shí)用性強(qiáng)的農(nóng)業(yè)資訊、技術(shù)、服務(wù)及資源等的重要平臺(tái)。這2個(gè)重要網(wǎng)站平臺(tái)自建立運(yùn)行以來(lái),搜集、發(fā)布和共享各種農(nóng)科院政務(wù)信息和農(nóng)業(yè)實(shí)用數(shù)據(jù),積累大量的信息數(shù)據(jù),建立站內(nèi)全文檢索系統(tǒng)是對(duì)于網(wǎng)站資源合理利用的重要體現(xiàn)。通過(guò)高效實(shí)用的站內(nèi)檢索,可以了解訪問(wèn)者的閱讀喜好,有效幫助訪問(wèn)者快速、準(zhǔn)確定位到目標(biāo)信息,從而為農(nóng)業(yè)科技管理決策、農(nóng)業(yè)科技創(chuàng)新和農(nóng)業(yè)實(shí)用功能提供農(nóng)業(yè)科學(xué)資源信息的支撐和保障,增強(qiáng)網(wǎng)站實(shí)用能力和確保網(wǎng)站在本地區(qū)農(nóng)業(yè)網(wǎng)站中的領(lǐng)先地位。隨著搜索引擎市場(chǎng)的發(fā)展,用戶對(duì)搜索引擎的功能、其搜索內(nèi)容的體現(xiàn)和結(jié)果的顯示將會(huì)有更高的要求,期待搜索引擎能夠?yàn)槠涮峁└訉I(yè)、細(xì)致的信息服務(wù),搜索速度更快,顯示結(jié)果盡量精準(zhǔn)而全面。

        1 中國(guó)農(nóng)業(yè)科學(xué)院網(wǎng)站搜索服務(wù)的現(xiàn)狀調(diào)查與問(wèn)題分析

        1.1 現(xiàn)狀調(diào)查

        中國(guó)農(nóng)業(yè)科學(xué)院網(wǎng)站平臺(tái)的站內(nèi)搜索引擎是以中國(guó)農(nóng)業(yè)科學(xué)院門戶網(wǎng)站及其下屬部分網(wǎng)站為檢索范圍的檢索工具。由于農(nóng)業(yè)管理和實(shí)用服務(wù)的復(fù)雜性和廣泛性,使得農(nóng)業(yè)科學(xué)數(shù)據(jù)的數(shù)據(jù)量增長(zhǎng)迅速,截至2015年6月僅中國(guó)農(nóng)業(yè)科學(xué)院門戶網(wǎng)站平臺(tái)共有一級(jí)欄目19個(gè)、二級(jí)欄100多個(gè),涵蓋院所新聞、農(nóng)業(yè)實(shí)用技術(shù)、服務(wù)、合作交流、科普等,數(shù)據(jù)超過(guò)16萬(wàn)條。網(wǎng)站豐富的內(nèi)容吸引了大量的涉農(nóng)用戶,但由于網(wǎng)站信息量指數(shù)級(jí)增長(zhǎng),用戶想要快速定位到所需資源非常困難,所以亟需研究智能搜索技術(shù),在現(xiàn)有網(wǎng)站搜索系統(tǒng)的基礎(chǔ)上改進(jìn)現(xiàn)有的搜索技術(shù)。

        該研究主要調(diào)查當(dāng)前中國(guó)農(nóng)業(yè)科學(xué)院網(wǎng)站上檢索服務(wù)的功能設(shè)置和搜索結(jié)果顯示情況,其中,檢索功能設(shè)置主要包括普通檢索和高級(jí)檢索兩方面。普通檢索功能主要支持用戶對(duì)檢索關(guān)鍵詞的輸入和檢索范圍的選擇,高級(jí)檢索是通過(guò)用戶根據(jù)檢索需求選擇的邏輯關(guān)系組配而完成的快速查詢, 其優(yōu)點(diǎn)是能提高查全率和查準(zhǔn)率。當(dāng)前中國(guó)農(nóng)業(yè)科學(xué)院網(wǎng)站上檢索服務(wù)的高級(jí)檢索功能提供關(guān)鍵詞,包含全部、完整或任一字詞,發(fā)布日期,字詞位置,每頁(yè)顯示結(jié)果數(shù)等邏輯組合檢索,并進(jìn)行結(jié)果排序。高級(jí)檢索的輔助選項(xiàng)提供有起始結(jié)束時(shí)間選擇、排序方式選擇、每頁(yè)顯示結(jié)果數(shù)定義和使用幫助,滿足不同用戶對(duì)檢索的不同需求。

        另外從檢索結(jié)果的內(nèi)容、檢索結(jié)果的數(shù)量和排序兩方面分析。檢索結(jié)果主要包括 9個(gè)方面內(nèi)容, 按出現(xiàn)順序分別為: 總條數(shù)、檢索耗費(fèi)時(shí)間、關(guān)鍵字、排序、標(biāo)題、內(nèi)容簡(jiǎn)介、URL、日期、網(wǎng)頁(yè)大小。排序主要以按照相關(guān)度、文件日期、文件名和文件大小順序排序。檢索結(jié)果并不需要面面俱到,只要滿足用戶需要,有效提示用戶判斷該結(jié)果是否有用即可,比如統(tǒng)一資源定位符(Uniform Resource Locator,URL)有助于用戶定位和判斷來(lái)源。

        但是,由于網(wǎng)站數(shù)據(jù)呈海量速度增多,訪問(wèn)者對(duì)于站內(nèi)檢索系統(tǒng)的要求不斷提高,當(dāng)前中國(guó)農(nóng)業(yè)科學(xué)院網(wǎng)站上檢索服務(wù)的功能已不能滿足訪問(wèn)者的搜索需求。

        1.2 問(wèn)題分析

        當(dāng)前站內(nèi)搜索功能比較弱,不能支持有效的相關(guān)性排序和海量數(shù)據(jù)快速并發(fā)查詢以及不能保證搜索耗時(shí)短等。

        1.2.1 系統(tǒng)方面。

        (1)不能跨網(wǎng)站。由于中國(guó)農(nóng)業(yè)科學(xué)院網(wǎng)站及其下屬部分網(wǎng)站和數(shù)據(jù)庫(kù)處于不同的服務(wù)器,缺乏統(tǒng)一的整合與集成方式,沒(méi)有有效整合搜索入口,無(wú)法解決“多個(gè)信息系統(tǒng)”和“統(tǒng)一檢索入口”的矛盾[2],使信息檢索不夠全面和精確。因此,如何應(yīng)用現(xiàn)代信息技術(shù),動(dòng)態(tài)整合集成跨系統(tǒng)、跨數(shù)據(jù)庫(kù)的數(shù)據(jù)資源,充分利用網(wǎng)站管理特點(diǎn)和相關(guān)技術(shù),把分散孤立的數(shù)據(jù)資源在統(tǒng)一平臺(tái)下實(shí)現(xiàn)存儲(chǔ)和全文檢索是網(wǎng)站亟待解決的關(guān)鍵技術(shù)問(wèn)題。

        (2) 海量大規(guī)模內(nèi)容搜索能力有限。系統(tǒng)運(yùn)行中每天發(fā)布的數(shù)據(jù)不斷增長(zhǎng),現(xiàn)有的數(shù)據(jù)管理平臺(tái)對(duì)支持大數(shù)據(jù)量的全文索引、檢索等能力有限。這些問(wèn)題嚴(yán)重阻礙了網(wǎng)站數(shù)據(jù)資源共享。

        1.2.2 檢索功能設(shè)置方面和檢索結(jié)果內(nèi)容和排序方面。

        (1)搜索關(guān)鍵詞不準(zhǔn)確,造成返回結(jié)果數(shù)較大或根本查詢不到結(jié)果。由于多數(shù)搜索用戶在檢索策略和檢索技巧上缺乏必要的經(jīng)驗(yàn),提交的查詢請(qǐng)求往往比較短,不能使用文中的任意字、詞、短語(yǔ)、句和片段進(jìn)行有效檢索。這就造成搜索引擎的返回結(jié)果相關(guān)性差的缺點(diǎn),直接導(dǎo)致返回結(jié)果數(shù)較大或根本查詢不到結(jié)果,用戶想要在這樣的搜索結(jié)果中找到目標(biāo)信息非常困難,在查詢?cè)~方面, 由于存在同義詞、歧義詞和同音詞等問(wèn)題, 用戶鍵入的詞與存儲(chǔ)中的詞常常造成不匹配情況,導(dǎo)致檢索結(jié)果的查準(zhǔn)率偏低, 偏離用戶的信息需求。

        (2)不能提供相關(guān)搜索和智能提示。很多用戶并不能準(zhǔn)確知道想要搜索內(nèi)容的關(guān)鍵詞,造成搜索查準(zhǔn)率低,如果網(wǎng)站搜索平臺(tái)可以提供查詢頻率較高的相關(guān)詞語(yǔ)搜索,將極大地提高用戶查找的速度。比如用戶輸入關(guān)鍵詞“農(nóng)業(yè)”進(jìn)行搜索,系統(tǒng)可以提示“現(xiàn)代農(nóng)業(yè)”“農(nóng)業(yè)科技”等。

        (3)不可提供同音詞提示。用戶在輸入時(shí)有時(shí)可能出現(xiàn)同音但并非想搜索的關(guān)鍵詞的情況,系統(tǒng)如果能夠提供查詢頻率較高的同音詞提示,將極大地方便用戶的搜索。比如用戶輸入關(guān)鍵詞“科技”進(jìn)行搜索,系統(tǒng)會(huì)提示“克己”“客機(jī)”“科級(jí)”等。

        (4)不可拼音搜索。用戶在輸入時(shí)有時(shí)可能出現(xiàn)拼音輸入關(guān)鍵詞的情況,系統(tǒng)如果能夠提供拼音所對(duì)應(yīng)的常用關(guān)鍵詞查詢,將會(huì)提升用戶搜索體驗(yàn)和查詢速度。比如用戶輸入關(guān)鍵詞“xinxi”,系統(tǒng)會(huì)查詢“信息”,并羅列查詢結(jié)果。

        (5)不可二次檢索。有時(shí)用戶在不熟悉想要查找內(nèi)容時(shí),并不能經(jīng)過(guò)一次查詢得到滿意結(jié)果,需要在查詢結(jié)果中進(jìn)行二次查詢。

        (6)無(wú)其他搜索網(wǎng)頁(yè)格式,搜索結(jié)果內(nèi)容不夠豐富?,F(xiàn)有的檢索系統(tǒng)僅是針對(duì)文字進(jìn)行操作,搜索文字也是以網(wǎng)頁(yè)文字類型顯示。隨著網(wǎng)站平臺(tái)上.pdf、.doc、.xls等類型的文件逐漸增多,將這些資源納入到檢索范圍已是大勢(shì)所趨,同時(shí)可以大大提高用戶使用網(wǎng)站資源的利用率。

        (7)無(wú)法選擇關(guān)鍵詞位置。用戶有時(shí)需要通過(guò)關(guān)鍵詞位置進(jìn)行有針對(duì)性快速的查詢,比如網(wǎng)頁(yè)的標(biāo)題、正文,網(wǎng)頁(yè)內(nèi)的網(wǎng)址,在網(wǎng)頁(yè)內(nèi)的鏈接等。

        2 智能搜索技術(shù)與服務(wù)

        2.1 智能搜索相關(guān)技術(shù)介紹

        目前,搜索引擎的使用已成為排在收發(fā)電子郵件之后的第二大互聯(lián)網(wǎng)應(yīng)用技術(shù)。憑借通用搜索引擎檢索某個(gè)特定網(wǎng)站門戶網(wǎng)站的資料,雖然可以指定網(wǎng)站進(jìn)行搜索,但因搜索引擎釋放的網(wǎng)絡(luò)蜘蛛沿著超鏈接去爬行,由于網(wǎng)頁(yè)的層數(shù)過(guò)多或時(shí)間過(guò)長(zhǎng)時(shí),對(duì)某些網(wǎng)頁(yè)就不能進(jìn)行抓取或不能及時(shí)檢索出最新內(nèi)容等,其在內(nèi)容的精確性、索引時(shí)間的及時(shí)性上不能得到保證[3]。因此,針對(duì)某個(gè)門戶網(wǎng)站平臺(tái),開發(fā)屬于某個(gè)門戶網(wǎng)站平臺(tái)的站內(nèi)搜索引擎,成為了單位門戶網(wǎng)站建設(shè)的迫切需要。

        2.1.1 全文檢索[3]。全文檢索站內(nèi)搜索原理是對(duì)數(shù)據(jù)庫(kù)數(shù)據(jù)進(jìn)行超文本標(biāo)記語(yǔ)言(HTML)解析、圖片縮略,分詞、索引,實(shí)現(xiàn)站內(nèi)搜索,提高檢索效率,檢索范圍涉及網(wǎng)站上所有內(nèi)容,用戶可對(duì)搜索的內(nèi)容范圍和體現(xiàn)的結(jié)果做精確的控制。支持標(biāo)準(zhǔn)的國(guó)際搜索語(yǔ)法,提供動(dòng)態(tài)摘要,摘要清晰,便于用戶快速尋找到需要的信息;有關(guān)鍵詞標(biāo)紅,可有效控制;有同義詞相關(guān)性排序,方便用戶在網(wǎng)站海量數(shù)據(jù)中快速查找信息。

        2.1.2 拼音檢索。要實(shí)現(xiàn)拼音檢索[4],只有具備漢字拼音對(duì)照表,才能讓系統(tǒng)知道用戶輸入的拼音與漢字對(duì)應(yīng)關(guān)系。漢字拼音對(duì)照表是通過(guò)編程把碼表源文件winpy.txt中漢字與拼音的對(duì)應(yīng)關(guān)系提取并存入相應(yīng)數(shù)據(jù)庫(kù),而winpy.txt文件是通過(guò)輸入法生成器將微軟全拼的碼表文件winpy.mb逆轉(zhuǎn)換而來(lái)。用戶只要輸入包含拼音字符中的部分字符, 就可以查找到對(duì)應(yīng)信息。

        2.1.3 二次檢索。目前二次檢索的主要方法可分為重排序和過(guò)濾2大類[5]。重排序方法目的是實(shí)現(xiàn)重新計(jì)算查詢與文檔之間的相關(guān)度,實(shí)現(xiàn)手段是文檔聚類或使用受控詞表等,因此二次查詢后的顯示結(jié)果會(huì)按照新的相關(guān)度進(jìn)行排序顯示。這一方法能很好地提高檢索結(jié)果的前N項(xiàng)的準(zhǔn)確率。過(guò)濾方法目的是篩選和去除與用戶查詢無(wú)關(guān)的文檔,實(shí)現(xiàn)手段是從用戶查詢出的附加信息中篩選檢索返回的文檔。

        2.1.4 中文分詞。中文分詞是指將一個(gè)連續(xù)的漢字序列按照一定的預(yù)言規(guī)范組合切分成多個(gè)單獨(dú)有意義的詞序列[6]。例如,“農(nóng)業(yè)科技信息”的切分結(jié)果為農(nóng)業(yè)/科技/信息。中文詞語(yǔ)相較英文文本來(lái)說(shuō),詞與詞之間沒(méi)有空格作為自然分界符,所以對(duì)于中文詞語(yǔ)的有效切分并使計(jì)算機(jī)理解分析是關(guān)鍵。中文分詞算法歸納起來(lái)主要分為3類:基于字符串匹配的分詞方法、基于統(tǒng)計(jì)的分詞方法、基于理解的分詞方法[7-8]。

        2.1.5 相關(guān)詞。在全文檢索過(guò)程中,想要總結(jié)出與查詢信息相關(guān)的文件,需要用戶進(jìn)行相當(dāng)大程度的瀏覽,而系統(tǒng)自動(dòng)的相關(guān)詞提示可以幫助用戶優(yōu)化查詢式,使系統(tǒng)明確用戶的信息檢索需求,更為用戶減少了額外的負(fù)擔(dān)。相關(guān)詞提示是搜索引擎系統(tǒng)為用戶提供相關(guān)詞,幫助用戶重新構(gòu)造更加有效的查詢式,從而減少多余檢索步驟的檢索技術(shù)[9]。實(shí)現(xiàn)方面,應(yīng)把相關(guān)詞的選擇權(quán)給用戶,人工重新構(gòu)造查詢式。相關(guān)詞提示的基本原理,搜索引擎通過(guò)聚類技術(shù)獲取與查詢式相關(guān)的詞,經(jīng)過(guò)相關(guān)度計(jì)算, 將排在前面的相關(guān)詞以一定的形式反饋給用戶[10]。

        2.2 基于相關(guān)技術(shù)在中國(guó)農(nóng)科院網(wǎng)站平臺(tái)檢索服務(wù)的改進(jìn)應(yīng)用

        該研究采用的搜索技術(shù)平臺(tái)是基于Lucence開發(fā)的,是將原關(guān)系型數(shù)據(jù)庫(kù)中的數(shù)據(jù)進(jìn)行抽取、存儲(chǔ)和索引,抽取到全文數(shù)據(jù)倉(cāng)庫(kù)中提供檢索服務(wù),對(duì)原有的內(nèi)容管理系統(tǒng)影響較小,可擴(kuò)展性更強(qiáng),系統(tǒng)支持跨平臺(tái)、跨數(shù)據(jù)庫(kù)、跨站點(diǎn)的全文檢索,用的分詞器是JE-Analysis,其作用是把一個(gè)字符序列按某種規(guī)則劃分成獨(dú)立的詞語(yǔ),并去除其中的無(wú)效詞語(yǔ),從而有利于縮小索引文件,提高效率,提高命中率。以垂直搜索方式整合多網(wǎng)站,實(shí)時(shí)索引企業(yè)已有的資料庫(kù),并結(jié)合互聯(lián)網(wǎng)信息抓取技術(shù),進(jìn)行內(nèi)容和服務(wù)的采集,實(shí)現(xiàn)了按信息分類、條件組合、多語(yǔ)種等檢索方式,能夠索引中國(guó)農(nóng)業(yè)科學(xué)院網(wǎng)站內(nèi)的信息內(nèi)容,并提供個(gè)性豐富的檢索體驗(yàn)的搜索引擎服務(wù)。其框架結(jié)構(gòu)見圖1。

        從技術(shù)角度來(lái)看,在網(wǎng)站的搜索引擎框架中,很好地解決了搜索引擎應(yīng)用中的2個(gè)核心環(huán)節(jié):海量數(shù)據(jù)管理、內(nèi)容索引和全文檢索技術(shù)。

        2.2.1 海量數(shù)據(jù)和內(nèi)容索引。該研究設(shè)計(jì)的全文檢索數(shù)據(jù)庫(kù)系統(tǒng)在數(shù)據(jù)存儲(chǔ)方面(特別是對(duì)于海量數(shù)據(jù))有著獨(dú)特的技術(shù), 實(shí)現(xiàn)了索引空間膨脹率低于0.5,支持大量的并發(fā)用戶檢索,實(shí)現(xiàn)集群和負(fù)載均衡應(yīng)用。采用增量更新方式對(duì)內(nèi)容進(jìn)行更新,即每次檢查數(shù)據(jù)變化時(shí),只更新添加或發(fā)生變化的數(shù)據(jù)進(jìn)行更新,索引速度明顯高于僅僅完全更新的系統(tǒng)。

        在農(nóng)業(yè)保險(xiǎn)運(yùn)營(yíng)中,政府的選擇為補(bǔ)貼與不補(bǔ)貼,保險(xiǎn)公司的決定仍為經(jīng)營(yíng)與不經(jīng)營(yíng)。假設(shè)政府補(bǔ)貼B,保險(xiǎn)公司經(jīng)營(yíng),政府所得的收益為Q;保險(xiǎn)公司不經(jīng)營(yíng)損失為D,做出分析,結(jié)果如表3所示。

        2.2.2 全文檢索。該研究跨平臺(tái)跨站點(diǎn)智能檢索系統(tǒng)檢索功能設(shè)置中,在普通檢索方面,針對(duì)輸入的關(guān)鍵詞,智能識(shí)別中文人名單詞、數(shù)量詞,Email、URL等信息,搜索范圍提供各站點(diǎn)單獨(dú)或集成搜索;高級(jí)檢索方面,提供包括全文檢索、日期(范圍)檢索、標(biāo)題檢索、URL檢索等在內(nèi)的全方位信息查詢手段。對(duì)用戶檢索關(guān)鍵詞的處理方面,支持對(duì)中文、英文、數(shù)字的混合分詞。對(duì)檢索詞進(jìn)行智能提示,可以實(shí)現(xiàn)拼寫檢查、相關(guān)詞建議和同音詞列表等,增強(qiáng)用戶搜索體驗(yàn),提高有效搜索效率;并可以實(shí)現(xiàn)拼音檢索和二次檢索,在用戶誤輸?shù)惹闆r下,也能幫助用戶有效定位,在一次搜索結(jié)果中繼續(xù)搜索,可逐步縮小結(jié)果范圍,鎖定自己需要的結(jié)果。

        搜索結(jié)果方面,可以根據(jù)字段進(jìn)行排序,如相關(guān)度(默認(rèn))、日期等,相關(guān)度排序以檢索詞與網(wǎng)頁(yè)的相關(guān)性為依據(jù)對(duì)檢索結(jié)果排序,相關(guān)性是對(duì)詞頻、詞位(詞在文章中出現(xiàn)的位置)以及文件大小等因素綜合評(píng)價(jià)的結(jié)果;時(shí)間排序則可以保證把最新的數(shù)據(jù)優(yōu)先輸出,使用戶在眾多搜索結(jié)果中優(yōu)先找到需要的信息。

        此跨平臺(tái)跨站點(diǎn)智能檢索系統(tǒng)融合了高效的全文檢索引擎和非結(jié)構(gòu)化文檔(Word、HTML、PDF等)分析技術(shù),支持對(duì)多種格式化資源檢索(如PDF、Word、Excel、PPT等文件),整合內(nèi)部對(duì)象信息資源,可實(shí)現(xiàn)一個(gè)(或多個(gè))網(wǎng)站的站內(nèi)搜索,支持的數(shù)據(jù)源包括文件系統(tǒng)、Internet網(wǎng)站、關(guān)系數(shù)據(jù)庫(kù)、FTP服務(wù)器等。

        2.2.3 系統(tǒng)及管理方面。該研究系統(tǒng)全面支持Web服務(wù),可以與各個(gè)系統(tǒng)(包括.NET系統(tǒng))集成,采用Java語(yǔ)言開發(fā),可運(yùn)行于Windows、UNIX、Linux平臺(tái),在內(nèi)核上采用多級(jí)索引、緩存技術(shù);管理方面,采用B/S架構(gòu),無(wú)需安裝任何客戶端,對(duì)于數(shù)據(jù)庫(kù)索引提供配置向?qū)Р⒖蓪?shí)現(xiàn)定時(shí)更新。

        3 測(cè)試分析

        3.1 檢索功能設(shè)置方面

        3.2 檢索結(jié)果內(nèi)容、數(shù)量和排序方面

        當(dāng)前中國(guó)農(nóng)科院網(wǎng)站搜索服務(wù)檢索結(jié)果顯示情況主要從檢索結(jié)果的內(nèi)容、檢索結(jié)果的數(shù)量和排序兩方面分析。檢索結(jié)果主要包括 9個(gè)方面內(nèi)容, 按出現(xiàn)順序分別為: 總條數(shù)、檢索耗費(fèi)時(shí)間、關(guān)鍵字、排序、標(biāo)題、內(nèi)容簡(jiǎn)介、URL、日期、網(wǎng)頁(yè)大小。排序主要以按照文件日期、文件名和文件大小順序排序。改進(jìn)后,檢索結(jié)果顯示主要增加以下幾個(gè)方面內(nèi)容:智能提示(圖2)、同音詞列表、拼音檢索、搜索網(wǎng)頁(yè)類型顯示、相關(guān)度顯示及排序、相關(guān)搜索提示和二次檢索(圖3)。其中相關(guān)度主要說(shuō)明檢索詞與檢索結(jié)果頁(yè)面的匹配程度, 通過(guò)相關(guān)度的合理排序可以使用戶快速定位所需的精準(zhǔn)信息。

        3.3 搜索性能方面

        為了說(shuō)明該研究改進(jìn)后的平臺(tái)的搜索性能,分別選擇了當(dāng)前和改進(jìn)后的中國(guó)農(nóng)科院網(wǎng)站某一下屬網(wǎng)站對(duì)“自主創(chuàng)新”進(jìn)行關(guān)鍵詞搜索。系統(tǒng)改進(jìn)前后搜索性能對(duì)比見表1。

        表1 改進(jìn)前后搜索性能對(duì)比

        表1測(cè)試結(jié)果表明,該研究改進(jìn)后的中國(guó)農(nóng)業(yè)科學(xué)院網(wǎng)站搜索服務(wù)比當(dāng)前網(wǎng)站在搜索耗費(fèi)時(shí)間上明顯減少,說(shuō)明搜索引擎的檢索效率明顯提高。同時(shí)實(shí)現(xiàn)中國(guó)農(nóng)業(yè)科學(xué)院網(wǎng)站及下屬網(wǎng)站的跨平臺(tái)搜索,解決“信息孤島”[2]問(wèn)題,通過(guò)網(wǎng)頁(yè)格式關(guān)鍵詞位置選擇功能的添加,進(jìn)一步提高了搜索的針對(duì)性和準(zhǔn)確率,并且增加了除網(wǎng)頁(yè)文字外的多種搜索結(jié)果表現(xiàn)形式。用戶體驗(yàn)上,由于增加智能提示、拼音搜索等,使搜索引擎關(guān)鍵字處理能力更加智能,從而提高搜索效率。同音詞和相關(guān)搜索詞的羅列,為用戶深度搜索提供便利。當(dāng)前搜索引擎并沒(méi)有提供搜索結(jié)果的相關(guān)度顯示及按照相關(guān)度排序,改進(jìn)后的搜索引擎根據(jù)搜索結(jié)果相關(guān)度進(jìn)行合理排序,使用戶很快找到相關(guān)度最高的搜索結(jié)果。

        4 結(jié)語(yǔ)

        從中國(guó)農(nóng)業(yè)科學(xué)院網(wǎng)站搜索服務(wù)現(xiàn)狀出發(fā),分析了其存在的問(wèn)題,研究了智能搜索應(yīng)用在中國(guó)農(nóng)業(yè)科學(xué)院網(wǎng)站搜索服務(wù)平臺(tái)進(jìn)行全文檢索的技術(shù),并與當(dāng)前平臺(tái)的檢索方法進(jìn)行了比較。結(jié)果表明:改進(jìn)后的相關(guān)搜索技術(shù)在海量數(shù)據(jù)的跨平臺(tái)搜索中搜索速度、查全和準(zhǔn)確性明顯提高,能夠成功地應(yīng)用于中國(guó)農(nóng)業(yè)科學(xué)院網(wǎng)站搜索服務(wù)平臺(tái);同時(shí),使用者還可以根據(jù)實(shí)際需要個(gè)性化組配搜索選項(xiàng),結(jié)合搜索結(jié)果頁(yè)面的同義詞、相關(guān)詞、二次檢索和智能提示等功能,完成更加快速精準(zhǔn)的搜索。當(dāng)然,相關(guān)搜索技術(shù)改進(jìn)后的中國(guó)農(nóng)業(yè)科學(xué)院網(wǎng)站搜索服務(wù)還有許多不足,如無(wú)法對(duì)搜索結(jié)果進(jìn)行優(yōu)化重排,將近期用戶搜索次數(shù)多的信息排在結(jié)果最前列等,難以對(duì)后續(xù)的收集的海量信息進(jìn)行分析以獲取知識(shí),這些問(wèn)題將在以后的工作中不斷研究并解決。

        [1] 百度百科.2014 年中國(guó)網(wǎng)民搜索行為研究報(bào)告[EB/OL].[2015-11-01].http://wenku.baidu.com/link?url=4uyvlw31BHX27FUSPZcI7g41T9Sel46aGFzeqQSk9qaceZJWsxovkOPw-7t7Ko3bSsjG4QBh4edsvS_44qI21sQQEB7EMPivaEsYPNXoYHy.

        [2] 陳福生.全文檢索在網(wǎng)站搜索系統(tǒng)中的應(yīng)用[J].電腦編程技巧與維護(hù),2009(12):17-19.

        [3] 王非.面向Web2.0社區(qū)的站內(nèi)搜索引擎技術(shù)的研究與實(shí)現(xiàn)[D].長(zhǎng)沙: 國(guó)防科學(xué)技術(shù)大學(xué), 2008.

        [4] 劉風(fēng)華,陳燕紅,鄭衛(wèi)斌.拼音檢索方法在Web系統(tǒng)中的研究與實(shí)現(xiàn)[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2013,22(1):196-199.

        [5] 林永志.基于語(yǔ)義關(guān)系識(shí)別的二次檢索[D].上海:上海交通大學(xué),2008.

        [6] 董李鵬,高東懷,張迎,等.基于Lucene的校園網(wǎng)智能搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)[J].現(xiàn)代電子技術(shù),2013,36(6):83-86.

        [7] 馮書曉,徐新.國(guó)內(nèi)中文分詞技術(shù)研究新進(jìn)展[J].情報(bào)雜志,2002(11):29-30.

        [8] 劉開瑛.中文文本自動(dòng)分詞和標(biāo)注[M].北京:商務(wù)印書館,2000:109-122.

        [9] 劉紅星.分布式系統(tǒng)中的文本信息檢索技術(shù)研究[D].北京:清華大學(xué),2004.

        [10] 章成志,徐小琴.信息檢索系統(tǒng)的相關(guān)詞提示技術(shù)與評(píng)測(cè)信息系統(tǒng)[J].情況理論與實(shí)踐,2007,30(1):100-104.

        Technology of Search Engineer in CAAS Website

        SUN Yang, YANG Xiao-rong

        (Agricultural Information Institute of CAAS, Beijing 100081)

        In order to solve the problem that the traditional search method couldn’t meet the searching demand in CAAS website, the original method and technology of website search engine was studied, and using improved method of website search engine in CAAS website was discussed. At last, these results were compared with those consequences from traditional search method. The experiments proved that: the search engineer based onimproved method of CAAS website had more efficient and the practical application should be satisfactory.

        Intelligent search technology; Full text retrieval; Website search service in CAAS website

        中國(guó)農(nóng)業(yè)科學(xué)院農(nóng)業(yè)信息研究所2015年度基本科研業(yè)務(wù)費(fèi)專項(xiàng)(2015-J-07)。

        孫洋(1986- ),女,北京人,助理研究員,碩士,從事農(nóng)業(yè)網(wǎng)站信息技術(shù)研究。

        2015-11-11

        S 126

        A

        0517-6611(2015)35-343-04

        猜你喜歡
        信息
        訂閱信息
        中華手工(2017年2期)2017-06-06 23:00:31
        展會(huì)信息
        信息超市
        展會(huì)信息
        展會(huì)信息
        展會(huì)信息
        展會(huì)信息
        展會(huì)信息
        信息
        健康信息
        祝您健康(1987年3期)1987-12-30 09:52:32
        日本女优免费一区二区三区| 欧美日韩精品一区二区在线视频| 波多野结衣视频网址| 国产亚洲精品日韩香蕉网| 日产一区二区三区的精品| 狠狠色狠狠色综合网| 精品麻豆国产色欲色欲色欲www| 国产成人精品午夜福利免费APP| 日韩色久悠悠婷婷综合| 亚洲女优中文字幕在线观看| 中文字幕人妻无码一夲道| 亚洲日韩专区在线视频| 免费人成黄页网站在线观看国产 | 成 人片 黄 色 大 片| 精品亚洲欧美无人区乱码| 亚洲嫩草影院久久精品| av毛片亚洲高清一区二区| 天堂国产一区二区三区| 欧美午夜一区二区福利视频| 国产精品亚洲婷婷99久久精品| 日本一区二区三区四区高清不卡| 国产激情久久久久久熟女老人av| 欧美日韩在线免费看| 日本无吗一区二区视频| 蜜桃视频国产一区二区| 97久久人人超碰超碰窝窝| 久久国产成人亚洲精品影院老金| 亚洲综合有码中文字幕| 精品一区二区三区在线视频| 少妇特黄a一区二区三区| 精品国产亚洲一区二区三区演员表| 白嫩少妇在线喷水18禁| 成人欧美一区二区三区黑人| 久久国产热这里只有精品| 91亚洲精品福利在线播放| 开心五月激情五月天天五月五月天 | 日本高清色倩视频在线观看| 无码人妻中文中字幕一区二区| 亚洲av日韩综合一区尤物| 精品国产乱码久久久久久郑州公司 | 亚洲第一区二区精品三区在线|