亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        實(shí)現(xiàn)一個(gè)垂直育兒搜索引擎系統(tǒng)的探索

        2012-04-29 00:00:00王曉娜陳靖王天林
        網(wǎng)友世界 2012年19期

        【摘 要】隨著計(jì)算機(jī)技術(shù)和互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展,并逐步向社會(huì)各個(gè)領(lǐng)域滲透,各行各業(yè)都開(kāi)始使用網(wǎng)絡(luò)來(lái)獲取和發(fā)送信息。育兒領(lǐng)域也是如此,越來(lái)越多的育兒信息用戶選擇利用網(wǎng)絡(luò)來(lái)獲得育兒信息支持。面對(duì)豐富而繁雜的網(wǎng)絡(luò)育兒資源,育兒用戶驚喜和無(wú)奈并存,驚喜的是網(wǎng)絡(luò)育兒資源豐富而全面,無(wú)奈的是查找總是很麻煩。如何有效地整合這部分資源,為廣大育兒信息用戶提供方便?搜索引擎技術(shù)發(fā)展了十幾年,已經(jīng)漸趨成熟和完善,垂直搜索技術(shù)業(yè)已開(kāi)始深入到各行各業(yè),并取得成功的應(yīng)用;育兒領(lǐng)域至今還沒(méi)有出現(xiàn)任何類型的專業(yè)搜索引擎,廣大的用戶群體都在期待著能有一個(gè)專業(yè)而實(shí)用的垂直搜索引擎幫助他們獲取所需要的信息。本文作者采用成熟的技術(shù)和一些開(kāi)源代碼構(gòu)建了一個(gè)垂直育兒搜索引擎模型,希望拋磚能夠引玉,引起廣大同行的注意。

        【關(guān)鍵詞】搜索引擎;垂直搜索引擎

        1.垂直育兒搜索引擎開(kāi)發(fā)工具組件

        本搜索引擎系統(tǒng)主要由搜集子系統(tǒng)、檢索子系統(tǒng)和查詢子系統(tǒng)三大部分構(gòu)成,運(yùn)用.NET平臺(tái)和SQLServer2008大型數(shù)據(jù)庫(kù)、開(kāi)源Lucene.Net軟件、開(kāi)源盤(pán)古中文分詞等技術(shù)實(shí)現(xiàn),具備垂直搜索引擎的完整結(jié)構(gòu)和功能。其內(nèi)核部分包括:抓取程序、分詞程序、索引程序、檢索程序等。

        本系統(tǒng)開(kāi)發(fā)的硬件和軟件環(huán)境如下:

        硬件環(huán)境:CPU類型P4,內(nèi)存1GB。

        操作系統(tǒng):Windows SP2

        Web服務(wù)器:IIS 6.0

        數(shù)據(jù)庫(kù)系統(tǒng):SQL Server 2008

        開(kāi)發(fā)工具:visual studio 2008

        本系統(tǒng)中有些模塊是參考了開(kāi)源代碼以后,在此基礎(chǔ)上進(jìn)行改造的,具體包括:

        本文的抓取程序Crawl參照My Downloader運(yùn)用.Net平臺(tái)C#語(yǔ)言開(kāi)發(fā)

        本文的分詞程序PanGu.Lucene.Analyzer運(yùn)用PanGu分詞組件和Lucene.Net分詞技術(shù)開(kāi)發(fā)。

        本文的索引、檢索程序采用Lucene.Net的框架,利用C#語(yǔ)言開(kāi)發(fā)。

        2.垂直育兒搜索引擎的資源抓取

        2.1 育兒資源發(fā)現(xiàn)

        這是為垂直育兒搜索引擎提供數(shù)據(jù)來(lái)源的保證,尋找符合育兒主題的資源網(wǎng)站和網(wǎng)頁(yè)地址,能有效提高垂直育兒搜索引擎的數(shù)據(jù)收錄情況。要完成育兒資源的定題搜索和下載,有兩種途徑:一是給定URL,人工控制下載;二是通過(guò)給定育兒類關(guān)鍵詞,對(duì)錨文本進(jìn)行判斷,判斷它是否是此類網(wǎng)站,然后進(jìn)行下載。本文用第一種途徑,歷經(jīng)2年的時(shí)間,手動(dòng)完成國(guó)內(nèi)育兒類網(wǎng)址的遍歷,基本上保證了所收集的育兒類網(wǎng)站都是專業(yè)和穩(wěn)定的。

        本文的初始育兒資源發(fā)現(xiàn)策略有:

        利用網(wǎng)址導(dǎo)航。

        網(wǎng)址導(dǎo)航能較集中地提供部分育兒類網(wǎng)址,把每個(gè)網(wǎng)址導(dǎo)航里的育兒網(wǎng)址記錄下,綜合后去重,得到部分育兒URL列表。

        利用通用搜索引擎。

        用育兒、寶寶、0-3歲、0-6歲等作為關(guān)鍵詞在多個(gè)通用搜索引擎上搜索,集中抽取育兒URL,得到部分育兒URL列表。

        利用web2.0育兒社區(qū)、育兒博客。

        有些網(wǎng)友總結(jié)出來(lái)的“育兒網(wǎng)址大全”,也都很好,分析之后,得到部分育兒URL列表。

        通過(guò)權(quán)威育兒網(wǎng)站的超鏈接。

        權(quán)威的專業(yè)育兒網(wǎng)站頁(yè)面上的網(wǎng)址列表,都是比較穩(wěn)定的育兒類網(wǎng)站的URL。

        2.2 育兒專題信息抓取

        本抓取程序Crawl是參照My Downloader

        在.Net平臺(tái)上運(yùn)用C#語(yǔ)言開(kāi)發(fā)的[1]。My Downloader是由由巴西人Guiherme Labiqalini編寫(xiě)的C#語(yǔ)言類下載程序,可支持多線程、可控制、可分段下載。My Downloader的主要特點(diǎn)入下:

        它可以給定站點(diǎn)下載。即通過(guò)界面,你可以手動(dòng)輸入一個(gè)網(wǎng)站地址,讓它整站地下載這一網(wǎng)站內(nèi)的所有資源。

        它可以批量導(dǎo)入站點(diǎn)地址下載。通過(guò)本地文本文件或者HTML格式的文件,可以批量導(dǎo)入一些網(wǎng)址,供它一個(gè)網(wǎng)站一個(gè)網(wǎng)站地下載。

        它可指定媒體類型下載??赏暾螺d整個(gè)網(wǎng)頁(yè)的內(nèi)容也可只下載單獨(dú)媒體形式的內(nèi)容,比如只下載圖片,只下載mp3,只下載視頻,只下載文本等。

        網(wǎng)絡(luò)育兒資源蜘蛛程序的抓取過(guò)程截如圖1所示。

        下載的資源以文件的形式存放在指定的文件夾下如下圖2所示,這些文件是生成檢索返回記錄:摘要、網(wǎng)頁(yè)快照、超鏈網(wǎng)址的基礎(chǔ)資料。如果抓取器跟索引器鏈接起來(lái)以后,是一邊下載一邊索引的,我們便看不到這些文件了。

        3.育兒網(wǎng)頁(yè)內(nèi)容的分析

        我們主要抽取4部分信息:head、title、body、href。其中head中的內(nèi)容是決定title中關(guān)鍵詞權(quán)值的。title起著概括全篇的作用,有研究表明97.8%網(wǎng)頁(yè),其title中的關(guān)鍵詞就是本網(wǎng)頁(yè)內(nèi)容的關(guān)鍵詞[2]。body里面是網(wǎng)頁(yè)的基本內(nèi)容,其中也有一些重要的關(guān)鍵詞可以利用。href是超鏈接,對(duì)它的分析為蜘蛛的下一步抓取提供URL。

        解析的過(guò)程如下(如圖3):

        1)讀入一個(gè)html文檔,以“<”和“>”為分隔符分割文檔內(nèi)容。

        2)去掉文檔中標(biāo)點(diǎn)符號(hào)、空格等無(wú)用內(nèi)容和tags標(biāo)記。

        3)提取文檔中head、title、body、href等內(nèi)容,形成純文本本文件。

        解析完成以后,直接導(dǎo)入數(shù)據(jù)庫(kù),便于調(diào)用分詞器分詞,也便于索引器提取數(shù)據(jù)進(jìn)行索引。建立數(shù)據(jù)庫(kù)和特征向量,根據(jù)特征向量把各項(xiàng)內(nèi)容導(dǎo)入數(shù)據(jù)庫(kù),導(dǎo)入數(shù)據(jù)庫(kù)后的各項(xiàng)內(nèi)容存儲(chǔ)情況如圖4所示:

        4.育兒分詞的實(shí)現(xiàn)

        育兒網(wǎng)頁(yè)的索引和檢索使用Lucene的框架,為了進(jìn)一步提高結(jié)果質(zhì)量,需要使用中文分詞組件,比較幾個(gè)開(kāi)源的c#中文分詞程序后,選定用盤(pán)古分詞程序[3],作為本文的分詞主程序。一是因?yàn)長(zhǎng)ucene和盤(pán)古分詞程序能夠很好地對(duì)接起來(lái),二是盤(pán)古分詞程序詞典的導(dǎo)入和導(dǎo)出很好控制,適于構(gòu)建專業(yè)育兒分詞詞典。

        4.1 育兒詞表的構(gòu)建

        專業(yè)詞表對(duì)垂直搜索引擎來(lái)說(shuō)非常重要,有了它才能讓搜集和檢索更加精確。參照松田道雄的《育兒百科》[4]、王琪的《育兒百科》[5]、路云的《育兒百科》[6],以及一些育兒網(wǎng)頁(yè)的關(guān)鍵詞,結(jié)合育兒用戶群體的用詞習(xí)慣,完成了本育兒詞表的収詞與構(gòu)建。本育兒詞表収詞的范圍從以下幾個(gè)方面確定:孕前準(zhǔn)備,孕、產(chǎn)婦營(yíng)養(yǎng)與照顧,嬰幼兒喂養(yǎng)與照顧,嬰幼兒教育與培養(yǎng),嬰幼兒疾病,嬰幼兒吃、穿、玩具、書(shū)籍等商品,孕、產(chǎn)婦使用的商品。

        由于本育兒詞表在収詞與構(gòu)建的過(guò)程中沒(méi)有結(jié)合育兒專家一起完成,從収詞范圍到収詞規(guī)則等可能都待進(jìn)一步的規(guī)范。但是通過(guò)切詞試驗(yàn)和檢索試驗(yàn)證明,這種方法是可取的,在支持育兒信息用戶網(wǎng)絡(luò)育兒資源檢索方面能起到很好的作用。

        4.2 育兒分詞詞典的添加

        在盤(pán)古分詞詞典里,刪除原有的詞表,導(dǎo)入育兒詞表,然后設(shè)置專業(yè)育兒詞匯的詞頻。這樣育兒詞典就構(gòu)建成了,能保證了育兒資源分詞的準(zhǔn)確性和專業(yè)性,為檢索和查詢墊下良好的基礎(chǔ)。

        用典型例子來(lái)檢查一下專業(yè)育兒詞典的準(zhǔn)確性:

        用“寶寶”作為檢索詞,原有的盤(pán)古分詞詞典里相應(yīng)的匹配詞有:寶寶、乖寶寶、小寶寶、蠶寶寶,如圖5所示。

        刪除盤(pán)古系統(tǒng)原有的詞表,導(dǎo)入的專業(yè)育兒詞表,假設(shè)育兒詞表里共有如下這些詞:寶寶、寶寶感冒、寶寶發(fā)燒、寶寶拉肚子、寶寶洗澡、寶寶的書(shū)、寶寶奶粉、寶寶輔食、寶寶衣服、寶寶玩具、寶寶嘔吐、寶寶上幼兒園、寶寶看的動(dòng)畫(huà)片等,則相應(yīng)的匹配如圖6所示。

        實(shí)驗(yàn)結(jié)果明顯地顯示出:在育兒詞匯的數(shù)量上,專業(yè)育兒詞典要多于普通詞典;在育兒詞匯的精確程度上,專業(yè)育兒詞典要好于普通詞典。

        實(shí)驗(yàn)結(jié)論:因?yàn)橥ㄓ迷~典按照通用詞匯標(biāo)準(zhǔn)收集詞匯,沒(méi)有按照育兒專業(yè)標(biāo)準(zhǔn)收集育兒詞匯,注重的是詞匯收集的全面性。而專業(yè)育兒詞典則會(huì)結(jié)合育兒專家,制定專業(yè)的、系統(tǒng)的育兒詞匯收集標(biāo)準(zhǔn),按照育兒專業(yè)標(biāo)準(zhǔn)收集詞匯。這樣就能把育兒詞匯收集的更加專業(yè)、精細(xì)、全面、規(guī)則,育兒詞表的質(zhì)量也就可以得到切實(shí)保證的。

        4.3 育兒分詞器的匹配規(guī)則

        如果用戶檢索的時(shí)候輸入:寶寶拉肚子、我的寶寶拉肚子、我的寶寶拉肚子怎么辦?育兒分詞系統(tǒng)會(huì)準(zhǔn)確地識(shí)別出“寶寶拉肚子”。查詢系統(tǒng)都會(huì)準(zhǔn)確地為他找到與“寶寶拉肚子”、相關(guān)的內(nèi)容,不會(huì)把所有與“寶寶”有關(guān)的內(nèi)容全檢索出來(lái)。

        本切詞系統(tǒng)采用的是基于詞庫(kù)匹配的正向最大匹配算法(通常簡(jiǎn)稱為MM法)。其基本思想為:設(shè)D為詞典,MAX表示D中的最大詞長(zhǎng),str為待切分的字串。MM法是每次從str中取長(zhǎng)度為MAX的子串與D中的詞進(jìn)行匹配。若成功,則該子串為詞,指針后移MAX個(gè)漢字后繼續(xù)匹配,否則子串逐次減一進(jìn)行匹配。主要切詞過(guò)程如圖7所示。

        讀取詞庫(kù),并讀取相應(yīng)的靜態(tài)索引,建立詞庫(kù)上的索引。

        讀取待切分的字串str。

        匹配過(guò)程。

        從待切分字串中取出一個(gè)長(zhǎng)度為MAX的子串,到詞典中去匹配,若匹配成功則取下一個(gè)長(zhǎng)度為MAX的子串進(jìn)行匹配,否則將子串從后面截去一個(gè)字后繼續(xù)匹配,直到匹配成功或者子串中只有一個(gè)字為止。若匹配成功則從匹配成功的詞的位置開(kāi)始再截取下一長(zhǎng)度為MAX的子串進(jìn)行匹配,依次循環(huán)直到將字符串匹配完為止。

        4.4 育兒分詞庫(kù)的組織結(jié)構(gòu)

        整個(gè)分詞過(guò)程實(shí)際上就是在詞表上查找匹配過(guò)程,所以詞庫(kù)的組織結(jié)構(gòu)很重要。詞表存放在一個(gè)文本文件里,每一個(gè)詞條由兩項(xiàng)組成,一個(gè)是詞的ID、另一個(gè)就是詞本身。詞表都有一個(gè)靜態(tài)索引,分詞是利用三級(jí)索引對(duì)詞表進(jìn)行分組管理的,如圖8所示。首先對(duì)詞條按字?jǐn)?shù)分組,字?jǐn)?shù)相同的詞條放在同一組里,然后對(duì)詞條按首漢字的內(nèi)碼從小到大排序,這就形成一級(jí)索引。一級(jí)索引是加在各個(gè)分組上,它記錄了各分組的開(kāi)始位置,再根據(jù)下一分組的起始位置確定當(dāng)前分組的終止位置。二級(jí)索引是加在一級(jí)索引內(nèi)部的,在同一組內(nèi)部由于有很多的詞條,二級(jí)索引是按詞的首漢字內(nèi)碼建立的,它加在以不同漢字開(kāi)頭的詞條組中,這樣通過(guò)三級(jí)索引可以進(jìn)一步縮小查找范圍。另外在漢字中以有些字開(kāi)頭的詞條過(guò)多,這樣進(jìn)行匹配的次數(shù)過(guò)多,不利于提高匹配速度。因而在二級(jí)索引的基礎(chǔ)之上添加一個(gè)三級(jí)索引,它是按照一定的密度間隔添加,本文設(shè)定了一個(gè)默認(rèn)值是每隔50個(gè)詞條添加一個(gè)三級(jí)索引,同樣三級(jí)索引也是根據(jù)漢字內(nèi)碼添加的(三級(jí)索引和二級(jí)索引的定義相同)。

        匹配的時(shí)候,首先根據(jù)字串長(zhǎng)度(字?jǐn)?shù))確定一級(jí)索引,也就是確定分組。這個(gè)過(guò)程采用Hash函數(shù),根據(jù)字串長(zhǎng)度直接定位到相應(yīng)的一級(jí)索引組中去。確定了分組后再根據(jù)首漢字的內(nèi)碼確定二級(jí)索引,找到以后再確定三級(jí)索引,這樣將進(jìn)行匹配的過(guò)程縮小到一個(gè)很小的范圍,可以縮小進(jìn)行匹配的詞條集,提高分詞的效率。

        4.5 切分效果的檢查

        用典型例子檢查一下本文育兒分詞的準(zhǔn)確性:把這樣一段文字:寶寶拉肚子、我的寶寶拉肚子、我的寶寶拉肚子怎么辦,輸入分詞系統(tǒng),切分的效果圖9所示。用通用詞典來(lái)切分這段文字,效果如圖10所示。

        像“寶寶拉肚子”這樣的檢索詞在普通詞表里是“寶寶”和“拉肚子”兩個(gè)詞,在育兒詞表里它會(huì)自動(dòng)把“寶寶”這個(gè)高頻詞轉(zhuǎn)換成限定詞,緊接在“寶寶”后面的便是核心檢索詞,索引與檢索匹配的時(shí)候都會(huì)首先根據(jù)核心詞來(lái)。育兒詞表只收錄有關(guān)0-6歲嬰幼兒孕育、培養(yǎng)和撫育等方面的詞匯,又充分考慮了育兒信息用戶的用詞習(xí)慣,用它來(lái)切分檢索詞就不容易造成歧義和擴(kuò)檢現(xiàn)象的產(chǎn)生,能保證了檢索結(jié)果的準(zhǔn)確度。

        5.垂直育兒搜索引擎的索引器建立

        索引和檢索模塊采用的是Lucene的技術(shù)框架[7]。Lucene本身是一個(gè)全文檢索系統(tǒng),它有一個(gè)性能良好使用方便的索引器,可以直接使用。LuceneC++版的全文檢索引擎,完全移植于Lucene。Lucene有專門(mén)的API實(shí)現(xiàn)索引的建立和管理功能,能處理數(shù)據(jù)庫(kù)的記錄。索引后的數(shù)據(jù)以文件的形式存儲(chǔ),不依賴于數(shù)據(jù)庫(kù)或者特定的平臺(tái)。對(duì)于新加入的索引,可以通過(guò)索引合并,加入到整體索引中去,實(shí)現(xiàn)索引數(shù)據(jù)庫(kù)的更新。

        5.1 生成索引的上下文環(huán)境

        通過(guò)正則表達(dá)式解析后的網(wǎng)頁(yè)內(nèi)容存入數(shù)據(jù)庫(kù),其實(shí)就是通常所說(shuō)的中間格式。用Lucene的索引器提取數(shù)據(jù)庫(kù)里的各項(xiàng)內(nèi)容,根據(jù)規(guī)定的索引項(xiàng)生成索引文件,再存入索引數(shù)據(jù)庫(kù)。索引生成器工作的上下文環(huán)境如圖11所示

        5.2 構(gòu)建Lucene育兒索引器的過(guò)程

        配置索引器

        IndexWriter是創(chuàng)建與更新索引數(shù)據(jù)的類,首先需對(duì)它初始化。設(shè)置索引存放的路徑、分析器、是否重新創(chuàng)建索引。然后調(diào)用addDocument方法和盤(pán)古育兒分詞組件,實(shí)現(xiàn)對(duì)每個(gè)文檔(即文檔數(shù)據(jù)庫(kù)里每條記錄)的分詞和正排索引??赏ㄟ^(guò)重復(fù)執(zhí)行addDocument方法,向正排索引添加文檔(Document)。然后調(diào)用IndexBuilder方法生成倒排索引文件和索引字典。調(diào)用Optimize方法對(duì)索引進(jìn)行優(yōu)化,最后需執(zhí)行close方法關(guān)閉索引。

        倒排索引生成的內(nèi)部過(guò)程

        1)打開(kāi)文本數(shù)據(jù)庫(kù)。

        2)抽取text項(xiàng)。text項(xiàng)就是網(wǎng)頁(yè)head、body等里的內(nèi)容,是一些純文本內(nèi)容。調(diào)用盤(pán)古育兒分詞組建,對(duì)這些文本進(jìn)行分詞。

        3)給數(shù)據(jù)庫(kù)添加一列名為“keywords”的記錄,切分后的詞存入keyword相應(yīng)的行內(nèi)。

        4)根據(jù)keywords項(xiàng),生成數(shù)據(jù)庫(kù)中每條記錄的正排索引。

        5)抽取keywords項(xiàng),合并不同條記錄(不同文檔)重復(fù)的關(guān)鍵詞,生成倒排索引和索引字典。

        索引的流程

        程序首先確定索引的存放目錄和待索引的目錄,然后生成本地磁盤(pán)索引,準(zhǔn)備添加數(shù)據(jù)。讀取數(shù)據(jù)庫(kù)中的文件信息,分析文本文件并使用內(nèi)存索引進(jìn)行索引,內(nèi)存索引添加到本地磁盤(pán)索引中。對(duì)子目錄一個(gè)個(gè)遍歷,直到全部完成。索引完成,關(guān)閉索引器。索引流程如圖12所示:

        6.垂直育兒搜索引擎的檢索器構(gòu)建

        通過(guò)第四章第六部分分析的檢索基本原理表明,一個(gè)有效的檢索器需要具備:檢索詞的分析功能、索引文件的訪問(wèn)和查詢功能、檢索結(jié)果的獲取和排序功能。這些功能在Lucene中,都是通過(guò)封裝的API和相應(yīng)的類來(lái)提供的。為了方便使用和二次開(kāi)發(fā)的需要API的接口都很容易上手。通過(guò)集合核心類和一些操作,就能實(shí)現(xiàn)各種查詢和檢索功能。

        構(gòu)建Lucene育兒檢索器的基本步驟為:

        1)初始化IndexSearcher。IndexSear-

        cher為檢索類,首先對(duì)其初始化,設(shè)置索引存放的路徑。

        2)構(gòu)建Query對(duì)像。Query對(duì)像用來(lái)確定檢索表達(dá)式,構(gòu)造查詢請(qǐng)求。Query包含TermQuery(搜索的關(guān)鍵詞存儲(chǔ))、BooleanQuery(搜索的“與或”邏輯存儲(chǔ))、PhraseQuery(搜索的多關(guān)鍵詞保存)等子類。

        3)調(diào)用IndexSearcher。IndexSear-

        cher的Search方法根據(jù)Query提交的檢索表達(dá)式進(jìn)行查詢。

        4)Hits類。檢索結(jié)果以數(shù)組集合的形式存放于Hits類對(duì)象中,length方法返回結(jié)果數(shù),doc(n)返回第n個(gè)文檔,循環(huán)使用即可遍歷所有查詢結(jié)果。

        檢索的基本調(diào)用流程如圖16所示。

        7.垂直育兒搜索引擎客戶端檢索界面的建立

        檢索界面獲取用戶查詢式,通過(guò)Form輸入的查詢語(yǔ)句,調(diào)用切詞程序切分以后,封裝發(fā)送給檢索器。然后將從檢索器獲取的檢索結(jié)果:文檔標(biāo)題、路徑等記錄,分條、分頁(yè)在客戶端頁(yè)面顯示給用戶。本育兒搜索引擎客戶端檢索界面使用ASP.NET實(shí)現(xiàn),實(shí)現(xiàn)了檢索詞高亮顯示、檢索結(jié)果翻頁(yè)等功能。檢索器界面如圖17:

        8.寶寶搜與百度的檢索比較

        現(xiàn)在用“手足口病”來(lái)作為檢索詞分別在百度和寶寶搜里做檢索,如圖19和圖20所示:

        從檢索返回的數(shù)量來(lái)看:在百度里檢索到8,160,000篇相關(guān)文獻(xiàn),在寶寶搜里檢索到1827篇相關(guān)文獻(xiàn)。由此可見(jiàn)百度的數(shù)據(jù)量遠(yuǎn)遠(yuǎn)大于寶寶搜,這是由于百度抓取的數(shù)據(jù)規(guī)模大,寶寶搜在本文中作為垂直育兒搜索引擎的一個(gè)簡(jiǎn)單模型,僅抓取了幾個(gè)育兒網(wǎng)站的部分?jǐn)?shù)據(jù)。

        從檢索使用的時(shí)間來(lái)看:百度用時(shí)0.066秒,寶寶搜用時(shí)0.060秒。

        從返回的結(jié)果來(lái)看:百度返回的大多都是關(guān)于“手足口病”新聞性的報(bào)道,關(guān)于“成人手足口病”的文獻(xiàn)也被返回過(guò)來(lái)。寶寶搜返回的多是關(guān)于“兒童手足口病”的癥狀、預(yù)防、治療、護(hù)理等相關(guān)知識(shí),可見(jiàn)寶寶搜的返回結(jié)果更加切近育兒用戶的檢索需求。

        另外百度有相關(guān)檢索詞推薦,用戶輸入“手足口病”后,百度給出的相關(guān)檢索詞有:手足口病的癥狀、預(yù)防手足口病、手足口病治療、什么是手足口病、手足口病癥狀圖片等,寶寶搜模型由于人力資源的限制沒(méi)有處理相關(guān)檢索詞推薦。

        從檢索結(jié)果總的比較來(lái)看,雖然寶寶搜的檢索結(jié)果從數(shù)量上無(wú)法跟百度相比,但是在質(zhì)量和檢索所用時(shí)間上都不比百度差。如果能夠得到充分的開(kāi)發(fā)——強(qiáng)大的技術(shù)團(tuán)隊(duì)、完備的硬件設(shè)備等,寶寶搜將會(huì)能在互聯(lián)網(wǎng)上開(kāi)辟出自己的市場(chǎng)。

        9.小結(jié)

        本文在充分研究搜索引擎技術(shù)的基礎(chǔ)上,結(jié)合并充分利用了一些開(kāi)源代碼,完成了育兒資源的抓取、解析,專業(yè)育兒分詞的實(shí)現(xiàn)等,并最終一步一步地完成了垂直育兒搜索引擎系統(tǒng)“寶寶搜”的實(shí)現(xiàn)。經(jīng)過(guò)反復(fù)的測(cè)試和調(diào)試,保證了本系統(tǒng)檢索的穩(wěn)定性和準(zhǔn)確性。并為此申請(qǐng)了國(guó)際域名,http://www.baobaosou.com,鑒于財(cái)力有限無(wú)法上線實(shí)驗(yàn)。

        參考文獻(xiàn):

        [1]Guiherme Labiqalini.My Downloader:A Multi-thread C# Segmented Downloader Manager[2009-12-20].http://www.codeproject.com/KB/IP/MyDownloader.aspx.

        [2]劉峰.通用中英文專業(yè)搜索引擎技術(shù)的研究與應(yīng)用[D].大連:大連理工,2004:55.

        [3]Eaglet.盤(pán)古分詞-開(kāi)源中文分詞組件[2009-08-16].http://pangusegment.codeplex.com/.

        [4](日)松田道雄著,王少麗等譯.育兒百科[M].北京:華夏出版社,2002.

        [5]王琪.育兒百科[M].北京:中國(guó)婦女出版社,2008.

        [6]路云.育兒百科[M].北京:中國(guó)婦女出版社,2009.

        [7]CLucene.clucene-0.9.10.tar.gz[2009-11-08].http://download.chinaunix.net/download.php?id=24427ResourceID=12326.

        作者簡(jiǎn)介:

        王曉娜,女,重慶人,碩士,現(xiàn)供職于重慶廣播電視大學(xué),研究方向:軟件開(kāi)發(fā)。

        陳靖,女,河南范縣人,碩士,館員,現(xiàn)供職于重慶廣播電視大學(xué),研究方向:高校圖書(shū)館信息參考咨詢。

        王天林,男,河南南陽(yáng)人,碩士,講師,現(xiàn)供職于重慶廣播電視大學(xué),研究方向:軟件開(kāi)發(fā)。

        人妻少妇精品无码系列| 强迫人妻hd中文字幕| 国产精品丝袜美腿诱惑| 亚洲av第二区国产精品| 手机在线免费观看av不卡网站| 侵犯了美丽丰满人妻中文字幕| 国产一区二区视频免费在线观看| 国产精品妇女一区二区三区| 国产欧美va欧美va香蕉在线| 免费a级毛片无码a∨蜜芽试看| 女人张开腿让男人桶爽| 欧洲熟妇色xxxx欧美老妇性| 日韩视频中文字幕精品偷拍| 久热在线播放中文字幕| 日日躁欧美老妇| 一区二区亚洲精品国产精| 久久中文字幕亚洲综合| 亚洲小说区图片区色综合网| 天天躁夜夜躁狠狠躁2021a2| 欧美巨大巨粗黑人性aaaaaa| 一区二区三区福利在线视频| 免费a级毛片无码a∨免费| 亚洲av综合色区久久精品天堂 | 性大毛片视频| 国产免费专区| 国产精品白浆视频一区| 国产亚洲日韩AV在线播放不卡| 日韩亚洲一区二区三区在线 | 成人自拍一二在线观看| 日本一区二区在线播放| 屁屁影院ccyy备用地址| 美女扒开内裤让男生桶| 精品理论一区二区三区| 中文字幕中文字幕人妻黑丝| 少妇人妻系列中文在线| 水蜜桃男女视频在线观看网站| 自拍偷自拍亚洲精品第按摩 | 综合色久七七综合尤物| 日本道免费一区日韩精品| 亚洲精品日本久久久中文字幕| 亚洲不卡免费观看av一区二区|