亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

實(shí)現(xiàn)一個(gè)垂直育兒搜索引擎系統(tǒng)的探索

2012-04-29 00:00:00王曉娜陳靖王天林

網(wǎng)友世界 2012年19期

【摘要】隨著計(jì)算機(jī)技術(shù)和互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展，并逐步向社會(huì)各個(gè)領(lǐng)域滲透，各行各業(yè)都開(kāi)始使用網(wǎng)絡(luò)來(lái)獲取和發(fā)送信息。育兒領(lǐng)域也是如此，越來(lái)越多的育兒信息用戶選擇利用網(wǎng)絡(luò)來(lái)獲得育兒信息支持。面對(duì)豐富而繁雜的網(wǎng)絡(luò)育兒資源，育兒用戶驚喜和無(wú)奈并存，驚喜的是網(wǎng)絡(luò)育兒資源豐富而全面，無(wú)奈的是查找總是很麻煩。如何有效地整合這部分資源，為廣大育兒信息用戶提供方便？搜索引擎技術(shù)發(fā)展了十幾年，已經(jīng)漸趨成熟和完善，垂直搜索技術(shù)業(yè)已開(kāi)始深入到各行各業(yè)，并取得成功的應(yīng)用；育兒領(lǐng)域至今還沒(méi)有出現(xiàn)任何類型的專業(yè)搜索引擎，廣大的用戶群體都在期待著能有一個(gè)專業(yè)而實(shí)用的垂直搜索引擎幫助他們獲取所需要的信息。本文作者采用成熟的技術(shù)和一些開(kāi)源代碼構(gòu)建了一個(gè)垂直育兒搜索引擎模型，希望拋磚能夠引玉，引起廣大同行的注意。

【關(guān)鍵詞】搜索引擎；垂直搜索引擎

1.垂直育兒搜索引擎開(kāi)發(fā)工具組件

本搜索引擎系統(tǒng)主要由搜集子系統(tǒng)、檢索子系統(tǒng)和查詢子系統(tǒng)三大部分構(gòu)成，運(yùn)用.NET平臺(tái)和SQLServer2008大型數(shù)據(jù)庫(kù)、開(kāi)源Lucene.Net軟件、開(kāi)源盤(pán)古中文分詞等技術(shù)實(shí)現(xiàn)，具備垂直搜索引擎的完整結(jié)構(gòu)和功能。其內(nèi)核部分包括：抓取程序、分詞程序、索引程序、檢索程序等。

本系統(tǒng)開(kāi)發(fā)的硬件和軟件環(huán)境如下：

硬件環(huán)境：CPU類型P4，內(nèi)存1GB。

操作系統(tǒng)：Windows SP2

Web服務(wù)器：IIS 6.0

數(shù)據(jù)庫(kù)系統(tǒng)：SQL Server 2008

開(kāi)發(fā)工具：visual studio 2008

本系統(tǒng)中有些模塊是參考了開(kāi)源代碼以后，在此基礎(chǔ)上進(jìn)行改造的，具體包括：

本文的抓取程序Crawl參照My Downloader運(yùn)用.Net平臺(tái)C#語(yǔ)言開(kāi)發(fā)

本文的分詞程序PanGu.Lucene.Analyzer運(yùn)用PanGu分詞組件和Lucene.Net分詞技術(shù)開(kāi)發(fā)。

本文的索引、檢索程序采用Lucene.Net的框架，利用C#語(yǔ)言開(kāi)發(fā)。

2.垂直育兒搜索引擎的資源抓取

2.1 育兒資源發(fā)現(xiàn)

這是為垂直育兒搜索引擎提供數(shù)據(jù)來(lái)源的保證，尋找符合育兒主題的資源網(wǎng)站和網(wǎng)頁(yè)地址，能有效提高垂直育兒搜索引擎的數(shù)據(jù)收錄情況。要完成育兒資源的定題搜索和下載，有兩種途徑：一是給定URL，人工控制下載；二是通過(guò)給定育兒類關(guān)鍵詞，對(duì)錨文本進(jìn)行判斷，判斷它是否是此類網(wǎng)站，然后進(jìn)行下載。本文用第一種途徑，歷經(jīng)2年的時(shí)間，手動(dòng)完成國(guó)內(nèi)育兒類網(wǎng)址的遍歷，基本上保證了所收集的育兒類網(wǎng)站都是專業(yè)和穩(wěn)定的。

本文的初始育兒資源發(fā)現(xiàn)策略有：

利用網(wǎng)址導(dǎo)航。

網(wǎng)址導(dǎo)航能較集中地提供部分育兒類網(wǎng)址，把每個(gè)網(wǎng)址導(dǎo)航里的育兒網(wǎng)址記錄下，綜合后去重，得到部分育兒URL列表。

利用通用搜索引擎。

用育兒、寶寶、0-3歲、0-6歲等作為關(guān)鍵詞在多個(gè)通用搜索引擎上搜索，集中抽取育兒URL，得到部分育兒URL列表。

利用web2.0育兒社區(qū)、育兒博客。

有些網(wǎng)友總結(jié)出來(lái)的“育兒網(wǎng)址大全”，也都很好，分析之后，得到部分育兒URL列表。

通過(guò)權(quán)威育兒網(wǎng)站的超鏈接。

權(quán)威的專業(yè)育兒網(wǎng)站頁(yè)面上的網(wǎng)址列表，都是比較穩(wěn)定的育兒類網(wǎng)站的URL。

2.2 育兒專題信息抓取

本抓取程序Crawl是參照My Downloader

在.Net平臺(tái)上運(yùn)用C#語(yǔ)言開(kāi)發(fā)的[1]。My Downloader是由由巴西人Guiherme Labiqalini編寫(xiě)的C#語(yǔ)言類下載程序，可支持多線程、可控制、可分段下載。My Downloader的主要特點(diǎn)入下：

它可以給定站點(diǎn)下載。即通過(guò)界面，你可以手動(dòng)輸入一個(gè)網(wǎng)站地址，讓它整站地下載這一網(wǎng)站內(nèi)的所有資源。

它可以批量導(dǎo)入站點(diǎn)地址下載。通過(guò)本地文本文件或者HTML格式的文件，可以批量導(dǎo)入一些網(wǎng)址，供它一個(gè)網(wǎng)站一個(gè)網(wǎng)站地下載。

它可指定媒體類型下載?？赏暾螺d整個(gè)網(wǎng)頁(yè)的內(nèi)容也可只下載單獨(dú)媒體形式的內(nèi)容，比如只下載圖片，只下載mp3，只下載視頻，只下載文本等。

網(wǎng)絡(luò)育兒資源蜘蛛程序的抓取過(guò)程截如圖1所示。

下載的資源以文件的形式存放在指定的文件夾下如下圖2所示，這些文件是生成檢索返回記錄：摘要、網(wǎng)頁(yè)快照、超鏈網(wǎng)址的基礎(chǔ)資料。如果抓取器跟索引器鏈接起來(lái)以后，是一邊下載一邊索引的，我們便看不到這些文件了。

3.育兒網(wǎng)頁(yè)內(nèi)容的分析

我們主要抽取4部分信息：head、title、body、href。其中head中的內(nèi)容是決定title中關(guān)鍵詞權(quán)值的。title起著概括全篇的作用，有研究表明97.8%網(wǎng)頁(yè)，其title中的關(guān)鍵詞就是本網(wǎng)頁(yè)內(nèi)容的關(guān)鍵詞[2]。body里面是網(wǎng)頁(yè)的基本內(nèi)容，其中也有一些重要的關(guān)鍵詞可以利用。href是超鏈接，對(duì)它的分析為蜘蛛的下一步抓取提供URL。

解析的過(guò)程如下（如圖3）：

1）讀入一個(gè)html文檔，以“<”和“>”為分隔符分割文檔內(nèi)容。

2）去掉文檔中標(biāo)點(diǎn)符號(hào)、空格等無(wú)用內(nèi)容和tags標(biāo)記。

3）提取文檔中head、title、body、href等內(nèi)容，形成純文本本文件。

解析完成以后，直接導(dǎo)入數(shù)據(jù)庫(kù)，便于調(diào)用分詞器分詞，也便于索引器提取數(shù)據(jù)進(jìn)行索引。建立數(shù)據(jù)庫(kù)和特征向量，根據(jù)特征向量把各項(xiàng)內(nèi)容導(dǎo)入數(shù)據(jù)庫(kù)，導(dǎo)入數(shù)據(jù)庫(kù)后的各項(xiàng)內(nèi)容存儲(chǔ)情況如圖4所示：

4.育兒分詞的實(shí)現(xiàn)

育兒網(wǎng)頁(yè)的索引和檢索使用Lucene的框架，為了進(jìn)一步提高結(jié)果質(zhì)量，需要使用中文分詞組件，比較幾個(gè)開(kāi)源的c#中文分詞程序后，選定用盤(pán)古分詞程序[3]，作為本文的分詞主程序。一是因?yàn)長(zhǎng)ucene和盤(pán)古分詞程序能夠很好地對(duì)接起來(lái)，二是盤(pán)古分詞程序詞典的導(dǎo)入和導(dǎo)出很好控制，適于構(gòu)建專業(yè)育兒分詞詞典。

4.1 育兒詞表的構(gòu)建

專業(yè)詞表對(duì)垂直搜索引擎來(lái)說(shuō)非常重要，有了它才能讓搜集和檢索更加精確。參照松田道雄的《育兒百科》[4]、王琪的《育兒百科》[5]、路云的《育兒百科》[6]，以及一些育兒網(wǎng)頁(yè)的關(guān)鍵詞，結(jié)合育兒用戶群體的用詞習(xí)慣，完成了本育兒詞表的収詞與構(gòu)建。本育兒詞表収詞的范圍從以下幾個(gè)方面確定：孕前準(zhǔn)備，孕、產(chǎn)婦營(yíng)養(yǎng)與照顧，嬰幼兒喂養(yǎng)與照顧，嬰幼兒教育與培養(yǎng)，嬰幼兒疾病，嬰幼兒吃、穿、玩具、書(shū)籍等商品，孕、產(chǎn)婦使用的商品。

由于本育兒詞表在収詞與構(gòu)建的過(guò)程中沒(méi)有結(jié)合育兒專家一起完成，從収詞范圍到収詞規(guī)則等可能都待進(jìn)一步的規(guī)范。但是通過(guò)切詞試驗(yàn)和檢索試驗(yàn)證明，這種方法是可取的，在支持育兒信息用戶網(wǎng)絡(luò)育兒資源檢索方面能起到很好的作用。

4.2 育兒分詞詞典的添加

在盤(pán)古分詞詞典里，刪除原有的詞表，導(dǎo)入育兒詞表，然后設(shè)置專業(yè)育兒詞匯的詞頻。這樣育兒詞典就構(gòu)建成了，能保證了育兒資源分詞的準(zhǔn)確性和專業(yè)性，為檢索和查詢墊下良好的基礎(chǔ)。

用典型例子來(lái)檢查一下專業(yè)育兒詞典的準(zhǔn)確性：

用“寶寶”作為檢索詞，原有的盤(pán)古分詞詞典里相應(yīng)的匹配詞有：寶寶、乖寶寶、小寶寶、蠶寶寶，如圖5所示。

刪除盤(pán)古系統(tǒng)原有的詞表，導(dǎo)入的專業(yè)育兒詞表，假設(shè)育兒詞表里共有如下這些詞：寶寶、寶寶感冒、寶寶發(fā)燒、寶寶拉肚子、寶寶洗澡、寶寶的書(shū)、寶寶奶粉、寶寶輔食、寶寶衣服、寶寶玩具、寶寶嘔吐、寶寶上幼兒園、寶寶看的動(dòng)畫(huà)片等，則相應(yīng)的匹配如圖6所示。

實(shí)驗(yàn)結(jié)果明顯地顯示出：在育兒詞匯的數(shù)量上，專業(yè)育兒詞典要多于普通詞典；在育兒詞匯的精確程度上，專業(yè)育兒詞典要好于普通詞典。

實(shí)驗(yàn)結(jié)論：因?yàn)橥ㄓ迷~典按照通用詞匯標(biāo)準(zhǔn)收集詞匯，沒(méi)有按照育兒專業(yè)標(biāo)準(zhǔn)收集育兒詞匯，注重的是詞匯收集的全面性。而專業(yè)育兒詞典則會(huì)結(jié)合育兒專家，制定專業(yè)的、系統(tǒng)的育兒詞匯收集標(biāo)準(zhǔn)，按照育兒專業(yè)標(biāo)準(zhǔn)收集詞匯。這樣就能把育兒詞匯收集的更加專業(yè)、精細(xì)、全面、規(guī)則，育兒詞表的質(zhì)量也就可以得到切實(shí)保證的。

4.3 育兒分詞器的匹配規(guī)則

如果用戶檢索的時(shí)候輸入：寶寶拉肚子、我的寶寶拉肚子、我的寶寶拉肚子怎么辦？育兒分詞系統(tǒng)會(huì)準(zhǔn)確地識(shí)別出“寶寶拉肚子”。查詢系統(tǒng)都會(huì)準(zhǔn)確地為他找到與“寶寶拉肚子”、相關(guān)的內(nèi)容，不會(huì)把所有與“寶寶”有關(guān)的內(nèi)容全檢索出來(lái)。

本切詞系統(tǒng)采用的是基于詞庫(kù)匹配的正向最大匹配算法（通常簡(jiǎn)稱為MM法）。其基本思想為：設(shè)D為詞典，MAX表示D中的最大詞長(zhǎng)，str為待切分的字串。MM法是每次從str中取長(zhǎng)度為MAX的子串與D中的詞進(jìn)行匹配。若成功，則該子串為詞，指針后移MAX個(gè)漢字后繼續(xù)匹配，否則子串逐次減一進(jìn)行匹配。主要切詞過(guò)程如圖7所示。

讀取詞庫(kù)，并讀取相應(yīng)的靜態(tài)索引，建立詞庫(kù)上的索引。

讀取待切分的字串str。

匹配過(guò)程。

從待切分字串中取出一個(gè)長(zhǎng)度為MAX的子串，到詞典中去匹配，若匹配成功則取下一個(gè)長(zhǎng)度為MAX的子串進(jìn)行匹配，否則將子串從后面截去一個(gè)字后繼續(xù)匹配，直到匹配成功或者子串中只有一個(gè)字為止。若匹配成功則從匹配成功的詞的位置開(kāi)始再截取下一長(zhǎng)度為MAX的子串進(jìn)行匹配，依次循環(huán)直到將字符串匹配完為止。

4.4 育兒分詞庫(kù)的組織結(jié)構(gòu)

整個(gè)分詞過(guò)程實(shí)際上就是在詞表上查找匹配過(guò)程，所以詞庫(kù)的組織結(jié)構(gòu)很重要。詞表存放在一個(gè)文本文件里，每一個(gè)詞條由兩項(xiàng)組成，一個(gè)是詞的ID、另一個(gè)就是詞本身。詞表都有一個(gè)靜態(tài)索引，分詞是利用三級(jí)索引對(duì)詞表進(jìn)行分組管理的，如圖8所示。首先對(duì)詞條按字?jǐn)?shù)分組，字?jǐn)?shù)相同的詞條放在同一組里，然后對(duì)詞條按首漢字的內(nèi)碼從小到大排序，這就形成一級(jí)索引。一級(jí)索引是加在各個(gè)分組上，它記錄了各分組的開(kāi)始位置，再根據(jù)下一分組的起始位置確定當(dāng)前分組的終止位置。二級(jí)索引是加在一級(jí)索引內(nèi)部的，在同一組內(nèi)部由于有很多的詞條，二級(jí)索引是按詞的首漢字內(nèi)碼建立的，它加在以不同漢字開(kāi)頭的詞條組中，這樣通過(guò)三級(jí)索引可以進(jìn)一步縮小查找范圍。另外在漢字中以有些字開(kāi)頭的詞條過(guò)多，這樣進(jìn)行匹配的次數(shù)過(guò)多，不利于提高匹配速度。因而在二級(jí)索引的基礎(chǔ)之上添加一個(gè)三級(jí)索引，它是按照一定的密度間隔添加，本文設(shè)定了一個(gè)默認(rèn)值是每隔50個(gè)詞條添加一個(gè)三級(jí)索引，同樣三級(jí)索引也是根據(jù)漢字內(nèi)碼添加的（三級(jí)索引和二級(jí)索引的定義相同）。

匹配的時(shí)候，首先根據(jù)字串長(zhǎng)度（字?jǐn)?shù)）確定一級(jí)索引，也就是確定分組。這個(gè)過(guò)程采用Hash函數(shù)，根據(jù)字串長(zhǎng)度直接定位到相應(yīng)的一級(jí)索引組中去。確定了分組后再根據(jù)首漢字的內(nèi)碼確定二級(jí)索引，找到以后再確定三級(jí)索引，這樣將進(jìn)行匹配的過(guò)程縮小到一個(gè)很小的范圍，可以縮小進(jìn)行匹配的詞條集，提高分詞的效率。

4.5 切分效果的檢查

用典型例子檢查一下本文育兒分詞的準(zhǔn)確性：把這樣一段文字：寶寶拉肚子、我的寶寶拉肚子、我的寶寶拉肚子怎么辦，輸入分詞系統(tǒng)，切分的效果圖9所示。用通用詞典來(lái)切分這段文字，效果如圖10所示。

像“寶寶拉肚子”這樣的檢索詞在普通詞表里是“寶寶”和“拉肚子”兩個(gè)詞，在育兒詞表里它會(huì)自動(dòng)把“寶寶”這個(gè)高頻詞轉(zhuǎn)換成限定詞，緊接在“寶寶”后面的便是核心檢索詞，索引與檢索匹配的時(shí)候都會(huì)首先根據(jù)核心詞來(lái)。育兒詞表只收錄有關(guān)0-6歲嬰幼兒孕育、培養(yǎng)和撫育等方面的詞匯，又充分考慮了育兒信息用戶的用詞習(xí)慣，用它來(lái)切分檢索詞就不容易造成歧義和擴(kuò)檢現(xiàn)象的產(chǎn)生，能保證了檢索結(jié)果的準(zhǔn)確度。

5.垂直育兒搜索引擎的索引器建立

索引和檢索模塊采用的是Lucene的技術(shù)框架[7]。Lucene本身是一個(gè)全文檢索系統(tǒng)，它有一個(gè)性能良好使用方便的索引器，可以直接使用。LuceneC++版的全文檢索引擎，完全移植于Lucene。Lucene有專門(mén)的API實(shí)現(xiàn)索引的建立和管理功能，能處理數(shù)據(jù)庫(kù)的記錄。索引后的數(shù)據(jù)以文件的形式存儲(chǔ)，不依賴于數(shù)據(jù)庫(kù)或者特定的平臺(tái)。對(duì)于新加入的索引，可以通過(guò)索引合并，加入到整體索引中去，實(shí)現(xiàn)索引數(shù)據(jù)庫(kù)的更新。

5.1 生成索引的上下文環(huán)境

通過(guò)正則表達(dá)式解析后的網(wǎng)頁(yè)內(nèi)容存入數(shù)據(jù)庫(kù)，其實(shí)就是通常所說(shuō)的中間格式。用Lucene的索引器提取數(shù)據(jù)庫(kù)里的各項(xiàng)內(nèi)容，根據(jù)規(guī)定的索引項(xiàng)生成索引文件，再存入索引數(shù)據(jù)庫(kù)。索引生成器工作的上下文環(huán)境如圖11所示

5.2 構(gòu)建Lucene育兒索引器的過(guò)程

配置索引器

IndexWriter是創(chuàng)建與更新索引數(shù)據(jù)的類，首先需對(duì)它初始化。設(shè)置索引存放的路徑、分析器、是否重新創(chuàng)建索引。然后調(diào)用addDocument方法和盤(pán)古育兒分詞組件，實(shí)現(xiàn)對(duì)每個(gè)文檔（即文檔數(shù)據(jù)庫(kù)里每條記錄）的分詞和正排索引?？赏ㄟ^(guò)重復(fù)執(zhí)行addDocument方法，向正排索引添加文檔（Document）。然后調(diào)用IndexBuilder方法生成倒排索引文件和索引字典。調(diào)用Optimize方法對(duì)索引進(jìn)行優(yōu)化，最后需執(zhí)行close方法關(guān)閉索引。

倒排索引生成的內(nèi)部過(guò)程

1）打開(kāi)文本數(shù)據(jù)庫(kù)。

2）抽取text項(xiàng)。text項(xiàng)就是網(wǎng)頁(yè)head、body等里的內(nèi)容，是一些純文本內(nèi)容。調(diào)用盤(pán)古育兒分詞組建，對(duì)這些文本進(jìn)行分詞。

3）給數(shù)據(jù)庫(kù)添加一列名為“keywords”的記錄，切分后的詞存入keyword相應(yīng)的行內(nèi)。

4）根據(jù)keywords項(xiàng)，生成數(shù)據(jù)庫(kù)中每條記錄的正排索引。

5）抽取keywords項(xiàng)，合并不同條記錄（不同文檔）重復(fù)的關(guān)鍵詞，生成倒排索引和索引字典。

索引的流程

程序首先確定索引的存放目錄和待索引的目錄，然后生成本地磁盤(pán)索引，準(zhǔn)備添加數(shù)據(jù)。讀取數(shù)據(jù)庫(kù)中的文件信息，分析文本文件并使用內(nèi)存索引進(jìn)行索引，內(nèi)存索引添加到本地磁盤(pán)索引中。對(duì)子目錄一個(gè)個(gè)遍歷，直到全部完成。索引完成，關(guān)閉索引器。索引流程如圖12所示：

6.垂直育兒搜索引擎的檢索器構(gòu)建

通過(guò)第四章第六部分分析的檢索基本原理表明，一個(gè)有效的檢索器需要具備：檢索詞的分析功能、索引文件的訪問(wèn)和查詢功能、檢索結(jié)果的獲取和排序功能。這些功能在Lucene中，都是通過(guò)封裝的API和相應(yīng)的類來(lái)提供的。為了方便使用和二次開(kāi)發(fā)的需要API的接口都很容易上手。通過(guò)集合核心類和一些操作，就能實(shí)現(xiàn)各種查詢和檢索功能。

構(gòu)建Lucene育兒檢索器的基本步驟為：

1）初始化IndexSearcher。IndexSear-

cher為檢索類，首先對(duì)其初始化，設(shè)置索引存放的路徑。

2）構(gòu)建Query對(duì)像。Query對(duì)像用來(lái)確定檢索表達(dá)式，構(gòu)造查詢請(qǐng)求。Query包含TermQuery（搜索的關(guān)鍵詞存儲(chǔ)）、BooleanQuery（搜索的“與或”邏輯存儲(chǔ)）、PhraseQuery（搜索的多關(guān)鍵詞保存）等子類。

3）調(diào)用IndexSearcher。IndexSear-

cher的Search方法根據(jù)Query提交的檢索表達(dá)式進(jìn)行查詢。

4）Hits類。檢索結(jié)果以數(shù)組集合的形式存放于Hits類對(duì)象中，length方法返回結(jié)果數(shù)，doc（n）返回第n個(gè)文檔，循環(huán)使用即可遍歷所有查詢結(jié)果。

檢索的基本調(diào)用流程如圖16所示。

7.垂直育兒搜索引擎客戶端檢索界面的建立

檢索界面獲取用戶查詢式，通過(guò)Form輸入的查詢語(yǔ)句，調(diào)用切詞程序切分以后，封裝發(fā)送給檢索器。然后將從檢索器獲取的檢索結(jié)果：文檔標(biāo)題、路徑等記錄，分條、分頁(yè)在客戶端頁(yè)面顯示給用戶。本育兒搜索引擎客戶端檢索界面使用ASP.NET實(shí)現(xiàn)，實(shí)現(xiàn)了檢索詞高亮顯示、檢索結(jié)果翻頁(yè)等功能。檢索器界面如圖17：

8.寶寶搜與百度的檢索比較

現(xiàn)在用“手足口病”來(lái)作為檢索詞分別在百度和寶寶搜里做檢索，如圖19和圖20所示：

從檢索返回的數(shù)量來(lái)看：在百度里檢索到8，160，000篇相關(guān)文獻(xiàn)，在寶寶搜里檢索到1827篇相關(guān)文獻(xiàn)。由此可見(jiàn)百度的數(shù)據(jù)量遠(yuǎn)遠(yuǎn)大于寶寶搜，這是由于百度抓取的數(shù)據(jù)規(guī)模大，寶寶搜在本文中作為垂直育兒搜索引擎的一個(gè)簡(jiǎn)單模型，僅抓取了幾個(gè)育兒網(wǎng)站的部分?jǐn)?shù)據(jù)。

從檢索使用的時(shí)間來(lái)看：百度用時(shí)0.066秒，寶寶搜用時(shí)0.060秒。

從返回的結(jié)果來(lái)看：百度返回的大多都是關(guān)于“手足口病”新聞性的報(bào)道，關(guān)于“成人手足口病”的文獻(xiàn)也被返回過(guò)來(lái)。寶寶搜返回的多是關(guān)于“兒童手足口病”的癥狀、預(yù)防、治療、護(hù)理等相關(guān)知識(shí)，可見(jiàn)寶寶搜的返回結(jié)果更加切近育兒用戶的檢索需求。

另外百度有相關(guān)檢索詞推薦，用戶輸入“手足口病”后，百度給出的相關(guān)檢索詞有：手足口病的癥狀、預(yù)防手足口病、手足口病治療、什么是手足口病、手足口病癥狀圖片等，寶寶搜模型由于人力資源的限制沒(méi)有處理相關(guān)檢索詞推薦。

從檢索結(jié)果總的比較來(lái)看，雖然寶寶搜的檢索結(jié)果從數(shù)量上無(wú)法跟百度相比，但是在質(zhì)量和檢索所用時(shí)間上都不比百度差。如果能夠得到充分的開(kāi)發(fā)——強(qiáng)大的技術(shù)團(tuán)隊(duì)、完備的硬件設(shè)備等，寶寶搜將會(huì)能在互聯(lián)網(wǎng)上開(kāi)辟出自己的市場(chǎng)。

9.小結(jié)

本文在充分研究搜索引擎技術(shù)的基礎(chǔ)上，結(jié)合并充分利用了一些開(kāi)源代碼，完成了育兒資源的抓取、解析，專業(yè)育兒分詞的實(shí)現(xiàn)等，并最終一步一步地完成了垂直育兒搜索引擎系統(tǒng)“寶寶搜”的實(shí)現(xiàn)。經(jīng)過(guò)反復(fù)的測(cè)試和調(diào)試，保證了本系統(tǒng)檢索的穩(wěn)定性和準(zhǔn)確性。并為此申請(qǐng)了國(guó)際域名，http：//www.baobaosou.com，鑒于財(cái)力有限無(wú)法上線實(shí)驗(yàn)。

參考文獻(xiàn)：

[1]Guiherme Labiqalini.My Downloader：A Multi-thread C# Segmented Downloader Manager[2009-12-20].http：//www.codeproject.com/KB/IP/MyDownloader.aspx.

[2]劉峰.通用中英文專業(yè)搜索引擎技術(shù)的研究與應(yīng)用[D].大連：大連理工，2004：55.

[3]Eaglet.盤(pán)古分詞-開(kāi)源中文分詞組件[2009-08-16].http：//pangusegment.codeplex.com/.

[4]（日）松田道雄著，王少麗等譯.育兒百科[M].北京：華夏出版社，2002.

[5]王琪.育兒百科[M].北京：中國(guó)婦女出版社，2008.

[6]路云.育兒百科[M].北京：中國(guó)婦女出版社，2009.

[7]CLucene.clucene-0.9.10.tar.gz[2009-11-08].http：//download.chinaunix.net/download.php？id=24427ResourceID=12326.

作者簡(jiǎn)介：

王曉娜，女，重慶人，碩士，現(xiàn)供職于重慶廣播電視大學(xué)，研究方向：軟件開(kāi)發(fā)。

陳靖，女，河南范縣人，碩士，館員，現(xiàn)供職于重慶廣播電視大學(xué)，研究方向：高校圖書(shū)館信息參考咨詢。

王天林，男，河南南陽(yáng)人，碩士，講師，現(xiàn)供職于重慶廣播電視大學(xué)，研究方向：軟件開(kāi)發(fā)。

網(wǎng)友世界2012年19期

網(wǎng)友世界的其它文章: 論《票據(jù)法學(xué)》遞進(jìn)式教學(xué)思路設(shè)計(jì); 數(shù)學(xué)教學(xué)中的感想; 調(diào)控在音樂(lè)課堂教學(xué)中的運(yùn)用; 中學(xué)英語(yǔ)閱讀障礙及對(duì)策; 關(guān)于構(gòu)建和實(shí)施大學(xué)生誠(chéng)信檔案的一些思考; 論民辦高校輔導(dǎo)員隊(duì)伍職業(yè)化建設(shè)