亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于.Net 的全文搜索引擎設(shè)計(jì)與實(shí)現(xiàn)*

        2014-12-31 09:04:58孫藝珍季小迪張京濤
        關(guān)鍵詞:搜索引擎用戶信息

        孫藝珍,季小迪,張京濤

        (1.西安科技大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,陜西 西安710054;2.陜西百略企業(yè)管理咨詢有限公司,陜西 西安710061)

        0 引 言

        在互聯(lián)網(wǎng)高速發(fā)展的今天,網(wǎng)絡(luò)中充斥了各種各樣的信息,這樣就使得用戶無(wú)法準(zhǔn)確快速的找到可用的信息。在此情況下,一種能夠快速搜索和整理信息的技術(shù)日漸成為網(wǎng)絡(luò)關(guān)注的焦點(diǎn)。Kwang-ⅠYu,Shi-ping Hsu 和Peggy Otsubo1984 年在International Conference on Data Engineering 發(fā)表了《The Fast Data Finder-an architecture for very high speed data search and dissemination》,首次提出構(gòu)建一個(gè)快速數(shù)據(jù)搜索和數(shù)據(jù)傳播的框架[1]。馮飛燕1996 年翻譯的《搜索引擎-穿透Internet 的動(dòng)力-搜索引擎能做些什么》一文中介紹了網(wǎng)絡(luò)搜索引擎、網(wǎng)絡(luò)蜘蛛等相關(guān)知識(shí)[2]。搜索引擎自上個(gè)世紀(jì)90 年代產(chǎn)生,經(jīng)過(guò)多年的發(fā)展,已經(jīng)逐漸成為用戶上網(wǎng)不可或缺的重要工具。國(guó)外開發(fā)的搜索引擎比較多,如Google,Yahoo,Naver,Yandex 以及微軟的Bing 等,Google 被公認(rèn)為是全世界全球最大搜索引擎,它是互連網(wǎng)上用戶運(yùn)用最多的搜索引擎網(wǎng)站。國(guó)內(nèi)比較常見(jiàn)搜索引擎的有baidu,sohu,sina 等,國(guó)人偏愛(ài)用百度進(jìn)行中文搜索,其優(yōu)勢(shì)在于基于中國(guó)人的搜索習(xí)慣,可以進(jìn)行中文人名的搜索、識(shí)別,簡(jiǎn)繁體中文自動(dòng)轉(zhuǎn)換,中文自動(dòng)糾錯(cuò)等相關(guān)功能。搜索引擎一般可分為3 種,即目錄式搜索引擎、全文搜索引擎、元搜索引擎,后來(lái)又發(fā)展了其他非主流的搜索引擎,如垂直搜索引擎、集合式搜索引擎、門戶搜索引擎與免費(fèi)鏈接列表等其中使用最多的是全文搜索引擎。雖然全文搜索引擎有了長(zhǎng)足的進(jìn)步,但是,它也存在較多的問(wèn)題,例如如何提高全文搜索引擎對(duì)于文字的識(shí)別準(zhǔn)確性;如何做到語(yǔ)音搜索;如何能夠根據(jù)用戶興趣來(lái)篩選信息等。其下載分析端多采用C 或C+ +語(yǔ)言來(lái)實(shí)現(xiàn),搜索頁(yè)面設(shè)計(jì)方面主要采用PHP 和JSP.雖然效果不錯(cuò),但是其信息量重復(fù)率高,以及不能根據(jù)用戶的特定需求來(lái)篩選信息等問(wèn)題也是日益凸顯。所以說(shuō),目前全文搜索引擎的開發(fā)和研究還遠(yuǎn)遠(yuǎn)不能滿足于人們的需求,全文搜索引擎的潛力還有很大的挖掘空間[3]。

        文中介紹了全文搜索引擎的構(gòu)成及工作過(guò)程,設(shè)計(jì)并實(shí)現(xiàn)了一種基于. Net 的完整的全文搜索引擎原型系統(tǒng),測(cè)試結(jié)果表明其能夠完成全文搜索引擎的基本功能。與此同時(shí),該原型系統(tǒng)中加入了用戶對(duì)于個(gè)性化的需求,即用戶能夠根據(jù)自己的需求,選擇特定的內(nèi)容進(jìn)行搜索查看。此外,搜索頁(yè)面摒棄了單調(diào)的白色布局,加入適當(dāng)?shù)慕k麗背景及優(yōu)化的按鈕;而顯示模塊方面加入了異步傳輸技術(shù),使得用戶能在不用翻頁(yè)的情況下即可查看內(nèi)容,從而提升用戶體驗(yàn)。

        1 全文搜索引擎基本原理

        1.1 萬(wàn)維網(wǎng)與Lucene

        無(wú)論是動(dòng)態(tài)還是靜態(tài)網(wǎng)站,當(dāng)其需要進(jìn)入另一個(gè)網(wǎng)站的時(shí)候,都將使用連接的形式來(lái)進(jìn)行。這就將網(wǎng)站與網(wǎng)站鏈接在了一起。通常將本網(wǎng)站鏈接別的網(wǎng)站的鏈接叫做正向鏈接而鏈接到這個(gè)網(wǎng)站的鏈接叫做反向鏈接;通過(guò)Broder 的Ran-Dom-start BFS 實(shí)驗(yàn),可以展示出了萬(wàn)維網(wǎng)的基本結(jié)構(gòu)是蝴蝶結(jié)型結(jié)構(gòu),而且萬(wàn)維網(wǎng)其實(shí)是有直徑的,即,對(duì)于任意兩個(gè)網(wǎng)頁(yè)他們之間經(jīng)過(guò)的連接數(shù)是有極大值的,對(duì)于中國(guó)目前的網(wǎng)絡(luò)而言,一般是16,也就是說(shuō)任意兩個(gè)網(wǎng)頁(yè)之間的最大距離為16個(gè)鏈接[4-7]。在這樣的網(wǎng)絡(luò)結(jié)構(gòu)中,如果要想獲取更多的網(wǎng)頁(yè)(原始數(shù)據(jù)),那么搜索系統(tǒng)就應(yīng)該選擇蝴蝶結(jié)中部以及左部的網(wǎng)站作為起始點(diǎn);而結(jié)束的標(biāo)準(zhǔn)可以是判定當(dāng)前獲取的網(wǎng)頁(yè)的連接次數(shù)是否小于17,這為搜索系統(tǒng)的開始和結(jié)束給出了具體的要求。

        Lucene 是一個(gè)工作良好的全文檢索和搜索的系統(tǒng),它提供了中文分詞、搜索顯示高亮、索引相關(guān)操作。與此同時(shí),它提供的豐富的接口給程序員,使得程序員能夠根據(jù)自己的需求重寫Lucene中的模塊或通過(guò)接口加入其它的模塊,從而豐富了Lucene 的功能,提高其工作效率及準(zhǔn)確性。其一般的工作原理是,結(jié)合中文分詞器一起工作,能夠很好的對(duì)文章進(jìn)行分析,之后建立倒排索引;接著在查詢的過(guò)程中,Lucene 調(diào)用建立好的索引文件,對(duì)經(jīng)過(guò)中文分詞的關(guān)鍵詞進(jìn)行全文搜索,并根據(jù)其自身的得分算法公式得出一個(gè)得分并排序。而在索引管理方面,Lucene 也是比較方便的,它能夠?qū)σ呀?jīng)建立的索引進(jìn)行添加,合并以及優(yōu)化。

        1.2 全文搜索引擎系統(tǒng)設(shè)計(jì)

        整個(gè)系統(tǒng)分為4 個(gè)部分,分別是搜索模塊,分析模塊,索引模塊以及查詢模塊[8]。

        1.2.1 搜索模塊

        搜索模塊由3 個(gè)部分組成,分別是:驗(yàn)證模塊、多線程網(wǎng)頁(yè)下載模塊、Robots. txt 下載模塊。3 個(gè)模塊中最為關(guān)鍵的一個(gè)就是爬蟲模塊,這個(gè)模塊采用多線程的方法[9-10],通過(guò)URL 將網(wǎng)頁(yè)從互聯(lián)網(wǎng)中下載到本地,為下面的處理程序提供主要的支持。

        1.2.2 分析模塊

        分析模塊主要包括了信息抽取模塊,中文分詞模塊,以及網(wǎng)頁(yè)得分模塊。信息抽取模塊的主要作用是,將爬蟲下載到本地的文件讀取出來(lái),進(jìn)行分析處理,將特定的標(biāo)簽內(nèi)容提取出來(lái),存入文件,并根據(jù)內(nèi)容或標(biāo)題等一系列的特征信息,將重復(fù)的網(wǎng)頁(yè)刪除,從而減少搜索的工作,減少查詢結(jié)果重復(fù)率。中文分詞模塊主要是結(jié)合索引使用的,它將對(duì)抽取之后的信息以及查詢中的關(guān)鍵詞進(jìn)行分詞,這樣當(dāng)關(guān)鍵詞的分詞與信息抽取文件的分詞相等的時(shí)候,就能使計(jì)算機(jī)識(shí)別出來(lái)。得分模塊主要的功能就是為顯示頁(yè)面的排列提供服務(wù),使得顯示頁(yè)面能夠顯示出最主要,最權(quán)威的信息。

        1.2.3 索引模塊

        國(guó)際標(biāo)準(zhǔn)《文獻(xiàn)工作——出版物的索引》中對(duì)于索引的定義是“按所處理的主題、人名、地區(qū)名與地名、事件以及其他項(xiàng)目排列的一種詳細(xì)目錄,并指出項(xiàng)目在出版物中的位置”。所以,在全文搜索的搜索引擎中,最好是使用索引的形式來(lái)對(duì)文章進(jìn)行存儲(chǔ),這樣能夠快速、便捷的查詢到相應(yīng)的消息。

        1.2.4 查詢模塊

        查詢模塊是整個(gè)搜索引擎中唯一與用戶的接口,用戶通過(guò)關(guān)鍵詞與整個(gè)搜索引擎進(jìn)行交流,即當(dāng)用戶輸入關(guān)鍵詞以后,系統(tǒng)將關(guān)鍵詞分詞并查詢索引,最終在現(xiàn)實(shí)頁(yè)面顯示出查詢的結(jié)果。雖然,這僅僅是一個(gè)接口,但是其重要性不容小視,一個(gè)具有良好用戶體驗(yàn)、具有海量數(shù)據(jù)及結(jié)果合理顯示的搜索引擎能夠大大的吸引用戶,從而使得更多的人來(lái)使用搜索引擎。

        1.3 全文搜索引擎的工作流程

        根據(jù)全文搜索引擎的系統(tǒng)劃分,其工作流程首先從爬蟲(robots 或spider)模塊開始,從網(wǎng)絡(luò)中抓取信息,并將抓取的頁(yè)面存儲(chǔ)于本地;之后分析模塊分析由爬蟲抓取的信息;并運(yùn)用分析系統(tǒng)分析的結(jié)果,之后通過(guò)索引系統(tǒng)建立索引目錄;最后向用戶提供查詢結(jié)果及信息反饋。

        2 全文搜索引擎的實(shí)現(xiàn)

        2.1 數(shù)據(jù)存儲(chǔ)的設(shè)計(jì)

        對(duì)于搜索模塊的數(shù)據(jù),需要兩張表來(lái)存儲(chǔ)。分別存放下載的URL 信息以及下載的Robots. txt信息。下載的網(wǎng)頁(yè)和Robots. txt 全部以其網(wǎng)址的MD5 碼存儲(chǔ)[11],便于進(jìn)行查詢和比對(duì)。

        分析模塊的數(shù)據(jù)存儲(chǔ)分為數(shù)據(jù)庫(kù)存儲(chǔ)和文件存儲(chǔ)。數(shù)據(jù)庫(kù)主要用于存儲(chǔ)分析模塊對(duì)于網(wǎng)頁(yè)分析的結(jié)果簡(jiǎn)報(bào)。文件存儲(chǔ)分為2 部分,其一是存儲(chǔ)經(jīng)分析模塊分析處理之后的文件,采用與下載頁(yè)面相同的MD5 碼來(lái)存儲(chǔ);另一個(gè)是存儲(chǔ)刪除詞條,用于模塊分析時(shí)根據(jù)刪除詞條來(lái)刪除搜索內(nèi)容的相應(yīng)詞條,從而簡(jiǎn)化文件的內(nèi)容,提取出真正有用的信息。

        2.2 搜索模塊的實(shí)現(xiàn)

        2.2.1 驗(yàn)證系統(tǒng)設(shè)計(jì)實(shí)現(xiàn)

        在搜索系統(tǒng)中有2 個(gè)驗(yàn)證系統(tǒng),其中之一是對(duì)于人工輸入的種子網(wǎng)頁(yè)或計(jì)算機(jī)本身提取出的網(wǎng)頁(yè)的URL 進(jìn)行驗(yàn)證,使之能夠符合爬蟲程序的下載要求;另一個(gè)是對(duì)于網(wǎng)站Robots.txt 文件進(jìn)行驗(yàn)證,即驗(yàn)證所要用來(lái)下載的URL 是否符合Robots.txt 的要求。當(dāng)2 個(gè)驗(yàn)證程序都通過(guò)之后,才能將這個(gè)URL 放入到數(shù)據(jù)庫(kù)中。對(duì)于Robots.txt 的檢測(cè)流程圖如圖1 所示。

        圖1 Robots.txt 的檢測(cè)流程圖Fig.1 Detection flowchart of robots.txt

        2.2.2 爬蟲模塊設(shè)計(jì)實(shí)現(xiàn)

        對(duì)于爬蟲模塊,為了不出現(xiàn)下載網(wǎng)頁(yè)與下載Robots.txt 文件發(fā)生沖突,將2 個(gè)下載程序分開。其中網(wǎng)頁(yè)下載爬蟲將采用深度優(yōu)先的算法來(lái)進(jìn)行多線程抓取,另一個(gè)Robots.txt 文件下載程序采取單線程的下載模式。網(wǎng)頁(yè)爬蟲將采用5 只爬蟲共同抓取的策略[12]。為了避免爬蟲同一時(shí)間對(duì)于數(shù)據(jù)庫(kù)重復(fù)訪問(wèn),在爬蟲的模塊中要加入延時(shí)來(lái)控制爬蟲的產(chǎn)生,以及爬蟲訪問(wèn)數(shù)據(jù)庫(kù)的速度。

        在獲得網(wǎng)頁(yè)的數(shù)據(jù)流之后,需要完成兩個(gè)處理,首先是對(duì)于URL 的提取并將其存儲(chǔ)到數(shù)據(jù)庫(kù)中,以便爬蟲能夠訪問(wèn)及下載。

        本系統(tǒng)使用的是通過(guò)匹配正則表達(dá)式來(lái)獲取URL[13],正則表達(dá)式如下形式

        式中具體解釋見(jiàn)表1.

        表1 正則表達(dá)式解釋表Tab.1 Explanation of regular expressions

        其次是正確獲取網(wǎng)頁(yè)的編碼,在國(guó)內(nèi)比較多的網(wǎng)站使用的都是GB2312,國(guó)際上使用最多的是UTF-8 這種編碼。本系統(tǒng)將使用通過(guò)Mozzila 的universalchardet 改造后的NUniversalCharDet 動(dòng)態(tài)鏈接庫(kù)來(lái)實(shí)現(xiàn)對(duì)于編碼的識(shí)別,它使用的是一種統(tǒng)計(jì)學(xué)的方法,對(duì)放進(jìn)來(lái)的數(shù)據(jù)進(jìn)行各種編碼之后,對(duì)其進(jìn)行統(tǒng)計(jì),概率性高的就算命中,從而確定出編碼類型。爬蟲主要承擔(dān)的就是一個(gè)下載和存儲(chǔ)網(wǎng)頁(yè)的功能,其流程圖如圖2 所示。

        2.3 分析模塊的實(shí)現(xiàn)

        2.3.1 網(wǎng)頁(yè)信息抽取的設(shè)計(jì)實(shí)現(xiàn)

        本系統(tǒng)使用的是HTMLParser 分析工具來(lái)實(shí)現(xiàn)對(duì)于內(nèi)容的抽取,首先將下載之后的文件從磁盤中讀取出來(lái);之后交給HTMLParser 來(lái)根據(jù)需求標(biāo)簽提取出標(biāo)簽中的內(nèi)容;處理之后的存儲(chǔ)的格式為:標(biāo)題——時(shí)間——li 標(biāo)簽內(nèi)容——p 標(biāo)簽內(nèi)容——a 標(biāo)簽內(nèi)容。與此同時(shí),要將文件的MD5碼、標(biāo)題和連接數(shù)目寫入數(shù)據(jù)庫(kù)中。

        2.3.2 中文分詞

        圖2 爬蟲程序的流程圖Fig.2 Flow diagram of crawlers

        以中文關(guān)鍵詞進(jìn)行全文搜索,中文分詞是一個(gè)十分困難的事情。因?yàn)橹形牟幌裼⑽囊粯?,有空格可以作為天然的分割符?hào)。中文任意兩個(gè)詞的不同組合以及不同的語(yǔ)境都有很多不同的意思,所以如何劃分,以及劃分的好壞直接關(guān)系到最終的結(jié)果。Lucene 的.Net 版本3.0.3 自帶的中文分詞模塊分詞效果不是很理想,因此,在本項(xiàng)目中,將使用MMseg4j,也是一個(gè)基于Chih-Hao Tsai的MMSeg 算法的中文分詞器,也是一種基于字典分詞的一種分詞方法[14-15]。

        2.3.3 網(wǎng)頁(yè)得分

        網(wǎng)頁(yè)得分用來(lái)確定搜索結(jié)果排序的位置。其主要分為3 個(gè)部分,第一部分為鏈接得分。其主要的思想是,以他目前的得分除以它全部的鏈接數(shù)目,而指向該網(wǎng)頁(yè)的網(wǎng)站則加上這個(gè)分?jǐn)?shù);多次的迭代之后,一個(gè)網(wǎng)站的分?jǐn)?shù)基本就固定了,也就可以比較客觀的得到一個(gè)分?jǐn)?shù)。第二個(gè)部分是Lucene 的得分系統(tǒng),這個(gè)得分系統(tǒng)根據(jù)索查詢?cè)~語(yǔ)在文檔中出現(xiàn)的詞頻,倒排詞頻等一系列的項(xiàng)目綜合得到一個(gè)數(shù)值,從而表示本詞條在整個(gè)索引中的重要程度。第三個(gè)部分是用戶的愛(ài)好選擇,當(dāng)用戶選擇確定的需要查詢方向之后,其相關(guān)網(wǎng)頁(yè)的得分就會(huì)高于其他的網(wǎng)頁(yè)。根據(jù)反復(fù)的統(tǒng)計(jì)分析,得出以下公式來(lái)表示網(wǎng)頁(yè)的得分。

        2.4 索引模塊的實(shí)現(xiàn)

        在通過(guò)Lucene 建立索引的時(shí)候,其基本的方法是,首先建立一個(gè)空的索引,之后根據(jù)自己的需求,向索引中添加條目以及內(nèi)容。根據(jù)之前文檔的格式情況,此時(shí)的策略是,讀取第二行獲得標(biāo)題;讀取第四行獲取下載時(shí)間;行循環(huán)讀取獲得“l(fā)i”標(biāo)簽中的內(nèi)容,直到讀取行是“p”標(biāo)簽中的內(nèi)容為止;行循環(huán)讀取獲得“p”標(biāo)簽中的內(nèi)容,直到讀取行是“a”標(biāo)簽中的內(nèi)容為止;訪問(wèn)數(shù)據(jù)庫(kù)獲取文檔的URL 地址。經(jīng)過(guò)以上的操作就可以從文件中提取出相應(yīng)的數(shù)據(jù),之后就可以根據(jù)索引中的條目進(jìn)行添加。

        2.5 查詢模塊的實(shí)現(xiàn)

        整個(gè)查詢模塊為用戶提供了搜索主頁(yè)以及結(jié)果顯示,其具體的程序流程如圖3 所示。在接收到主頁(yè)傳來(lái)的關(guān)鍵字?jǐn)?shù)據(jù)之后,查詢模塊就要調(diào)用索引,開始對(duì)關(guān)鍵詞進(jìn)行索引;并將索引的結(jié)果全部返回,之后根據(jù)得分公式算出每一個(gè)條目的得分;用快排將所有的結(jié)果從高到低排列并顯示,此處使用了異步傳輸技術(shù),能夠在不刷新整個(gè)網(wǎng)頁(yè)的情況下根據(jù)點(diǎn)擊下一頁(yè)的次數(shù)顯示全部的信息。

        圖3 查詢顯示程序流程圖Fig.3 Flow diagram of query and display

        3 系統(tǒng)測(cè)試及結(jié)果

        系統(tǒng)實(shí)現(xiàn)之后,首先搜索模塊的測(cè)試主要進(jìn)行了網(wǎng)頁(yè)下載、Robors. txt 下載和數(shù)據(jù)庫(kù)訪問(wèn)的測(cè)試。由于網(wǎng)絡(luò)的不穩(wěn)定性及網(wǎng)站訪問(wèn)權(quán)限的設(shè)置,導(dǎo)致下載的速度具有變化性。經(jīng)過(guò)多次測(cè)試得到整個(gè)搜索模塊的效率大約是每小時(shí)抓取32.8個(gè)網(wǎng)頁(yè)。

        分析模塊的測(cè)試是檢測(cè)對(duì)于已下載網(wǎng)頁(yè)的讀取及分析效果,該測(cè)試展現(xiàn)了數(shù)據(jù)的讀取、分析以及寫入文件的一個(gè)基本過(guò)程如圖4 所示;最終的查詢效果如圖5 所示。

        圖4 信息提取過(guò)程Fig.4 Information extraction process

        圖5 查詢界面Fig.5 Searching interface

        4 結(jié) 論

        通過(guò)測(cè)試,基于. Net 平臺(tái)的全文搜索引擎已經(jīng)實(shí)現(xiàn)了搜素引擎的基本功能,即網(wǎng)頁(yè)的抓取、分析、索引和關(guān)鍵詞的分詞、查詢;并在這個(gè)基礎(chǔ)上添加了具有較好用戶體驗(yàn)的異步傳輸技術(shù),使得用戶能夠在一頁(yè)中查看全部的消息。與此同時(shí),還添加了一個(gè)分類查詢的效果。

        該系統(tǒng)功能較為齊全,但仍然存在一些不足,在面對(duì)存在諸多的不確定性以及潛在的危險(xiǎn)的網(wǎng)絡(luò)時(shí),需要增加爬蟲對(duì)于網(wǎng)絡(luò)錯(cuò)誤信息的處理及對(duì)于病毒網(wǎng)站的過(guò)濾,增加對(duì)各種問(wèn)題進(jìn)行判斷以及預(yù)處理的能力,以此增強(qiáng)爬蟲的強(qiáng)壯性。

        References

        [1] Yu K,Hsu S,Otsubo P.The fast data finder-an architecture for very high speed data search and dissemination[J]. International Conference on Data Engineering,1984(4):167 -174.

        [2] 馮飛燕.搜索引擎:穿透互聯(lián)網(wǎng)的動(dòng)力一搜索引擎能做什么[J].電子電腦,1996(2):96 -99.FENG Fei-yan. Search engine:penetration dynamic of Internet-What can search engine do[J].PC Computing,1996(2):96 -99.

        [3] 梁 斌.走進(jìn)搜索引擎[M].北京:電子工業(yè)出版社,2007.LIANG Bin. Stepping into search engine[M]. Beijing:Publishing House of Electronics Industry,2007.

        [4] 陳俊杰.中文搜索引擎現(xiàn)狀與發(fā)展研究[J]. 佳木斯教育學(xué)院學(xué)報(bào),2011(3):491 -492.CHEN Jun-jie. Situation and development of Chinese search engines[J].Journal of Jiamusi Education Institute,2011(3):491 -492.

        [5] 付立東.中心方法在復(fù)雜網(wǎng)絡(luò)中的比較[J]. 西安科技大學(xué)學(xué)報(bào),2010,30(1):107 -111.FU Li-dong.Comparison of centrality measures in complex networks[J]. Journal of Xi’an University of Science and Technology,2010,30(1):107 -111.

        [6] 王知津,馬曉瑜.搜索引擎?zhèn)€性化信息服務(wù)探討[J].圖書館,2013(1):31 -35.WANG Zhi-jin,MA Xiao-yu. The personalized information service of search engines[J].Library,2013(1):31-35.

        [7] 付立東.一種向量劃分的網(wǎng)絡(luò)社團(tuán)發(fā)現(xiàn)方法[J]. 西安科技大學(xué)學(xué)報(bào),2010,30(2):238 -240,254.FU Li-dong.A way of finding networks communities with vector partitioning[J]. Journal of Xi’an University of Science and Technology,2010,30(2):238 -240,254.

        [8] 盧 亮,張博文.搜索引擎原理實(shí)踐與應(yīng)用[M]. 北京:電子工業(yè)出版社,2007.LU Liang,ZHANG Bo-wen. Search engine’s principle practice application[M]. Beijing:Publishing House of Electronics Industry,2007.

        [9] 龔尚福,王艷君.多線程保護(hù)應(yīng)用程序自動(dòng)加載研究與實(shí)踐[J].西安科技大學(xué)學(xué)報(bào),2013,33(2):230 -234,248.GONG Shang-fu,WANG Yan-jun.Research and practice of automatic loading of applications based on multithreaded protection[J]. Journal of Xi’an University of Science and Technology,2013,33(2):230 -234,248.

        [10] 陰愛(ài)英.基于線程并行計(jì)算的Apriori 算法[J].西安科技大學(xué)學(xué)報(bào),2014,34(1):71 -74.YIN Ai-ying.Aproori algorithm based on thread parallel computing[J]. Journal of Xi’an University of Science and Technology,2014,34(1):71 -74.

        [11] 戚艷軍,龔尚福. 用戶角色的XML 動(dòng)態(tài)加密方法研究[J].西安科技大學(xué)學(xué)報(bào),2012,32(1):101 -106.QI Yan-jun,GONG Shang-fu. Dynamic encryption of XML based on user roles[J].Journal of Xi’an University of Science and Technology,2012,32(1):101 -106.

        [12] 劉磊安,符志強(qiáng).基于Lucene.net 網(wǎng)絡(luò)爬蟲的設(shè)計(jì)與實(shí)現(xiàn)[J]. 電腦知識(shí)與設(shè)計(jì),2010,6(8):1 870 -1 878.LIU Lei-an,F(xiàn)U Zhi-qiang. The design and implementation of web crawler based on lucene.NET[J].Computer Knowledge and Technology,2010,6(8):1 870 -1 878.

        [13] 馬 俊.基于正則表達(dá)式技術(shù)的信息搜集引擎應(yīng)用研究[D].成都:電子科技大學(xué),2006.MA Jun.Research on information search engine application based on regular expression[D].Chengdu:University of Electronic of Science and Technology of China,2006.

        [14] Otis Gospodnetic,Erik Hatcher.Lucene in action[M].Beijing:Publishing House of Electronics Industry,2007.

        [15] 武 毅. 基于Lucene. Net 的全文檢索研究與應(yīng)用[D].長(zhǎng)沙:國(guó)防科學(xué)技術(shù)大學(xué),2011.WU Yi. Resaerch and application of full-text retrieval based on lucene.Net[D].Changsha:National University of Defense Technology,2011.

        [16] Chih-Hao Tasi.MMSEG:a word identification system for mandarin Chinese text based on two variants of the maximum matching algorithm[OL]. http://technology. chtsai.org/mmseg/,2013.

        猜你喜歡
        搜索引擎用戶信息
        訂閱信息
        中華手工(2017年2期)2017-06-06 23:00:31
        關(guān)注用戶
        商用汽車(2016年11期)2016-12-19 01:20:16
        關(guān)注用戶
        商用汽車(2016年6期)2016-06-29 09:18:54
        關(guān)注用戶
        商用汽車(2016年4期)2016-05-09 01:23:12
        網(wǎng)絡(luò)搜索引擎亟待規(guī)范
        如何獲取一億海外用戶
        展會(huì)信息
        基于Nutch的醫(yī)療搜索引擎的研究與開發(fā)
        廣告主與搜索引擎的雙向博弈分析
        搜索,也要“深搜熟濾”
        国产精品国产三级国产专播| 欧美国产小视频| 国产国拍亚洲精品永久69| 在线视频免费自拍亚洲| 亚洲成av人片女在线观看| 凹凸在线无码免费视频| 日韩人妻熟女中文字幕a美景之屋 国产suv精品一区二区四 | 成年人一区二区三区在线观看视频| 无码一区二区三区免费视频| 76少妇精品导航| 国产精品无码久久久久下载| 亚洲高清一区二区精品| 一本丁香综合久久久久不卡网站| 免费观看又色又爽又黄的韩国| 91成人午夜性a一级毛片| 少妇被躁到高潮和人狍大战| 亚洲 日韩 激情 无码 中出| 300部国产真实乱| 久久亚洲成a人片| av网站免费观看入口| 国产午夜精品av一区二区麻豆| 人妻激情偷乱一区二区三区| 久久久久久AV无码成人| 亚洲av色av成人噜噜噜| 久久久久久亚洲av成人无码国产| 暖暖免费 高清 日本社区在线观看| 午夜视频免费观看一区二区| 国产白浆一区二区在线| 国产男女无遮挡猛进猛出| 国产成年无码V片在线| 亚洲国产综合性感三级自拍| 日韩av在线播放人妻| 国产乱子伦农村叉叉叉| 乱人伦人妻中文字幕无码| 久久av一区二区三区黑人| 中国午夜伦理片| 欧美午夜刺激影院| 色综久久综合桃花网国产精品| 色欲色香天天天综合网www| 亚洲精品综合一区二区| 无码区a∨视频体验区30秒|