亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        針對(duì)大數(shù)據(jù)量的高校師生網(wǎng)絡(luò)文檔查找系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)

        2020-02-01 03:24:30廖彬
        電子技術(shù)與軟件工程 2020年9期
        關(guān)鍵詞:搜索引擎用戶信息

        廖彬

        (福州大學(xué) 福建省福州市 350108)

        目前多數(shù)的搜索引擎已經(jīng)能很好的為高校師生提供文檔格式的互聯(lián)網(wǎng)資源,但是面對(duì)互聯(lián)網(wǎng)信息的海量、異構(gòu)的特點(diǎn),以及用戶對(duì)信息搜索精度、廣度和速度的要求下,搜索引擎暴露出諸多缺點(diǎn):搜索覆蓋率低,一個(gè)普通的搜索引擎只能覆蓋整個(gè)互聯(lián)網(wǎng)信息資源的5 ~20%;[1]。高校師生作為一個(gè)特殊的群體,對(duì)學(xué)術(shù)類等特定網(wǎng)絡(luò)文檔的搜索需求極高,在數(shù)據(jù)量聚增的大背景下,如何讓搜索變得更便捷,搜索的內(nèi)容更完備顯得越來(lái)越重要。

        1 相關(guān)技術(shù)概述

        1.1 HTML Parser

        html parser 是一個(gè)純的java 寫(xiě)的html 解析的庫(kù),它不依賴于其它的java 庫(kù)文件[2]。HTML Parser 主要用于改造或提取html 頁(yè)面并能進(jìn)行超高速解析,是目前使用最為廣泛的網(wǎng)頁(yè)分析技術(shù)。

        1.2 Lucene

        Lucene 是一個(gè)開(kāi)放源代碼的全文檢索引擎工具包,它是一個(gè)全文檢索引擎的架構(gòu),不僅提供了完整的索引和檢索引擎,而且為數(shù)據(jù)訪問(wèn)和管理提供了接口[3],這使得它能夠方便的嵌入到各種應(yīng)用中實(shí)現(xiàn)針對(duì)應(yīng)用的全文索引/檢索功能。

        2 系統(tǒng)框架設(shè)計(jì)

        系統(tǒng)框架圖如圖1所示。本次系統(tǒng)主要分為獲取和檢索兩部分:獲取部分根據(jù)用戶自由組合不同的搜索引擎和信息類型的條件通過(guò)爬蟲(chóng)技術(shù)抓取相應(yīng)頁(yè)面的內(nèi)容;運(yùn)用HTML Parser 進(jìn)行網(wǎng)頁(yè)內(nèi)容分析,過(guò)濾掉網(wǎng)頁(yè)中的垃圾信息,提取對(duì)用戶有用的文檔鏈接;最后利用多線程技術(shù)對(duì)文檔進(jìn)行下載,并與從師生文檔庫(kù)搜索出的文檔合并,獲取完整的文檔。檢索部分是一個(gè)基于Lucene 檢索工具包開(kāi)發(fā)的檢索系統(tǒng),完成了從對(duì)文檔的分析、分詞、索引建立到最后的檢索這一系列流程,并優(yōu)化了索引建立的速度,讓師生能快速查找到自己想要的文檔。

        3 系統(tǒng)關(guān)鍵模塊設(shè)計(jì)

        3.1 獲取部分

        本次研究在網(wǎng)絡(luò)信息抓取部分主要通過(guò)統(tǒng)一的輸入調(diào)用各大搜索引擎進(jìn)行信息搜索,通過(guò)接口調(diào)用搜索到的結(jié)果,對(duì)搜索的內(nèi)容進(jìn)行進(jìn)一步的分析,從中提取用戶有用的信息,快速下載這些信息到本地保存,為后期的索引提供大量的數(shù)據(jù)基礎(chǔ)。

        圖2 通過(guò)爬蟲(chóng)技術(shù)構(gòu)建URL,并用openConnection()方法創(chuàng)建Connection 從而得到與URL 相應(yīng)的HTML 頁(yè)面的數(shù)據(jù)流。運(yùn)用HTML Parser 對(duì)HTML 頁(yè)面進(jìn)行分析,采用廣度優(yōu)先搜索的爬蟲(chóng)策略從中提取出鏈接節(jié)點(diǎn),對(duì)鏈接進(jìn)行判斷并采取不同的操作,從而減少鏈接的下載數(shù)量,提高速率。

        師生文檔庫(kù)主要指高校內(nèi)部用于師生交流學(xué)習(xí)而建立的文檔數(shù)據(jù)庫(kù),此文檔數(shù)據(jù)庫(kù)應(yīng)包含文檔的格式、名稱、文檔的存放路徑,通過(guò)與文檔數(shù)據(jù)庫(kù)的對(duì)接,可以實(shí)現(xiàn)通過(guò)用戶的關(guān)鍵字和格式輸入從而獲得文檔的存放路徑,并直接進(jìn)行下載進(jìn)本地方便后面的檢索。

        圖1:系統(tǒng)框架圖

        圖2:URL 構(gòu)造活動(dòng)圖

        同時(shí)引入多線程機(jī)制對(duì)每一個(gè)文檔啟動(dòng)一個(gè)獨(dú)立的線程負(fù)責(zé)下載。線程總數(shù)是有限制的,通過(guò)ThreadCount 參數(shù)確保同一時(shí)間下載的線程數(shù)不超過(guò)數(shù)量限制。該機(jī)制的實(shí)現(xiàn)過(guò)程如下:

        該機(jī)制確保了同一時(shí)間只有ThreadCount 個(gè)線程在運(yùn)行,只有當(dāng)其中有線程執(zhí)行完畢之后才會(huì)啟動(dòng)新的線程。

        3.2 檢索部分

        通過(guò)上面的信息獲取,我們將在本地獲得包括HTML、DOC、PDF 等格式的大量文件,接下來(lái)就是要對(duì)這大量的數(shù)據(jù)文檔建立索引,方便師生進(jìn)行特定的內(nèi)容搜索。本次檢索部分主要通過(guò)Lucene來(lái)設(shè)計(jì)并實(shí)現(xiàn)了一個(gè)實(shí)用性強(qiáng)、擴(kuò)展性高的檢索系統(tǒng)。

        在檢索部分設(shè)計(jì)上,因?yàn)長(zhǎng)ucene 只能對(duì)純文本文件進(jìn)行操作,系統(tǒng)管理員應(yīng)先通過(guò)分析器對(duì)本地的文檔進(jìn)行純文本抽取,然后運(yùn)用分詞器對(duì)傳入的純文本文件進(jìn)行分詞處理,提供詞元序列建立索引,并把索引的結(jié)果存入索引數(shù)據(jù)庫(kù)。用戶通過(guò)用戶查詢界面輸入要查詢的關(guān)鍵字,系統(tǒng)把關(guān)鍵字提取后傳入索引器,索引器根據(jù)關(guān)鍵字到索引數(shù)據(jù)庫(kù)中進(jìn)行查找相應(yīng)內(nèi)容,并把查找的內(nèi)容文檔傳回給用戶。

        在文本分析上,首先對(duì)傳入的文件類型進(jìn)行判斷其有效性。對(duì)有效類型文檔送入相應(yīng)文件類型的分析器進(jìn)行文本分析,得到Lucene 可以識(shí)別的純文本文件并送入分詞器中進(jìn)行分詞。

        在索引建立和檢索上,Lucene 提供了非常簡(jiǎn)單的建立索引的方法,將要檢索的文檔封裝成Document 對(duì)象并進(jìn)行分析分詞處理,再將索引對(duì)象寫(xiě)入索引庫(kù)。最后利用org.apache.search.IndexSearcher 包提供到的一些類來(lái)實(shí)現(xiàn)對(duì)索引的檢索。

        3.3 索引優(yōu)化

        本次研究針對(duì)大數(shù)據(jù)還特別進(jìn)行了索引優(yōu)化,由于師生要監(jiān)測(cè)的數(shù)據(jù)量可能非常大,所以數(shù)據(jù)的檢索速度是至關(guān)重要的。除了可以在硬件上進(jìn)行提升之外,還可以對(duì)系統(tǒng)本身進(jìn)行代碼優(yōu)化,這所花費(fèi)的成本要比硬件升級(jí)要低得多。Lucene 在內(nèi)存中持有一塊緩沖區(qū),而類IndexWriter 提供了三個(gè)參數(shù)用來(lái)調(diào)整緩沖區(qū)的大小以及往磁盤(pán)上寫(xiě)索引文件的頻率[4]。下面將對(duì)幾個(gè)參數(shù)做簡(jiǎn)要描述。

        合并因子(mergeFactor):決定了在Lucene 的一個(gè)索引塊中可以存放多少文檔以及把磁盤(pán)上的索引塊合并成一個(gè)大的索引塊的頻率[4]。

        最大合并文檔因子(MaxMergeDocs):決定在合并段過(guò)程中的最大的段合數(shù)目。設(shè)置的值比較小時(shí),對(duì)于交互性的索引比較好,比較的界限一般是10,000[5]。

        最小合并文檔因子(MaxBufferedDocs):決定在對(duì)內(nèi)存中的文檔進(jìn)行合并成段的操作之前,要求的最小的文檔數(shù)量。表1 反映了兩個(gè)參數(shù)取不同值時(shí)對(duì)索引時(shí)間的影響。

        一般最大合并文檔因子采用系統(tǒng)默認(rèn)的最大值,無(wú)需設(shè)置,通過(guò)表1 我們可以清楚地看到合并因子和最小合并文檔因子對(duì)索引時(shí)間的影響。因子的取值主要是占用內(nèi)存的大小,實(shí)驗(yàn)表明,只要有足夠大的內(nèi)存,就可以為合并因子和最小合并文檔數(shù)這兩個(gè)參數(shù)設(shè)置較大的值以提高索引速度。

        4 系統(tǒng)界面及運(yùn)行結(jié)果

        從圖3 我們可以看到,本次的系統(tǒng)可通過(guò)關(guān)鍵字選擇性的對(duì)谷歌、百度、搜狗、搜搜、微軟Bing、有道六大搜索引擎進(jìn)行同步搜索,并支持大部分的文件格式下載和檢索。

        由表2 數(shù)據(jù)可知,本文所設(shè)計(jì)的系統(tǒng)可以正確地處理DOC、PPT、PDF、XLS 和HTML 等文檔,對(duì)于海量的數(shù)據(jù),檢索速度還是令人滿意的。

        表1:不同參數(shù)值對(duì)索引時(shí)間影響表

        表2:測(cè)試結(jié)果表

        圖3:系統(tǒng)功能主界面

        5 結(jié)論

        本次系統(tǒng)在測(cè)試中搜索的完備性、針對(duì)性及檢索速度上得到了用戶的肯定,隨著計(jì)算機(jī)硬件技術(shù)的發(fā)展以及索引算法的進(jìn)一步優(yōu)化,相信專用信息抓取在大數(shù)據(jù)時(shí)代來(lái)臨的時(shí)候?qū)?huì)獲得更為完備的數(shù)據(jù),擁有更為廣闊的研究?jī)r(jià)值。

        猜你喜歡
        搜索引擎用戶信息
        訂閱信息
        中華手工(2017年2期)2017-06-06 23:00:31
        關(guān)注用戶
        關(guān)注用戶
        關(guān)注用戶
        網(wǎng)絡(luò)搜索引擎亟待規(guī)范
        如何獲取一億海外用戶
        展會(huì)信息
        基于Nutch的醫(yī)療搜索引擎的研究與開(kāi)發(fā)
        廣告主與搜索引擎的雙向博弈分析
        搜索,也要“深搜熟濾”
        男女视频在线一区二区| 亚洲av无码乱码国产精品| 人人妻人人澡人人爽欧美二区| 国产精品丝袜在线不卡| 日韩精品一级在线视频| 国产精品女老熟女一区二区久久夜| 天天鲁在视频在线观看| 99热这里只有精品3| 亚洲人成伊人成综合网中文| 开心五月激情五月五月天| 国产精品成人aaaaa网站| 宅男噜噜噜| 国产精品丝袜一区二区三区在线| 亚洲av无一区二区三区| 精品久久久久成人码免费动漫| 在线视频这里只有精品| 国产精品国产三级在线专区| 久久亚洲道色综合久久| 亚洲av成人无码网站大全| 视频一区精品自拍| 91人妻一区二区三区蜜臀| 国产极品女主播国产区| 女同久久精品国产99国产精品| 国产精品欧美成人片| 天堂av网手机线上天堂 | 国产乱码一二三区精品| 亚洲国产精品久久久天堂不卡海量| 欧美高大丰满freesex| 国产精品一区二区午夜久久 | 日本精品人妻在线观看| 粉嫩av最新在线高清观看| 国产av综合影院| 国产精品18久久久久网站| 国产自拍成人在线免费视频| 无码熟妇人妻av在线影片最多| 久久久久亚洲av无码观看| 久久国产av在线观看| 偷拍一区二区三区四区| 成人久久久久久久久久久| 国产精品亚洲国产| 日本免费精品一区二区|