龐敏
(寶雞職業(yè)技術(shù)學(xué)院 陜西 寶雞 721000)
基于Web的電子產(chǎn)品信息分布式檢索系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
龐敏
(寶雞職業(yè)技術(shù)學(xué)院 陜西 寶雞 721000)
文章旨在從海量信息中對(duì)有用信息獲取,將用戶需求滿足,設(shè)計(jì)了一種基于Web的電子產(chǎn)品信息分布式檢索系統(tǒng)。通過(guò)結(jié)合Hadoop以及Lucene技術(shù)模型,對(duì)Web電子產(chǎn)品信息進(jìn)行檢索,結(jié)合分布式索引文件的存儲(chǔ)過(guò)程,并應(yīng)用Lucene檢索技術(shù)將引文件中的訪問(wèn)實(shí)現(xiàn),并將信息檢索效率提高。在Lucene_Hadoop架構(gòu)分析過(guò)程,結(jié)合粗粒度檢索問(wèn)題,將細(xì)粒度檢索方法提出,并將系統(tǒng)建立索引的時(shí)間有效減少。實(shí)驗(yàn)結(jié)果表明,基于Web電子產(chǎn)品信息應(yīng)用Hadoop以及Lucene分布式檢索系統(tǒng),緊縮性能較好
Web電子產(chǎn)品信息;分布式檢索系統(tǒng);設(shè)計(jì);實(shí)現(xiàn)
21世紀(jì)的今天,互聯(lián)網(wǎng)的信息呈現(xiàn)出一種不斷膨脹的狀態(tài),其數(shù)據(jù)資源較為豐富,對(duì)于如何做好互聯(lián)網(wǎng)信息的有效檢索始終是人們關(guān)注的焦點(diǎn)之一。然而,互聯(lián)網(wǎng)的商業(yè)網(wǎng)站主要是結(jié)合半結(jié)構(gòu)化的形式呈現(xiàn),應(yīng)用超文本標(biāo)記語(yǔ)言,有著較多的展開(kāi)形式,語(yǔ)義特征逐漸缺乏,難以實(shí)現(xiàn)穩(wěn)定性和高效性的信息提取[1]?;谏虡I(yè)信息的海量選擇,就要正確應(yīng)用商業(yè)信息的一種應(yīng)用系統(tǒng),并實(shí)現(xiàn)信息的有效檢索。在搜索引擎的高速發(fā)展階段,信息檢索速度以及精確度更是有著越來(lái)越高的要求,對(duì)信息檢索系統(tǒng)的設(shè)計(jì)帶來(lái)了一定的挑戰(zhàn)。因此文章提出一種基于Web的電子產(chǎn)品信息分布式檢索系統(tǒng),對(duì)其設(shè)計(jì)和實(shí)現(xiàn)過(guò)程進(jìn)行研究有一定的現(xiàn)實(shí)意義。
文章提出一種Hadoop以及Lucene分布式檢索模型,也即是Lucene_Hadoop,不僅僅包括Lucene_Hadoop_Map模塊,同時(shí)也包括Lucene_Hadoop_Reduce模塊[2]。基于信息檢索模塊的應(yīng)用,也即是分布式框架結(jié)構(gòu)存在的一種存儲(chǔ)功能[3]。在信息檢索過(guò)程,主要是結(jié)合分布式文件的讀寫(xiě)功能,并依據(jù)于Lucene中的一種索引查詢技術(shù),對(duì)不同索引塊中的搜索結(jié)果獲取,基于合并結(jié)果的情況,實(shí)現(xiàn)打分排序的應(yīng)用。
1.1基于Lucene_Hadoop中的Map端分布式檢索模型設(shè)計(jì)
對(duì)于 Lucene_Hadoop_Map分布式的基礎(chǔ)檢索過(guò)程,結(jié)合分布式文件系統(tǒng)中的一種HDFS將索引文件存放實(shí)現(xiàn),并結(jié)合命名節(jié)點(diǎn)中的一種NameNote提供文件,做好文件的備份,將Map_Reduce分布式編程模塊提供,結(jié)合作業(yè)跟蹤器的形式,將分布式任務(wù)中的一種調(diào)度管理實(shí)現(xiàn)[4]。關(guān)于Lucene_Hadoop_Map分布式檢索的模式,如圖1所示。
基于模式的應(yīng)用,主要是結(jié)合分布式文件系統(tǒng)的文件存放過(guò)程,在命名節(jié)點(diǎn)的分析過(guò)程,結(jié)合作業(yè)跟蹤器將分布式任務(wù)的調(diào)度管理實(shí)現(xiàn)[5]?;诜植际綑z索任務(wù)的一種調(diào)度管理實(shí)現(xiàn),主要是結(jié)合Map進(jìn)行操作,在應(yīng)用Lucene的應(yīng)用將索引的建立完成?;赗educe操作模式的應(yīng)用,將索引的歸并完成,最終實(shí)現(xiàn)分布式搜索的過(guò)程。
對(duì)于Map操作而言,往往是結(jié)合分布式的一種基礎(chǔ)架構(gòu),并應(yīng)用Hadoop平臺(tái),做好文本的合理處理,在多個(gè)Map處理應(yīng)用過(guò)程,結(jié)合Lucene中的各種方法,將Input HDFS Block中的索引塊實(shí)現(xiàn),實(shí)現(xiàn)文件索引的基本輸出過(guò)程[6]。對(duì)于Reduce而言,在實(shí)際的操作過(guò)程,通過(guò)對(duì)Map輸出的一種KEY進(jìn)行搜集,進(jìn)而結(jié)合Lucene中的基本合并索引應(yīng)用,注重不同路徑索引塊的有效性合并,在分布式文件系統(tǒng)中的一種HDFS中進(jìn)行寫(xiě)入[7]。
圖1 Lucene_Hadoop_Map分布式檢索的模式
這種模式的應(yīng)用過(guò)程,結(jié)合編寫(xiě)的形式,并將索引快遞的優(yōu)點(diǎn)生成,對(duì)索引時(shí)針建立,并結(jié)合Input HDFS Block的形式,歸類生成的索引,將多層次的索引進(jìn)行提供,并避免系統(tǒng)中搜索結(jié)果未空白狀態(tài),盡可能的結(jié)合索引塊的主要形式,將全局搜索的形式完成,最后將搜索的性能逐漸降低。
1.2基于Lucene_Hadoop中的Reduce端分布式檢索模型
對(duì)于Lucene_Hadoop中的Reduce端分布式檢索如圖2所示。
圖2 Lucene_Hadoop中的Reduce端分布式檢索
Lucene_Hadoop中的Reduce端分布式檢索過(guò)程的實(shí)現(xiàn),往往是結(jié)合分布式索引的模式,對(duì)Map端應(yīng)用,做好全局查詢的方法,往往將查詢的效率降低?;陔娮赢a(chǎn)品領(lǐng)域的發(fā)展過(guò)程,需要做好電子產(chǎn)品結(jié)合數(shù)據(jù)的有效性存放,往往是在Input HDFS Block中將電子產(chǎn)品信息集合數(shù)據(jù)存放。對(duì)于這種分布式索引模式的應(yīng)用,其中的Map操作往往是將電子產(chǎn)品文本信息的一種建模過(guò)程實(shí)現(xiàn),基于分配模式的應(yīng)用,將索引的建立完成[8]。在模式中的電子產(chǎn)品領(lǐng)域的應(yīng)用過(guò)程,結(jié)合文本信息的一種電子產(chǎn)品建模實(shí)現(xiàn)過(guò)程,實(shí)現(xiàn)的電子產(chǎn)品信息的一種有效性應(yīng)用。
1.2.1Map設(shè)計(jì)
對(duì)于Map_Reduce分布式的一種編程模型應(yīng)用過(guò)程,往往是結(jié)合Job中的一種Input Hdfs Block對(duì)純文本電子產(chǎn)品電子信息數(shù)據(jù)集合進(jìn)行讀取,對(duì)Map程序模塊進(jìn)行分類,結(jié)合Map程序進(jìn)行格式的應(yīng)用,做好數(shù)據(jù)塊數(shù)據(jù)的合理分析和應(yīng)用,其中文本格式的一種電子產(chǎn)品信息的表達(dá),實(shí)現(xiàn)文本格式中電子產(chǎn)品信息的合理有效性處理[9]?;陔娮赢a(chǎn)品信息內(nèi)容的直接傳遞,實(shí)現(xiàn)線程數(shù)的有效性處理。
關(guān)于算法的應(yīng)用,主要是對(duì)InputSplit數(shù)據(jù)電子產(chǎn)品信息進(jìn)行處理,在轉(zhuǎn)化過(guò)程,結(jié)合類型輸出,進(jìn)而得到中間結(jié)果。
輸入過(guò)程,產(chǎn)品數(shù)量用Texe Key輸入表示,電子產(chǎn)品文本信息用Texe value表示[10]。輸出的主要是寫(xiě)入中間結(jié)果。
1.2.2Reduce設(shè)計(jì)
對(duì)于Reduce設(shè)計(jì)而言,主要是結(jié)合Mapa程序中的一種Task Tracker節(jié)點(diǎn)的形式,對(duì)中間計(jì)算結(jié)果獲取。在對(duì)Document對(duì)象進(jìn)行構(gòu)建過(guò)程,就要做好不同參數(shù)的有效設(shè)置[11]。結(jié)合檢索的過(guò)程,對(duì)參數(shù)進(jìn)行合理設(shè)計(jì),實(shí)現(xiàn)參數(shù)的有效存儲(chǔ)。關(guān)于Reduce程序處理階段,通過(guò)結(jié)合中文分詞器的一種支持過(guò)程,對(duì)價(jià)格以及索引目錄問(wèn)題進(jìn)行有效性的分析。
2.1基于Web電子產(chǎn)品信息抽取
關(guān)于電子產(chǎn)品信息的抽取而言,結(jié)合用戶文本數(shù)據(jù)需要的內(nèi)容,做好標(biāo)記控制對(duì)文本進(jìn)行展示。關(guān)于信息抽取數(shù)據(jù)流程,如圖3所示。
圖3 信息抽取數(shù)據(jù)流程
基于電子產(chǎn)品的應(yīng)用過(guò)程,主要是結(jié)合模塊信息數(shù)據(jù)流的處理,并結(jié)合HTML以及XML數(shù)據(jù)格式技術(shù)的應(yīng)用,做好URL地址的分析,結(jié)合HMI網(wǎng)頁(yè)的形式,注重結(jié)果特點(diǎn)的有效性應(yīng)用,實(shí)現(xiàn)數(shù)據(jù)的及時(shí)清洗,在XML格式數(shù)據(jù)相關(guān)內(nèi)容的轉(zhuǎn)換過(guò)程,結(jié)合文檔對(duì)象的一種模型應(yīng)用,做好數(shù)據(jù)內(nèi)容內(nèi)存模式的構(gòu)建,在信息的抽取測(cè)試過(guò)程,進(jìn)而得到Anchor-Hop-T模型的應(yīng)用[12]。
通過(guò)在太平洋網(wǎng)以及淘寶網(wǎng)將輸入,也即是 “手機(jī)”,對(duì)于淘寶網(wǎng)上的頁(yè)面顯示上,主要有100個(gè)頁(yè)面,而太平網(wǎng)上頁(yè)面顯示的數(shù)量,有170頁(yè)。基于模型的應(yīng)用,通過(guò)比較,如表1所示。
表1 淘寶網(wǎng)和太平洋網(wǎng)抽取的結(jié)果比較
通過(guò)對(duì)表格中的數(shù)據(jù)進(jìn)行比較。淘寶網(wǎng)基于Anchor-Hop魔影的應(yīng)用中,抽取的時(shí)間為58 052 ms,基于Anchor-Hop-T應(yīng)用過(guò)程,抽取的時(shí)間為40 368 ms。在模型的應(yīng)用過(guò)程,相對(duì)而言,兩個(gè)模型均有著較高的召回率,但是在消耗時(shí)間的分析而言,Anchor-Hop有著較多的消耗時(shí)間[13]。
2.2性能測(cè)試結(jié)果
索引建立性能的改善過(guò)程,往往是結(jié)合Task的個(gè)數(shù)情況,將系統(tǒng)框架的開(kāi)銷逐漸增加,并結(jié)合負(fù)載均衡的特點(diǎn),將任務(wù)失敗的開(kāi)銷逐漸降低[14]。服務(wù)器上的運(yùn)行情況,就要做好參數(shù)的設(shè)置,并結(jié)結(jié)合計(jì)算機(jī)硬件的基本水平,將更好的執(zhí)行能力逐漸提供,在參數(shù)的設(shè)置過(guò)程,實(shí)現(xiàn)參數(shù)的科學(xué)合理設(shè)計(jì)。而Reduce Slot處于不變的狀態(tài),就要對(duì)多個(gè)Map Slot作為目標(biāo),做好索引建立時(shí)間的有效性設(shè)置,對(duì)Slot基礎(chǔ)配置進(jìn)行驗(yàn)證[15]。相對(duì)而言,對(duì)于索引建立的性能有著直接的影響,這種程序運(yùn)行狀態(tài)的一種調(diào)整過(guò)程,如圖4所示,橫坐標(biāo)表示數(shù)據(jù)塊大小,單位為MB,縱坐標(biāo)表示運(yùn)行的時(shí)間/s。
圖4 Map Slot索引建立性能的比較
相對(duì)而言,一旦數(shù)據(jù)塊大小較小的時(shí)候,主要是1個(gè)Map Slot有著較高的性能。但是有著較大的數(shù)據(jù)塊時(shí),Map Slo較多的時(shí)候,有著較好的性能。
總而言之,文章的研究,主要是基于Web技術(shù)下的Hadoop _Lucene基礎(chǔ)上實(shí)現(xiàn)的一種電子產(chǎn)品信息分布式檢索系統(tǒng),在檢索技術(shù)的訪問(wèn)過(guò)程,盡可能的將檢索效率顯著提高。結(jié)合基礎(chǔ)架構(gòu),做好未來(lái)研究的進(jìn)一步檢索,盡可能的結(jié)合手機(jī)界面,將信息檢索實(shí)現(xiàn),注重人工智能以及自然算法結(jié)合的一種系統(tǒng)性測(cè)試。
[1]YANG Chao,SHAO Yuan-zheng,CHEN Neng-cheng et al. Aggre-gating distributed geo-processing workflows and web servicesasprocessingmodelweb[C].//2012First international con-ference on agro-geoinformatics,2012:1-4.
[2]萬(wàn)東,莊越.基于Web Services的電子產(chǎn)品交易系統(tǒng)的設(shè)計(jì)[J].微計(jì)算機(jī)信息,2010,26(9):144-145,150.
[3]邱勝海,魯泳,葛燕等.CIMS環(huán)境下電子產(chǎn)品全面質(zhì)量檢驗(yàn)管理系統(tǒng)設(shè)計(jì)[J].機(jī)械設(shè)計(jì)與制造,2012,12(10):184-186.
[4]CHEN Jia-ying,REN Yan,ZHANG Hai-tao,et al.Oilseed rape pro-ductive potentialities assessment under OGC web service by using geoprocessing[C].//2012 First international confe-rence on agro-geoinformatics,2012:1-8.
[5]GUAN Qiang,JIA Jian-hua,YANG Xiao-dong et al.An online system of winter wheat drought monitoring based on satellite data:Design concepts and initial testing[C].//2012 First international conference on agro-geoinformatics,2012:1-5.
[6]董李鵬,高東懷,張迎,等.基于 Lucene的校園網(wǎng)智能搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)[J].現(xiàn)代電子技術(shù),2013,11(6):83-86.
[7]趙靜.高校圖書(shū)館搜索引擎中Web使用記錄挖掘研究[J].現(xiàn)代電子技術(shù),2013,36(2):1-5.
[8]張淵源,張琴燕,蔣關(guān)富,等.面向Web電子產(chǎn)品信息分布式檢索系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J].計(jì)算機(jī)應(yīng)用,2013,33(4): 1026-1030.
[9]Geng,Xiaoyuan,Schut,Peter.OGC Web Processing Service and Table Joining Service:A land suitability rating system implementation case[C].//2012 First international conference on agro-geoinformatics,2012:1-6.
[10]康海燕,XIONG Li.面向大數(shù)據(jù)的個(gè)性化檢索中用戶匿名化方法[J].西安電子科技大學(xué)學(xué)報(bào):自然科學(xué)版,2014,4(5): 148-154,160.
[11]吳廣君,王樹(shù)鵬,陳明,等.海量結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)檢索系統(tǒng)[J].計(jì)算機(jī)研究與發(fā)展,2012,49(z1):1-5.
[12]齊向東,劉大偉,王勁林,等.分布式結(jié)構(gòu)化P2P網(wǎng)絡(luò)下局部敏感哈希快速檢索的負(fù)載均衡[J].高技術(shù)通訊,2013,23(12):1213-1218.
[13]吳廣印.分布式檢索系統(tǒng)架構(gòu)及核心技術(shù)研究[J].情報(bào)學(xué)報(bào),2013,32(6):601-609.
[14]李德文,黃文君,胡靜泓,等.一種分布式冗余的實(shí)時(shí)數(shù)據(jù)存儲(chǔ)檢索機(jī)制[J].上海交通大學(xué)學(xué)報(bào),2014,48(7):948-952,958.
[15]梁敏,任卓然,解萍,等.面向輿情采集的分布式緩存系統(tǒng)設(shè)計(jì)[J].信息工程大學(xué)學(xué)報(bào),2013,14(1):118-123.
[16]熊晶,郭磊,高峰,等.基于JPPF的分布式并行檢索系統(tǒng)研究[J].計(jì)算機(jī)技術(shù)與發(fā)展,2012,22(1):79-82.
The design and implementation of electronic product information retrieval system based on Web
PANG Min
(Baoji Vocational Technology College,Baoji 721000,China)
This paper aims to obtain the useful information from the vast amount of information,and to meet the needs of users,and design a distributed information retrieval system based on Web.By combining Hadoop and Lucene technology model,the Web electronic product information is retrieved,and the storage process of the distributed index file is combined with the Lucene search technology,and the information retrieval efficiency is improved.In the process of Lucene_Hadoop architecture analysis,the paper proposes the method of fine granularity retrieval,and reduces the time of system establishment.The experimental results show that the Hadoop and Lucene distributed retrieval system based on the Web electronic product information,the compression performance is better.
Web electronic product information;distributed retrieval system;design;implementation
TN99
A
1674-6236(2016)21-0082-03
2015-12-11稿件編號(hào):201512129
龐 敏(1976—),女,甘肅鎮(zhèn)原人,碩士,講師。研究方向:計(jì)算機(jī)技術(shù)。