亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        云平臺數(shù)據(jù)庫搜索引擎的實現(xiàn)方法

        2016-09-24 22:32:16曲進(jìn)
        科教導(dǎo)刊 2016年21期
        關(guān)鍵詞:搜索引擎

        曲進(jìn)

        摘要 如今電子商務(wù)信息化得到很大程度提升,尤其在這個網(wǎng)絡(luò)高度發(fā)達(dá)的時代,信息的收集和整理顯得十分重要,對于電子商務(wù)來說,其未來最有可能的業(yè)務(wù)模式是與搜索服務(wù)結(jié)合起來。這種業(yè)務(wù)模式帶來的海量信息數(shù)據(jù),利用傳統(tǒng)的數(shù)據(jù)庫管理模式已經(jīng)不能滿足我們的需求,如今存在的主要不足為信息單點(diǎn)、搜索效率低下,同時搜索準(zhǔn)確率得不到有效的保證,進(jìn)而不能滿足互聯(lián)網(wǎng)搜索的基本需求,這也是現(xiàn)在很多研究人員十分關(guān)注的一個話題。為此,本文對云平臺數(shù)據(jù)搜索相關(guān)問題展開研究,設(shè)計面向云平臺數(shù)據(jù)搜索的基本結(jié)構(gòu),進(jìn)而使得數(shù)據(jù)庫的搜索方式應(yīng)用于HBase系統(tǒng)內(nèi),提升整體查詢搜索的性能,使得我們對信息搜索的效率大幅度提升。同時,本文還設(shè)計了數(shù)據(jù)的預(yù)處理方案,能夠簡化關(guān)系類型數(shù)據(jù)與HBase分布式數(shù)據(jù)之間的交互技術(shù)和算法。分析基于編輯距離和矢量數(shù)據(jù)的算法搜索評價機(jī)制,利用關(guān)鍵字之間具有相似部分判斷用戶的類似數(shù)據(jù),大大提升用戶搜索效率。

        關(guān)鍵詞 云平臺數(shù)據(jù)庫 搜索引擎 分布式數(shù)據(jù)庫

        中圖分類號:TP391.3 文獻(xiàn)標(biāo)識碼:A DOI:10.16400/j.cnki.kjdkx.2016.07.075

        0引言

        如今網(wǎng)絡(luò)發(fā)展迅速,電子商務(wù)信息呈現(xiàn)幾何倍數(shù)增加,同時隨著互聯(lián)網(wǎng)應(yīng)用環(huán)境的變換,如何從大量信息之中找到自己所需信息已經(jīng)成為亟需解決的關(guān)鍵問題。搜索引擎在大量網(wǎng)絡(luò)信息里建立起相關(guān)的鏈接,進(jìn)而可以自動獲得相關(guān)信息,之后把這些信息存入到數(shù)據(jù)庫,并建立相關(guān)搜索詞,供用戶使用。

        但是伴隨著商務(wù)信息的不斷增加,數(shù)據(jù)量呈現(xiàn)爆炸式增長趨勢,隨之也出現(xiàn)很多搜索引擎效率低下、準(zhǔn)確度下降等問題。同時,搜索獲得的信息非常巨大,獲得展示的信息之間的相關(guān)程度變得十分低下,這導(dǎo)致用戶很難在較短時間內(nèi)獲得自己所需的相關(guān)內(nèi)容。鑒于此,本文利用云平臺數(shù)據(jù)庫建立相關(guān)搜索引擎,使用云平臺數(shù)據(jù)庫的體系結(jié)構(gòu),充分分析了關(guān)系型數(shù)據(jù)庫以及HBase分布式數(shù)據(jù)庫之間的交換模式,來提升搜索質(zhì)量與速度。

        1系統(tǒng)的需求分析與總體設(shè)計

        1.1系統(tǒng)的需求分析

        現(xiàn)在電子商務(wù)網(wǎng)站每天都有很多新的用戶注冊到其內(nèi)部數(shù)據(jù)庫里,隨著注冊人數(shù)的增多,這些數(shù)據(jù)也呈現(xiàn)了幾何倍數(shù)的增加,因此在用戶將自己的注冊信息輸入到數(shù)據(jù)庫之后,需要對這些信息進(jìn)行審核,判斷輸入數(shù)據(jù)是否重復(fù)或者是否合法,如果存在重復(fù)內(nèi)容,則需要返回到修改界面,重新輸入數(shù)據(jù),如果沒有,直接將這些數(shù)據(jù)存入到數(shù)據(jù)庫中。

        對于這部分工作來說,需要準(zhǔn)確以及快速的搜索引擎作為指導(dǎo)。系統(tǒng)基本要求就是,每天出現(xiàn)新的注冊信息可以及時保存到數(shù)據(jù)庫里,完成快速儲存任務(wù)。其次,根據(jù)系統(tǒng)要求,對這些注冊信息與以往信息進(jìn)行對比,發(fā)現(xiàn)是否具有重復(fù)或者非法的情況。再次,每天更新已經(jīng)通過注冊的用戶信息情況,對這些信息進(jìn)行排序以及儲存。最后,對那些更新的用戶信息,需要及時的存入到已有的注冊信息記錄中。

        1.2系統(tǒng)的總體結(jié)構(gòu)設(shè)計

        本文設(shè)計的基于云平臺數(shù)據(jù)庫搜索模式,主要方案基于Hadoop分布式文件系統(tǒng)和MapReduce編程模型,通過HBase分布式數(shù)據(jù)庫結(jié)構(gòu)以及Lucene全文檢索系統(tǒng),應(yīng)用到數(shù)據(jù)庫搜索系統(tǒng)之中。本文設(shè)計的數(shù)據(jù)搜索引擎的模型分為三個基本功能,即數(shù)據(jù)的預(yù)處理部分、索引模塊以及搜索部分等,基于HBase分布式框架來,將設(shè)計內(nèi)容部分含有的具體實現(xiàn)方法封裝在程序內(nèi)部,通過API應(yīng)用接口使得子系統(tǒng)之間建立良好通訊機(jī)制。數(shù)據(jù)預(yù)處理模式通過關(guān)系型數(shù)據(jù)庫與H]3ase分布式數(shù)據(jù)之間建立的良好信息交互能力,將關(guān)系型數(shù)據(jù)庫內(nèi)部歷史用戶注冊的數(shù)據(jù)傳遞到HBase數(shù)據(jù)庫的數(shù)據(jù)處理中心,同時將關(guān)系類型模塊具有的已經(jīng)獲得批準(zhǔn)的新數(shù)據(jù)提交到搜索器,再將不能使用的部分返回到關(guān)系型數(shù)據(jù)庫內(nèi)部。本文設(shè)計的索引器主要提供的功能為對預(yù)處理數(shù)據(jù)庫里存在的信息進(jìn)行倒排索引,同時對每天新增的數(shù)據(jù)信息建立其自身具有的增量索引模式,最后建立自己的倒排索引都儲存到HBase分布式數(shù)據(jù)庫索引庫內(nèi)部。

        索引器模塊含有的功能可以為每天新用戶注冊信息進(jìn)行更新,同時獲得新用戶注冊的信息,分析以往歷史用戶信息,使其可以存入到HBase數(shù)據(jù)庫的內(nèi)部進(jìn)行倒排搜索,同時可以將獲得的結(jié)果傳輸?shù)疥P(guān)系類型的數(shù)據(jù)庫制定列表里,同時將每天更新的用戶注冊信息中不重復(fù)的數(shù)據(jù)更新到數(shù)據(jù)庫里,并更新索引模塊。HBase分布式數(shù)據(jù)庫,使用HDFS分布式結(jié)構(gòu)完成系統(tǒng)內(nèi)部模塊設(shè)計,利用歷史數(shù)據(jù)訪問結(jié)構(gòu)來獲得大量文件信息。如果含有信息預(yù)處理的數(shù)據(jù)庫,索引庫可以提供相關(guān)訪問接口,從而使得系統(tǒng)內(nèi)部含有的功能得到全部使用,可以非常方便的增加系統(tǒng)新功能。本文設(shè)計的系統(tǒng),在數(shù)據(jù)預(yù)處理部分、索引器部分與搜索器部分,執(zhí)行程序的基本流程介紹如下:

        首先是數(shù)據(jù)預(yù)處理部分,一是使用分布式數(shù)據(jù)交互工具Sqoop,對于存在關(guān)系型數(shù)據(jù)庫內(nèi)的歷史用戶注冊數(shù)據(jù)向預(yù)處理數(shù)據(jù)庫中導(dǎo)入,使得該數(shù)據(jù)庫中含有HBase分布式數(shù)據(jù)庫。二是對于倒排索引要通過索引器向HBase分布式數(shù)據(jù)庫索引庫內(nèi)進(jìn)行引入,同時將搜索信息提供給搜索器。三是在預(yù)處理完成之后,索引模塊含有的數(shù)據(jù)庫處理部分使用倒排索引模塊,使用分詞結(jié)構(gòu),利用數(shù)據(jù)文本數(shù)據(jù)進(jìn)行分詞,主要有中文分詞與英文分詞。四是借助于復(fù)合框架,數(shù)據(jù)預(yù)處理器能夠?qū)﹃P(guān)系型數(shù)據(jù)庫存在的每天用戶注冊數(shù)據(jù)更新進(jìn)行實時讀取,同時向搜索器進(jìn)行提交來給予處理。五是對復(fù)合框架提供的相關(guān)數(shù)據(jù)通過搜索器進(jìn)行解析,并提取關(guān)鍵字,以此為依據(jù)對索引器的倒排索引進(jìn)行查詢。六是以關(guān)鍵字中存在的相似度為依據(jù),搜索器對用戶更新數(shù)據(jù)進(jìn)行有效排序。七是對用戶注冊數(shù)據(jù)的更新結(jié)果查重,會由搜索器向數(shù)據(jù)預(yù)處理器進(jìn)行返回。八是對所有用戶注冊數(shù)據(jù)的更新中存在的不重復(fù)數(shù)據(jù)更新要通過搜索器向處理數(shù)據(jù)庫中進(jìn)行返回,接著便進(jìn)行增量索引的建立。九是對搜索器返回的查重結(jié)果要通過預(yù)處理器來向關(guān)系型數(shù)據(jù)庫進(jìn)行寫入,上述步驟便是系統(tǒng)整體結(jié)構(gòu)具體的執(zhí)行過程,其對子系統(tǒng)問的關(guān)系給予了充分體現(xiàn)。

        2詳細(xì)設(shè)計

        2.1數(shù)據(jù)預(yù)處理子系統(tǒng)的設(shè)計

        如圖1所示,對數(shù)據(jù)的預(yù)處理分為兩個基本結(jié)構(gòu),首先,使用關(guān)系類型數(shù)據(jù)模塊存在的歷史數(shù)據(jù)信息,通過Sqoop工具,向HBase數(shù)據(jù)庫里面的預(yù)處理模塊進(jìn)行批量導(dǎo)入。第二,借助于特定程序模塊框架,向搜索器提交每天用戶注冊的更新數(shù)據(jù),通過搜索模塊含有的查重結(jié)果將關(guān)系類型數(shù)據(jù)庫內(nèi)部信息返回到檢查列表里面。

        2.2索引子系統(tǒng)的設(shè)計

        索引部分含有的主要功能如圖2所示,首先在數(shù)據(jù)預(yù)處理模塊對歷史用戶含有的信息建立倒排索引模塊。其次對新注冊的信息使其更新在已有的索引庫里面,進(jìn)而建立相關(guān)的索引模式。子系統(tǒng)中主要有索引合并、分詞、索引存入索引庫中、進(jìn)行增量索引的建立、倒排索引的建立五個方面。

        2.3搜索子系統(tǒng)的設(shè)計

        本文是以搜索子系統(tǒng)為核心來對數(shù)據(jù)庫搜索引擎系統(tǒng)進(jìn)行優(yōu)化。對于搜索子系統(tǒng)來說,其工作主要就是對每天用戶更新的注冊數(shù)據(jù)進(jìn)行查重處理,具體如圖3所示。首先就是接收每天用戶注冊的更新數(shù)據(jù),解析這些數(shù)據(jù),然后查詢搜索評分機(jī)制處理之后的查詢結(jié)果。查詢結(jié)果的前50名數(shù)據(jù)會被視為重復(fù)數(shù)據(jù),在數(shù)據(jù)庫指定表中進(jìn)行關(guān)系型數(shù)據(jù)的寫入;在查詢結(jié)果50名之后的數(shù)據(jù)被認(rèn)為是不重復(fù)數(shù)據(jù),將這些數(shù)據(jù)保存到數(shù)據(jù)庫之中。

        3數(shù)據(jù)預(yù)處理方法及搜索評分機(jī)制的研究

        3.1數(shù)據(jù)預(yù)處理方法

        3.1.1靜態(tài)數(shù)據(jù)處理

        處理靜態(tài)數(shù)據(jù)信息的時候,首先利用分布式數(shù)據(jù)交換工具Sqoop,檢查關(guān)系型數(shù)據(jù)模塊中所包含的歷史用戶信息表格Historvcal data的字段類型以及其約束關(guān)系是否正確。然后,把表字段類型映射給相關(guān)的MapReduce任務(wù),檢查并分類獲取表信息,并在HBase分布式數(shù)據(jù)庫中創(chuàng)建預(yù)處理表HBaseHistorical data。最后,啟動MapReduce任務(wù),在歷史注冊的數(shù)據(jù)表格Historical data內(nèi)記錄相應(yīng)數(shù)據(jù),同時插入到預(yù)處理表中,下面便是其具體操作步驟:

        sqoop list-tables-connect jdbc:數(shù)據(jù)庫:IP:端口號/數(shù)據(jù)庫名字usemame用戶名-password密碼。

        第二部分對海量信息進(jìn)行交互,同時對HBase內(nèi)部的分布式數(shù)據(jù)進(jìn)行相關(guān)處理,也就是在HBase Historical data導(dǎo)入存在于關(guān)系型數(shù)據(jù)庫中歷史用戶注冊數(shù)據(jù)表的相關(guān)記錄。下面所表示的是其執(zhí)行操作的具體步驟:

        sqoop import-connect jdbc:數(shù)據(jù)庫:IP/端口號/數(shù)據(jù)庫名字-table關(guān)系型數(shù)據(jù)庫中表名字-hbase-tabe。

        Sqoop內(nèi)部的分布式交互模式可以降低導(dǎo)入到記錄儲存的磁盤內(nèi)部,之后在利用數(shù)據(jù)庫記錄具有非常類似的結(jié)構(gòu),這樣使得其相對比傳統(tǒng)的搜索模式更加優(yōu)秀,同時本文設(shè)計的靜態(tài)數(shù)據(jù)處理的方法變得更加簡單。

        3.1.2動態(tài)數(shù)據(jù)處理

        動態(tài)數(shù)據(jù)分析功能,可以對HBase分布式數(shù)據(jù)庫模塊中含有的相關(guān)信息進(jìn)行批量讀寫,通過特定程序模塊以及復(fù)合框架來進(jìn)行實現(xiàn)。因此,實現(xiàn)本文所述動態(tài)數(shù)據(jù)處理方法的時候,所帶來的性能損失很小。

        動態(tài)數(shù)據(jù)獲得的處理方法為,通過包含復(fù)合框架的關(guān)系型數(shù)據(jù)庫來獲得更新的數(shù)據(jù)信息,然后將其保存到注冊的數(shù)據(jù)表格Update-data中對應(yīng)的字段,之后再利用Dim.xml文件將表的字段類型經(jīng)過映射java程序相關(guān)的數(shù)據(jù)類型,同時對表Up-date-data操作的SQL語句映射成為java程序里面Dim類的方法。

        3.2搜索評分機(jī)制

        對于搜索評分制度來說,因為其對搜索的速度具有重要的影響,所以需要設(shè)計出可以快速提升搜索評分制度準(zhǔn)確率的模式。目前的評分制度為TFIDF評分模式,以及PageRank相結(jié)合的方式。通過TF-IDF含有的基本評估的模式獲得數(shù)據(jù)信息含有的關(guān)鍵字信息評分,這非常重要。本文設(shè)計的處理數(shù)據(jù)結(jié)構(gòu)含有的主要信息為電商用戶含有的相關(guān)注冊信息,其中主要包括ID名字、郵箱以及相關(guān)主頁信息等。根據(jù)相關(guān)的應(yīng)用要求以及數(shù)據(jù)的特點(diǎn),本文選擇使用了基于編輯距離結(jié)構(gòu)的數(shù)據(jù)距離算法基本模式,以及關(guān)鍵字段之間類似度建模分析。

        4結(jié)束語

        伴隨著電子商務(wù)規(guī)模發(fā)展越來越大,用戶注冊數(shù)目得到快速的提升,對于存在很多的數(shù)據(jù)查重分析問題,以前使用的數(shù)據(jù)庫搜索的模式已經(jīng)不再適合現(xiàn)在的需求。針對現(xiàn)實應(yīng)用內(nèi)部出現(xiàn)的這些不足,本文利用云平臺數(shù)據(jù)庫搜索引擎的相關(guān)處理模式,使用了最新的云平臺、全文搜索的技術(shù)模式,利用了數(shù)據(jù)庫交互技術(shù)等很多緩存技術(shù),進(jìn)而使得數(shù)據(jù)庫具有的數(shù)據(jù)搜索性能得到了大幅度的提升,提升了檢索的可靠性,縮短了檢索用時。

        猜你喜歡
        搜索引擎
        Chrome 99 Canary恢復(fù)可移除預(yù)置搜索引擎選項
        網(wǎng)絡(luò)搜索引擎亟待規(guī)范
        Nutch搜索引擎在網(wǎng)絡(luò)輿情管控中的應(yīng)用
        基于Nutch的醫(yī)療搜索引擎的研究與開發(fā)
        廣告主與搜索引擎的雙向博弈分析
        基于Lucene搜索引擎的研究
        知識漫畫
        百科知識(2012年11期)2012-04-29 08:30:15
        一種自反饋式元搜索系統(tǒng)的設(shè)計
        搜索引擎,不止有百度與谷歌
        搜索,也要“深搜熟濾”
        亚洲AV永久无码精品表情包| 色妞ww精品视频7777| 久久婷婷香蕉热狠狠综合| 亚洲欧洲日产国码久在线观看| 国产视频一区二区三区在线看| 亚洲桃色视频在线观看一区| 国产精品亚洲欧美大片在线看| 亚洲丁香婷婷综合久久小说| 蜜桃视频中文字幕一区二区三区 | 少妇粉嫩小泬喷水视频www| 亚洲国产精品无码久久电影| 国产精品白浆免费观看| 中文字幕34一区二区| 性色av免费网站| 无码少妇一级AV便在线观看| 亚洲av永久久无久之码精| 开心五月激情五月五月天| 亚洲成在人线在线播放无码| 亚洲美腿丝袜综合一区| 激情人妻中出中文字幕一区| 与漂亮的女邻居少妇好爽 | 伊人久久久精品区aaa片| 一本一道波多野结衣av中文| 国产精品亚洲最新地址| 国产欧美日韩一区二区加勒比| 欧美最猛黑人xxxx黑人表情| 啊v在线视频| 国产亚洲精品一区在线| 日本高清视频永久网站www | 久久综合给合久久狠狠狠9| av新型国产在线资源| 波多野结衣爽到高潮大喷| 免费一区二区三区久久| 国产一区二区三区免费主播| 国内精品免费一区二区三区| 国产99视频精品免视看9| 国产欧美日韩图片一区二区| 国产在线一区二区三区四区乱码| 久久精品国产亚洲av影院| 亚洲色图+国产精品| 女同久久精品国产99国产精|