亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        云計算下大數據非結構的穩(wěn)定性檢索方法

        2016-05-14 12:41:40陳志華劉曉勇
        現代電子技術 2016年6期
        關鍵詞:云計算大數據

        陳志華 劉曉勇

        摘 要: 傳統(tǒng)的云計算Hadoop 分布式多層體系架構數據檢索模塊難以滿足云計算下大數據非結構的穩(wěn)定性檢索需求,因此采用需要結合存儲非結構化大數據的特點,塑造新的集群的基礎環(huán)境,通過云、端并重的形式,實現大數據非結構的穩(wěn)定性檢索。引入一種非結構大數據索引框架,作為非結構化數據庫,當成數據檢索引擎,改進云計算下大數據非結構的檢索服務,給出檢索技術在檢索非結構化大數據過程中的關鍵代碼。實驗結果表明,所設計系統(tǒng)在檢索云計算下非結構大數據的過程中,具有較高的查準率和較低的檢索時間,可實現非結構云數據的穩(wěn)定性檢索。

        關鍵詞: 云計算; 大數據; 非結構穩(wěn)定性檢索; 數據檢索引擎

        中圖分類號: TN911?34 文獻標識碼: A 文章編號: 1004?373X(2016)06?0058?04

        Methods of unstructured big data stability retrieval in cloud computing

        CHEN Zhihua, LIU Xiaoyong

        (Guangdong Polytechnic Normal University, Guangzhou 510665, China)

        Abstract: It is difficult for the traditional cloud computing Hadoop distributed multi?layer architecture data retrieval module to meet the demand of the unstructured big?data stability retrieval in the cloud computing, so it is necessary to combine the characteristics of the unstructured large data storage, shape a new clustering basic environment, and pay equal attention to the form of cloud and end, to realize the stability retrieval of the unstructured big data. A big data index framework is taken as a unstructured database and as a data retrieval engine to improve the unstructured data retrieval service in cloud computing, and give the key code of the retrieval in the process of unstructured big data retrieval. Experiment result shows that the designed system, in the process of unstructured big data retrieval in the cloud computing, has high precision and short retrieval time, and can realize the stability retrieval of the structured cloud data.

        Keywords: cloud computing; big data; unstructured stability retrieve; data retrieval engine

        0 引 言

        隨著云計算技術的快速發(fā)展,不同類型服務器數據信息呈現爆炸式增長,市場迫切需要先進的大規(guī)模云計算數據存儲和檢索技術[1?3]。云計算下大數據檢索的研究和應用順應了市場的發(fā)展需求。當前的云計算下海量數據中,有高于80%的數據都是非結構化數據,但是,當前的信息關聯檢索主要依靠的是建立結構化的關聯規(guī)則,無法滿足云信息檢索需求,尋求有效方法快速從中檢索到有價值信息,成為相關學者研究的熱點[4]。

        文獻[5]提出了熱度敏感的非結構化數據檢索排名算法,但是該方法對數據的屬性特征具有較高的敏感性,存在較高的局限性。文獻[6]分析了基于Lucene算法的文件全文檢索解決方案,可快速有效地分析出不同結構數據的信息,但是存在耗能高和檢索效率低的缺陷。文獻[7]分析的分布式索引方法采用多節(jié)點備份實現系統(tǒng)檢索,但是當備份的節(jié)點同時發(fā)生故障,則無法恢復失效節(jié)點上的索引,導致檢索精度降低。文獻[8]提出了以索引服務為基礎的本地索引方法,直接為檢索服務的方法,確保檢索同索引集群緊密結合,極大提高了該種方法的容錯性,但是同時也增加了該種方法的復雜性。

        為了解決上述分析的問題,本文以云計算Hadoop 分布式多層體系架構為基礎,分析存儲非結構化大數據的特點,將非結構大數據索引框架當成非結構化數據庫,提供云計算下大數據非結構的檢索服務。實驗結果說明,所設計系統(tǒng)在檢索云計算下非結構大數據的過程中,具有較高的查準率和較低的檢索時間,可實現大數據非結構的穩(wěn)定性檢索。

        1 云計算下大數據非結構的架構分析

        1.1 Hadoop架構的非結構化分析

        云計算下存儲的大數據種類較多,都是以非結構檢索關系存在的,總體架構如圖1所示。該檢索平臺依托云計算,云平臺采用了 Hadoop 分布式多層體系架構存儲非結構化大數據,并塑造集群的基礎環(huán)境,通過云、端并重的形式,實現大數據非結構的穩(wěn)定性檢索。

        當前的云計算下大數據非結構檢索系統(tǒng)通過互聯網采集云計算下的海量數據,通過后臺系統(tǒng)實現大數據非結構的自主加工和統(tǒng)計操作。該平臺還能夠統(tǒng)計分析熱點信息。在獲得大量非結構數據后,系統(tǒng)根據檢索業(yè)務策略定義,在檢索引擎的配合下,完成大數據非結構檢索的存儲服務。

        1.2 云存儲下數據的非結構特點分析

        上述系統(tǒng)總體架構采用多層體系架構設計,并依據多層架構的基礎服務進行塑造。在多層體系架構下,通過云、端并重的形式,實現大數據非結構的穩(wěn)定性存儲,存儲過程程序非結構的特點如下:

        (1) 用戶檢索終端數據的非結構化。面向終端檢索用戶,通過Web門戶應用以及移動終端 APP為用戶提供大數據檢索的服務中,因為用戶信息的多樣性,無法形成穩(wěn)定的結構。

        (2) 業(yè)務應用層數據的非結構化。業(yè)務應用層服務為系統(tǒng)提供各種應用程序,系統(tǒng)以服務的方式對外提供大數據業(yè)務支撐,同時將該部分的服務部署在云平臺中。用戶檢索終端應用通過訪問云平臺中的業(yè)務應用層服務,完成云計算下大數據非結構的穩(wěn)定性檢索業(yè)務。但是,由于應用程序在種類和開發(fā)過程中的差異性愈來愈大,導致該層數據也存在較大的非結構化的特點。

        (3) 平臺服務層數據的非結構化。平臺服務層為業(yè)務應用層和基礎資源層提供相關的服務,包括媒體處理服務和調度、流程引擎服務。平臺服務層中包含關鍵的大數據檢索引擎。但是隨著檢索模式的不斷增加,該層數據也存在較大的非結構化的特點。

        (4) 基礎資源層數據的非結構化。基礎資源服務層是云平臺的基礎設備層,通過計算資源服務、存儲資源服務以及網絡資源服務,通過邏輯資源池的方式實現云平臺的調控。該檢索平臺中的基礎資源服務,主要指云平臺的基礎資源,包括云存儲、虛擬計算資源以及操作系統(tǒng)等基礎部件,隨著基礎設備的不斷增加,設備數據之間也無法形成穩(wěn)定的結構特征,形成非結構化的特點。

        2 云計算下大數據非結構的檢索實現

        在云計算下,差異大數據非結構檢索是一個復雜的過程,通過第1節(jié)的分析可以看出,平臺中存儲著海量非結構化數據。傳統(tǒng)的依據結構化索引的方法無法滿足非結構數據穩(wěn)定的檢索要求。本文通過構建非結構化大數據的分布式索引系統(tǒng),可滿足云計算下非結構大數據的穩(wěn)定性檢索需求。

        2.1 設計非結構化數據的索引框架

        通過塑造分布式非結構化大數據索引框架可以對非結構數據建立類似于結構化的框架,設計的框架如圖2所示。該分布式索引框架包括索引集群、檢索集群以及分布式文件系統(tǒng)。

        2.2 索引集群的引入

        在非結構框架下,設計索引集群可塑造分布式大數據非結構檢索的索引。索引集群采用Master?Slave結構,由一個索引主節(jié)點以及多個索引節(jié)點構成。通過該結構能夠將索引任務分割到不同的索引節(jié)點中,確保不同的索引節(jié)點能夠并行塑造索引,增強系統(tǒng)對云計算下非結構數據的操作性能。索引集群服務于批量和增量索引模式。系統(tǒng)保存非結構數據后會向索引主節(jié)點傳遞增量式索引任務的消息。索引主節(jié)點按照該消息中的數據特征以及內容,使用索引分片方案,判斷相應的數據歸屬于索引分片,再在分布式索引消息隊列中存儲相關的消息。

        不同結構的數據索引節(jié)點相互獨立,并從消息隊列中采集消息。若采集的消息屬于相應索引節(jié)點,則對消息進行相關的檢索,否則將消息反饋到對應的索引節(jié)點再進行操作。若對應的操作索引節(jié)點無法正常運行,則通過索引主節(jié)點完成消息的操作,并將新的索引節(jié)點配置給對應消息。索引集群能夠增強總體系的吞吐量。

        2.3 非結構化下的檢索集群的設計

        在非結構數據框架下,檢索集群包含檢索主節(jié)點、檢索節(jié)點以及檢索客戶端。檢索集群通過Master?Slave結構確保索引文件高效率的部署到不同的檢索節(jié)點中,增強數據檢索服務效率。檢索節(jié)點依據Master?Slave結構能夠獲取總體檢索集群中不同檢索節(jié)點的負載情況。當用戶通過檢索客戶端發(fā)出數據檢索申請后,檢索主節(jié)點將按照不同檢索節(jié)點的負載情況,獲取一個節(jié)點列表,并將該列表反饋給檢索客戶端,檢索客戶端依據獲取的檢索節(jié)點列表進行檢索。用戶采用檢索客戶端可申請檢索,并獲取相應的檢索結果。

        2.4 云計算下大數據非結構化的檢索代碼

        當前多使用SQL全文檢索技術實現云計算下大數據非結構化的檢索設計,詳細過程為:啟動SQL Server的full text search全球檢索服務,設置數據庫服務器的默認語言為2052(中文);運行SQL語句啟用全文檢索:Executesp_fulltext_StructDabase‘enable;選擇“全文索引”中的“定義全文索引”,融入全文檢索向導對話框,選擇將要對其進行全文索引的字段和全文目錄。

        重新啟動SQL Server則能夠采用檢索語句CONTAINS以及FREETEXT對所設置的表進行查詢。其中,CONTAINS語句可在表的全部列中搜索,詞或短語以及同對應詞相近的詞等;FREETEXT語句可在一個表的全部列或指定列中搜索一個自由文本各種的字符串,并返回同該字符串匹配的數據行。

        如在Doc表中查找文件內容中包含“暴恐”,所采用的SQL語句為:

        SELECT*FROM Doc Where CONTAINS(DocumentConnotation ,′暴恐′)

        檢索非結構化數據的界面中,輸入關鍵字,單擊“檢索”按鈕,則可將文件內容中包含該關鍵字的文件名、文件類型顯示處理。實現文檔中關鍵字檢索的主要代碼為:

        Public StructDaTable StructDaSearch(string keyword,string steConn){string sql= "select * from doc where CONTAINS (DocumentConten,""+key?word+"")";

        SqlStructDaAdaper da=new SqlStructDaAdaper(sql,strConn);

        StructDaSer da=new StructDaSet();

        da.Fill(da); return da.Tables[0];}

        若需打開某文檔,則對總體文檔進行詳細分析,在.net環(huán)境中,通過設置Response的ConnotationSpecies屬性和調用BinaryWrite方法則能夠站在瀏覽器中顯示相關的文檔內容。顯示Word文檔以及Excel文檔內容的關鍵代碼為:

        3 實驗分析

        實驗采用云計算非結構NUS數據集,將該數據集中低維特征提取出來的視覺單詞特征,當成測試集合。本實驗從該非結構數據集中隨機抽取100萬個特征作為樣本訓練集合。實驗采用檢索時間和查準率兩個指標評估本文系統(tǒng)和平均分配檢索系統(tǒng)的優(yōu)劣。

        查準率=檢索結果中相關的結果總數/檢索結果的總數

        為了得到比較全面的實驗結果,實驗選擇了10組實驗,每組實驗的文件數分別為10萬,20萬,30萬,40萬,50萬,60萬,70萬,80萬,90萬以及100萬。再計算出檢索時間的平均值以及查準率的平均值對各個系統(tǒng)進行評價。

        3.1 以查準率為評估指標

        實驗先以查準率作為評價指標進行實驗。在每種實驗系統(tǒng)中,依次輸入不同檢索目標進行檢索,并設置最長搜索時間為3 s進行實驗。統(tǒng)計不同檢索目標的查準率,并運算平均值。再比較各系統(tǒng)的查準率。本文方法下系統(tǒng)和平均分配系統(tǒng)的查準率對比如圖3所示。

        分析圖3可得,本文方法下的查準率明顯好于平均分配檢索系統(tǒng),說明使用的本文方法進行大數據非結構的檢索具有較強的優(yōu)勢。

        3.2 以檢索時間為評估指標

        實驗依據檢索平均時間為指標評估不同的檢索系統(tǒng)。在兩個實驗系統(tǒng)中,分別輸入不同的檢索目標進行檢索,同時設置不同的檢索結果數進行多次實驗。運算不同系統(tǒng)中差異結果下的檢索平均時間,再比較兩個系統(tǒng)的檢索時間。在本文系統(tǒng)和平均分配系統(tǒng)中對10 個實驗目標進行檢索,統(tǒng)計各目標在兩個系統(tǒng)中的檢索時間,運算出平均檢索時間,如圖4所示。

        從圖4中可以看出,平均分配檢索系統(tǒng)在平均搜索時間上高于本文系統(tǒng),則證實應用了本文檢索系統(tǒng)在查詢時間和查準率這兩個評價指標上,都優(yōu)于傳統(tǒng)的平均分配系統(tǒng)。

        上面的實驗比較可以看出,本文檢索系統(tǒng)對非結構數據的性能優(yōu)于傳統(tǒng)的平均分配系統(tǒng)。說明本文系統(tǒng)可實現云計算下大數據非結構的穩(wěn)定性檢索,具有較高的應用價值。

        4 結 語

        本文以云計算為基礎,采用Hadoop 分布式多層體系架構存儲非結構化大數據,并塑造集群的基礎環(huán)境,通過云、端并重的形式,實現大數據非結構的穩(wěn)定性檢索。將非結構大數據索引框架作為非結構化數據庫,當成數據檢索引擎,提供云計算下大數據非結構的檢索服務,該分布式索引框架包括索引集群、檢索集群以及分布式文件系統(tǒng)。給出SQL Server 2008的全文檢索技術在檢索非結構化大數據過程中的關鍵代碼。實驗結果說明,所設計系統(tǒng)在檢索云計算下非結構大數據的過程中,具有較高的查準率和較低的檢索時間,可實現大數據非結構的穩(wěn)定性檢索。

        參考文獻

        [1] 中國互聯網絡信息中心.中國互聯網絡發(fā)展狀況統(tǒng)計報告[R].北京:CNNIC,2014.

        [2] 車曉蕙,周立民,陳鋼,等.大數據為王第三次流通革命在望[N].經濟參考報,2013?09?11(5).

        [3] 李淑芝,劉鋒,楊書新.基于云仿真的Web服務選擇研究[J].計算機應用研究,2013,30(4):1069?1071.

        [4] 杜蕓蕓.一種面向糾刪碼技術的云存儲可靠性機制[J].計算機應用與軟件,2014,31(2):312?316.

        [5] 林菲,張萬軍,孫勇.一種分布式非結構化數據副本管理模型[J].計算機工程,2013,39(4):36?38.

        [6] 翟巖龍,羅壯,楊凱,等.基于Hadoop的高性能海量數據處理平臺研究[J].計算機科學,2013,40(3):100?103.

        [7] 韓晶,宋美娜,鄂海紅,等.HotRank:熱度敏感的非結構化數據檢索排名算法[J].計算機應用研宄,2013,30(5):1306?1308.

        [8] 郭永利,盧穎穎.基于Lucene對文件全文檢索的研究與應用[J].微型電腦應用,2014,31(1):51?54.

        猜你喜歡
        云計算大數據
        志愿服務與“互聯網+”結合模式探究
        云計算與虛擬化
        基于云計算的移動學習平臺的設計
        大數據環(huán)境下基于移動客戶端的傳統(tǒng)媒體轉型思路
        新聞世界(2016年10期)2016-10-11 20:13:53
        實驗云:理論教學與實驗教學深度融合的助推器
        大學教育(2016年9期)2016-10-09 08:54:03
        云計算中的存儲虛擬化技術應用
        科技視界(2016年20期)2016-09-29 13:34:06
        基于大數據背景下的智慧城市建設研究
        科技視界(2016年20期)2016-09-29 10:53:22
        數據+輿情:南方報業(yè)創(chuàng)新轉型提高服務能力的探索
        中國記者(2016年6期)2016-08-26 12:36:20
        蜜桃av无码免费看永久 | 久久热免费最新精品视频网站| 亚洲av永久无码天堂网手机版| 大地资源在线观看官网第三页| 三个男吃我奶头一边一个视频| 男人的天堂一区二av| 日本一二三四区在线观看| 国产在线观看视频一区二区三区| 精品国产三区在线观看| 中文字幕色资源在线视频| 免费国产一区二区视频| 亚洲丝袜美腿在线视频| 亚洲综合精品亚洲国产成人| 亚洲另类无码专区首页| 久久精品国产99国产精品亚洲| 丰满少妇高潮惨叫久久久| 国产日产亚洲系列最新| 精品国产一区二区三区免费| 黑人大荫道bbwbbb高潮潮喷| 亚洲精品欧美二区三区中文字幕 | 波多野结衣av手机在线观看| 亚洲巨乳自拍在线视频| 亚洲乱码av中文一区二区| 国产成人久久蜜一区二区| 国产国拍亚洲精品午夜不卡17| 亚洲精品久久久久高潮| 亚洲区日韩精品中文字幕| 日本道免费精品一区二区 | 日本韩国一区二区三区| 高清高速无码一区二区| 揄拍成人国产精品视频肥熟女 | 亚洲国产成人va在线观看天堂| 中文人妻无码一区二区三区| 人妻精品一区二区免费| 国产人妖一区二区av| 在线观看国产自拍视频| 精品中文字幕在线不卡| 色婷婷久久亚洲综合看片| 青春草在线视频免费观看| 人人色在线视频播放| 精品国产一二三产品区别在哪|