亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一種基于MapReduce的分布式索引方法

        2014-09-24 16:59:06邵武長
        物聯(lián)網(wǎng)技術(shù) 2014年7期
        關(guān)鍵詞:分布式

        摘 要:海量文本快速索引是云檢索系統(tǒng)的一個難點,而分布式索引程序的開發(fā)難度較大。文中提出了一種基于MapReduce的分布式索引方法,通過在Map函數(shù)中執(zhí)行文檔的解析及索引,以及在Reduce函數(shù)中合并索引數(shù)據(jù),以減少文檔排序的工作量,提高索引效率。實驗結(jié)果表明,該方法適用于海量數(shù)據(jù)的并行處理。

        關(guān)鍵詞:海量文本;分布式;索引;MapReduce

        中圖分類號:TP302文獻標識碼:A 文章編號:2095-1302(2014)07-0065-02

        0引言

        海量數(shù)據(jù)的使用越來越受到人們的關(guān)注,如何實現(xiàn)為海量文本數(shù)據(jù)快速創(chuàng)建索引以供用戶檢索已經(jīng)成為當前面臨的一個重要課題。傳統(tǒng)的集中式索引方案已經(jīng)無法滿足需求,隨著MapReduce機制的出現(xiàn)[1],人們開始研究使用MapReduce進行分布式索引的方案?,F(xiàn)有的基于MapReduce的方法都局限于MapReduce的原始框架[2,3],無法處理數(shù)據(jù)量大、不可分割的文檔,也缺乏對海量索引的管理機制。因此,通過對現(xiàn)有方法的改進[4],本文設(shè)計了一種面向海量大文本的MapReduce索引方法,通過實驗測試了改進方案的索引性能。

        1MapReduce簡介

        MapReduce是一種通過將任務(wù)分發(fā)到多臺機器上來處理大規(guī)模數(shù)據(jù)的編程模式[5]。它最初是由Google設(shè)計的,用于利用分布式架構(gòu)來處理大數(shù)據(jù)集上的計算任務(wù)。一個MapReduce工作主要使用Map和Reduce兩個函數(shù)。Map函數(shù)接收一個鍵值對作為輸入,然后通過特定的計算輸出一組中間鍵值對。所有Map函數(shù)的輸出鍵值對將會自動按照key進行排序和分組,然后傳送給Reduce函數(shù)。Reduce函數(shù)將有著相同key的所有中間鍵值對進行合并,得到最終的結(jié)果集。一般處理輸入數(shù)據(jù)的Map任務(wù)會比較多,而處理Map任務(wù)輸出數(shù)據(jù)的Reduce任務(wù)會少一點。Map任務(wù)和Reduce任務(wù)都可以運行在不同的機器上來實現(xiàn)并行化,每個任務(wù)都是獨立于其他同類型的任務(wù)的,這就使得分布式應(yīng)用的開發(fā)變得輕松了許多[6]。

        2MI-RM索引方法

        本文設(shè)計的分布式索引方法的主要思想是:在Map函數(shù)中執(zhí)行文檔的解析及索引,而在Reduce函數(shù)中合并這些索引數(shù)據(jù),即“Map Index–Reduce Merge”,簡記為MI-RM方法。MI-RM方法采用的策略是,將文檔平均分組,每個組內(nèi)的文檔的索引數(shù)據(jù)交給一個Reduce任務(wù)來合并。Map函數(shù)輸出的中間鍵值對是,其中DocGroup表示該文檔所屬的分組,DocIndex表示該文檔的索引數(shù)據(jù)。這樣,中間鍵值對的數(shù)量就會少了很多,排序的工作量會大大地減少。

        Map算法的輸入鍵值對是,即一個文檔的分組號及其存儲路徑。Map函數(shù)從HDFS文件系統(tǒng)得到該文檔的輸入流,并且用文檔解析器來封裝文檔輸入流,用以解析文檔格式。然后,算法即可順序讀取文檔的內(nèi)容,并將其索引到DocIndex中。索引完成后,將該文檔的索引數(shù)據(jù)按照鍵值對的格式輸出。

        Reduce函數(shù)對同組文檔的索引數(shù)據(jù)進行歸并。我們設(shè)計了支持自動分片的Reduce函數(shù),將同組的文檔索引再次分片,合并到不同的索引片中。Reduce在合并索引數(shù)據(jù)的時候,將會控制索引片的大小;如果索引片已經(jīng)達到了閥值,那么就將其作為一個獨立的索引片輸出,然后再創(chuàng)建一個新的索引片來存儲剩余數(shù)據(jù),如此往復(fù)。表1和表2分別展示了MI-RM的Map和Reduce函數(shù)及其算法流程。

        表1MI-RM方法的Map函數(shù)

        Map

        輸入 Key:被索引文檔的組號DocGroup

        Value:被索引文檔的存儲路徑DocPath

        輸出 Key:被索引文檔的組號DocGroup

        Value:被索引文檔的索引數(shù)據(jù)DocIndex

        1:從HDFS上獲得DocPath所指向文檔的數(shù)據(jù)流DocStream;

        2:用文檔解析器封裝DocStream,獲得過濾后的文檔流FilterStream;

        3:創(chuàng)建該文檔的索引DocIndex;

        4:從FilterStream讀取文檔,并索引到DocIndex中;

        5:輸出

        表2MI-RM方法的Reduce函數(shù)

        Reduce

        輸入 Key:文檔組號DocGroup

        Value:該組文檔的索引數(shù)據(jù)列表DocIndex-List

        輸出 Key:索引片序號s-id

        Value:該索引片數(shù)據(jù)Shard

        1:初始化索引片序號s-id = GroupID;

        2:創(chuàng)建新索引片;

        3:對于DocIndex-List中的每個索引DocIndex,循環(huán):

        4:將DocIndex加入到中;

        5:如果的大小超過了預(yù)設(shè)閥值:

        6:輸出索引片;

        7:遞增索引片序號s-id = s-id + N;

        8:創(chuàng)建新索引片;

        9: 結(jié)束循環(huán);

        10:輸出最后一個索引片

        3測試結(jié)果

        3.1測試環(huán)境

        首先,我們可以搭建包含3臺機器的集群,部署Hadoop進行分布式索引測試。操作系統(tǒng)均為Ubuntu 8.10,HDFS版本是1.9.2。

        本文使用數(shù)據(jù)生成器隨機生成了18個大小為10 MB的文本進行測試。因為測試環(huán)境有限,本文沒有使用大的數(shù)據(jù)量,文本的數(shù)量選擇為18是考慮到它正好是節(jié)點數(shù)的整數(shù)倍,可以使得任務(wù)在各節(jié)點上并行的運行。

        3.2結(jié)果與分析

        在測試中,我們將MI-RM索引方法配置為18個Map任務(wù)和3個Reduce任務(wù)。其中每個節(jié)點上可以并發(fā)地執(zhí)行6個任務(wù),也就是說,Map任務(wù)的最大并發(fā)量為6。測試結(jié)果如下:Map執(zhí)行的總時間為34.253 s,Reduce執(zhí)行的總時間為35.515 s,總的執(zhí)行時間為45.232 s,而采用集中式索引方法處理同樣的數(shù)據(jù)則需要97.232 s,該結(jié)果體現(xiàn)了MI-RM索引方法的效率要優(yōu)于傳統(tǒng)的集中式索引方法。

        4結(jié)語

        本文探討了一種基于MapReduce的分布式索引方法,并與集中式索引方法做了測試比較,通過實驗表明這種方法能夠減化文檔排序的工作量,從而提高建立文本索引的效率,能夠滿足海量文本數(shù)據(jù)檢索的需求。

        參 考 文 獻

        [1] Richard M C McCreadie, Craig Macdonald, IadhOunis. Comparing Distributed Indexing: To MapReduce or Not? [C].Proceedings of LSDS-IR Workshop, Boston, USA, 2009.8-17.

        [2] IoannisKonstantinou, Evangelos Angelou, DimitriosTsoumakos et al. Distributed Indexing of Web Scale Datasets for the Cloud[C].Workshop on massive data analytics on the cloud 2010.2010:1-6.

        [3] Chang F, Dean J, Ghemawat S, et al. Bigtable: A distributed storage system for structured Data[C]. Proceedings of OSDI 2006.205-218.

        [4]馮汝偉,謝強,丁秋林,等.基于文本聚類與分布式Lucene的知識檢索[J].計算機應(yīng)用,2013,33(1):186-188.

        [5]馬燦,孟丹,熊勁,等.基于分布式索引和目錄聚合的海量小文件存儲研究[J].高技術(shù)通訊,2012,22(10):1035-1040.

        [6]張玥,俞昊旻,張奇,等.面向文本拷貝檢測的分布式索引[J].中文信息學(xué)報,2011,25(1):91-97.

        作者簡介:邵武長(1988—),男,江蘇省徐州市人,碩士研究生。主要研究方向是工業(yè)智能與仿真。

        ————————————————

        收稿日期:2014-03-31

        摘 要:海量文本快速索引是云檢索系統(tǒng)的一個難點,而分布式索引程序的開發(fā)難度較大。文中提出了一種基于MapReduce的分布式索引方法,通過在Map函數(shù)中執(zhí)行文檔的解析及索引,以及在Reduce函數(shù)中合并索引數(shù)據(jù),以減少文檔排序的工作量,提高索引效率。實驗結(jié)果表明,該方法適用于海量數(shù)據(jù)的并行處理。

        關(guān)鍵詞:海量文本;分布式;索引;MapReduce

        中圖分類號:TP302文獻標識碼:A 文章編號:2095-1302(2014)07-0065-02

        0引言

        海量數(shù)據(jù)的使用越來越受到人們的關(guān)注,如何實現(xiàn)為海量文本數(shù)據(jù)快速創(chuàng)建索引以供用戶檢索已經(jīng)成為當前面臨的一個重要課題。傳統(tǒng)的集中式索引方案已經(jīng)無法滿足需求,隨著MapReduce機制的出現(xiàn)[1],人們開始研究使用MapReduce進行分布式索引的方案。現(xiàn)有的基于MapReduce的方法都局限于MapReduce的原始框架[2,3],無法處理數(shù)據(jù)量大、不可分割的文檔,也缺乏對海量索引的管理機制。因此,通過對現(xiàn)有方法的改進[4],本文設(shè)計了一種面向海量大文本的MapReduce索引方法,通過實驗測試了改進方案的索引性能。

        1MapReduce簡介

        MapReduce是一種通過將任務(wù)分發(fā)到多臺機器上來處理大規(guī)模數(shù)據(jù)的編程模式[5]。它最初是由Google設(shè)計的,用于利用分布式架構(gòu)來處理大數(shù)據(jù)集上的計算任務(wù)。一個MapReduce工作主要使用Map和Reduce兩個函數(shù)。Map函數(shù)接收一個鍵值對作為輸入,然后通過特定的計算輸出一組中間鍵值對。所有Map函數(shù)的輸出鍵值對將會自動按照key進行排序和分組,然后傳送給Reduce函數(shù)。Reduce函數(shù)將有著相同key的所有中間鍵值對進行合并,得到最終的結(jié)果集。一般處理輸入數(shù)據(jù)的Map任務(wù)會比較多,而處理Map任務(wù)輸出數(shù)據(jù)的Reduce任務(wù)會少一點。Map任務(wù)和Reduce任務(wù)都可以運行在不同的機器上來實現(xiàn)并行化,每個任務(wù)都是獨立于其他同類型的任務(wù)的,這就使得分布式應(yīng)用的開發(fā)變得輕松了許多[6]。

        2MI-RM索引方法

        本文設(shè)計的分布式索引方法的主要思想是:在Map函數(shù)中執(zhí)行文檔的解析及索引,而在Reduce函數(shù)中合并這些索引數(shù)據(jù),即“Map Index–Reduce Merge”,簡記為MI-RM方法。MI-RM方法采用的策略是,將文檔平均分組,每個組內(nèi)的文檔的索引數(shù)據(jù)交給一個Reduce任務(wù)來合并。Map函數(shù)輸出的中間鍵值對是,其中DocGroup表示該文檔所屬的分組,DocIndex表示該文檔的索引數(shù)據(jù)。這樣,中間鍵值對的數(shù)量就會少了很多,排序的工作量會大大地減少。

        Map算法的輸入鍵值對是,即一個文檔的分組號及其存儲路徑。Map函數(shù)從HDFS文件系統(tǒng)得到該文檔的輸入流,并且用文檔解析器來封裝文檔輸入流,用以解析文檔格式。然后,算法即可順序讀取文檔的內(nèi)容,并將其索引到DocIndex中。索引完成后,將該文檔的索引數(shù)據(jù)按照鍵值對的格式輸出。

        Reduce函數(shù)對同組文檔的索引數(shù)據(jù)進行歸并。我們設(shè)計了支持自動分片的Reduce函數(shù),將同組的文檔索引再次分片,合并到不同的索引片中。Reduce在合并索引數(shù)據(jù)的時候,將會控制索引片的大??;如果索引片已經(jīng)達到了閥值,那么就將其作為一個獨立的索引片輸出,然后再創(chuàng)建一個新的索引片來存儲剩余數(shù)據(jù),如此往復(fù)。表1和表2分別展示了MI-RM的Map和Reduce函數(shù)及其算法流程。

        表1MI-RM方法的Map函數(shù)

        Map

        輸入 Key:被索引文檔的組號DocGroup

        Value:被索引文檔的存儲路徑DocPath

        輸出 Key:被索引文檔的組號DocGroup

        Value:被索引文檔的索引數(shù)據(jù)DocIndex

        1:從HDFS上獲得DocPath所指向文檔的數(shù)據(jù)流DocStream;

        2:用文檔解析器封裝DocStream,獲得過濾后的文檔流FilterStream;

        3:創(chuàng)建該文檔的索引DocIndex;

        4:從FilterStream讀取文檔,并索引到DocIndex中;

        5:輸出

        表2MI-RM方法的Reduce函數(shù)

        Reduce

        輸入 Key:文檔組號DocGroup

        Value:該組文檔的索引數(shù)據(jù)列表DocIndex-List

        輸出 Key:索引片序號s-id

        Value:該索引片數(shù)據(jù)Shard

        1:初始化索引片序號s-id = GroupID;

        2:創(chuàng)建新索引片;

        3:對于DocIndex-List中的每個索引DocIndex,循環(huán):

        4:將DocIndex加入到中;

        5:如果的大小超過了預(yù)設(shè)閥值:

        6:輸出索引片

        7:遞增索引片序號s-id = s-id + N;

        8:創(chuàng)建新索引片;

        9: 結(jié)束循環(huán);

        10:輸出最后一個索引片

        3測試結(jié)果

        3.1測試環(huán)境

        首先,我們可以搭建包含3臺機器的集群,部署Hadoop進行分布式索引測試。操作系統(tǒng)均為Ubuntu 8.10,HDFS版本是1.9.2。

        本文使用數(shù)據(jù)生成器隨機生成了18個大小為10 MB的文本進行測試。因為測試環(huán)境有限,本文沒有使用大的數(shù)據(jù)量,文本的數(shù)量選擇為18是考慮到它正好是節(jié)點數(shù)的整數(shù)倍,可以使得任務(wù)在各節(jié)點上并行的運行。

        3.2結(jié)果與分析

        在測試中,我們將MI-RM索引方法配置為18個Map任務(wù)和3個Reduce任務(wù)。其中每個節(jié)點上可以并發(fā)地執(zhí)行6個任務(wù),也就是說,Map任務(wù)的最大并發(fā)量為6。測試結(jié)果如下:Map執(zhí)行的總時間為34.253 s,Reduce執(zhí)行的總時間為35.515 s,總的執(zhí)行時間為45.232 s,而采用集中式索引方法處理同樣的數(shù)據(jù)則需要97.232 s,該結(jié)果體現(xiàn)了MI-RM索引方法的效率要優(yōu)于傳統(tǒng)的集中式索引方法。

        4結(jié)語

        本文探討了一種基于MapReduce的分布式索引方法,并與集中式索引方法做了測試比較,通過實驗表明這種方法能夠減化文檔排序的工作量,從而提高建立文本索引的效率,能夠滿足海量文本數(shù)據(jù)檢索的需求。

        參 考 文 獻

        [1] Richard M C McCreadie, Craig Macdonald, IadhOunis. Comparing Distributed Indexing: To MapReduce or Not? [C].Proceedings of LSDS-IR Workshop, Boston, USA, 2009.8-17.

        [2] IoannisKonstantinou, Evangelos Angelou, DimitriosTsoumakos et al. Distributed Indexing of Web Scale Datasets for the Cloud[C].Workshop on massive data analytics on the cloud 2010.2010:1-6.

        [3] Chang F, Dean J, Ghemawat S, et al. Bigtable: A distributed storage system for structured Data[C]. Proceedings of OSDI 2006.205-218.

        [4]馮汝偉,謝強,丁秋林,等.基于文本聚類與分布式Lucene的知識檢索[J].計算機應(yīng)用,2013,33(1):186-188.

        [5]馬燦,孟丹,熊勁,等.基于分布式索引和目錄聚合的海量小文件存儲研究[J].高技術(shù)通訊,2012,22(10):1035-1040.

        [6]張玥,俞昊旻,張奇,等.面向文本拷貝檢測的分布式索引[J].中文信息學(xué)報,2011,25(1):91-97.

        作者簡介:邵武長(1988—),男,江蘇省徐州市人,碩士研究生。主要研究方向是工業(yè)智能與仿真。

        ————————————————

        收稿日期:2014-03-31

        摘 要:海量文本快速索引是云檢索系統(tǒng)的一個難點,而分布式索引程序的開發(fā)難度較大。文中提出了一種基于MapReduce的分布式索引方法,通過在Map函數(shù)中執(zhí)行文檔的解析及索引,以及在Reduce函數(shù)中合并索引數(shù)據(jù),以減少文檔排序的工作量,提高索引效率。實驗結(jié)果表明,該方法適用于海量數(shù)據(jù)的并行處理。

        關(guān)鍵詞:海量文本;分布式;索引;MapReduce

        中圖分類號:TP302文獻標識碼:A 文章編號:2095-1302(2014)07-0065-02

        0引言

        海量數(shù)據(jù)的使用越來越受到人們的關(guān)注,如何實現(xiàn)為海量文本數(shù)據(jù)快速創(chuàng)建索引以供用戶檢索已經(jīng)成為當前面臨的一個重要課題。傳統(tǒng)的集中式索引方案已經(jīng)無法滿足需求,隨著MapReduce機制的出現(xiàn)[1],人們開始研究使用MapReduce進行分布式索引的方案?,F(xiàn)有的基于MapReduce的方法都局限于MapReduce的原始框架[2,3],無法處理數(shù)據(jù)量大、不可分割的文檔,也缺乏對海量索引的管理機制。因此,通過對現(xiàn)有方法的改進[4],本文設(shè)計了一種面向海量大文本的MapReduce索引方法,通過實驗測試了改進方案的索引性能。

        1MapReduce簡介

        MapReduce是一種通過將任務(wù)分發(fā)到多臺機器上來處理大規(guī)模數(shù)據(jù)的編程模式[5]。它最初是由Google設(shè)計的,用于利用分布式架構(gòu)來處理大數(shù)據(jù)集上的計算任務(wù)。一個MapReduce工作主要使用Map和Reduce兩個函數(shù)。Map函數(shù)接收一個鍵值對作為輸入,然后通過特定的計算輸出一組中間鍵值對。所有Map函數(shù)的輸出鍵值對將會自動按照key進行排序和分組,然后傳送給Reduce函數(shù)。Reduce函數(shù)將有著相同key的所有中間鍵值對進行合并,得到最終的結(jié)果集。一般處理輸入數(shù)據(jù)的Map任務(wù)會比較多,而處理Map任務(wù)輸出數(shù)據(jù)的Reduce任務(wù)會少一點。Map任務(wù)和Reduce任務(wù)都可以運行在不同的機器上來實現(xiàn)并行化,每個任務(wù)都是獨立于其他同類型的任務(wù)的,這就使得分布式應(yīng)用的開發(fā)變得輕松了許多[6]。

        2MI-RM索引方法

        本文設(shè)計的分布式索引方法的主要思想是:在Map函數(shù)中執(zhí)行文檔的解析及索引,而在Reduce函數(shù)中合并這些索引數(shù)據(jù),即“Map Index–Reduce Merge”,簡記為MI-RM方法。MI-RM方法采用的策略是,將文檔平均分組,每個組內(nèi)的文檔的索引數(shù)據(jù)交給一個Reduce任務(wù)來合并。Map函數(shù)輸出的中間鍵值對是,其中DocGroup表示該文檔所屬的分組,DocIndex表示該文檔的索引數(shù)據(jù)。這樣,中間鍵值對的數(shù)量就會少了很多,排序的工作量會大大地減少。

        Map算法的輸入鍵值對是,即一個文檔的分組號及其存儲路徑。Map函數(shù)從HDFS文件系統(tǒng)得到該文檔的輸入流,并且用文檔解析器來封裝文檔輸入流,用以解析文檔格式。然后,算法即可順序讀取文檔的內(nèi)容,并將其索引到DocIndex中。索引完成后,將該文檔的索引數(shù)據(jù)按照鍵值對的格式輸出。

        Reduce函數(shù)對同組文檔的索引數(shù)據(jù)進行歸并。我們設(shè)計了支持自動分片的Reduce函數(shù),將同組的文檔索引再次分片,合并到不同的索引片中。Reduce在合并索引數(shù)據(jù)的時候,將會控制索引片的大??;如果索引片已經(jīng)達到了閥值,那么就將其作為一個獨立的索引片輸出,然后再創(chuàng)建一個新的索引片來存儲剩余數(shù)據(jù),如此往復(fù)。表1和表2分別展示了MI-RM的Map和Reduce函數(shù)及其算法流程。

        表1MI-RM方法的Map函數(shù)

        Map

        輸入 Key:被索引文檔的組號DocGroup

        Value:被索引文檔的存儲路徑DocPath

        輸出 Key:被索引文檔的組號DocGroup

        Value:被索引文檔的索引數(shù)據(jù)DocIndex

        1:從HDFS上獲得DocPath所指向文檔的數(shù)據(jù)流DocStream;

        2:用文檔解析器封裝DocStream,獲得過濾后的文檔流FilterStream;

        3:創(chuàng)建該文檔的索引DocIndex;

        4:從FilterStream讀取文檔,并索引到DocIndex中;

        5:輸出

        表2MI-RM方法的Reduce函數(shù)

        Reduce

        輸入 Key:文檔組號DocGroup

        Value:該組文檔的索引數(shù)據(jù)列表DocIndex-List

        輸出 Key:索引片序號s-id

        Value:該索引片數(shù)據(jù)Shard

        1:初始化索引片序號s-id = GroupID;

        2:創(chuàng)建新索引片;

        3:對于DocIndex-List中的每個索引DocIndex,循環(huán):

        4:將DocIndex加入到中;

        5:如果的大小超過了預(yù)設(shè)閥值:

        6:輸出索引片;

        7:遞增索引片序號s-id = s-id + N;

        8:創(chuàng)建新索引片;

        9: 結(jié)束循環(huán);

        10:輸出最后一個索引片

        3測試結(jié)果

        3.1測試環(huán)境

        首先,我們可以搭建包含3臺機器的集群,部署Hadoop進行分布式索引測試。操作系統(tǒng)均為Ubuntu 8.10,HDFS版本是1.9.2。

        本文使用數(shù)據(jù)生成器隨機生成了18個大小為10 MB的文本進行測試。因為測試環(huán)境有限,本文沒有使用大的數(shù)據(jù)量,文本的數(shù)量選擇為18是考慮到它正好是節(jié)點數(shù)的整數(shù)倍,可以使得任務(wù)在各節(jié)點上并行的運行。

        3.2結(jié)果與分析

        在測試中,我們將MI-RM索引方法配置為18個Map任務(wù)和3個Reduce任務(wù)。其中每個節(jié)點上可以并發(fā)地執(zhí)行6個任務(wù),也就是說,Map任務(wù)的最大并發(fā)量為6。測試結(jié)果如下:Map執(zhí)行的總時間為34.253 s,Reduce執(zhí)行的總時間為35.515 s,總的執(zhí)行時間為45.232 s,而采用集中式索引方法處理同樣的數(shù)據(jù)則需要97.232 s,該結(jié)果體現(xiàn)了MI-RM索引方法的效率要優(yōu)于傳統(tǒng)的集中式索引方法。

        4結(jié)語

        本文探討了一種基于MapReduce的分布式索引方法,并與集中式索引方法做了測試比較,通過實驗表明這種方法能夠減化文檔排序的工作量,從而提高建立文本索引的效率,能夠滿足海量文本數(shù)據(jù)檢索的需求。

        參 考 文 獻

        [1] Richard M C McCreadie, Craig Macdonald, IadhOunis. Comparing Distributed Indexing: To MapReduce or Not? [C].Proceedings of LSDS-IR Workshop, Boston, USA, 2009.8-17.

        [2] IoannisKonstantinou, Evangelos Angelou, DimitriosTsoumakos et al. Distributed Indexing of Web Scale Datasets for the Cloud[C].Workshop on massive data analytics on the cloud 2010.2010:1-6.

        [3] Chang F, Dean J, Ghemawat S, et al. Bigtable: A distributed storage system for structured Data[C]. Proceedings of OSDI 2006.205-218.

        [4]馮汝偉,謝強,丁秋林,等.基于文本聚類與分布式Lucene的知識檢索[J].計算機應(yīng)用,2013,33(1):186-188.

        [5]馬燦,孟丹,熊勁,等.基于分布式索引和目錄聚合的海量小文件存儲研究[J].高技術(shù)通訊,2012,22(10):1035-1040.

        [6]張玥,俞昊旻,張奇,等.面向文本拷貝檢測的分布式索引[J].中文信息學(xué)報,2011,25(1):91-97.

        作者簡介:邵武長(1988—),男,江蘇省徐州市人,碩士研究生。主要研究方向是工業(yè)智能與仿真。

        ————————————————

        收稿日期:2014-03-31

        猜你喜歡
        分布式
        分布式光伏發(fā)展的四大矛盾
        能源(2017年7期)2018-01-19 05:05:03
        分布式光伏熱錢洶涌
        能源(2017年10期)2017-12-20 05:54:07
        基于預(yù)處理MUSIC算法的分布式陣列DOA估計
        分布式光伏:爆發(fā)還是徘徊
        能源(2017年5期)2017-07-06 09:25:54
        西門子 分布式I/O Simatic ET 200AL
        家庭分布式儲能的發(fā)展前景
        汽車電器(2014年5期)2014-02-28 12:14:10
        亚洲av免费看一区二区三区| 久久久精品国产免大香伊| 亚洲成aⅴ人片久青草影院| 成人精品视频一区二区三区尤物| 欧美大屁股xxxxhd黑色| 日中文字幕在线| 亚洲AV无码一区二区水蜜桃| 国产99视频一区二区三区| 粉嫩国产av一区二区三区| 亚洲国产av无码精品| 亚洲人成色777777老人头| 色吧综合网| 国产av专区一区二区三区 | 国产成人精品三级91在线影院 | 日韩av中出在线免费播放网站 | 国产爆乳无码一区二区在线| 日本一区二区高清在线观看| 久久精品国产亚洲超碰av| 欧美性猛交xxxx三人| .精品久久久麻豆国产精品| аⅴ天堂国产最新版在线中文| 国产成人精品一区二免费网站| 亚洲女人天堂成人av在线| 丝袜美腿视频一区二区| 亚洲日韩精品一区二区三区无码| 免费人妻无码不卡中文字幕18禁 | 日韩精品一区二区亚洲av性色| 亚洲综合在线一区二区三区| 亚洲综合网国产精品一区| 免费无遮挡禁18污污网站| 国产a三级久久精品| 国产目拍亚洲精品一区二区| 人妻av在线一区二区三区| 亚洲日韩精品一区二区三区无码| 国产香蕉一区二区三区在线视频| 国产三级国产精品三级在专区| 精品视频在线观看日韩| 国产性生大片免费观看性| 欧美日韩在线免费看| 美女极度色诱视频国产免费| 激情久久黄色免费网站|