亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        云環(huán)境下的信息分類算法研究

        2015-03-03 05:41:02
        關(guān)鍵詞:鍵值樸素貝葉斯

        秦 蓉

        (長(zhǎng)治職業(yè)技術(shù)學(xué)院 信息工程系,山西 長(zhǎng)治 046000)

        云環(huán)境下的信息分類算法研究

        秦 蓉

        (長(zhǎng)治職業(yè)技術(shù)學(xué)院 信息工程系,山西 長(zhǎng)治 046000)

        現(xiàn)如今,隨著科技的飛速發(fā)展,信息技術(shù)在人們的生活生產(chǎn)中,發(fā)揮了重要的作用.而隨著數(shù)據(jù)信息的爆炸式增長(zhǎng),傳統(tǒng)的信息分類方式面臨著許多新的問(wèn)題和挑戰(zhàn),顯然不能滿足要求,由此,云計(jì)算應(yīng)運(yùn)而生.云計(jì)算,通過(guò)分布式處理的方式來(lái)對(duì)信息進(jìn)行處理,提高了時(shí)間效率,具有很高的實(shí)用價(jià)值.文章從云環(huán)境的背景下,對(duì)樸素貝葉斯信息分類算法進(jìn)行改進(jìn)和分析研究.

        云計(jì)算;信息分類算法;樸素貝葉斯

        1 樸素貝葉斯分類算法介紹

        樸素貝葉斯算法在信息分類中應(yīng)用廣泛,是一種重要的信息分類方法.樸素貝葉斯算法重要通過(guò)先驗(yàn)概率的計(jì)算來(lái)得到待分類結(jié)果.樸素貝葉斯算法的分類思想是:對(duì)待分類項(xiàng),求解在此項(xiàng)出現(xiàn)的條件下各個(gè)類別出現(xiàn)的概率,選擇概率值最大的分類作為最終的分類結(jié)果.樸素貝葉斯法是基于貝葉斯定理與特征條件獨(dú)立假設(shè)的分類方法.

        首先給出貝葉斯公式:

        (1)

        其中,P(Ci)表示類別Ci在整個(gè)C集合中的概率,稱先驗(yàn)概率,P(X|Ci)表示事件X在類別Ci中的概率,稱條件概率.

        樸素貝葉斯分類的定義為:

        設(shè)X={a1,a2,…,an}為待分類樣本,ai為X的特征屬性,存在類別集合C={C1,C2,…,Cm},若滿足公式(2),則X∈Cp(p∈[1,m]).

        (2)

        樸素貝葉斯算法的運(yùn)行步驟主要分為以下三個(gè)階段:

        首先是數(shù)據(jù)處理階段,在這個(gè)過(guò)程中,需要根據(jù)具體情況確定特征屬性,之后形成訓(xùn)練樣本集合.特征屬性的確定對(duì)后面的分類具有重要的影響,這一階段的工作需要人工完成.

        其次訓(xùn)練階段,這一過(guò)程,要對(duì)每個(gè)類別在訓(xùn)練樣本中出現(xiàn)的頻率和每個(gè)特征屬性劃分對(duì)每個(gè)類別的條件概率估計(jì),之后記錄結(jié)果.在這一過(guò)程中,輸入的數(shù)據(jù)處理階段得到的特征屬性和訓(xùn)練樣本.輸出的是特征屬性和各類別的概率值.這一過(guò)程可由程序自動(dòng)計(jì)算完成.

        最后是應(yīng)用階段,這一階段的任務(wù)是通過(guò)計(jì)算得到各類別的概率分布,最終選擇概率最高的類別作為最終的分類結(jié)果.此階段,輸入是訓(xùn)練階段的輸出值,輸出是各類別的概率統(tǒng)計(jì)值以及最終的信息分類結(jié)果.

        2 云環(huán)境的應(yīng)用

        環(huán)境是基于互聯(lián)網(wǎng)的相關(guān)服務(wù)的增加,使用和交付模式,通常涉及通過(guò)互聯(lián)網(wǎng)來(lái)提供動(dòng)態(tài)易擴(kuò)展且經(jīng)常是虛擬化的資源. 云環(huán)境依賴于計(jì)算機(jī)集群進(jìn)行任務(wù)處理,以分布式計(jì)算的方式來(lái)解決大規(guī)模數(shù)據(jù)的計(jì)算任務(wù).

        現(xiàn)階段,云計(jì)算技術(shù)已逐漸成熟,Hadoop就是云環(huán)境的典型代表,大規(guī)模的信息數(shù)據(jù)通過(guò)Hadoop云平臺(tái)完成數(shù)據(jù)存儲(chǔ),以及數(shù)據(jù)處理等操作.Hadoop以HDFS作為云存儲(chǔ)平臺(tái),存儲(chǔ)在 HDFS 中的文件被分成塊,然后將這些塊復(fù)制到多個(gè)計(jì)算機(jī)中,緩解了存儲(chǔ)壓力.MapReduce作為分布式的編程模型,系統(tǒng)自動(dòng)將一個(gè)作業(yè)(Job)待處理的大數(shù)據(jù)劃分為很多個(gè)數(shù)據(jù)塊,每個(gè)數(shù)據(jù)塊對(duì)應(yīng)于一個(gè)計(jì)算任務(wù)(Task),并自動(dòng)調(diào)度計(jì)算節(jié)點(diǎn)來(lái)處理相應(yīng)的數(shù)據(jù)塊.作業(yè)和任務(wù)調(diào)度功能主要負(fù)責(zé)分配和調(diào)度計(jì)算節(jié)點(diǎn)(Map節(jié)點(diǎn)或Reduce節(jié)點(diǎn)),同時(shí)負(fù)責(zé)監(jiān)控這些節(jié)點(diǎn)的執(zhí)行狀態(tài),并負(fù)責(zé)Map節(jié)點(diǎn)執(zhí)行的同步控制.

        云環(huán)境的廣泛應(yīng)用,為大規(guī)模的信息數(shù)據(jù)提供了一種高效的處理方式,下面將在云環(huán)境下對(duì)傳統(tǒng)樸素貝葉斯算法進(jìn)行改進(jìn).

        3 云環(huán)境下的樸素貝葉斯算法的改進(jìn)

        傳統(tǒng)的樸素貝葉斯算法是以集中處理的方式進(jìn)行工作.為適應(yīng)云環(huán)境的特點(diǎn),需要將樸素貝葉斯算法進(jìn)行改進(jìn),由集中式變?yōu)榉植际?需要分別針對(duì)樸素貝葉斯算法運(yùn)行的三個(gè)階段進(jìn)行并行化改進(jìn),將算法改寫成以MapReduce并行化方法進(jìn)行處理.在數(shù)據(jù)訓(xùn)練階段和應(yīng)用階段可采用分布式處理的方式.

        數(shù)據(jù)訓(xùn)練階段,統(tǒng)計(jì)特征屬性的頻率和每個(gè)類別在訓(xùn)練樣本中出現(xiàn)的頻率改寫成Map任務(wù)和Reduce任務(wù),數(shù)據(jù)的輸入、輸出均以鍵值對(duì)形式.該訓(xùn)練過(guò)程的統(tǒng)計(jì)分布可分為多個(gè)job執(zhí)行,每個(gè)job又分成Map階段和Reduce階段.Map階段的輸入即是Reduce階段的輸出.

        應(yīng)用階段,計(jì)算個(gè)類別的概率分布改寫為分布式處理方式,同樣寫成Map任務(wù)和Reduce任務(wù),數(shù)據(jù)的輸入、輸出均以鍵值對(duì)形式.

        利用樸素貝葉斯算法對(duì)信息進(jìn)行分類的具體步驟為:

        Step1 對(duì)所有信息進(jìn)行數(shù)據(jù)預(yù)處理,過(guò)濾不滿足要求的數(shù)據(jù);

        Step2 設(shè)訓(xùn)練樣本數(shù)目為S,類Ci的樣本數(shù)Si,類Ci存在屬性ak的樣本數(shù)為Sik;

        Step4 利用Step3訓(xùn)練模型,將待測(cè)試的評(píng)論集合代入公式(2)中計(jì)算,得到信息X的分類結(jié)果.

        對(duì)應(yīng)本文中利用樸素貝葉斯進(jìn)行信息處理過(guò)程,MapReduce 的工作流程為:首先將信息分詞處理,之后交給Mapper處理,處理后的結(jié)果重新進(jìn)行分區(qū)映射,之后交給相應(yīng)的Reducer處理,產(chǎn)生的結(jié)果可以存儲(chǔ)在HDFS上,分別由集群中的各節(jié)點(diǎn)管理.Mapper(映射)過(guò)程首先讀取SequenceFile中的每一行,之后進(jìn)行解析,將數(shù)據(jù)信息先交由Map處理,以鍵值對(duì)的形式進(jìn)行讀取,之后則產(chǎn)生另一個(gè)鍵值對(duì)輸出.之后交由Reduce處理,Reduce階段處理后得到的輸出結(jié)果也是鍵值對(duì)形式,鍵值對(duì)中的key值表示是所有的類別,value值在每一個(gè)類別下所對(duì)應(yīng)的概率值.

        4 總結(jié)

        本文主要研究了云環(huán)境下的樸素貝葉斯信息分類算法.首先對(duì)樸素貝葉斯算法進(jìn)行了分析,根據(jù)樸素貝葉斯算法的特點(diǎn),根據(jù)云環(huán)境的具體需求,對(duì)傳統(tǒng)的樸素貝葉斯算法進(jìn)行了改進(jìn),使其滿足分布式處理的要求,在大規(guī)模數(shù)據(jù)信息的處理要求下,提高了時(shí)間效率,為云環(huán)境下信息分類技術(shù)的發(fā)展奠定了基礎(chǔ).

        [1] LANGLEY P,THOMPSON K.An analysis of Bayesian classifiers[C]//Proceedings of the 10 th National Conference on Artificial Intelligence,1992:223-228

        [2] LIN C J.On the convergence of the decomposition method for support vector machines[J].IEEE Transactions on Neural Networks,2001,12(6):1288-1298

        [3] 陳 康,鄭緯民.云計(jì)算:系統(tǒng)實(shí)例與研究現(xiàn)狀[J].軟件學(xué)報(bào),2009,20(5):1337-1348

        [4] HAN J W,KAMBER M.數(shù)據(jù)挖掘概念與技術(shù)[M].范 明,孟小峰,譯.北京:機(jī)械工業(yè)出版社,2007

        Cloud Environment Information Classification Algorithms

        QIN Rong

        (Department of Information Engineering Changzhi Vocational and Technical College,Changzhi 046000, China)

        The current, with the rapid development of science and technology, information technology in the production of people's lives, play an important role. And as the explosion of data and information, traditional way of information classification is faced with many new problems and challenges, obviously can not meet the requirements, thus, cloud computing arises at the historic moment. Cloud computing, distributed processing ways for information processing, improve the efficiency of the time, has the very high practical value. Under the background of this article from the cloud environment, information on naive bayes classification algorithm to improve the research and analysis.

        cloud computing;information classification algorithms;naive bayes

        2015-10-14

        秦 蓉(1982-),女,山西省長(zhǎng)治人,碩士,長(zhǎng)治職業(yè)技術(shù)學(xué)院助教,主要從事計(jì)算機(jī)數(shù)據(jù)庫(kù)及網(wǎng)絡(luò)研究.

        1672-2027(2015)04-0068-02

        TP391

        A

        猜你喜歡
        鍵值樸素貝葉斯
        隔離樸素
        非請(qǐng)勿進(jìn) 為注冊(cè)表的重要鍵值上把“鎖”
        樸素的安慰(組詩(shī))
        他是那樣“笨拙”和樸素——30多年后,我們?yōu)槭裁催€需要讀路遙?
        最神奇最樸素的兩本書
        一鍵直達(dá) Windows 10注冊(cè)表編輯高招
        貝葉斯公式及其應(yīng)用
        基于貝葉斯估計(jì)的軌道占用識(shí)別方法
        一種基于貝葉斯壓縮感知的說(shuō)話人識(shí)別方法
        電子器件(2015年5期)2015-12-29 08:43:15
        IIRCT下負(fù)二項(xiàng)分布參數(shù)多變點(diǎn)的貝葉斯估計(jì)
        自拍偷自拍亚洲一区二区| 成人国产永久福利看片| 亲少妇摸少妇和少妇啪啪| 一区二区在线观看日本视频| 国产精品h片在线播放| 久久午夜伦鲁片免费无码| 日韩av一区二区毛片| 国产精品亚洲一区二区三区久久 | 国产精品三区四区亚洲av| 久久久国产乱子伦精品作者| 国产女人成人精品视频| 国产偷闻隔壁人妻内裤av| 国产高清在线一区二区不卡| 永久黄网站免费视频性色| 一区二区国产在线观看| 少妇极品熟妇人妻高清| 人妻久久一区二区三区蜜桃| 亚洲熟女乱色综合亚洲av| 亚洲av日韩aⅴ无码电影 | 久久亚洲精品国产av| 99精品国产一区二区三区不卡| 亚洲无码精品免费片| 国产麻豆放荡av激情演绎| 国产日本精品视频一区二区| 男女车车的车车网站w98免费| 久久福利资源国产精品999| 久久午夜一区二区三区| 成人免费a级毛片无码片2022| 久久久久亚洲av无码专区| 免费人人av看| 婷婷久久精品国产色蜜蜜麻豆| 亚洲国产成人无码av在线影院| 久久国产亚洲AV无码麻豆| 日本女u久久精品视频| 欧美不卡一区二区三区| 亚洲影院天堂中文av色| 久久久亚洲女精品aa| 成人av片在线观看免费| 国产精品麻豆欧美日韩ww| 亚洲性爱区免费视频一区| 漂亮丰满人妻被中出中文字幕|