亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        食品安全大數(shù)據(jù)的融合及分類技術綜述

        2020-04-15 02:50:10張素智陳小妮李鵬輝
        計算機技術與發(fā)展 2020年2期
        關鍵詞:決策樹貝葉斯神經(jīng)網(wǎng)絡

        張素智,陳小妮,李鵬輝,楊 芮,蔡 強

        (1.鄭州輕工業(yè)大學 計算機與通信工程學院,河南 鄭州 450002;2.北京工商大學 食品安全大數(shù)據(jù)技術北京市重點實驗室,北京 100048)

        0 引 言

        隨著信息時代的到來,大數(shù)據(jù)迅速發(fā)展,逐漸成為科技界和企業(yè)界關注的熱門話題[1]?;ヂ?lián)網(wǎng)和各產(chǎn)業(yè)數(shù)據(jù)的爆炸式增長,使得大數(shù)據(jù)、云計算等概念越來越廣泛。大數(shù)據(jù)概念的興起為人們打開了一個新視角,為了更大程度地發(fā)揮大數(shù)據(jù)的價值,大數(shù)據(jù)挖掘成為了人們的關注熱點。與此同時,食品安全相關事件在國內(nèi)不斷發(fā)生[2],如“洗衣粉油條”事件、“陳化糧毒米”事件、“鐵醬油”事件、“毛發(fā)醬油”事件以及牛奶業(yè)普遍使用三聚氰胺的事件等,給人民的生命和國家的發(fā)展帶來嚴重的威脅。食品安全從原料生產(chǎn)到消費,涉及食品鏈的各個環(huán)節(jié),產(chǎn)生了大量的數(shù)據(jù)。處理與分析數(shù)據(jù)量大、數(shù)據(jù)結構復雜的食品安全大數(shù)據(jù),傳統(tǒng)的技術手段很難滿足要求,因此實現(xiàn)食品安全和大數(shù)據(jù)產(chǎn)業(yè)的融合,增強食品安全大數(shù)據(jù)的分析,成為了研究的重點方向。

        針對食品安全大數(shù)據(jù)處理關鍵技術,重點介紹了食品安全大數(shù)據(jù)預處理、食品安全大數(shù)據(jù)融合、并行挖掘技術、并行挖掘算法這幾方面內(nèi)容。目前,許多研究人員針對食品安全大數(shù)據(jù)處理技術進行了大量的研究。例如,孟小峰等[3]詳細解析了大數(shù)據(jù)的基本概念,介紹了大數(shù)據(jù)處理的基本框架以及大數(shù)據(jù)的主要應用;王志海等[4]提出了一種懶惰式shapelets分類模型,該模型主要依據(jù)待分類實例顯著局部特征,為各個待分類的實例構建各自的數(shù)據(jù)驅(qū)動懶惰式分類模型,該模型不但具有高準確率,還具有強可解釋性;季一木等[5]基于分布式計算平臺提出了一種Storm的P-HT并行化算法,該算法解決了概念漂移問題,同時提高了分類算法的有效性和高效性;宋杰等[6]介紹了12個典型的基于MapReduce的大數(shù)據(jù)處理平臺的實現(xiàn)原理和適用場景以及基于MapReduce的大數(shù)據(jù)分析算法,并在對外存算法特征進行分析的基礎上,提出了適合外存算法性能優(yōu)化方法的研究思路;程學旗等[1]綜述了大數(shù)據(jù)的應用場景,總結了大數(shù)據(jù)處理系統(tǒng)的關鍵技術,梳理了大數(shù)據(jù)處理所面臨的各種挑戰(zhàn),并依次提出了應對措施。

        文中對食品安全大數(shù)據(jù)進行概要性描述,概述食品安全大數(shù)據(jù)來源、特征以及處理關鍵技術和挖掘基本流程??偨Y了食品安全大數(shù)據(jù)預處理,對食品安全大數(shù)據(jù)融合的三個層次進行分析和對比,并對已有的食品安全大數(shù)據(jù)的關鍵技術進行總結。針對食品安全大數(shù)據(jù)并行挖掘技術,介紹了并行計算模式。針對食品安全大數(shù)據(jù)并行挖掘算法的設計,對幾種常用分類算法進行總結和比較。最后總結全文并展望未來食品安全大數(shù)據(jù)面臨的挑戰(zhàn)和熱門研究方向。

        1 食品安全大數(shù)據(jù)概述

        食品安全大數(shù)據(jù)作為大數(shù)據(jù)的一種,符合大數(shù)據(jù)的典型4V特征,即量大(volume)、多樣(varity)、高速(velocity)和價值密度低卻應用價值大(value)[7]。食品安全數(shù)據(jù)作為食品安全大數(shù)據(jù)處理對象,需要對其進行充分了解,包括:數(shù)據(jù)來源、數(shù)據(jù)特征以及處理關鍵技術,然后才能更加有效地挖掘其信息中的價值。本節(jié)介紹了食品安全大數(shù)據(jù)的來源與特征、食品安全大數(shù)據(jù)處理關鍵技術和食品安全大數(shù)據(jù)挖掘基本流程。

        1.1 食品安全大數(shù)據(jù)來源及其特征

        信息時代,食品安全數(shù)據(jù)來源范圍較廣,在日常生活中人們能夠接觸到的與食品相關的數(shù)據(jù)都在范圍之內(nèi),主要包括:各種食品安全檢測裝置的結果;RFID傳感器的食品質(zhì)量檢測數(shù)據(jù);企業(yè)和監(jiān)管部門;移動互聯(lián)網(wǎng)、社交媒體等。食品安全數(shù)據(jù)涵蓋了多種類型,數(shù)據(jù)量隨時間的積累變得越來越大[8]。

        食品安全大數(shù)據(jù)除具有大數(shù)據(jù)的4V特性外,受錯綜復雜的食品安全環(huán)境、消費人群、監(jiān)測數(shù)據(jù)飛速增長等因素的影響,還具有如下具體特征[9]:

        (1)數(shù)據(jù)容量大。來自食品安全監(jiān)測點、哨點的數(shù)據(jù),各個地方上報的食品污染物數(shù)據(jù),食品安全環(huán)境監(jiān)測數(shù)據(jù)和其他食品企業(yè)自身生產(chǎn)的數(shù)據(jù),這些數(shù)據(jù)聚集在一起就形成了十分龐大的數(shù)據(jù)庫。

        (2)更新速度迅速。食品安全信息中包含大量的在線或?qū)崟r數(shù)據(jù)分析和處理要求。

        (3)種類多。食品安全數(shù)據(jù)包含各種結構化數(shù)據(jù)、非(半)結構化數(shù)據(jù)和其他多種數(shù)據(jù)存儲形式。

        (4)成本低、價值大。食品安全大數(shù)據(jù)中存在著大量無用、冗余的信息,但這些信息具有很大的挖掘和應用價值,與個人生活、食品行業(yè)、國民經(jīng)濟息息相關。

        1.2 食品安全大數(shù)據(jù)處理技術

        食品安全大數(shù)據(jù)模型中,層次與層次之間聯(lián)系緊密,原始的食品安全數(shù)據(jù)存在很多的冗余和噪音,需要經(jīng)過數(shù)據(jù)清洗和提煉、數(shù)據(jù)融合等預處理的方式轉化為規(guī)范數(shù)據(jù),再經(jīng)過并行處理、分類等挖掘技術來獲取有價值的信息,其采用的關鍵技術如圖1所示。

        2 食品安全大數(shù)據(jù)預處理

        食品安全大數(shù)據(jù)預處理的目的主要有:①清除冗余數(shù)據(jù);②糾正錯誤數(shù)據(jù);③完善殘缺數(shù)據(jù);④選出必需的數(shù)據(jù)進行集成。另外,對食品安全大數(shù)據(jù)進行預處理后再挖掘,可以大大提高數(shù)據(jù)挖掘的質(zhì)量,縮短實際挖掘所需的時間[10]。食品安全大數(shù)據(jù)預處理一般包括4步:清洗、集成、轉換、歸約。本節(jié)將從這4方面介紹食品安全大數(shù)據(jù)預處理。

        圖1 食品安全大數(shù)據(jù)處理技術

        2.1 大數(shù)據(jù)清洗

        食品安全大數(shù)據(jù)的清洗主要是為了檢測食品安全數(shù)據(jù)中的冗余數(shù)據(jù)、錯誤數(shù)據(jù)、不一致數(shù)據(jù)等噪聲數(shù)據(jù)。一般的清洗內(nèi)容主要包括:清除重復數(shù)據(jù)、完善缺失數(shù)據(jù)、消除噪聲數(shù)據(jù)等[11]。食品安全大數(shù)據(jù)的清洗技術大致可以分為以下幾類:

        (1)重復數(shù)據(jù)的清洗。由于在食品安全數(shù)據(jù)集中存在重復的記錄,為了提高食品安全數(shù)據(jù)的挖掘效率,對重復數(shù)據(jù)進行清洗尤為重要。

        (2)缺失數(shù)據(jù)清洗。食品安全大數(shù)據(jù)清洗需要解決的另外一個重要問題是完善缺失數(shù)據(jù)。對缺失值清洗的方法有很多,文獻[12]提出了一種基于MapReduce的大數(shù)據(jù)缺失值填充算法,用來解決缺失值填充問題,該算法通過MapReduce框架中的兩種算法實現(xiàn)了大數(shù)據(jù)處理的并行化。

        2.2 大數(shù)據(jù)集成

        由于食品安全大數(shù)據(jù)具有多源性,因此在對食品安全大數(shù)據(jù)進行數(shù)據(jù)處理過程中勢必涉及到多個數(shù)據(jù)庫。大量冗余數(shù)據(jù)可能會影響信息發(fā)現(xiàn)過程的性能。因此需要對食品安全大數(shù)據(jù)進行集成,將多個數(shù)據(jù)源合并成一致的數(shù)據(jù)源存儲。經(jīng)過有效的數(shù)據(jù)集成,能夠提高食品安全大數(shù)據(jù)的挖掘精度和速度。

        2.3 大數(shù)據(jù)轉換

        食品安全行業(yè)在長期的業(yè)務實踐中累積了大量獨立分布異構的數(shù)據(jù),這些數(shù)據(jù)不僅具有不同的數(shù)據(jù)類型,而且具有不同的存儲方式。這些都要求食品安全大數(shù)據(jù)在集成過程中對數(shù)據(jù)進行轉換。通過轉換將食品安全大數(shù)據(jù)變成適合挖掘的形式。

        2.4 大數(shù)據(jù)歸約

        食品安全大數(shù)據(jù)的典型特征是數(shù)據(jù)規(guī)模大,如果直接進行數(shù)據(jù)挖掘、分析,將消耗大量的時間和精力,并且分析結果也會比較差。而通過歸約技術可以將大規(guī)模數(shù)據(jù)集轉換為小規(guī)模數(shù)據(jù)集,這樣不但保持了原數(shù)據(jù)的完整性,又為進一步的數(shù)據(jù)挖掘提供了方便。

        3 食品安全大數(shù)據(jù)融合及關鍵技術

        食品安全大數(shù)據(jù)融合作為一種技術手段,可以在最大程度上發(fā)揮食品安全大數(shù)據(jù)的價值,它的實現(xiàn)可以使人們對食品安全行業(yè)的探索和認識向新的深度和廣度拓展。它不同于傳統(tǒng)的數(shù)據(jù)集或知識庫技術,需要大跨度、深層次和綜合性的研究方法。食品安全大數(shù)據(jù)的融合層次可以分為數(shù)據(jù)層融合、特征層融合和決策層融合[13]。文中主要工作是對3種層次的融合以及食品安全大數(shù)據(jù)融合關鍵技術進行介紹。

        3.1 數(shù)據(jù)融合結構分類

        (1)數(shù)據(jù)層融合。

        數(shù)據(jù)層融合又叫像素級融合,在食品安全大數(shù)據(jù)中經(jīng)過數(shù)據(jù)層融合不僅能夠最大程度上保留原始食品安全數(shù)據(jù)的特征,而且能夠提供較多的細節(jié)信息[14]。融合過程如圖2所示。

        圖2 數(shù)據(jù)層融合過程

        數(shù)據(jù)層融合作為食品安全大數(shù)據(jù)融合的最低層次融合,用以消除食品安全數(shù)據(jù)中的冗余信息,去噪和去異常值。

        (2)特征層融合。

        特征層融合在食品安全大數(shù)據(jù)融合過程中屬于中間的一個層次。融合過程如圖3所示。從圖中可以看出,特征級融合首先提取特征信息,然后進行融合。特征層融合可以在食品安全大數(shù)據(jù)融合過程中做到較好的信息壓縮,從而減少了數(shù)據(jù)融合的通信量。相對于數(shù)據(jù)級融合,特征層融合具有更好的實時性。在食品安全大數(shù)據(jù)中為了保證數(shù)據(jù)融合精度,特征層融合常采用的方法有:人工神經(jīng)網(wǎng)絡、特征壓縮聚類法、卡爾曼濾波等。

        圖3 特征層融合過程

        (3)決策層融合。

        決策層融合在食品安全大數(shù)據(jù)融合中屬于一種更高層次的融合。融合過程如圖4所示。通過各傳感器的食品安全大數(shù)據(jù),在融合之前先完成各自的決策或識別工作,隨后將這些決策進行融合,最終獲得具有整體一致性的決策結果。

        (4)大數(shù)據(jù)融合層次比較。

        總體來說,三個層次的融合在食品安全大數(shù)據(jù)融合中各具優(yōu)勢。如表1所示,從對傳感器的依賴性、數(shù)據(jù)量、通信量等方面對比分析了幾個融合級別的優(yōu)缺點。

        圖4 決策層融合過程

        表1 數(shù)據(jù)融合級別對比

        融合級別數(shù)據(jù)級特征級決策級傳感器依賴性同質(zhì)不限不限數(shù)據(jù)量大中小通信量大中小信息損失小中大處理代價大中小實時性小中大抗干擾性小中大融合精度大中小

        可以看出,由于數(shù)據(jù)級融合是最基礎層次融合,能夠在保全盡量多信息的條件下對食品安全大數(shù)據(jù)進行數(shù)據(jù)融合,但是對傳感器、通信能力、處理代價等要求較高;相反地,決策層融合多源異構食品安全大數(shù)據(jù)的同時,僅需要較小的數(shù)據(jù)線路通信,也有較好的通信量,但融合精度低。特征級數(shù)據(jù)融合各項性能居中,綜合了其他兩個層次的優(yōu)缺點。

        3.2 數(shù)據(jù)融合關鍵技術

        食品安全大數(shù)據(jù)融合方法可以分為經(jīng)典融合方法和現(xiàn)代融合方法。在經(jīng)典融合方法中一般采用加權平均數(shù)法、卡爾曼濾波法、貝葉斯推理法等方法。在現(xiàn)代融合方法中常常采用神經(jīng)網(wǎng)絡、邏輯模糊法等方法。具體結構如圖5所示。

        圖5 數(shù)據(jù)融合算法結構

        (1)估計方法。

        估計方法主要包括最小二乘、加權平均數(shù)、卡爾曼濾波等線性估計方法,以及一些非線性估計方法,主要有高斯濾波、擴展的卡爾曼濾波等。

        卡爾曼濾波法一般用于動態(tài)環(huán)境中多傳感器信息的實時融合,其算法核心是計算各傳感器數(shù)據(jù)之間的加權平均值,其中權值與測量方差成反比。在實際應用中,通過調(diào)節(jié)各傳感器的方差值來改變權值,從而得到更可靠的結果。

        目前國內(nèi)外對卡爾曼濾波法進行了大量研究。文獻[15]提出一種基于壓縮感知的擴展卡爾曼濾波跟蹤方法,并將該方法應用到單目標跟蹤中,與傳統(tǒng)卡爾曼濾波相比,該方法具有更好的精確度和穩(wěn)定度。文獻[16]提出基于模糊卡爾曼算法的姿態(tài)誤差補償方法,通過引入模糊卡爾曼濾波數(shù)據(jù)融合算法對陀螺誤差校正,與常規(guī)卡爾曼濾波算法相比,精度更高。針對食品安全大數(shù)據(jù)融合過程,采用卡爾曼濾波器對多傳感器采集的食品安全數(shù)據(jù)進行融合,不僅可顯著提高容錯性,還可有效降低數(shù)據(jù)傳輸運算量。但是由于數(shù)據(jù)量巨大時,該方法的實時性較差,因此還需要進一步研究。

        (2)統(tǒng)計方法。

        統(tǒng)計方法一般常用的有貝葉斯推理、支持向量機理論、經(jīng)典推理等等。

        貝葉斯估計提供了一種按概率理論組合多傳感器信息的方法,貝葉斯估計理論基礎是貝葉斯法則。

        文獻[17]通過實驗證明,利用貝葉斯估計方法對多傳感器數(shù)據(jù)進行融合,可以解決數(shù)據(jù)的不確定和不一致性。通常來說,在先驗概率已知的情況下,貝葉斯估計法是食品安全大數(shù)據(jù)融合的最佳方法。

        (3)信息論方法。

        信息論方法在多源數(shù)據(jù)融合中應用數(shù)理統(tǒng)計知識研究信息的處理和傳遞,其典型算法有:熵方法、模糊理論、模板法、最小描述長度方法等。

        模糊理論在數(shù)據(jù)融合領域應用的實質(zhì)就是利用一個模糊映射將數(shù)據(jù)源信息作為輸入映射到融合結果的輸出空間,其基本思想就是將原本只有兩個取值0或1,擴展到一個連續(xù)的取值范圍:[0,1],用這個區(qū)間內(nèi)的一個值來表示元素對某個模糊集的隸屬程度,通過這種度量方法能夠很好地描述和表達不確定事件。

        模糊理論一定程度上克服了概率論方法的缺點,不需要一個確定的概率表達事情可能性,它對“可能性”的分析更加貼近人的處理方式。多傳感器數(shù)據(jù)融合中,模糊集理論在處理模糊問題和模糊推理上具有顯著優(yōu)勢。文獻[18]通過實驗證明,模糊集理論在多傳感器信息融合中計算量小、融合精度較高。在食品安全大數(shù)據(jù)融合過程中,模糊集理論方法可以實現(xiàn)食品安全數(shù)據(jù)的簡化,去除冗余信息。

        (4)人工智能方法。

        近年來人工智能方法蓬勃發(fā)展,被應用在多個領域,尤其在大數(shù)據(jù)融合領域應用十分廣泛。人工智能方法一般包括神經(jīng)網(wǎng)絡、遺傳算法、邏輯模糊法等。

        神經(jīng)網(wǎng)絡可對復雜的非線性映射進行模擬,具有運算速度快、適應能力強、容錯率高等特點,使得神經(jīng)網(wǎng)絡能很好地適應多源數(shù)據(jù)融合的處理要求。BP(back propagation)神經(jīng)網(wǎng)絡是目前使用最普遍的一種神經(jīng)網(wǎng)絡,采用梯度搜索技術對輸入的樣本進行學習。

        基于神經(jīng)網(wǎng)絡方法,文獻[19]提出一種粗糙集結合BP神經(jīng)網(wǎng)絡的數(shù)據(jù)融合方法,該方法縮減了BP神經(jīng)網(wǎng)絡的規(guī)模,提高了數(shù)據(jù)融合效率,相比于傳統(tǒng)的神經(jīng)網(wǎng)絡融合系統(tǒng),具有較強的有效性。文獻[20]提出基于Mam dani模糊推理的神經(jīng)無網(wǎng)絡,并應用于通偵信息融合系統(tǒng)。實驗證明該方法同時具備模糊集理論和神經(jīng)網(wǎng)絡的優(yōu)點,相比于貝葉斯、DS,該方法不需要給出先驗概率。運用神經(jīng)網(wǎng)絡方法實現(xiàn)食品安全大數(shù)據(jù)融合,可以僅僅依賴食品安全原始數(shù)據(jù)樣本,從而大大降低了食品安全數(shù)據(jù)的處理代價。但是,由于網(wǎng)絡節(jié)點較多,訓練需要大量的計算量和時間。另外,由于該方法對食品安全大數(shù)據(jù)的融合效果不是太理想,因此將神經(jīng)網(wǎng)絡與其他理論相結合還需要進一步的改進。

        4 食品安全大數(shù)據(jù)并行挖掘技術

        并行數(shù)據(jù)挖掘的基礎是并行計算。針對食品安全大數(shù)據(jù),使用Hadoop平臺的MapReduce可以實現(xiàn)并行挖掘,MapReduce是Hadoop的核心部分之一,主要用于處理大量數(shù)據(jù)集。

        食品安全大數(shù)據(jù)的并行計算模式一般可以理解為兩方面內(nèi)容。首先將順序執(zhí)行的計算任務分成可以同時執(zhí)行的子任務,然后通過并行執(zhí)行這些子任務從而完成整個計算任務[21]。并行計算模式的實現(xiàn)可以提高食品安全大數(shù)據(jù)計算的速度。

        在MapReduce模型中,程序執(zhí)行過程主要存在兩個核心操作,即:Map操作和Reduce操作,Map是對數(shù)據(jù)進行映射,Reduce是對數(shù)據(jù)進行規(guī)約[22]。目前,運行MapReduce的集群往往由數(shù)十臺、甚至數(shù)百上千臺服務器組成,用于處理大規(guī)模數(shù)據(jù)。

        5 食品安全大數(shù)據(jù)并行挖掘算法設計

        食品安全大數(shù)據(jù)具有海量、高速變化、噪聲、結構復雜等特點,對其進行快速準確的分類,是從食品安全大數(shù)據(jù)中提取符合需要的、精煉的、可理解信息的重要方法。分類技術是利用已有的訓練樣本去訓練,從而得到一個最佳模型,再利用這個模型對測試數(shù)據(jù)進行類別判斷從而實現(xiàn)分類的目的,也就具有了對未知數(shù)據(jù)進行分類的能力。本節(jié)主要介紹了幾種典型的分類算法并對它們的性能進行簡單的比較。

        5.1 常見分類算法

        5.1.1 樸素貝葉斯

        樸素貝葉斯分類算法是基于貝葉斯定理,該算法的核心是概率統(tǒng)計知識,屬于監(jiān)督學習的生成模型,算法原理如下:

        (1)設x={a1,a2,…,am}為一個待分類的項,而每一個a為x的一個特征屬性;

        (2)有類別集合C={y1,y2,…,yn};

        (3)計算P(y1|x),P(y2|x),…,P(yn|x);

        (4)如果P(yk|x)=max{P(y1|x),P(y2|x),…,P(yn|x)},則x∈yk。

        其中,第3步中的每個條件概率的計算,一般采用如下步驟:

        (a)找到一個已知分類的待分類項集合,這個集合稱為訓練樣本集。

        (b)通過統(tǒng)計得各類別下每個特征屬性的條件概率估計值,即:

        P(a1|y1),P(a2|y1),…,P(am|y1);P(a1|y2),P(a2|y2),…,P(am|y2),…,P(a1|yn),

        P(a2|yn),…,P(am|yn)

        (c)如果特征屬性之間是條件獨立的,則根據(jù)貝葉斯定理可以得出:

        對于所有類通常認為P(x)為常數(shù),所以只要將P(x|yi)最大化即可。又由于特征屬性之間是條件獨立的,可以得出:

        對于大數(shù)據(jù)分類,樸素貝葉斯分類算法的分類效率比較穩(wěn)定,尤其對于小規(guī)模數(shù)據(jù)。但在另一方面,由于食品安全大數(shù)據(jù)規(guī)模大,屬性之間的關聯(lián)性比較復雜,因此使用樸素貝葉斯分類算法效果不是太好,應該在考慮部分關聯(lián)性的基礎上對貝葉斯算法做進一步改進。文獻[23]基于粗糙集的可識別矩陣,提出一種基于屬性頻率的加權樸素貝葉斯方法;文獻[24]結合大樣本集的缺點,將泊松分布模型引入到樸素貝葉斯分類算法中,從而提高了分類的精度;文獻[25]介紹了代價敏感思想、構造出自適應代價函數(shù),解決了不平衡數(shù)據(jù)分類問題;文獻[16]給出了基于MapReduce并行化的樸素貝葉斯算法,該算法的核心處理過程由MapReduce完成,Map函數(shù)完成對訓練文件的解析,Reduce函數(shù)完成類別屬性和特征屬性知識庫的構建。

        5.1.2 決策樹

        決策樹分類算法是一種自頂向下遞歸建模算法。該算法可以分為兩大部分:構建決策樹部分;使用決策樹分類部分。

        ID3算法是決策樹分類算法的經(jīng)典算法,其用“信息增益”作為屬性選擇標準。由于ID3算法一般適用于離散型屬性,因此提出了一種優(yōu)化算法C4.5。C4.5算法用“信息增益率”進行計算,在運算過程中先將連續(xù)型屬性轉換為離散型,然后再進行屬性分類。

        針對食品安全大數(shù)據(jù),采用決策樹分類算法顯著提高了食品安全數(shù)據(jù)的分類效果。另外,研究人員還提出大量的改進算法,例如,文獻[26]對生成決策樹算法的目標函數(shù)進行了改進,且對影響分類結果的約束條件中的特征進行了多方面衡量,從而提高分類節(jié)點的精確度;文獻[27]提出一種基于粗糙模糊集的容錯粗糙模糊決策樹算法,與一般決策樹相比,該算法具有較快的學習速度和較大的收斂概率;文獻[28]提出一種HAC4.5決策樹算法,該算法與Hadoop平臺并行,不僅提高了運行速度,而且提高了計算精度。

        5.1.3 神經(jīng)網(wǎng)絡

        神經(jīng)網(wǎng)絡針對規(guī)模大、復雜度高、存在噪聲等特點的數(shù)據(jù),具有很強的承受力、較高的準確率和較強的分類速率。因此神經(jīng)網(wǎng)絡分類算法可用于食品安全大數(shù)據(jù)挖掘。但是當食品安全大數(shù)據(jù)的隱藏節(jié)點數(shù)量十分大時,實現(xiàn)食品安全大數(shù)據(jù)的分類將會消耗大量的時間。針對這個問題,文獻[29]結合生物神經(jīng)元學習和記憶形成的特點,提出了一種改進的BP算法,解決了網(wǎng)絡學習慢的問題;文獻[30]又提出了一種基于構造型神經(jīng)網(wǎng)絡的最大密度覆蓋分類方法,進一步提高了神經(jīng)網(wǎng)絡的訓練速度,同時提高了神經(jīng)網(wǎng)絡分類算法的有效性。基于以上四種算法的原理,綜合分類精度、模型效率、非數(shù)值型數(shù)據(jù)處理能力、運行速度、模型結構等幾方面給出如表2所示的對比情況。

        表2 典型分類算法綜合對比情況

        5.2 并行分類算法

        食品安全大數(shù)據(jù)具有海量、高速變化、噪聲、結構復雜等特點,對其進行快速準確的分類,是尋找數(shù)據(jù)潛在規(guī)律的重要方法。傳統(tǒng)的數(shù)據(jù)分類算法處理大數(shù)據(jù)時存在可行性差、效率低、分類精度不高等問題。而目前基于MapReduce模型的分布式并行處理架構成為處理海量數(shù)據(jù)的新方法。例如,文獻[31]提出了一種在分布式環(huán)境中執(zhí)行的決策樹分類器構建算法,該算法與傳統(tǒng)決策樹分類器相比,對多處理器上的流數(shù)據(jù)具有可伸縮性。文獻[32]回顧了分布式支持向量機(DSVMs)的研究現(xiàn)狀,并分析現(xiàn)有的分布式支持向量機的優(yōu)缺點,提出一些支持向量機算法分布的研究和有待解決的問題。文獻[33]設計并實現(xiàn)了一種基于MapReduce架構的并行決策樹分類算法,相比于傳統(tǒng)的決策樹和ID3算法,該算法不僅可以處理規(guī)模比較大的數(shù)據(jù),還具有較好的可擴展性。因此,從并行計算出發(fā),提高食品安全大數(shù)據(jù)分類算法的效率和精度是一個重要的研究方向。

        6 結束語

        食品安全大數(shù)據(jù)是食品安全科學發(fā)展的一種趨勢,同樣也是大數(shù)據(jù)研究的重要應用領域之一。隨著全國科技水平的不斷提高,食品行業(yè)積累了大量、來源多樣、增長速度快、價值密度低卻應用價值大的數(shù)據(jù),如何分析、處理和利用這些數(shù)據(jù),挖掘其內(nèi)在信息價值,成為食品安全行業(yè)重點關注的問題[34]。大數(shù)據(jù)作為一門綜合性科學,其理論體系不斷成熟,隨著新的理論和方法的形成,將會催生新的技術,這給研究人員學習利用大數(shù)據(jù)技術,實現(xiàn)食品安全大數(shù)據(jù)的更多價值帶來了許多挑戰(zhàn)。主要從以下幾方面展望未來食品安全大數(shù)據(jù)所面臨的挑戰(zhàn)。

        隨著大數(shù)據(jù)時代的到來,針對當前多源、異構、海量的食品安全大數(shù)據(jù),傳統(tǒng)單一的處理模式和方法已經(jīng)不能應對。而提升海量數(shù)據(jù)處理能力的問題迫在眉睫,同時分布式處理是當下最有效的手段。因此,根據(jù)不同的食品安全大數(shù)據(jù)處理要求,選擇合適的分布式處理框架和處理算法,將成為未來食品安全大數(shù)據(jù)的研究重點。

        在大數(shù)據(jù)和人工智能的不斷發(fā)展下,深度學習越來越受重視,逐漸成為人工智能領域的研究熱點[35]。深度學習被廣泛應用于多個領域,目前在圖像識別、語音識別、自然語言處理等領域取得了突破性的進展。文獻[36]探索了深度學習在手寫字符識別中的應用,提出卷積神經(jīng)網(wǎng)絡、深度信念網(wǎng)絡兩種深度學習算法并在實驗中取得了較好的結果。文獻[37]將DBNs運用到視聽語音識別,測試了傳統(tǒng)的結合單模態(tài)DBNs評分的決策融合和基于單模態(tài)DBNs學習的中級特征的新特征融合兩種方法。由此可見,實現(xiàn)深度學習與食品安全大數(shù)據(jù)的結合,通過建立基于模式融合的深度學習方法,可以有效改善傳統(tǒng)食品安全大數(shù)據(jù)分析處理的缺點,從而更大程度上實現(xiàn)食品安全大數(shù)據(jù)的信息價值。

        猜你喜歡
        決策樹貝葉斯神經(jīng)網(wǎng)絡
        神經(jīng)網(wǎng)絡抑制無線通信干擾探究
        電子制作(2019年19期)2019-11-23 08:42:00
        一種針對不均衡數(shù)據(jù)集的SVM決策樹算法
        決策樹和隨機森林方法在管理決策中的應用
        電子制作(2018年16期)2018-09-26 03:27:06
        貝葉斯公式及其應用
        基于決策樹的出租車乘客出行目的識別
        基于貝葉斯估計的軌道占用識別方法
        基于神經(jīng)網(wǎng)絡的拉矯機控制模型建立
        重型機械(2016年1期)2016-03-01 03:42:04
        一種基于貝葉斯壓縮感知的說話人識別方法
        電子器件(2015年5期)2015-12-29 08:43:15
        復數(shù)神經(jīng)網(wǎng)絡在基于WiFi的室內(nèi)LBS應用
        基于肺癌CT的決策樹模型在肺癌診斷中的應用
        中国国语毛片免费观看视频| 中文字幕人妻互换激情| 日韩极品视频免费观看| 婷婷色香五月综合激激情| 亚洲欧美精品aaaaaa片| 欧美手机在线视频| 色婷婷在线一区二区三区| 无码无套少妇毛多18p| 孩交精品xxxx视频视频| 人妻少妇一区二区三区| 隔壁人妻欲求不满中文字幕| 狠狠色狠狠色综合网| 人妻无码aⅴ不卡中文字幕| 2021国产精品一区二区在线| 五十路在线中文字幕在线中文字幕 | 日本久久一区二区三区高清| 亚洲不卡高清av网站| 国产人妻丰满熟妇嗷嗷叫| 一级二级中文字幕在线视频| 黄色国产一区在线观看| 最新露脸自拍视频在线观看| 国产涩涩视频在线观看| 日本a在线播放| 高清国产亚洲精品自在久久| 午夜精品久久久久久久无码| 美女高潮无遮挡免费视频| 国产熟女自拍视频网站| 国产精品日韩经典中文字幕| 国产精品无码一本二本三本色| 国产精品高清视亚洲乱码有限公司| 女同欲望一区二区三区| 亚洲s色大片在线观看| 亚洲一区av无码少妇电影| 谁有在线观看av中文| 久久国产精品亚洲va麻豆| 2020年国产精品| 亚洲一区二区三区在线观看播放| 国产美女高潮流白浆视频| 国产精品久久久久9999吃药| 久久国产精品国产精品日韩区| 日本中文字幕人妻精品|