亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        食品安全風(fēng)險(xiǎn)評(píng)估中數(shù)據(jù)挖掘方法的分析與擇取

        2014-12-31 00:00:00楊劼

        摘 要:文章對(duì)數(shù)據(jù)挖掘技術(shù)的概念、特點(diǎn)、功能、技術(shù)等進(jìn)行概述介紹和簡(jiǎn)單分析,根據(jù)食品安全風(fēng)險(xiǎn)評(píng)估工作的客觀(guān)條件和現(xiàn)實(shí)情況,提出適宜采取的數(shù)據(jù)挖掘方法。

        關(guān)鍵詞:數(shù)據(jù)挖掘方法;關(guān)聯(lián)規(guī)則

        中圖分類(lèi)號(hào):TP311

        1 數(shù)據(jù)挖掘概述

        隨著信息技術(shù)的迅速發(fā)展,大爆炸式的數(shù)據(jù)容量膨脹,關(guān)系數(shù)據(jù)庫(kù)系統(tǒng)里的信息處理方法卻無(wú)法發(fā)現(xiàn)數(shù)據(jù)間隱藏的規(guī)則和聯(lián)系,缺乏挖掘數(shù)據(jù)背后潛在知識(shí)的方法。數(shù)據(jù)挖掘技術(shù)應(yīng)運(yùn)而生。數(shù)據(jù)挖掘是從大量數(shù)據(jù)中,發(fā)現(xiàn)提取隱藏在數(shù)據(jù)中、有價(jià)值的知識(shí)的過(guò)程。它是一門(mén)跨學(xué)科的技術(shù),基于統(tǒng)計(jì)學(xué)、數(shù)據(jù)庫(kù)、模式識(shí)別、可視化技術(shù)、機(jī)器學(xué)習(xí)、人工智能等,高度自動(dòng)化地分析數(shù)據(jù)。數(shù)據(jù)挖掘能預(yù)測(cè)數(shù)據(jù)未來(lái)的走向,幫助決策者有效管理資源,并對(duì)決策提供數(shù)據(jù)支持。

        2 數(shù)據(jù)挖掘方法分析

        2.1 數(shù)據(jù)挖掘的功能

        數(shù)據(jù)挖掘用于發(fā)現(xiàn)數(shù)據(jù)庫(kù)中隱藏著的規(guī)則、模式、知識(shí)。它的任務(wù)決定了它的功能。一般來(lái)說(shuō),數(shù)據(jù)挖掘技術(shù)具有兩大基本功能:描述和預(yù)測(cè)。描述是對(duì)現(xiàn)有數(shù)據(jù)進(jìn)行分析,刻畫(huà)這些數(shù)據(jù)的普遍規(guī)律,發(fā)現(xiàn)數(shù)據(jù)之間的聯(lián)系;預(yù)測(cè)也是通過(guò)對(duì)現(xiàn)有數(shù)據(jù)進(jìn)行分析,預(yù)測(cè)數(shù)據(jù)未來(lái)的出現(xiàn)和發(fā)展趨勢(shì)。

        2.2 數(shù)據(jù)挖掘的特點(diǎn)

        數(shù)據(jù)挖掘技術(shù)是一種“發(fā)現(xiàn)”的過(guò)程。通過(guò)數(shù)據(jù)挖掘技術(shù)與傳統(tǒng)信息處理技術(shù)的對(duì)比,可以發(fā)現(xiàn)數(shù)據(jù)挖掘具有以下特點(diǎn):

        2.2.1 基于海量數(shù)據(jù)

        數(shù)據(jù)是根本。某次數(shù)據(jù)挖掘必須建立在一個(gè)具有代表性的海量數(shù)據(jù)基礎(chǔ)上。需要處理的數(shù)據(jù)源往往是從一個(gè)或多個(gè)數(shù)據(jù)庫(kù)里,經(jīng)過(guò)數(shù)據(jù)預(yù)處理過(guò)程抽取而成的。

        2.2.2 離散性

        相比起數(shù)理統(tǒng)計(jì)學(xué)中含有大量對(duì)連續(xù)變量的分析模型,數(shù)據(jù)挖掘更適合對(duì)離散化的數(shù)據(jù)進(jìn)行分析。在數(shù)據(jù)預(yù)處理的過(guò)程中,往往需要把連續(xù)的數(shù)據(jù)離散化,以供數(shù)據(jù)挖掘工具使用。

        2.2.3 實(shí)用性

        數(shù)據(jù)挖掘的作用在于分類(lèi)和預(yù)測(cè),用于“發(fā)現(xiàn)”知識(shí)。能稱(chēng)為“知識(shí)”的數(shù)據(jù)挖掘據(jù)結(jié)果,必須是有趣的、實(shí)用的、有價(jià)值的。

        2.2.4 復(fù)雜性

        數(shù)據(jù)挖掘在“學(xué)習(xí)”和“發(fā)現(xiàn)”的過(guò)程中,關(guān)注模型的復(fù)雜性和需要的計(jì)算量。數(shù)據(jù)挖掘技術(shù)能用于對(duì)數(shù)據(jù)之間復(fù)雜的關(guān)系進(jìn)行建模分析,適合解決復(fù)雜的問(wèn)題。

        2.2.5 動(dòng)態(tài)性

        數(shù)據(jù)挖掘出的規(guī)則是反映當(dāng)前數(shù)據(jù)的潛在關(guān)系。隨著數(shù)據(jù)庫(kù)的不斷變化、數(shù)據(jù)關(guān)系也有可能因此而改變。所以,數(shù)據(jù)挖掘結(jié)果具有動(dòng)態(tài)性。

        2.2.6 相對(duì)性

        數(shù)據(jù)挖掘模型的建立,是依據(jù)當(dāng)前的數(shù)據(jù)。不同的數(shù)據(jù),可能產(chǎn)生不同的數(shù)據(jù)模型;相同的數(shù)據(jù)模型,不同的數(shù)據(jù),得到不同的挖掘結(jié)果。因此,挖掘結(jié)果僅僅是在當(dāng)前設(shè)定的條件約束下,針對(duì)當(dāng)前特定數(shù)據(jù)、有相對(duì)性的結(jié)果。

        2.3 數(shù)據(jù)挖掘的常用技術(shù)

        數(shù)據(jù)挖掘技術(shù)從創(chuàng)建以來(lái),滲透到各種學(xué)科領(lǐng)域。繼承不同學(xué)科領(lǐng)域特點(diǎn)的挖掘技術(shù),因此也具有了不同的優(yōu)缺點(diǎn)??晒┻x擇的范圍較大的同時(shí),也容易應(yīng)用錯(cuò)誤。了解常用的數(shù)據(jù)挖掘技術(shù)、掌握它們的特點(diǎn),并根據(jù)實(shí)際的挖掘任務(wù),選取適合的挖掘技術(shù),有助于得到期待的結(jié)果。數(shù)據(jù)挖掘的常用技術(shù)主要有決策樹(shù)、人工神經(jīng)網(wǎng)絡(luò)、關(guān)聯(lián)規(guī)則、聚類(lèi)分析、模糊集和粗糙集等,其基本概念和優(yōu)缺點(diǎn)如下:

        2.3.1 決策樹(shù)

        決策樹(shù)的分類(lèi)預(yù)測(cè)結(jié)構(gòu)是一個(gè)樹(shù)型結(jié)構(gòu),根節(jié)點(diǎn)是數(shù)據(jù)集合,每個(gè)分支結(jié)點(diǎn)是一類(lèi)分支問(wèn)題。通過(guò)一個(gè)單一屬性的判別,將數(shù)據(jù)空間分成若干塊,每個(gè)葉節(jié)點(diǎn)都是帶有分類(lèi)的分割。

        決策樹(shù)的特點(diǎn):(1)決策樹(shù)的構(gòu)造易于理解和創(chuàng)建;(2)處理速度以及準(zhǔn)確度高于其他方法;(3)分類(lèi)的屬性清晰明示。這些特點(diǎn)幫助決策樹(shù)成為數(shù)據(jù)挖掘中分類(lèi)和預(yù)測(cè)的主要技術(shù)。

        缺點(diǎn):(1)對(duì)連續(xù)數(shù)據(jù)預(yù)測(cè)困難;(2)處理時(shí)間順序數(shù)據(jù)時(shí)需要更多預(yù)處理;(3)“貪心”搜索僅是局部最優(yōu)選擇,而非整體最優(yōu);(4)無(wú)法處理缺項(xiàng)漏項(xiàng)。

        2.3.2 人工神經(jīng)網(wǎng)絡(luò)

        人工神經(jīng)網(wǎng)絡(luò)也是一門(mén)交叉學(xué)科,是人工模仿人腦,具有某種功能的網(wǎng)絡(luò)抽象模型。它將大量處理器單元互連組成一個(gè)網(wǎng)絡(luò),具備分布式結(jié)構(gòu)和并行處理的特點(diǎn)。因此,其具有良好的自組織性、自適應(yīng)性、自學(xué)習(xí)性和容錯(cuò)性,具有識(shí)別、學(xué)習(xí)、記憶和聯(lián)想的功能。人工神經(jīng)網(wǎng)絡(luò)目前廣泛應(yīng)用于預(yù)測(cè)、模式識(shí)別、聚類(lèi)分析、優(yōu)化計(jì)算等領(lǐng)域。

        人工神經(jīng)網(wǎng)絡(luò)的特點(diǎn):(1)良好的容錯(cuò)性和非線(xiàn)性關(guān)系;(2)能使用并行結(jié)構(gòu)處理;(3)因自身特性具有變化性,處于不斷變化的過(guò)程;(4)變結(jié)構(gòu)使得系統(tǒng)具有多樣的演化。

        缺點(diǎn):(1)數(shù)據(jù)準(zhǔn)備量巨大,周期長(zhǎng);(2)訓(xùn)練學(xué)習(xí)方法復(fù)雜、分析過(guò)程難理解、結(jié)果難解釋?zhuān)唬?)最優(yōu)的學(xué)習(xí)規(guī)則設(shè)計(jì)難度大,對(duì)設(shè)計(jì)者相關(guān)知識(shí)和開(kāi)發(fā)經(jīng)驗(yàn)的要求較高。

        2.3.3 關(guān)聯(lián)規(guī)則

        關(guān)聯(lián)規(guī)則的研究是數(shù)據(jù)挖掘的重要研究方向之一。關(guān)聯(lián)規(guī)則用于發(fā)現(xiàn)數(shù)據(jù)之間未知的相互依賴(lài)的關(guān)系。通過(guò)設(shè)置最小支持度、最小置信度,并使用提升度作為指標(biāo),來(lái)發(fā)現(xiàn)數(shù)據(jù)之間有趣的關(guān)聯(lián)規(guī)則。支持度、置信度和提升度分別反映關(guān)聯(lián)規(guī)則的實(shí)用性、準(zhǔn)確性和相關(guān)性。

        關(guān)聯(lián)規(guī)則的優(yōu)點(diǎn):(1)挖掘結(jié)果清晰明示,易于理解;(2)允許間接數(shù)據(jù)挖掘;(3)對(duì)數(shù)據(jù)規(guī)范要求不高;(4)計(jì)算的消耗量可以近似估算出來(lái)。

        缺點(diǎn):(1)需要準(zhǔn)確設(shè)置最小支持度和最小置信度,否則會(huì)造成有價(jià)值的關(guān)聯(lián)規(guī)則埋沒(méi)于大量無(wú)用的關(guān)聯(lián)規(guī)則里,或者錯(cuò)失有價(jià)值的關(guān)聯(lián)規(guī)則這兩種極端的挖掘結(jié)果;(2)計(jì)算的消耗量根據(jù)問(wèn)題的復(fù)雜程度增長(zhǎng)很大。

        2.3.4 聚類(lèi)分析

        分類(lèi)是已知對(duì)象的特征而后聚成集合,而聚類(lèi)則是在已聚合的集合里找到特征。聚類(lèi)分析可以用來(lái)觀(guān)察分析數(shù)據(jù)特征、研究數(shù)據(jù)分布情況,也可以分析數(shù)據(jù)屬性之間的相互關(guān)系。

        聚類(lèi)分析的優(yōu)點(diǎn):(1)描述數(shù)據(jù)清晰,即:每個(gè)集合的數(shù)據(jù)相似,但集合之間的差異性很大;(2)應(yīng)用方便快捷,便于管理統(tǒng)計(jì)。

        缺點(diǎn):(1)要求各個(gè)集合數(shù)據(jù)的量綱一致,即取值的口徑一致,否則被描述的特征差異性有可能被夸大或縮小;(2)量綱不一致時(shí)需進(jìn)行額外轉(zhuǎn)換。

        2.3.5 統(tǒng)計(jì)學(xué)習(xí)

        與傳統(tǒng)統(tǒng)計(jì)學(xué)研究的樣本數(shù)趨于無(wú)窮大相比,數(shù)據(jù)挖掘統(tǒng)計(jì)學(xué)習(xí)是一種基于小樣本,研究經(jīng)驗(yàn)數(shù)據(jù)的機(jī)器學(xué)習(xí)規(guī)律。從傳統(tǒng)統(tǒng)計(jì)學(xué)移植過(guò)來(lái)的貝葉斯分類(lèi)、Logistic回歸分析和方差分析技術(shù)等,成為數(shù)據(jù)挖掘應(yīng)用中的工具。通過(guò)觀(guān)測(cè)和研究現(xiàn)有數(shù)據(jù),得出一定的規(guī)律,并利用這些規(guī)律分析客觀(guān)現(xiàn)象,預(yù)測(cè)未來(lái)的數(shù)據(jù)。

        2.3.6 模糊集和粗糙集

        模糊集使用隸屬關(guān)系的函數(shù)來(lái)描述對(duì)象屬于集合程度的連續(xù)過(guò)渡,即元素從屬于集合漸變到不屬于集合的過(guò)程。其特點(diǎn)是沒(méi)有明晰的邊界。

        粗糙集描述不確定性和不完整性,能有效分析各種不完備數(shù)據(jù),找出數(shù)據(jù)當(dāng)中隱含的知識(shí),揭示潛在規(guī)律。

        3 食品安全風(fēng)險(xiǎn)評(píng)估中數(shù)據(jù)挖掘方法的擇取

        3.1 食品安全風(fēng)險(xiǎn)評(píng)估工作現(xiàn)狀

        目前,我國(guó)食品安全風(fēng)險(xiǎn)監(jiān)測(cè)的機(jī)制,都是基于食品安全風(fēng)險(xiǎn)監(jiān)測(cè)的檢測(cè)結(jié)果。通過(guò)檢測(cè)結(jié)果,掌握某區(qū)域某類(lèi)食品安全狀況,從側(cè)面反映食品安全監(jiān)管工作的水平,客觀(guān)評(píng)估、發(fā)布食品安全情況信息。沒(méi)有檢測(cè)結(jié)果,一切都是空談。

        事實(shí)上,由于食品種類(lèi)和數(shù)目巨大,人力物力的不足,食品安全風(fēng)險(xiǎn)監(jiān)測(cè)只能采取抽檢的形式。食品安全涉及到食品原材料的種植、生產(chǎn)、加工、流通、銷(xiāo)售的全環(huán)節(jié),影響因素多,涉及面廣;食品安全風(fēng)險(xiǎn)監(jiān)測(cè)樣品的檢測(cè)結(jié)果又與食品類(lèi)別、生產(chǎn)時(shí)間地點(diǎn)以及檢測(cè)項(xiàng)目相關(guān);食品自身,特別是原料和制成品,之間也存在著關(guān)聯(lián)。傳統(tǒng)的數(shù)理統(tǒng)計(jì)分析方法只能分析已有數(shù)據(jù),無(wú)法發(fā)現(xiàn)數(shù)據(jù)之間的潛在聯(lián)系,對(duì)檢測(cè)結(jié)果的利用率低,存在數(shù)據(jù)浪費(fèi)的情況。對(duì)于得出檢測(cè)結(jié)果的食品,可以使用數(shù)理統(tǒng)計(jì)分析;對(duì)于未抽檢或者尚未得到檢測(cè)結(jié)果的食品,數(shù)理統(tǒng)計(jì)則無(wú)能為力。

        可見(jiàn),數(shù)據(jù)挖掘的預(yù)測(cè)功能對(duì)于食品安全風(fēng)險(xiǎn)評(píng)估工作的推進(jìn)作用是巨大的。

        3.2 數(shù)據(jù)挖掘方法的比較與擇取

        食品安全風(fēng)險(xiǎn)監(jiān)測(cè)的抽檢模式無(wú)法改變、采取隨機(jī)抽取樣品的方式、根據(jù)公眾飲食習(xí)慣和關(guān)注度對(duì)不同類(lèi)別的食品執(zhí)行不一樣的檢測(cè)力度和頻度、樣品檢測(cè)項(xiàng)目的不盡相同,這些客觀(guān)因素決定了食品安全檢測(cè)數(shù)據(jù)通常是離散、比較稀疏的。對(duì)比上述數(shù)據(jù)挖掘常用技術(shù)的優(yōu)缺點(diǎn),可以看到:

        (1)決策樹(shù),用于分類(lèi)與預(yù)測(cè)。根據(jù)已知知識(shí)構(gòu)造一棵決策樹(shù),用于預(yù)測(cè)樣品的風(fēng)險(xiǎn)值。但由于決策樹(shù)無(wú)法處理缺項(xiàng)漏項(xiàng),且只能處理檢測(cè)結(jié)果已知的情況,無(wú)法預(yù)測(cè)未檢測(cè)或未得出檢測(cè)結(jié)果的情況,因此不適用。

        (2)人工神經(jīng)網(wǎng)絡(luò)的優(yōu)勢(shì)在于并行結(jié)果處理問(wèn)題,具有良好容錯(cuò)性,全局性?xún)?yōu)勢(shì)明顯;自組織、自學(xué)習(xí)能力適合預(yù)測(cè)。但由于其算法的復(fù)雜性、設(shè)計(jì)要求高、難度大,不適用于食品安全風(fēng)險(xiǎn)評(píng)估。

        (3)聚類(lèi)分析常用于分析和識(shí)別,預(yù)測(cè)功能較弱,也不適用。

        (4)統(tǒng)計(jì)學(xué)習(xí)同樣因?yàn)橹荒芴幚頇z測(cè)結(jié)果已知的情況,無(wú)法預(yù)測(cè)未檢測(cè)或未得出檢測(cè)結(jié)果的情況,因此不適用。

        (5)關(guān)聯(lián)規(guī)則能夠發(fā)現(xiàn)大量數(shù)據(jù)之間的相關(guān)聯(lián)系,可以利用知識(shí)庫(kù)里關(guān)聯(lián)規(guī)則,不管樣品是否已知檢測(cè)結(jié)果,都能預(yù)測(cè)樣品的風(fēng)險(xiǎn)值。關(guān)聯(lián)規(guī)則挖掘在使用時(shí)過(guò)程比較清晰,結(jié)果易于理解,且關(guān)聯(lián)規(guī)則Apriori算法屬于廣度優(yōu)先策略,適用于食品安全檢測(cè)數(shù)據(jù)離散、稀疏的特點(diǎn)。

        綜上所述,關(guān)聯(lián)規(guī)則挖掘是最適合在食品安全風(fēng)險(xiǎn)評(píng)估工作中使用的數(shù)據(jù)挖掘技術(shù)。

        4 結(jié)束語(yǔ)

        目前,數(shù)據(jù)挖掘技術(shù)在市場(chǎng)營(yíng)銷(xiāo)、個(gè)人信用風(fēng)險(xiǎn)評(píng)估、電信業(yè)務(wù)辦理等方面應(yīng)用較多,但在食品安全風(fēng)險(xiǎn)評(píng)估方面的應(yīng)用較少。關(guān)聯(lián)規(guī)則挖掘的能夠發(fā)現(xiàn)數(shù)據(jù)之間的相關(guān)聯(lián)系,適用于食品安全風(fēng)檢測(cè)結(jié)果的分析和利用。關(guān)聯(lián)規(guī)則挖掘技術(shù)能找出一些有趣的規(guī)則,能為食品安全監(jiān)管提供依據(jù),提高風(fēng)險(xiǎn)評(píng)估工作的效率。

        參考文獻(xiàn):

        [1]Han Jiawei,Michelin Kamber.數(shù)據(jù)挖掘概念核技術(shù)(第2版)[M].范明,孟小峰,譯.北京:機(jī)械工業(yè)出版社,2007.

        [2]紀(jì)希禹.數(shù)據(jù)挖掘技術(shù)應(yīng)用實(shí)例[M].北京:機(jī)械工業(yè)出版社,2009.

        [3]陳文偉,黃金才,趙新昱.數(shù)據(jù)挖掘技術(shù)[M].北京:北京工業(yè)大學(xué)出版社,2002.

        [4]陳曉紅.數(shù)據(jù)挖掘的過(guò)程?技術(shù)及其工具[J].武漢科技學(xué)院學(xué)報(bào),2006.

        [5]http://datamininglab.com/[OL].

        作者簡(jiǎn)介:楊劼(1981-),男,廣西南寧人,廣西大學(xué)2008級(jí)計(jì)算機(jī)與電子信息學(xué)院工程碩士,主要從事數(shù)據(jù)挖掘研究、數(shù)據(jù)庫(kù)應(yīng)用。

        作者單位:廣西大學(xué) 計(jì)算機(jī)與電子信息學(xué)院,南寧 530001

        国产无遮挡aaa片爽爽| 国产97在线 | 中文| 少妇人妻200篇白洁| 亚洲VA不卡一区| 丝袜美女污污免费观看的网站| 青青草99久久精品国产综合| 国产精品亚洲综合色区丝瓜 | 亚洲国产熟女精品传媒| 国产成人精品一区二区三区| 日韩精品视频一区二区三区 | 亚洲一区二区三区成人网| 国产精品亚洲精品一区二区| 人妻少妇中文字幕久久| 我和隔壁的少妇人妻hd| 日韩人妻熟女中文字幕a美景之屋 国产suv精品一区二区四 | 国产自产av一区二区三区性色| 国产在线天堂av| 亚洲性色ai无码| 中文字幕人妻一区二区二区| 日本一区二区三区免费| 日韩女优一区二区在线观看| 国产黑丝美腿在线观看| 欧美人与动牲交a精品| 人妻av中文字幕无码专区| 麻豆变态另类视频在线观看| 精品视频一区二区杨幂| 亚洲av天堂在线免费观看| 综合图区亚洲另类偷窥| 午夜精品久久久久久久99热| 亚洲精品久久一区二区三区777| 欧美性猛交xxxx富婆| 夜夜嗨av一区二区三区| 成人xx免费无码| 婷婷色在线视频中文字幕| 精品国产一区二区三区av麻| 久久精品国产亚洲av网站| 蜜臀av一区二区| 国产乱人视频在线观看播放器| 国产美女久久久亚洲综合| 国产精品黄色在线观看| 精品厕所偷拍一区二区视频|