亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        關(guān)聯(lián)數(shù)據(jù)作為背景知識支撐的智能決策研究

        2018-05-17 08:41:40
        福建質(zhì)量管理 2018年11期
        關(guān)鍵詞:數(shù)據(jù)挖掘關(guān)聯(lián)過程

        (河北大學(xué)管理學(xué)院 河北 保定 071000)

        一、引言

        決策制定是一個復(fù)雜的過程。在決策過程中,數(shù)據(jù)扮演了重要的角色,需要根據(jù)不同的數(shù)據(jù)集,結(jié)合實(shí)際經(jīng)驗(yàn),制定整體的決策方案。但是在許多領(lǐng)域,雖然積累了許多本領(lǐng)域的數(shù)據(jù)集,但是,由于缺乏足夠的背景知識的支持,在利用數(shù)據(jù)開展決策的時候,不能有效的發(fā)揮出數(shù)據(jù)的價值。關(guān)聯(lián)數(shù)據(jù)中蘊(yùn)含了語義信息,如果在決策過程中,將本領(lǐng)域的數(shù)據(jù)集與相關(guān)的關(guān)聯(lián)數(shù)據(jù)集有效結(jié)合,對于指導(dǎo)實(shí)際決策具有重要的應(yīng)用價值。

        二、s相關(guān)研究

        對于基于關(guān)聯(lián)數(shù)據(jù)的知識發(fā)現(xiàn)的過程和層次,不同學(xué)者給出了不同的解讀。趙衛(wèi)軍①提出由服務(wù)、組件和對象3功能實(shí)體組成的基于SOA的關(guān)聯(lián)數(shù)據(jù)的高校圖書館知識服務(wù)架構(gòu)模型,分成數(shù)據(jù)層、聚合層、組件服務(wù)層、應(yīng)用層。李楠和張學(xué)福②認(rèn)為基于關(guān)聯(lián)數(shù)據(jù)的知識發(fā)現(xiàn)過程包括了關(guān)聯(lián)數(shù)據(jù)發(fā)布、相關(guān)源選擇、關(guān)聯(lián)數(shù)據(jù)整合、關(guān)聯(lián)數(shù)據(jù)挖掘4個基本階段。他們將基于知識發(fā)現(xiàn)的應(yīng)用特殊性與知識發(fā)現(xiàn)活動一般規(guī)律相結(jié)合,構(gòu)建了包括資源層、知識發(fā)現(xiàn)處理層、應(yīng)用層的3層基于關(guān)聯(lián)數(shù)據(jù)的知識發(fā)現(xiàn)模型。李俊和黃春毅③通過修改了傳統(tǒng)知識發(fā)現(xiàn)模型提出了在關(guān)聯(lián)數(shù)據(jù)基礎(chǔ)上實(shí)現(xiàn)知識發(fā)現(xiàn)的模型,將整個過程概括為:通過SPARQL獲取信息、數(shù)據(jù)預(yù)處理、轉(zhuǎn)換數(shù)據(jù)格式、關(guān)聯(lián)數(shù)據(jù)挖掘算法運(yùn)算、結(jié)果的可視化和模式評估6大步驟。上述研究是分別從理論和實(shí)踐的角度加以闡述,由此產(chǎn)生了關(guān)聯(lián)數(shù)據(jù)知識發(fā)現(xiàn)過程的描述差異。而事實(shí)上它們?nèi)匀环蟼鹘y(tǒng)知識發(fā)現(xiàn)的數(shù)據(jù)收集、數(shù)據(jù)預(yù)處理、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)挖掘、模式解釋和評價這一一般過程。

        三、研究基礎(chǔ)

        知識發(fā)現(xiàn)(Knowledge Discovery)是從大量數(shù)據(jù)集中發(fā)現(xiàn)隱藏于數(shù)據(jù)其中的、創(chuàng)新的、潛在有用的模式的過程④。目前國內(nèi)外在知識發(fā)現(xiàn)的研究主要是以知識發(fā)現(xiàn)的概念、知識發(fā)現(xiàn)的任務(wù)、知識發(fā)現(xiàn)的評價以及知識發(fā)現(xiàn)算法等為主線,并且已經(jīng)取得了一定的研究成果⑤。針對知識發(fā)現(xiàn)的一般過程,研究人員從不同的角度有不同的理解。一般研究人員熟知的數(shù)據(jù)庫中的知識發(fā)現(xiàn)(KDD)的一般過程即為普遍認(rèn)可的,是Fayyad在1996年提出的知識發(fā)現(xiàn)處理過程模型⑥。其主要是從數(shù)據(jù)源出發(fā),經(jīng)過數(shù)據(jù)預(yù)處理、數(shù)據(jù)挖掘、結(jié)果的表達(dá)和解釋三個核心步驟最終獲取知識的過程。KDD給基于關(guān)聯(lián)數(shù)據(jù)的知識發(fā)現(xiàn)提供了一定的參考和借鑒,KDD是數(shù)據(jù)網(wǎng)絡(luò)中知識發(fā)現(xiàn)的基礎(chǔ),因此基于關(guān)聯(lián)數(shù)據(jù)的知識發(fā)現(xiàn)應(yīng)以KDD研究作為基礎(chǔ),本文也遵循知識發(fā)現(xiàn)的一般過程。

        發(fā)現(xiàn)新穎、有效、可理解的游泳知識是知識發(fā)現(xiàn)的最終目標(biāo)。因此,在關(guān)聯(lián)數(shù)據(jù)網(wǎng)絡(luò)的資源基礎(chǔ)上,發(fā)揮關(guān)聯(lián)數(shù)據(jù)的優(yōu)勢、利用關(guān)聯(lián)的資源去發(fā)現(xiàn)“關(guān)聯(lián)的知識”是實(shí)現(xiàn)與關(guān)聯(lián)數(shù)據(jù)的知識發(fā)現(xiàn)目標(biāo)的頂層功能和核心保證。在海量的關(guān)聯(lián)數(shù)據(jù)網(wǎng)絡(luò)環(huán)境中,結(jié)合相關(guān)數(shù)據(jù)資源查詢、獲取、處理和挖掘,還需要通過特定的關(guān)聯(lián)知識發(fā)現(xiàn),制定需要生成的知識模式,從而按照這一模式的結(jié)構(gòu)去抽取與知識發(fā)現(xiàn)需求最為相關(guān)的信息,并且以用戶需要和理解的方式重新組織和架構(gòu)相關(guān)信息,生成新的知識⑦。

        四、研究假設(shè)

        利用關(guān)聯(lián)數(shù)據(jù)作為背景知識,能否發(fā)現(xiàn)新的知識、模式,能否通過關(guān)聯(lián)數(shù)據(jù)集減少挖掘過程中耗費(fèi)的成本。目的是驗(yàn)證關(guān)聯(lián)數(shù)據(jù)集和待挖掘數(shù)據(jù)能否產(chǎn)生新的知識,從而為決策提供現(xiàn)實(shí)依據(jù)。

        五、實(shí)驗(yàn)與討論

        (一)實(shí)驗(yàn)數(shù)據(jù)的選擇

        本實(shí)驗(yàn)要驗(yàn)證將關(guān)聯(lián)數(shù)據(jù)集作為領(lǐng)域背景知識,將關(guān)聯(lián)數(shù)據(jù)背景知識應(yīng)用到現(xiàn)有待挖掘數(shù)據(jù)中。關(guān)聯(lián)數(shù)據(jù)背景知識選擇歐洲統(tǒng)計局發(fā)布的關(guān)聯(lián)數(shù)據(jù)集,歐洲統(tǒng)計局的關(guān)聯(lián)數(shù)據(jù)集中包含了大量關(guān)于歐洲的各項(xiàng)統(tǒng)計數(shù)據(jù),成員國機(jī)構(gòu)負(fù)責(zé)收集本國統(tǒng)計數(shù)據(jù)并進(jìn)行編輯,歐洲統(tǒng)計局的作用則是與各成員國統(tǒng)計機(jī)構(gòu)緊密合作,協(xié)調(diào)、整合統(tǒng)計資源,按照歐盟的需要匯總分析成員國提供的統(tǒng)計數(shù)據(jù)。統(tǒng)計范圍涵蓋歐盟經(jīng)濟(jì)社會活動的主要方面,包括經(jīng)濟(jì)、就業(yè)、研發(fā)創(chuàng)新、環(huán)境、公共健康、國際賬戶收支、對外貿(mào)易、消費(fèi)價格、農(nóng)漁業(yè)、交通、能源、科技等。這些數(shù)據(jù)最終都發(fā)布為關(guān)聯(lián)數(shù)據(jù),用戶可以在其網(wǎng)站通過Sparql查詢的方式獲數(shù)據(jù)⑧。

        現(xiàn)有待挖掘數(shù)據(jù)選擇OECD(經(jīng)濟(jì)合作與發(fā)展組織)網(wǎng)站給出的各個成員國成人的飲酒量數(shù)據(jù)⑨。OECD的數(shù)據(jù)門戶提供了多樣化的數(shù)據(jù)格式,如csv、excel格式等,本案中我們下載excel原始文件,然后導(dǎo)出為csv格式。

        (二)數(shù)據(jù)獲取

        關(guān)聯(lián)數(shù)據(jù)的獲取通過Jena獲取,Jena提供了更加靈活的方式通過Sqarql查詢提取關(guān)聯(lián)數(shù)據(jù)中信息,本案中,將Jena集成到Eclipse開發(fā)環(huán)境中,通過程序獲取數(shù)據(jù)。獲取歐洲統(tǒng)計局各國家經(jīng)濟(jì)數(shù)據(jù)的Sparql語句如下:

        SELECT(sum(?value)as ?ss)?geo

        FROM

        FROM

        WHERE{

        ?s qb:dataSet.

        ?s dcterms:date ?time.

        ?s eus:geo ?g.

        ?g rdfs:label ?geo.

        ?s sdmx-measure:obsValue ?value.

        FILTER(lang(?geo)='en')

        }

        GROUP BY?geo

        基于Eclipse集成開發(fā)工具,在Jena環(huán)境中運(yùn)行以上語句得到歐洲統(tǒng)計局關(guān)于各個國家經(jīng)濟(jì)運(yùn)行情況的數(shù)據(jù),格式如圖下所示。

        1378^^http://www.w3.org/2001/XMLSchema#decimal|Finland@en

        1235^^http://www.w3.org/2001/XMLSchema#decimal|Italy@en

        OECD的數(shù)據(jù)直接從網(wǎng)站下載,數(shù)據(jù)文件為excel格式,后續(xù)分析階段直接另存為csv格式,包含了國家信息及其酒精消費(fèi)情況,其格式如表1所示。

        表1 CEDC各成員國年度酒精消費(fèi)情況

        (三)數(shù)據(jù)處理

        通過Google refine數(shù)據(jù)清洗工具對Sparql查詢的數(shù)據(jù)進(jìn)行清洗,去除無用標(biāo)簽和符號,Google refine是一款免費(fèi)開源數(shù)據(jù)清洗工具,能夠幫助用戶轉(zhuǎn)換數(shù)據(jù)集的工具,優(yōu)化數(shù)據(jù)的質(zhì)量以便于在真實(shí)場景中使用。

        (四)分析

        數(shù)據(jù)的分析通過Rapidminer,其提供圖形化界面,通過Rapidminer數(shù)據(jù)挖掘軟件將關(guān)聯(lián)數(shù)據(jù)和待挖掘數(shù)據(jù)導(dǎo)入,對相關(guān)變量做相關(guān)性分析,本案中主要分析經(jīng)濟(jì)因素GDP與酒精的二元關(guān)系,首先將關(guān)聯(lián)數(shù)據(jù)集和待挖掘的數(shù)據(jù)集進(jìn)行合并處理,通過Rapidminer的算子模塊Join進(jìn)行數(shù)據(jù)合并,數(shù)據(jù)的工作流程圖如下圖1所示:

        圖1 數(shù)據(jù)處理流程圖

        執(zhí)行以上流程得到變量相關(guān)性結(jié)果如下:

        表2 GDP與酒精消費(fèi)的相關(guān)系數(shù)

        (五)驗(yàn)證、評價

        通過以上分析,本實(shí)驗(yàn)建立在經(jīng)典的知識發(fā)現(xiàn)和數(shù)據(jù)挖掘的基礎(chǔ)之上,并結(jié)合關(guān)聯(lián)數(shù)據(jù)的應(yīng)用場景,設(shè)計了此挖掘步驟,通在工具的選擇上,都是選用開源免費(fèi)的軟件和類庫,這樣為擴(kuò)展帶來了極大的靈活性,這樣當(dāng)面對多個關(guān)聯(lián)數(shù)據(jù)集的時候,只需要調(diào)整數(shù)據(jù)整合的順序,就能實(shí)現(xiàn)多數(shù)據(jù)集的關(guān)聯(lián)挖掘。

        通過計算的數(shù)據(jù)可以看出,應(yīng)用關(guān)聯(lián)數(shù)據(jù)作為領(lǐng)域背景知識能夠?yàn)橹R發(fā)現(xiàn)提供新的切入點(diǎn),兩個變量之間存在著相關(guān)性,這也拓寬了消費(fèi)關(guān)聯(lián)數(shù)據(jù)的范圍,在大數(shù)據(jù)環(huán)境下,我們面對的是海量的異構(gòu)數(shù)據(jù),關(guān)聯(lián)數(shù)據(jù)的出現(xiàn)能夠?yàn)檫@些數(shù)據(jù)的挖掘提供背景知識,也能使數(shù)據(jù)挖掘的過程更加可操作化和簡明化。

        六、結(jié)語

        在關(guān)聯(lián)數(shù)據(jù)日益成熟、關(guān)聯(lián)數(shù)據(jù)網(wǎng)絡(luò)資源環(huán)境已經(jīng)呈現(xiàn)的背景下,針對其特定知識發(fā)現(xiàn)規(guī)律的研究在理論和實(shí)踐上都具有一定的意義。知識發(fā)現(xiàn)也能夠作為基本方法論對關(guān)聯(lián)數(shù)據(jù)的發(fā)展和完善起到促進(jìn)的作用。本文在相關(guān)研究的基礎(chǔ)上,分析和構(gòu)建基于關(guān)聯(lián)數(shù)據(jù)的知識發(fā)現(xiàn)應(yīng)用體系,這一體系可以作為整合資源和成果的統(tǒng)一框架,也可以作為研究的基礎(chǔ)和導(dǎo)向。關(guān)聯(lián)數(shù)據(jù)研究得到了國內(nèi)外廣泛的關(guān)注,從關(guān)聯(lián)數(shù)據(jù)的研究趨勢和發(fā)展需求來看,基于關(guān)聯(lián)數(shù)據(jù)的知識發(fā)現(xiàn)應(yīng)用應(yīng)當(dāng)?shù)玫礁嗟闹匾?。目前這方面的工作已經(jīng)多方面展開,但主題相對分散,目標(biāo)也不夠明確。筆者希望本文所提出的應(yīng)用體系可以作為關(guān)聯(lián)數(shù)據(jù)研究的框架和基礎(chǔ),輔助相關(guān)工作的全面和深入的展開。下一步將研究將關(guān)聯(lián)數(shù)據(jù)應(yīng)用于人工智能領(lǐng)域,結(jié)合機(jī)器學(xué)習(xí)框架keras,探索關(guān)聯(lián)數(shù)據(jù)更廣闊的應(yīng)用。

        【注釋】

        ①趙衛(wèi)軍.基于SOA的關(guān)聯(lián)數(shù)據(jù)的高校圖書館知識服務(wù)架構(gòu)[J].圖書館學(xué)刊,2013(6):103-105.

        ②李楠,張學(xué)福.基于關(guān)聯(lián)數(shù)據(jù)的知識發(fā)現(xiàn)模型研究[J].圖書館學(xué)研究,2013(1):73-77,67.

        ③李俊,黃春毅.關(guān)聯(lián)數(shù)據(jù)的知識發(fā)現(xiàn)研究[J].情報科學(xué),2013.31(3):76-81.

        ④Soren A,Jens L.Creating knowledge out of interlinked data[J].Semantic Web,2010,(1):97-104.

        ⑤陳曉美,畢強(qiáng),滕廣青,等.語義網(wǎng)環(huán)境下數(shù)字圖書館知識發(fā)現(xiàn)的維度框架研究[J].情報學(xué)報,2014,33(2):148-157.

        ⑥Usama F,Paul S.Data mining and KDD:Promise and challenges[J].Future Generation Computer Systems,1997,(13):99-115.

        ⑦李楠.基于關(guān)聯(lián)數(shù)據(jù)的知識發(fā)現(xiàn)研究:[D].北京中國農(nóng)業(yè)科學(xué)院,2012.

        ⑧Eurostat-Linked Data.[EB/OL].http://eurostat.linked-statistics.org,2017-03-30.

        ⑨OECD.[EB/OL].http://www.oecd-ilibrary.org,2017-03-30.

        【參考文獻(xiàn)】

        [1]趙衛(wèi)軍.基于SOA的關(guān)聯(lián)數(shù)據(jù)的高校圖書館知識服務(wù)架構(gòu)[J].圖書館學(xué)刊,2013(6):103-105.

        [2]李楠,張學(xué)福.基于關(guān)聯(lián)數(shù)據(jù)的知識發(fā)現(xiàn)模型研究[J].圖書館學(xué)研究,2013(1):73-77,67.

        [3]李俊,黃春毅.關(guān)聯(lián)數(shù)據(jù)的知識發(fā)現(xiàn)研究[J].情報科學(xué),2013.31(3):76-81.

        [4]Soren A,Jens L.Creating knowledge out of interlinked data[J].Semantic Web,2010,(1):97-104.

        猜你喜歡
        數(shù)據(jù)挖掘關(guān)聯(lián)過程
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
        描寫具體 再現(xiàn)過程
        臨終是個怎樣的過程
        “一帶一路”遞進(jìn),關(guān)聯(lián)民生更緊
        奇趣搭配
        基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
        電力與能源(2017年6期)2017-05-14 06:19:37
        智趣
        讀者(2017年5期)2017-02-15 18:04:18
        一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
        在這個學(xué)習(xí)的過程中收獲最大的是哪些,為什么?
        Coco薇(2015年12期)2015-12-10 03:54:58
        圓滿的過程
        亚洲av综合av国一区二区三区| 国产精品丝袜久久久久久不卡| 朝鲜女子内射杂交bbw| 国产人成亚洲第一网站在线播放| 日本韩国黄色三级三级| 国产亚洲精品在线播放| 蜜桃视频在线看一区二区三区| 欧美牲交a欧美牲交aⅴ免费真| 曰本极品少妇videossexhd| 亚洲AVAv电影AV天堂18禁| 精品国产一区二区av麻豆不卡| 日本一区二区在线高清观看| 蜜臀av无码人妻精品| 国产精品视频二区不卡| 国产成人精品日本亚洲直播| 亚洲人妻av综合久久| av影片在线免费观看| 中文字幕久久熟女蜜桃| 天天操夜夜操| 老肥熟女老女人野外免费区| 精品成人av人一区二区三区| 日韩内射美女片在线观看网站| 欧美精品videossex少妇| 亚洲AV无码成人精品区网页| 中文字幕av人妻一区二区| 亚洲一区二区国产一区| 欧美综合天天夜夜久久| 国产欧美日韩va另类在线播放| 疯狂撞击丝袜人妻| 久久无码高潮喷水免费看| 亚洲精品一区二区三区国产| 一区二区在线视频免费蜜桃| 国产两女互慰高潮视频在线观看| 猫咪免费人成网站在线观看| 婷婷激情五月综合在线观看| 91色综合久久熟女系列| 亚洲av香蕉一区区二区三区| 97久久草草超级碰碰碰| 馬与人黃色毛片一部| 最新亚洲av日韩av二区一区| 国产日产桃色精品久久久|