亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        大數(shù)據(jù)環(huán)境下知識(shí)發(fā)現(xiàn)研究的變化及其發(fā)展趨向*

        2018-04-02 08:52:53靳嘉林王曰芬
        數(shù)字圖書館論壇 2018年5期
        關(guān)鍵詞:數(shù)據(jù)挖掘理論方法

        靳嘉林 王曰芬

        (1. 南京理工大學(xué)經(jīng)濟(jì)管理學(xué)院,南京 210094;2. 江蘇省社會(huì)公共安全科技協(xié)同創(chuàng)新中心,南京 210094)

        目前知識(shí)發(fā)現(xiàn)的定義較熟知的是由Fayyad等[1]在1996年提出,指從數(shù)據(jù)集中提取有效的、新穎的、潛在有用的、可理解的模式的非平凡過程。模式是對數(shù)據(jù)集特征的描述,識(shí)別出模式意味著為數(shù)據(jù)建立一個(gè)模型,發(fā)現(xiàn)數(shù)據(jù)的內(nèi)在結(jié)構(gòu),產(chǎn)生數(shù)據(jù)集的高級(jí)描述。有效的指所發(fā)現(xiàn)的模式對于新的數(shù)據(jù)有一定的可信度;新穎的指所發(fā)現(xiàn)的模式是以前未被挖掘出的新知識(shí);潛在有用的指所發(fā)現(xiàn)的模式能夠?yàn)橛脩籼峁┲苯拥慕?jīng)濟(jì)價(jià)值或指導(dǎo)用戶進(jìn)行有意義的活動(dòng);可理解的指所提取的模式容易被用戶識(shí)別和掌握;非平凡指知識(shí)發(fā)現(xiàn)過程是自動(dòng)的或半自動(dòng)的,并有一定程度的智能性,而僅發(fā)現(xiàn)所有數(shù)據(jù)的總和不能算作一個(gè)知識(shí)發(fā)現(xiàn)過程。

        隨著21世紀(jì)知識(shí)經(jīng)濟(jì)時(shí)代的到來,人們對知識(shí)的需求變得更加迫切,知識(shí)發(fā)現(xiàn)的研究也隨之熱門起來。數(shù)據(jù)是知識(shí)發(fā)現(xiàn)的基礎(chǔ)與前提,數(shù)據(jù)處理的理論、方法與技術(shù)的進(jìn)步,勢必影響知識(shí)發(fā)現(xiàn)的過程與結(jié)果。1996年,在學(xué)術(shù)研究中開始出現(xiàn)大數(shù)據(jù)術(shù)語,2012年相關(guān)研究逐漸呈現(xiàn)快速上升的趨勢[2]。大數(shù)據(jù)研究與應(yīng)用的主要目的之一是知識(shí)發(fā)現(xiàn),為知識(shí)創(chuàng)新與知識(shí)服務(wù)提供支撐。因此,大數(shù)據(jù)背景下,知識(shí)發(fā)現(xiàn)的研究呈現(xiàn)怎樣的變化趨勢,其發(fā)展態(tài)勢如何,是值得學(xué)界研究的一個(gè)重要課題。

        1 大數(shù)據(jù)環(huán)境下國內(nèi)外知識(shí)發(fā)現(xiàn)研究的概況及其對比

        通過已有研究可知,大數(shù)據(jù)概念是于2012年得到廣泛認(rèn)可并快速出現(xiàn)在各大學(xué)術(shù)交流會(huì)議與期刊中,成為各學(xué)科的研究熱點(diǎn),滲透到各行各業(yè)。因此,為更清楚地了解大數(shù)據(jù)對于知識(shí)發(fā)現(xiàn)的影響,本文將2012年作為研究變化的時(shí)間節(jié)點(diǎn),對比分析國內(nèi)外知識(shí)發(fā)現(xiàn)研究的發(fā)文概況,數(shù)據(jù)來源分別選取中國知網(wǎng)(CNKI)和Web of Science核心合集(WOS)。

        從發(fā)文量看,1992年國內(nèi)首次出現(xiàn)明確的知識(shí)發(fā)現(xiàn)研究,但在研究初期鮮有學(xué)者關(guān)注。國外知識(shí)發(fā)現(xiàn)研究略晚于國內(nèi),于1996年發(fā)表第一篇文章,但研究初期的關(guān)注度明顯高于國內(nèi)。進(jìn)入21世紀(jì),人們對知識(shí)的需求增加,如何從數(shù)據(jù)中得到知識(shí)并從知識(shí)中凝練新知識(shí)成為研究重點(diǎn),這使得知識(shí)發(fā)現(xiàn)的發(fā)文量顯著增加,國內(nèi)外的發(fā)文量均在2005年達(dá)到峰值。隨著知識(shí)經(jīng)濟(jì)熱度的逐漸降低,知識(shí)發(fā)現(xiàn)的研究在經(jīng)歷短暫的高潮后緩慢回落。大數(shù)據(jù)環(huán)境帶來新的技術(shù)和應(yīng)用方向,使知識(shí)發(fā)現(xiàn)的研究趨勢回暖,重新出現(xiàn)升溫的態(tài)勢,但新興的內(nèi)容仍在探索階段,還未爆發(fā)足夠的活力吸引大量學(xué)者加入,故國內(nèi)外的發(fā)文均趨于平穩(wěn)。從整體上看,國內(nèi)外知識(shí)發(fā)現(xiàn)的研究熱度變化幾乎相同,但國外每年發(fā)文量均高于國內(nèi),國外研究知識(shí)發(fā)現(xiàn)的學(xué)者群體較國內(nèi)多。

        從研究方向看,大數(shù)據(jù)環(huán)境對國內(nèi)外知識(shí)發(fā)現(xiàn)研究有不同的影響。在國內(nèi),受大數(shù)據(jù)環(huán)境的影響,圖書情報(bào)與數(shù)字圖書館學(xué)科的研究比例明顯升高,同時(shí)醫(yī)學(xué)領(lǐng)域相關(guān)學(xué)科興起,很多工學(xué)學(xué)科不再熱門。而國外的知識(shí)發(fā)現(xiàn)研究有所不同,在大數(shù)據(jù)環(huán)境下,醫(yī)學(xué)領(lǐng)域的研究逐漸消退,而其他領(lǐng)域?qū)χR(shí)發(fā)現(xiàn)技術(shù)有更高要求的研究方向成為研究熱點(diǎn)。造成這一現(xiàn)象的原因,一方面是國內(nèi)外所處的社會(huì)環(huán)境不同,導(dǎo)致研究需求不同,國外對技術(shù)研究的需求高于國內(nèi);另一方面是國外該研究方向的學(xué)者數(shù)量較多,研究方向多樣化發(fā)展得更為迅速。

        從研究熱點(diǎn)看,大數(shù)據(jù)環(huán)境對國內(nèi)外知識(shí)發(fā)現(xiàn)研究的一個(gè)主要影響是使研究熱點(diǎn)更加集中。2012年以前,知識(shí)發(fā)現(xiàn)研究與數(shù)據(jù)挖掘研究有大量重合部分,通常被歸為一類。但從知識(shí)發(fā)現(xiàn)的實(shí)質(zhì)來看,它是一個(gè)綜合的知識(shí)活動(dòng)和知識(shí)生產(chǎn)過程,涉及規(guī)律、策略和技術(shù)的集成,必須結(jié)合應(yīng)用研究才能體現(xiàn)更大價(jià)值。因此,國內(nèi)外知識(shí)發(fā)現(xiàn)的研究呈現(xiàn)一種從理論研究向應(yīng)用研究轉(zhuǎn)移的態(tài)勢,但轉(zhuǎn)移的程度和方向有所不同。對于國內(nèi)知識(shí)發(fā)現(xiàn)研究而言,大數(shù)據(jù)受到廣泛關(guān)注后,決策樹、遺傳算法、機(jī)器學(xué)習(xí)、文本挖掘等具體的理論方法不再是熱點(diǎn);而在數(shù)據(jù)驅(qū)動(dòng)下,研究重點(diǎn)由如何應(yīng)用知識(shí)發(fā)現(xiàn)的技術(shù)方法解決各行各業(yè)遇到的問題,逐漸向基于發(fā)現(xiàn)環(huán)境、面向領(lǐng)域和服務(wù)的綜合應(yīng)用研究轉(zhuǎn)變,大數(shù)據(jù)、系統(tǒng)、可視化、圖書館、傷寒論等應(yīng)用類關(guān)鍵詞頻現(xiàn)并成為研究熱點(diǎn);對于國外知識(shí)發(fā)現(xiàn)研究而言,除保持知識(shí)發(fā)現(xiàn)理論與技術(shù)研究的重點(diǎn)關(guān)注地位外,入侵檢測、異常檢測等應(yīng)用類研究逐漸成為熱點(diǎn)。

        在大數(shù)據(jù)環(huán)境下,國內(nèi)外的知識(shí)發(fā)現(xiàn)研究受到不同的影響。總體來說,2012年以前,知識(shí)發(fā)現(xiàn)的應(yīng)用范圍集中在計(jì)算機(jī)、工業(yè)、商業(yè)領(lǐng)域,著重研究相關(guān)方法技術(shù)和理論基礎(chǔ),然而數(shù)據(jù)的復(fù)雜性使得知識(shí)發(fā)現(xiàn)在處理更多領(lǐng)域的海量數(shù)據(jù)時(shí)難以發(fā)揮其作用,實(shí)踐應(yīng)用范圍較窄;2012年后,大數(shù)據(jù)分析技術(shù)的應(yīng)用幫助知識(shí)發(fā)現(xiàn)解決其數(shù)據(jù)準(zhǔn)備階段的局限性,在數(shù)據(jù)驅(qū)動(dòng)下知識(shí)發(fā)現(xiàn)被用于解決更多領(lǐng)域復(fù)雜數(shù)據(jù)的問題,應(yīng)用范圍擴(kuò)展到醫(yī)藥、科研、入侵檢測等更多研究應(yīng)用領(lǐng)域。

        2 知識(shí)發(fā)現(xiàn)研究的主要觀點(diǎn)與趨向分析

        通過對CNKI和WOS中檢索到的文獻(xiàn)進(jìn)行內(nèi)容解析、閱讀與歸類,發(fā)現(xiàn)知識(shí)發(fā)現(xiàn)的研究主要集中在知識(shí)發(fā)現(xiàn)的理論、方法、應(yīng)用三個(gè)方向。伴隨大數(shù)據(jù)的快速發(fā)展,數(shù)據(jù)越來越豐富,而知識(shí)越來越貧乏,知識(shí)發(fā)現(xiàn)在三個(gè)方向上的研究也出現(xiàn)相應(yīng)的改變。下文將針對知識(shí)發(fā)現(xiàn)的理論、方法、應(yīng)用的主要觀點(diǎn)與研究趨向進(jìn)行評(píng)述和分析。

        2.1 知識(shí)發(fā)現(xiàn)的理論

        知識(shí)發(fā)現(xiàn)是一個(gè)集圖書情報(bào)、計(jì)算機(jī)、數(shù)學(xué)等多個(gè)學(xué)科理論的研究領(lǐng)域,在大數(shù)據(jù)的影響下,原有理論難以支撐知識(shí)發(fā)現(xiàn)的技術(shù)及應(yīng)用,因此,許多學(xué)者對大數(shù)據(jù)環(huán)境下知識(shí)發(fā)現(xiàn)的理論提出新見解,并對原有理論進(jìn)行擴(kuò)充。

        段偉文[3]將多元主義、視角主義、詮釋學(xué)和能動(dòng)者實(shí)在論應(yīng)用到大數(shù)據(jù)知識(shí)發(fā)現(xiàn)理論中,認(rèn)為大數(shù)據(jù)知識(shí)發(fā)現(xiàn)的實(shí)踐是對數(shù)據(jù)的詮釋,是復(fù)雜系統(tǒng)的自適應(yīng)與自反饋過程;劉江玲[4]認(rèn)為知識(shí)發(fā)現(xiàn)系統(tǒng)應(yīng)通過知識(shí)挖掘、數(shù)據(jù)分析等技術(shù)手段將資源整合、知識(shí)發(fā)現(xiàn)、信息推送融為一體,從而實(shí)現(xiàn)知識(shí)價(jià)值再造;李楠[5]構(gòu)建了以關(guān)聯(lián)數(shù)據(jù)為底層支撐和邏輯控制,以知識(shí)發(fā)現(xiàn)為流程和結(jié)構(gòu)的控制,以關(guān)聯(lián)數(shù)據(jù)的應(yīng)用功能為關(guān)鍵操作控制的基于關(guān)聯(lián)數(shù)據(jù)的知識(shí)發(fā)現(xiàn)模型,延伸了知識(shí)發(fā)現(xiàn)研究的理論體系;Touzi等[6]提出群集知識(shí)發(fā)現(xiàn)理論,可以支持更多的數(shù)據(jù)類型和分類算法;Espinoza-Molina等[7]通過數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn)方法推斷地球觀測傳感器圖像中隱藏的知識(shí),提出復(fù)雜圖像知識(shí)發(fā)現(xiàn)的理論;Zhao等[8]從知識(shí)工程的觀點(diǎn)出發(fā),討論人群踩踏事件的演化機(jī)制,并進(jìn)一步提出基于粗糙集理論的新型知識(shí)發(fā)現(xiàn)模型,以防止火災(zāi)搶險(xiǎn)時(shí)發(fā)生人群踩踏事件。

        總體上看,在大數(shù)據(jù)環(huán)境下,知識(shí)發(fā)現(xiàn)理論的研究重點(diǎn)在于擴(kuò)充其理論體系,以計(jì)算機(jī)和數(shù)學(xué)為基礎(chǔ)融合多學(xué)科的理論知識(shí),結(jié)合關(guān)聯(lián)數(shù)據(jù)、粗糙集,甚至神經(jīng)網(wǎng)絡(luò)、計(jì)算機(jī)視覺、自然語言處理等人工智能理論的應(yīng)用,使知識(shí)發(fā)現(xiàn)理論能夠支撐復(fù)雜的數(shù)據(jù)類型、不斷優(yōu)化的處理技術(shù)及各領(lǐng)域的應(yīng)用需求。

        2.2 知識(shí)發(fā)現(xiàn)的方法

        知識(shí)發(fā)現(xiàn)的基本過程有數(shù)據(jù)準(zhǔn)備階段、數(shù)據(jù)挖掘階段、結(jié)果評(píng)估與解釋階段。知識(shí)發(fā)現(xiàn)是一種面向用戶的服務(wù),其中,數(shù)據(jù)準(zhǔn)備階段從用戶需求入手;數(shù)據(jù)挖掘階段結(jié)合用戶需求與現(xiàn)有數(shù)據(jù),使用數(shù)學(xué)或計(jì)算機(jī)方法進(jìn)行知識(shí)發(fā)現(xiàn);結(jié)果評(píng)估與解釋階段將知識(shí)發(fā)現(xiàn)結(jié)果展示給用戶。大數(shù)據(jù)的興起,打破了原有數(shù)據(jù)來源和結(jié)果展示的局限,擴(kuò)充了知識(shí)發(fā)現(xiàn)的應(yīng)用范圍。在大數(shù)據(jù)環(huán)境下,知識(shí)發(fā)現(xiàn)的研究在優(yōu)化數(shù)據(jù)挖掘階段技術(shù)方法的同時(shí),更多地從另外兩個(gè)階段探究知識(shí)發(fā)現(xiàn)的應(yīng)用。

        2.2.1 數(shù)據(jù)準(zhǔn)備階段

        數(shù)據(jù)準(zhǔn)備階段對數(shù)據(jù)類型的選擇是知識(shí)發(fā)現(xiàn)在2012年前難以廣泛應(yīng)用的重要原因。隨著大數(shù)據(jù)處理技術(shù)的發(fā)展,復(fù)雜的數(shù)據(jù)類型也可以使用合適的方法進(jìn)行處理。在這一階段,知識(shí)發(fā)現(xiàn)需要解決如何保證數(shù)據(jù)集模式可被識(shí)別的問題,在大數(shù)據(jù)影響下,這一問題應(yīng)擴(kuò)充成從獲取數(shù)據(jù)集到模式可被識(shí)別的全過程。同時(shí),伴隨數(shù)據(jù)密集型研究范式的影響,數(shù)據(jù)驅(qū)動(dòng)的知識(shí)發(fā)現(xiàn)研究不再是為達(dá)成一個(gè)目的而去尋找合適的、能處理的實(shí)驗(yàn)數(shù)據(jù),而是對已有數(shù)據(jù)或獲取的數(shù)據(jù)進(jìn)行處理,從而達(dá)到知識(shí)發(fā)現(xiàn)的目的。因此,數(shù)據(jù)準(zhǔn)備階段顯得尤為重要。

        很多學(xué)者根據(jù)自身領(lǐng)域數(shù)據(jù)的特征,結(jié)合大數(shù)據(jù)技術(shù)和知識(shí)發(fā)現(xiàn)技術(shù),對數(shù)據(jù)準(zhǔn)備階段的技術(shù)方法進(jìn)行研究。如劉樹林等[9]根據(jù)中醫(yī)經(jīng)方的數(shù)據(jù)特征,將應(yīng)用數(shù)學(xué)中的形式概念分析理論和屬性偏序理論引入知識(shí)發(fā)現(xiàn),使得大量的、不完全的、繁雜的中醫(yī)數(shù)據(jù)能夠有效地表達(dá);吳劍鋒[10]優(yōu)化大數(shù)據(jù)時(shí)代下面向知識(shí)發(fā)現(xiàn)的網(wǎng)絡(luò)信息提取方法,以更好地利用、提取、轉(zhuǎn)換、過濾網(wǎng)絡(luò)上龐大的結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化的復(fù)雜數(shù)據(jù);Talia[11]為解決知識(shí)發(fā)現(xiàn)過程中龐大數(shù)據(jù)的存儲(chǔ)與分析問題,使用云計(jì)算對目前的數(shù)據(jù)挖掘云框架和分布式數(shù)據(jù)分析工具進(jìn)行擴(kuò)展開發(fā);Castelli等[12]提出利用幾何語義遺傳編程解決大數(shù)據(jù)知識(shí)發(fā)現(xiàn)的許多復(fù)雜數(shù)據(jù)問題;Galar等[13]提出基于跨行業(yè)數(shù)據(jù)挖掘標(biāo)準(zhǔn)流程的故障診斷知識(shí)發(fā)現(xiàn)過程,解決異構(gòu)數(shù)據(jù)源、可擴(kuò)展數(shù)據(jù)結(jié)構(gòu)方面的問題;Chen等[14]開發(fā)了一種統(tǒng)一功能關(guān)聯(lián)測量方法(BUFAM)來解決生物醫(yī)學(xué)的“全功能頻譜”知識(shí)發(fā)現(xiàn)中存在的異構(gòu)知識(shí)源問題。

        總體上看,大數(shù)據(jù)在帶來海量數(shù)據(jù)的同時(shí),也帶來處理不同數(shù)據(jù)類型的思路。在大數(shù)據(jù)環(huán)境下,數(shù)據(jù)準(zhǔn)備階段逐漸得到學(xué)者們的關(guān)注,目前面對復(fù)雜的數(shù)據(jù)類型,知識(shí)獲取與知識(shí)表示技術(shù)不再受到局限。適用于復(fù)雜網(wǎng)絡(luò)結(jié)構(gòu)的爬蟲技術(shù)、面向多源異構(gòu)可擴(kuò)展數(shù)據(jù)的表示技術(shù)、處理龐大數(shù)據(jù)量的關(guān)聯(lián)數(shù)據(jù)技術(shù)與分布式存儲(chǔ)架構(gòu)成為目前研究的重點(diǎn),同時(shí)學(xué)者們根據(jù)自身研究數(shù)據(jù)特征和需求不斷進(jìn)行擴(kuò)展與改進(jìn)。

        2.2.2 數(shù)據(jù)挖掘階段

        數(shù)據(jù)挖掘是知識(shí)發(fā)現(xiàn)的關(guān)鍵步驟,主要解決如何使用數(shù)學(xué)統(tǒng)計(jì)或計(jì)算機(jī)自動(dòng)化方法識(shí)別數(shù)據(jù)集模式,并保證該模式是有效的、新穎的、潛在有用的、可理解的。根據(jù)用戶需求,在數(shù)據(jù)挖掘階段可采用的技術(shù)方法主要包括聚類法、分類法、決策樹、粗糙集、關(guān)聯(lián)規(guī)則、遺傳算法、神經(jīng)網(wǎng)絡(luò)、機(jī)器學(xué)習(xí)、關(guān)聯(lián)數(shù)據(jù)等。

        2012年以前,國內(nèi)數(shù)據(jù)挖掘技術(shù)研究較多,而2012年以后國內(nèi)對于數(shù)據(jù)挖掘的研究集中在應(yīng)用方面。如王莉[15]提出一種基于粗糙集和模糊集的集成分類方法,優(yōu)化了知識(shí)發(fā)現(xiàn)中數(shù)據(jù)挖掘階段的分類方法。

        在國外知識(shí)發(fā)現(xiàn)研究中,數(shù)據(jù)挖掘的技術(shù)研究始終是熱點(diǎn)。如Cabrera等[16]面對多變量時(shí)間序列數(shù)據(jù)提出知識(shí)發(fā)現(xiàn)的時(shí)間系列數(shù)據(jù)挖掘方法;Lomotey等[17]認(rèn)為,現(xiàn)有的數(shù)據(jù)挖掘技術(shù)是面向結(jié)構(gòu)的存儲(chǔ)設(shè)計(jì),不適用于非結(jié)構(gòu)化的數(shù)據(jù)樣式,基于標(biāo)簽、過濾、關(guān)系圖和自適應(yīng)字典優(yōu)化了數(shù)據(jù)挖掘技術(shù);Ma等[18]深入分析數(shù)據(jù)挖掘技術(shù)的瓶頸,并提出知識(shí)發(fā)現(xiàn)領(lǐng)域基于深度學(xué)習(xí)的數(shù)據(jù)挖掘模型體系架構(gòu);Jiang等[19]對日志文件進(jìn)行數(shù)據(jù)挖掘處理,為達(dá)到用戶知識(shí)發(fā)現(xiàn)的目的,提出基于時(shí)間的聚類方法;Bai等[20]對自組織特征進(jìn)行優(yōu)化得到批學(xué)習(xí)自組織特征,并用于知識(shí)發(fā)現(xiàn)的聚類分析。

        知識(shí)發(fā)現(xiàn)過程中,數(shù)據(jù)挖掘技術(shù)實(shí)現(xiàn)的好壞通常直接決定知識(shí)發(fā)現(xiàn)結(jié)果的正確性,技術(shù)的優(yōu)化才能促進(jìn)知識(shí)發(fā)現(xiàn)產(chǎn)品的創(chuàng)新,大數(shù)據(jù)的出現(xiàn)對于優(yōu)化數(shù)據(jù)挖掘技術(shù)的研究起到一定促進(jìn)作用。如何將多學(xué)科的理論與方法融合,并針對多源異構(gòu)數(shù)據(jù)的應(yīng)用來深化研究具體的數(shù)據(jù)挖掘方法,特別是采用自然語言處理等優(yōu)化數(shù)據(jù)挖掘技術(shù),仍將是知識(shí)發(fā)現(xiàn)領(lǐng)域的研究重點(diǎn)。

        2.2.3 結(jié)果評(píng)估與解釋階段

        結(jié)果評(píng)估與解釋階段主要用于衡量知識(shí)發(fā)現(xiàn)過程,需解決數(shù)據(jù)集模式如何以合適的方式展示給用戶。為解決這一問題,對結(jié)果的評(píng)估、可視化和推薦方法研究必不可少。如Braun等[21]將社會(huì)網(wǎng)絡(luò)分析用于知識(shí)發(fā)現(xiàn),通過社交網(wǎng)絡(luò)作圖,為知識(shí)發(fā)現(xiàn)的可視化提供新途徑;Sung等[22]認(rèn)為在數(shù)據(jù)經(jīng)濟(jì)環(huán)境下,知識(shí)發(fā)現(xiàn)的數(shù)據(jù)分析結(jié)果并非完全符合需求,因此,提出一種數(shù)據(jù)集質(zhì)量評(píng)估措施來評(píng)估知識(shí)發(fā)現(xiàn)的結(jié)果;Bai等[20]對自組織特征進(jìn)行優(yōu)化得到批學(xué)習(xí)自組織特征并用到知識(shí)發(fā)現(xiàn)的可視化中;Alvarado-Perez等[23]綜述了近年來可用于大數(shù)據(jù)的知識(shí)發(fā)現(xiàn)可視化技術(shù)、可視化系統(tǒng)和可視化模型,并根據(jù)數(shù)據(jù)挖掘的集成過程提出可視化技術(shù)的優(yōu)化方法;Jiang等[19]對日志文件進(jìn)行數(shù)據(jù)挖掘處理,提出基于時(shí)間的推薦方法并用于用戶知識(shí)發(fā)現(xiàn)。

        結(jié)果評(píng)估是對知識(shí)發(fā)現(xiàn)過程好壞的判斷,可視化和推薦是直接呈現(xiàn)給用戶的知識(shí)發(fā)現(xiàn)結(jié)果展示方式,給用戶更直觀的感受。大數(shù)據(jù)為知識(shí)發(fā)現(xiàn)研究帶來機(jī)遇,大力促進(jìn)知識(shí)發(fā)現(xiàn)的技術(shù)與應(yīng)用研究,但知識(shí)發(fā)現(xiàn)是一種面向用戶的服務(wù),研究不能脫離用戶感受,結(jié)果的評(píng)估與展示十分重要。

        從已有研究中得出,在大數(shù)據(jù)環(huán)境下,該階段國外研究的重點(diǎn)已經(jīng)集中在對現(xiàn)有的評(píng)估、可視化和推薦技術(shù)的優(yōu)化上,而非已有方法的直接使用,優(yōu)化的目標(biāo)并非集中在某一技術(shù)方法上,說明這一階段的技術(shù)方法均有廣闊的優(yōu)化空間,能夠取得不錯(cuò)的研究進(jìn)展。而在國內(nèi),并未發(fā)現(xiàn)明確提出對知識(shí)發(fā)現(xiàn)結(jié)果評(píng)估與解釋階段的研究,涉及該階段的研究多是對已有技術(shù)方法的直接應(yīng)用,對此階段的關(guān)注還有待提高。

        2.3 知識(shí)發(fā)現(xiàn)的應(yīng)用

        理論技術(shù)方法研究最終都將歸于應(yīng)用,知識(shí)發(fā)現(xiàn)也不例外。知識(shí)發(fā)現(xiàn)是一個(gè)智能化、自動(dòng)化的過程,其目標(biāo)是幫助人們解決數(shù)字信息時(shí)代的信息過載問題[24]。特別是大數(shù)據(jù)處理技術(shù)的興起使得知識(shí)發(fā)現(xiàn)能夠更好地應(yīng)用于各個(gè)領(lǐng)域,解決領(lǐng)域內(nèi)的問題。對此,國內(nèi)外學(xué)者展開了相關(guān)的研究。

        陳聰?shù)萚25]將大數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn)技術(shù)應(yīng)用于輔助智慧城市的綜合發(fā)展;趙瑞雪等[26]設(shè)計(jì)了一種大數(shù)據(jù)環(huán)境下的農(nóng)業(yè)知識(shí)發(fā)現(xiàn)服務(wù)體系,從農(nóng)業(yè)綜合科技數(shù)字知識(shí)存儲(chǔ)構(gòu)建、基于深度融合知識(shí)挖掘分析等方面闡述農(nóng)業(yè)知識(shí)發(fā)現(xiàn)服務(wù)的研究;殷雯雯等[27]將大數(shù)據(jù)技術(shù)應(yīng)用于城市配電網(wǎng)中,提出基于城市配電網(wǎng)易購數(shù)據(jù)的知識(shí)發(fā)現(xiàn)和系統(tǒng)優(yōu)化概念;Holzinger等[28]將知識(shí)發(fā)現(xiàn)方法應(yīng)用于生物醫(yī)學(xué)研究領(lǐng)域,認(rèn)為知識(shí)發(fā)現(xiàn)和數(shù)據(jù)挖掘的方法非常適合生物醫(yī)學(xué)研究者;Renu等[29]采用知識(shí)發(fā)現(xiàn)和數(shù)據(jù)挖掘算法,通過懷卡托環(huán)境知識(shí)分析(WEKA)接口進(jìn)行時(shí)間研究分析,為裝配生產(chǎn)線規(guī)劃提供決策支持;Huang等[30]通過大數(shù)據(jù)知識(shí)發(fā)現(xiàn)的LDA算法檢測網(wǎng)絡(luò)中異常入侵現(xiàn)象;Mishra等[31]提出一種面向認(rèn)知的物聯(lián)網(wǎng)大數(shù)據(jù)框架,用于大型工業(yè)自動(dòng)化應(yīng)用的知識(shí)發(fā)現(xiàn)系統(tǒng);Zhang等[32]基于數(shù)據(jù)庫和大數(shù)據(jù)知識(shí)發(fā)現(xiàn)分析網(wǎng)絡(luò)輿情與知識(shí)發(fā)現(xiàn)的影響,將知識(shí)發(fā)現(xiàn)用于智慧城市建設(shè)中網(wǎng)絡(luò)輿情的管理。

        總體上看,在大數(shù)據(jù)的支撐下,知識(shí)發(fā)現(xiàn)的應(yīng)用范圍逐漸擴(kuò)展。從數(shù)據(jù)來源上看,知識(shí)發(fā)現(xiàn)的應(yīng)用范圍從僅支持關(guān)系數(shù)據(jù)庫管理系統(tǒng)、聯(lián)機(jī)分析多維數(shù)據(jù)集等結(jié)構(gòu)數(shù)據(jù)集變?yōu)榭梢灾С侄嗑S、異構(gòu)、無序、碎片式等復(fù)雜數(shù)據(jù)集合,如網(wǎng)絡(luò)日志、電子郵件、社交媒體等;從研究領(lǐng)域上看,知識(shí)發(fā)現(xiàn)的應(yīng)用范圍在計(jì)算機(jī)、工業(yè)、商業(yè)的基礎(chǔ)上增加其他領(lǐng)域,如醫(yī)學(xué)、農(nóng)業(yè)等;從用戶服務(wù)類型上看,知識(shí)發(fā)現(xiàn)的應(yīng)用范圍從為企業(yè)等集團(tuán)型用戶提供標(biāo)準(zhǔn)化服務(wù)擴(kuò)展為包括個(gè)體用戶在內(nèi)的多種用戶的個(gè)性化服務(wù)。

        3 總結(jié)

        本文通過對國內(nèi)外2012年前后研究概況的對比分析可以發(fā)現(xiàn),大數(shù)據(jù)對國內(nèi)知識(shí)發(fā)現(xiàn)發(fā)文量的影響不大,但是對發(fā)文內(nèi)容影響較大,最明顯的是圖書情報(bào)領(lǐng)域?qū)χR(shí)發(fā)現(xiàn)的高度關(guān)注和醫(yī)學(xué)領(lǐng)域知識(shí)發(fā)現(xiàn)的快速興起。通過對大數(shù)據(jù)環(huán)境下國內(nèi)外知識(shí)發(fā)現(xiàn)文獻(xiàn)的內(nèi)容分析可以發(fā)現(xiàn),國內(nèi)外都有部分文獻(xiàn)在研究知識(shí)發(fā)現(xiàn)的技術(shù)方法,并將其應(yīng)用于各個(gè)領(lǐng)域。同時(shí),國外對于知識(shí)發(fā)現(xiàn)的技術(shù)方法研究較全面,而國內(nèi)知識(shí)發(fā)現(xiàn)的技術(shù)方法研究有不同的側(cè)重,2012年前注重?cái)?shù)據(jù)挖掘方法,2012年后注重?cái)?shù)據(jù)準(zhǔn)備相關(guān)方法,但是對于結(jié)果評(píng)估與解釋相關(guān)方法的研究存在局限。知識(shí)發(fā)現(xiàn)作為面向用戶的知識(shí)服務(wù),其結(jié)果評(píng)估與解釋階段的研究將是必不可少的。

        目前,知識(shí)發(fā)現(xiàn)領(lǐng)域的研究正處于積蓄力量的階段,擴(kuò)展知識(shí)發(fā)現(xiàn)各階段的研究將為知識(shí)發(fā)現(xiàn)研究的發(fā)展帶來充足活力。理論研究應(yīng)著重與其他學(xué)科理論的融合,而非多學(xué)科理論的直接調(diào)用,為處理大數(shù)據(jù)環(huán)境下的復(fù)雜數(shù)據(jù)提供理論支撐。方法研究的重點(diǎn)應(yīng)從三個(gè)階段分別入手:數(shù)據(jù)準(zhǔn)備階段可加強(qiáng)爬蟲技術(shù)、多源異構(gòu)可擴(kuò)展數(shù)據(jù)表示技術(shù)、關(guān)聯(lián)數(shù)據(jù)分布式存儲(chǔ)技術(shù)等的研究;數(shù)據(jù)挖掘階段應(yīng)改變現(xiàn)有技術(shù)直接利用的問題,針對不同數(shù)據(jù)優(yōu)化數(shù)據(jù)挖掘算法,深入研究計(jì)算機(jī)視覺、自然語言處理等人工智能技術(shù),探究將這些技術(shù)移植到知識(shí)發(fā)現(xiàn)研究的可行性,并根據(jù)知識(shí)發(fā)現(xiàn)研究的特性對其進(jìn)行優(yōu)化;結(jié)果評(píng)估與解釋階段應(yīng)當(dāng)予以重視,大量的評(píng)估、可視化、推薦等方法在知識(shí)發(fā)現(xiàn)體系下可以得到深度優(yōu)化,這將是一個(gè)值得研究的領(lǐng)域。應(yīng)用研究受大數(shù)據(jù)的影響,研究范圍得到擴(kuò)展,個(gè)性化的、諸多領(lǐng)域的、復(fù)雜數(shù)據(jù)的應(yīng)用都將成為可能。

        由于知識(shí)發(fā)現(xiàn)存在很多細(xì)分領(lǐng)域,難以全部涵蓋,本文數(shù)據(jù)的選取可能未覆蓋所有知識(shí)發(fā)現(xiàn)的相關(guān)文獻(xiàn)。但是,本文從知識(shí)發(fā)現(xiàn)的理論、方法和應(yīng)用角度,結(jié)合大數(shù)據(jù)對相關(guān)研究的影響,力爭對研究進(jìn)展、主要觀點(diǎn)與發(fā)展趨向進(jìn)行述評(píng)和分析,為掌握知識(shí)發(fā)現(xiàn)研究的現(xiàn)狀與發(fā)展提供參考與借鑒。

        [1]FAYYAD U,PIATETSKY-SHAPIRO G,SMYTH P. The KDD process for extracting useful knowledge from volumes of data[J].Comunications of the ACM,1996,39(11):27-34.

        [2]王曰芬,謝清楠,宋小康. 國外數(shù)據(jù)科學(xué)研究的回顧與展望[J].圖書情報(bào)工作,2016,60(14):5-14.

        [3]段偉文. 大數(shù)據(jù)知識(shí)發(fā)現(xiàn)的本體論追問[J]. 哲學(xué)研究,2015(11):114-119.

        [4]劉江玲. 面向大數(shù)據(jù)的知識(shí)發(fā)現(xiàn)系統(tǒng)研究[J]. 情報(bào)科學(xué),2014(3):90-92.

        [5]李楠. 基于關(guān)聯(lián)數(shù)據(jù)的知識(shí)發(fā)現(xiàn)研究[D]. 北京:中國農(nóng)業(yè)科學(xué)院,2012.

        [6]TOUZI A G,ALOUI A,MAHOUACHI R. Cluster_KDD:a visual clustering and knowledge discovery platform based on concept lattice[C]// International Conference on Advances in Swarm Intelligence. Springer Berlin Heidelberg,2012:127-136.

        [7]ESPINOZA-MOLINA D,DATCU M. Data mining and knowledge discovery tools for exploiting big earth-observation data[J]. ISPRS-International Archives of the Photogrammetry,Remote Sensing and Spatial Information Sciences,2015,XL-7/W3(7):627-633.

        [8]ZHAO R Y,LIC L,LING W Q,et al. A rough set-based knowledge discovery model for crowd evacuation in a fire emergency[C]// International Conference on Advanced Management Science and Information Engineering(AMSIE 2015). Destech,2015:37-42.

        [9]劉樹林,徐筍晶,李日東,等. 基于屬性偏序原理的仲景經(jīng)方咳嗽治療規(guī)律知識(shí)發(fā)現(xiàn)[J]. 燕山大學(xué)學(xué)報(bào),2014(5):455-459.

        [10]吳劍峰. 大數(shù)據(jù)時(shí)代面向知識(shí)發(fā)現(xiàn)的網(wǎng)絡(luò)信息提取方法研究[D].合肥:安徽理工大學(xué),2016.

        [11]TALIA D. Making knowledge discovery services scalable on clouds for big data mining[C]// IEEE International Conference on Spatial Data Mining and Geographical Knowledge Services.IEEE,2015:1-4.

        [12]CASTELLI M,VANNESCHI L,MANZONI L,et al. Semantic genetic programming for fast and accurate data knowledge discovery[J]. Swarm & Evolutionary Computation,2015,26:1-7.

        [13]GALAR D,KANS M,SCHMIDT B. Big data in asset management:knowledge discovery in asset data by the means of data mining[C]// Proceedings of the 10th World Congress on Engineering Asset Management(WCEAM 2015). Springer International Publishing,2016:161-171.

        [14]CHEN H,WEI C,LIU C,et al. Relational network for knowledge discovery through heterogeneous biomedical and clinical features[J]. Scientific Reports,2016,6(1):29915-29927.

        [15]王莉. 基于粗糙-模糊集成的分類知識(shí)發(fā)現(xiàn)[D]. 南京:南京大學(xué),2013.

        [16]CABRERA F,SHIN R,CONCHA D,et al. Temporal knowledge discovery in big BAS data for building energy management[J]. Energy & Buildings,2015,109(4):75-89.

        [17]LOMOTEY R K,DETERS R. Towards knowledge discovery in big data[C]// IEEE,International Symposium on Service Oriented System Engineering. IEEE Computer Society,2014:181-191.

        [18]MA Y,TAN Y,ZHANG C,et al. A data mining model of knowledge discovery based on the deep learning[C]// Industrial Electronics and Applications. IEEE,2015:1212-1216.

        [19]JIANG Y,LI Y,YANG C,et al. Reconstructing sessions from data discovery and access logs to build a semantic knowledge base for improving data discovery[J]. ISPRS International Journal of Geo-Information,2016,5(5):54.

        [20]BAI Y,IWASAKI Y,KANAYA S,et al. A novel bioinformatics method for efficient knowledge discovery by BLSOM from big genomic sequence data[J]. Biomed Research International,2014,2014(5):1-11.

        [21]BRAUN P,CUZZOCREA A,LEUNG C K,et al. Knowledge discovery from social graph data[J]. Procedia Computer Science,2016,96:682-691.

        [22]SUNG A H,RIBEIRO B,LIU Q. Sampling and evaluating the big data for knowledge discovery[C]// International Conference on Internet of Things and Big Data. SCITEPRESS,2016:378-382.

        [23]ALVARADO-PEREZ J C,BOLANOS-RAMIREZ H,PELUFFO-ORDONEZ D H,et al. Knowledge discovery in databases from a perspective of intelligent information visualization[C]// Signal Processing, Images and Computer Vision. IEEE,2015:1-7.

        [24]王敏,張志強(qiáng). 圖書情報(bào)領(lǐng)域知識(shí)發(fā)現(xiàn)研究文獻(xiàn)內(nèi)容分析[J].現(xiàn)代圖書情報(bào)技術(shù),2008(2):66-68.

        [25]陳聰,張國惠,馬曉磊,等. 利用大數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn)技術(shù)輔助智慧城市發(fā)展[J]. 大數(shù)據(jù),2016,2(3):39-48.

        [26]趙瑞雪,鮮國建,寇遠(yuǎn)濤,等. 大數(shù)據(jù)環(huán)境下的農(nóng)業(yè)知識(shí)發(fā)現(xiàn)服務(wù)探索[J]. 數(shù)字圖書館論壇,2016(9):28-33.

        [27]殷雯雯,彭晨,杜大軍. 大數(shù)據(jù)時(shí)代城市配電網(wǎng)異構(gòu)數(shù)據(jù)的知識(shí)發(fā)現(xiàn)與優(yōu)化研究[J]. 工業(yè)控制計(jì)算機(jī),2015(11):134-135.

        [28]HOLZINGER A,ZUPAN M. KNODWAT:a scientific framework application for testing knowledge discovery methods for the biomedical domain[J]. BMC Bioinformatics,2013,14(1):191.

        [29]RENU R S,MOCKO G,KONERU A. Use of big data and knowledge discovery to create data backbones for decision support systems[J]. Procedia Computer Science,2013,20:446-453.

        [30]HUANG J,KALBARCZYK Z,NICOL D M. Knowledge discovery from big data for intrusion dtection using LDA[C]// IEEE International Congress on Big Data. IEEE,2014:760-761.

        [31]MISHRA N,LINC C,CHANG H T. A cognitive adopted framework for IoT big-data management and knowledge discovery prospective[J]. International Journal of Distributed Sensor Networks,2015:6.

        [32]ZHANG C,HE L,MAO Y,et al. Knowledge discovery of network public opinion in the concept of smart city[C]//Industrial Electronics and Applications(ICIEA),2015 IEEE 10th Conference on. IEEE,2015:1197-1202.

        猜你喜歡
        數(shù)據(jù)挖掘理論方法
        堅(jiān)持理論創(chuàng)新
        神秘的混沌理論
        理論創(chuàng)新 引領(lǐng)百年
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
        相關(guān)于撓理論的Baer模
        基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
        電力與能源(2017年6期)2017-05-14 06:19:37
        可能是方法不對
        用對方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        国产精品∧v在线观看| 亚洲一区二区三区麻豆| 天天躁日日操狠狠操欧美老妇| 一本大道久久东京热无码av| 国产亚洲激情av一区二区| 亚洲综合久久中文字幕专区一区| 欧美成人家庭影院| 中国无码人妻丰满熟妇啪啪软件| 中文字幕人妻少妇引诱隔壁| 亚洲精品无码成人a片| 欧美成人久久久| 亚洲天堂av社区久久| 亚洲中文字幕综合网站| 日本视频在线观看一区二区| 老熟妇乱子伦牲交视频| 天码人妻一区二区三区| 66lu国产在线观看| 欧美成人www免费全部网站| 人妻中文字幕一区二区二区| 男女激情视频网站免费在线| 成人午夜福利视频后入| 国产欧美日韩视频一区二区三区| 亚洲色欲久久久综合网 | 无码一区二区三区久久精品| 精品福利一区二区三区| 友田真希中文字幕亚洲| 国产乱人视频在线播放| 亚洲AV无码一区二区三区日日强| 亚洲免费观看一区二区三区| 国产优质av一区二区三区| 强开小婷嫩苞又嫩又紧视频韩国| 综合色区亚洲熟妇另类| 污污污污污污WWW网站免费| 亚洲黄色性生活一级片| 亚洲大片一区二区三区四区| 亚洲精品在线国产精品| 国产成人亚洲精品无码mp4| 日本视频中文字幕一区在线| 中文字幕视频二区三区| 日本三级吃奶头添泬| 久久婷婷香蕉热狠狠综合 |