亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        大數(shù)據(jù)環(huán)境下面向知識服務(wù)的數(shù)據(jù)清洗研究*

        2013-08-11 03:51:20劉喜文
        圖書與情報 2013年5期
        關(guān)鍵詞:閥值元組清潔度

        蔣 勛 劉喜文

        (1.南京大學(xué)信息管理學(xué)院 江蘇南京 210039)

        (2.無錫城市職業(yè)技術(shù)學(xué)院電子信息工程系 江蘇無錫 214153)

        1 引言

        隨著以微博、社交網(wǎng)絡(luò)等為代表的新型信息發(fā)布方式的不斷涌現(xiàn),人類社會的數(shù)據(jù)種類和規(guī)模正以前所未有的速度在不斷地增加和累積,大數(shù)據(jù)時代正式到來。在大數(shù)據(jù)環(huán)境下探討知識服務(wù),不再局限在傳統(tǒng)的文獻(xiàn)服務(wù),而必須同步數(shù)據(jù)的爆發(fā)式增長與社會化趨勢,將視角瞄準(zhǔn)大量的碎片化信息、用戶行為、用戶關(guān)系,并將焦點匯聚在由此產(chǎn)生的實時數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)及機器數(shù)據(jù)。知識服務(wù)的內(nèi)涵,將隨著大數(shù)據(jù)的驅(qū)動而深刻發(fā)生變化,它將幫助一個組織更好地調(diào)用內(nèi)部、外部以及公共信息,并進(jìn)行數(shù)據(jù)分析,做出前瞻性的數(shù)據(jù)判斷。

        美通社最新發(fā)布的 《大數(shù)據(jù)市場:2012至2018年全球形勢、發(fā)展趨勢、產(chǎn)業(yè)分析、規(guī)模、份額和預(yù)測》報告指出,2012年全球大數(shù)據(jù)市場產(chǎn)值為63億美元,預(yù)計2018年該產(chǎn)值將達(dá)483億。2012年,美國政府撥款2億美元啟動“大數(shù)據(jù)研究和發(fā)展倡議”計劃。IBM、微軟、Google等國外IT巨頭早已嗅到了“大數(shù)據(jù)時代”的商機,這些國際巨頭借助自己擁有領(lǐng)先技術(shù)和豐富資源,以及穩(wěn)定的大客戶群,實力雄厚,率先涉足。

        我國互聯(lián)網(wǎng)數(shù)據(jù)中心(IDC)對中國大數(shù)據(jù)技術(shù)和服務(wù)市場2012~2016年的預(yù)測與分析指出:該市場規(guī)模將會從2011年的7760萬美元增長到2016年的6.17億美元,未來5年的復(fù)合增長率達(dá)51.4%,市場規(guī)模增長近7倍。在國內(nèi),大數(shù)據(jù)正在引起越來越多的企業(yè)關(guān)注。不但阿里巴巴、騰訊等把大數(shù)據(jù)當(dāng)成近期的重點項目。作為國內(nèi)互聯(lián)網(wǎng)產(chǎn)業(yè)的發(fā)源地和創(chuàng)新高地,中關(guān)村也在搶抓大數(shù)據(jù)發(fā)展機遇,著手布局大數(shù)據(jù)產(chǎn)業(yè)。

        學(xué)術(shù)界、工業(yè)界甚至政府機構(gòu)都已經(jīng)開始密切關(guān)注大數(shù)據(jù)問題,并對其產(chǎn)生了濃厚的興趣。大數(shù)據(jù)是新一代信息技術(shù)的集中反映,表現(xiàn)在數(shù)據(jù)從簡單的處理對象轉(zhuǎn)變?yōu)橐环N基礎(chǔ)性資源,大數(shù)據(jù)的規(guī)模效應(yīng)正在給數(shù)據(jù)存儲、管理以及數(shù)據(jù)分析帶來了極大的挑戰(zhàn),知識管理方式上的變革正在醞釀和發(fā)生。如何有效存儲、管理、組織和更新大規(guī)模的數(shù)據(jù),如何有效利用存儲的數(shù)據(jù)進(jìn)行推理獲取知識并求解問題,這也是目前圖書情報領(lǐng)域一個重要研究課題,正如Google的首席經(jīng)濟學(xué)家Hal Varian所說,數(shù)據(jù)是廣泛可用的,所缺乏的是從中提取出知識的能力。由此,可以認(rèn)為數(shù)據(jù)收集的根本目的是根據(jù)需求從數(shù)據(jù)中提取有用的知識,并將其應(yīng)用到具體的領(lǐng)域之中。大數(shù)據(jù)環(huán)境下,更需要高效的知識提取手段,使得大數(shù)據(jù)源源不斷提供有用的知識,而非知識被“淹沒”在大數(shù)據(jù)中。在“數(shù)據(jù)海洋”中對大數(shù)據(jù)進(jìn)行知識提取,最有可能的手段是讓大數(shù)據(jù)“縮水”,祛除一些噪聲數(shù)據(jù),對剩下的那些蘊含所需知識的數(shù)據(jù)進(jìn)行提取,這也是進(jìn)行知識管理的前提,更是知識服務(wù)的基礎(chǔ)。

        而在大數(shù)據(jù)環(huán)境下,要做好數(shù)據(jù)分析并以此做出數(shù)據(jù)判斷的基礎(chǔ)工作是數(shù)據(jù)清洗。大數(shù)據(jù)的維度包含了數(shù)量、多樣性、速度、精確性等,在如此大維度中不可避免的存在著粗糙的、不合時宜的數(shù)據(jù),如何將這些非清潔數(shù)據(jù)有效轉(zhuǎn)化成高質(zhì)量的干凈數(shù)據(jù),涉及到知識組織中的數(shù)據(jù)清理。數(shù)據(jù)的質(zhì)量體現(xiàn)出數(shù)據(jù)的價值,更是知識服務(wù)水平的保障。數(shù)據(jù)清洗的最終目的就是提高數(shù)據(jù)的質(zhì)量。

        2 相關(guān)研究綜述

        系統(tǒng)科學(xué)理論對知識組織研究過程中一些問題和現(xiàn)象進(jìn)行了科學(xué)的闡釋和有效地引導(dǎo)。借助控制論(Control Theory)可為實現(xiàn)知識服務(wù)提供理論支持,具體而言過程化的控制思想對數(shù)據(jù)加工處理環(huán)節(jié)的數(shù)據(jù)質(zhì)量控制、加工處理環(huán)節(jié)的時間、進(jìn)度等控制,為知識組織工程的時間、進(jìn)度和質(zhì)量的控制提供了有效地理論支撐。在系統(tǒng)科學(xué)理論的指導(dǎo)下,就可從控制論角度出發(fā)采用數(shù)據(jù)清洗手段解決在知識組織過程中數(shù)據(jù)的質(zhì)量控制、數(shù)據(jù)和知識生產(chǎn)流程控制等難題,并能基于控制論基本原理解決知識組織過程中大量復(fù)雜問題。

        在數(shù)據(jù)清洗問題上,王曰芬教授領(lǐng)銜的研究團(tuán)隊就從問題產(chǎn)生的背景和國內(nèi)外研究現(xiàn)狀進(jìn)行了系統(tǒng)的綜述研究,并給出數(shù)據(jù)清洗的定義和對象且說明了數(shù)據(jù)清洗的基本原理、模型,以及分析相關(guān)算法和工具,進(jìn)一步給出了數(shù)據(jù)清洗評估方法。他們的成果對今后數(shù)據(jù)清洗的研究奠定了基礎(chǔ)。曹建軍等認(rèn)為數(shù)據(jù)清洗是數(shù)據(jù)質(zhì)量研究的起點,從數(shù)據(jù)質(zhì)量的角度明確數(shù)據(jù)清洗的作用,并提出了數(shù)據(jù)清洗的一般系統(tǒng)框架,該框架具備了柔性、可擴展性、交互性好、松耦合的特點。葉煥倬等研究了相似重復(fù)數(shù)據(jù)清理方法,重點對檢測和清除算法按照算法類型及相關(guān)改進(jìn)思路進(jìn)行分類綜述,值得注意的是他們的視野已關(guān)注到將知識和語義的概念引入到數(shù)據(jù)清理框架中。王宏志等的研究在一定程度上容忍非清潔數(shù)據(jù)的存在,側(cè)重研究包含非清潔數(shù)據(jù)的數(shù)據(jù)庫管理技術(shù),提出了非清潔數(shù)據(jù)的表示方法,支持非清潔數(shù)據(jù)的數(shù)據(jù)操作,這樣的非清潔數(shù)據(jù)模型包括一個以關(guān)系操作為核心的操作代數(shù),可以有效地支持非清潔數(shù)據(jù)的各種該應(yīng)用。而介于清潔數(shù)據(jù)與非清潔數(shù)據(jù)中間的不確定數(shù)據(jù),周傲英教授等注意到數(shù)據(jù)的不確定性普遍存在并且表現(xiàn)形式多種多樣,提出了針對不確定數(shù)據(jù)的數(shù)據(jù)模型運用排序、剪枝等啟發(fā)式技術(shù)設(shè)計新型算法,進(jìn)一步綜述了數(shù)據(jù)模型、數(shù)據(jù)預(yù)處理與集成、存儲與索引、查詢處理等方面的工作。張巖等的研究中,給出了衡量數(shù)據(jù)質(zhì)量的方法,并且可根據(jù)用戶對結(jié)果質(zhì)量的需求給出達(dá)到一定質(zhì)量的查詢結(jié)果。葉鷗等的研究瞄準(zhǔn)中文數(shù)據(jù)清洗問題產(chǎn)生的背景、國內(nèi)外研究現(xiàn)狀與研究熱點,突出了中文數(shù)據(jù)清洗基本原理、模型及算法并著重闡明了中文數(shù)據(jù)清洗的方法,也總結(jié)中文數(shù)據(jù)清洗研究的不足,并對中文數(shù)據(jù)清洗的研究及應(yīng)用進(jìn)行了展望。

        已有的研究成果,對本文展開數(shù)據(jù)清洗的研究在模型、技術(shù)、方法奠定了基礎(chǔ),控制論又從知識服務(wù)方向提供了從事數(shù)據(jù)清洗的理論指導(dǎo)。現(xiàn)階段,針對數(shù)據(jù)清洗的研究不多,從知識服務(wù)的角度探究數(shù)據(jù)清洗的研究成果更少。而大數(shù)據(jù)引來了國內(nèi)外越來越多的關(guān)注,逐漸發(fā)展成國民經(jīng)濟中一個重要產(chǎn)業(yè),標(biāo)志性的特征就是:①數(shù)據(jù)種類和規(guī)模正以前所未有的速度在不斷地增加和累積;②數(shù)據(jù)分析的深度需求與知識服務(wù)廣泛整合的鴻溝在拉大。在如此大數(shù)據(jù)的環(huán)境下,以知識服務(wù)為目的,深入研究數(shù)據(jù)清洗,將面臨的問題:一方面是在知識組織過程中很多非清潔的數(shù)據(jù)是很難被徹底清洗干凈;另一方面,對非清潔數(shù)據(jù)的清洗可能造成部分知識的丟失或失真;再一方面,知識庫中信息更新頻繁,要同步執(zhí)行非清潔數(shù)據(jù)的辨識與清洗將極大影響知識庫系統(tǒng)的效率,以致知識組織的過程低效。

        針對面臨的問題,本文從容忍非清潔數(shù)據(jù)存在的研究視角試圖解決從包含非清潔數(shù)據(jù)的知識庫中獲取滿足清潔度要求的查詢結(jié)果的問題,也就是要給出非清潔數(shù)據(jù)的清潔度的描述。而非清潔來自兩個方面,一方面是數(shù)據(jù)本身的非清潔,表現(xiàn)特征是數(shù)據(jù)的錯誤、不準(zhǔn)確、不完整;另一方面是數(shù)據(jù)間的非清潔,表現(xiàn)特征是數(shù)據(jù)的重復(fù)、冗余、不一致。針對非清潔的兩個方面,本文的研究工作將從元組上添加清潔度來描述數(shù)據(jù)清潔度,以此實現(xiàn)非清潔數(shù)據(jù)的清潔度的描述。

        3 大數(shù)據(jù)對數(shù)據(jù)清洗的基礎(chǔ)性需求

        大數(shù)據(jù)不僅數(shù)量大,而且是異構(gòu)和多媒體的。在大數(shù)據(jù)環(huán)境下探討知識服務(wù)的解決方案、實現(xiàn)途徑和方法,以及實現(xiàn)知識服務(wù)涉及到的技術(shù)問題。首先在宏觀層面明確大數(shù)據(jù)對實現(xiàn)知識服務(wù)的要求,其次在技術(shù)實現(xiàn)層面找到支持?jǐn)?shù)據(jù)處理、信息分析和知識服務(wù)涉及的基礎(chǔ)性突破,即數(shù)據(jù)清洗。

        3.1 大數(shù)據(jù)對知識服務(wù)的要求

        大數(shù)據(jù)的價值在于提煉其中隱藏在數(shù)據(jù)中的規(guī)律和有關(guān)知識,它對知識服務(wù)的要求集中體現(xiàn)在兩個方面:首先是大數(shù)據(jù)環(huán)境下的數(shù)據(jù)整合與規(guī)劃。大數(shù)據(jù)不僅僅是容量大、內(nèi)容豐富,而且其結(jié)構(gòu)是異構(gòu)的,數(shù)據(jù)產(chǎn)生的速度也是飛速的,數(shù)據(jù)中蘊含的知識也是無法衡量的。數(shù)據(jù)的繁雜、良莠不齊,使數(shù)據(jù)的利用效率受到影響。通過整合與規(guī)劃提高數(shù)據(jù)的利用效率、提升數(shù)據(jù)的使用價值;其次數(shù)據(jù)的知識關(guān)聯(lián)與組織。孤立的數(shù)據(jù)價值低,也只能完成傳統(tǒng)的信息服務(wù)。針對大數(shù)據(jù)的知識服務(wù)必須將數(shù)據(jù)進(jìn)行關(guān)聯(lián),使之能夠為解決問題直接提供知識。通過分析知識組織的關(guān)聯(lián)機制,構(gòu)建以知識服務(wù)為目標(biāo)的知識地圖,確保從傳統(tǒng)的信息服務(wù)能夠上升到知識服務(wù)層面。

        3.2 知識服務(wù)對數(shù)據(jù)清洗的需求

        在知識組織過程中,知識庫“吸收”數(shù)據(jù)且“供給”知識,最終目的是為知識服務(wù)提供滿足應(yīng)用所要求的合適的查詢結(jié)果,數(shù)據(jù)是知識的基礎(chǔ),數(shù)據(jù)質(zhì)量決定了知識的價值,而數(shù)據(jù)質(zhì)量問題是由非清潔數(shù)據(jù)造成的。為此,知識服務(wù)若要實現(xiàn)高端的服務(wù)水平,基礎(chǔ)在于知識組織,瓶頸在于數(shù)據(jù)清洗。數(shù)據(jù)清洗的目的是檢測數(shù)據(jù)本身的非清潔和數(shù)據(jù)間的非清潔,剔除或者改正它們,以提高數(shù)據(jù)的質(zhì)量。知識服務(wù)不僅需要分析非清潔數(shù)據(jù)的各種類型不一致、不精確、錯誤、冗余、過時等的解決方案,更需要追溯非清潔數(shù)據(jù)的形成源頭,如:①數(shù)據(jù)本身來源不清潔導(dǎo)致的非清潔數(shù)據(jù),例如數(shù)據(jù)采集和錄入的精確;②數(shù)據(jù)模式的不清潔和信息集成中模式不匹配導(dǎo)致的非清潔數(shù)據(jù);③數(shù)據(jù)的查詢請求本身是不清潔的,導(dǎo)致獲取了非清潔的查詢結(jié)果。最終結(jié)合不同來源與不同類型,反饋修正解決方案使之能配合知識表示效用,以及在提高知識服務(wù)水平的同時,保障知識服務(wù)的效率。

        4 數(shù)據(jù)清洗的基本框架模型

        以一個非清潔數(shù)據(jù)的片段為例,如表1所示,可以很容易判斷:①不完整的數(shù)據(jù)有:(ID:3、字段:City)“BJ”;②錯誤的數(shù)據(jù)有:(ID:6、字段:Name)“Mal-Mart”;③冗余的數(shù)據(jù):(ID:1、3、6)表示同一個實體。

        表1 非清潔數(shù)據(jù)的片段

        對非清潔數(shù)據(jù),數(shù)據(jù)清洗的框架模型分5個部分逐步進(jìn)行,整個框架如圖1所示。

        圖1 數(shù)據(jù)清洗的框架模型

        4.1 準(zhǔn)備

        包括需求分析、大數(shù)據(jù)類別分析、任務(wù)定義、小類別方法定義、基本配置,以及基于以上工作獲得數(shù)據(jù)清洗方案等。通過需求分析明確知識庫系統(tǒng)的數(shù)據(jù)清洗需求,大數(shù)據(jù)類別分析將大數(shù)據(jù)歸類以便同類數(shù)據(jù)進(jìn)行分析,任務(wù)定義要明確具體的數(shù)據(jù)清洗任務(wù)目標(biāo),小類別方法定義確定某類非清潔數(shù)據(jù)合適的數(shù)據(jù)清洗方法,基本配置完成數(shù)據(jù)接口等的配置,要形成完整的數(shù)據(jù)清洗方案,并整理歸檔。上述案例,可以看出表1描述的是超市的相關(guān)信息。

        4.2 檢測

        對數(shù)據(jù)本身及數(shù)據(jù)間的預(yù)處理檢測包括相似重復(fù)記錄、不完整記錄、邏輯錯誤、異常數(shù)據(jù)等,并且對檢測結(jié)果進(jìn)行統(tǒng)計,全面獲得的數(shù)據(jù)質(zhì)量信息,并將相關(guān)信息整理歸檔。上述案例(表1)檢測出存在有:①不完整的數(shù)據(jù)、②錯誤的數(shù)據(jù)、③冗余的數(shù)據(jù)。

        4.3 定位

        對檢測結(jié)果的歸檔信息進(jìn)行數(shù)據(jù)質(zhì)量進(jìn)行評估,獲得非清潔數(shù)據(jù)的定位并進(jìn)行數(shù)據(jù)追蹤分析,分析非清潔數(shù)據(jù)及由此可能的知識表示的影響,分析產(chǎn)生非清潔的根本原因;進(jìn)而確定數(shù)據(jù)質(zhì)量問題性質(zhì)及位置,給出非清潔的修正方案,并將相關(guān)信息歸檔。根據(jù)定位分析情況,可能需要返回“檢測”階段,進(jìn)一步定位需要修正數(shù)據(jù)的位置。上例中非清潔數(shù)據(jù)片段的位置:(ID:3、字段:City)、(ID:6、字段:Name)、(ID:1、3、6)。

        4.4 修正

        在定位分析的基礎(chǔ)上,對檢測出的非清潔數(shù)據(jù)進(jìn)行修正,包括非清潔數(shù)據(jù)標(biāo)記、不可用數(shù)據(jù)刪除、重復(fù)記錄合并、缺失數(shù)據(jù)估計與填充等,并對數(shù)據(jù)修正過程進(jìn)行存儲管理。上例中在定位后,修正上述三類數(shù)據(jù),經(jīng)過修正后,得到如表2所示數(shù)據(jù)片斷。

        表2 經(jīng)過修正的數(shù)據(jù)片段

        4.5 驗證

        對修正后的數(shù)據(jù)與任務(wù)定義的符合性進(jìn)行比對驗證,如果結(jié)果與任務(wù)目標(biāo)不符合,則做進(jìn)一步定位分析與修正,甚至返回“準(zhǔn)備”中調(diào)整相應(yīng)準(zhǔn)備工作。表2反映出經(jīng)過一輪修正后的數(shù)據(jù)片斷,與表1相比部分不完整的數(shù)據(jù)、錯誤的數(shù)據(jù)、冗余的數(shù)據(jù)得到了清洗,但清洗過后的數(shù)據(jù)顯然還不完美,依然有明顯不一致的地方。

        5 基本框架模型的局限

        實際大數(shù)據(jù)應(yīng)用中,前面提出的基本模型具有局限性:首先,大數(shù)據(jù)通常是異構(gòu)且碎片化的,多數(shù)情況下這些類型的非清潔數(shù)據(jù)是難以被徹底清洗干凈的;其次,對非清潔數(shù)據(jù)的清洗可能會造成蘊含知識的損失,以致知識的失真;最后,對于知識庫頻繁更新,同步執(zhí)行非清潔數(shù)據(jù)的辨識和清洗將極大地減低系統(tǒng)的效率。

        再如上例中,從表1到表2,在一定程度是進(jìn)行了數(shù)據(jù)清洗, 但深入觀察可以發(fā)現(xiàn) (ID:6、 字段:Name)“Walmart”雖然不存在拼寫錯誤,但表示方式與其他的“Wal-Mart”并不一致,還有(字段:Phn)的表示也不一致,這些不一致的地方閱讀者容易理解,而機器很難“理解”。也就是,經(jīng)過一輪的數(shù)據(jù)清洗,出現(xiàn)了知識內(nèi)涵一致的元組(“Walmart”與“Wal-Mart”),卻存在表示字符上的差異,這是否意味著需要進(jìn)一步進(jìn)行數(shù)據(jù)清洗?如果由機器進(jìn)行更細(xì)膩的數(shù)據(jù)清洗,必然將出現(xiàn)一部分信息的丟失或失真,并且?guī)頇C器計算上的負(fù)擔(dān)。因此,數(shù)據(jù)清洗是必要的,但清洗過后,依然存在非清潔數(shù)據(jù)也是必然的。

        從上述分析可以看出,非清潔數(shù)據(jù)的辨識與清洗很難保證徹底消除非清潔數(shù)據(jù),特別大數(shù)據(jù)的多維度性,給清洗帶來了困難,且隨著清洗的細(xì)膩程度逐步提高,知識庫系統(tǒng)的運行性能將逐步降低伴隨將逐步丟失數(shù)據(jù)中蘊藏的信息,不能快速有效地解決非清潔數(shù)據(jù)帶來的問題。為此,大數(shù)據(jù)的存在,需要在一定程度上容忍非清潔數(shù)據(jù)的存在。這樣,研究管理包含非清潔數(shù)據(jù)的知識庫系統(tǒng)成為了重要的問題,其核心在于如何從包含非清潔數(shù)據(jù)的知識庫中得到滿足應(yīng)用所要求清潔度的查詢結(jié)果。

        6 非清潔數(shù)據(jù)的清潔度的機制

        6.1 清潔度獲取

        清潔度本質(zhì)上反應(yīng)的是數(shù)據(jù)質(zhì)量。目前,清潔度定義可以用兩種方法描述:一種是概率的方法,即將元組清潔度定義為該元組準(zhǔn)確的概率;另一種是相對誤差的方法,即定義元組對于真實值的相對誤差。其中應(yīng)用最為廣泛的是概率的方法。如表1中,可以判斷元組1、3和6表示同一個實體,因此,可以合并這3條元組,根據(jù)這個數(shù)據(jù)片段只能判斷“Name”取值更可能為“Wal-Mart”,但機器無法完全排除“Mal-Mart”,為了描述每個可能取值的質(zhì)量,賦予每個值一個概率值,表示該值的清潔度。如“Wal-Mart”在同一個實體3條元組出現(xiàn)了2次,則清潔度為2/3,從而得出該條實體各元組的清潔度,如表3所示。

        表3 元組清潔度

        在實際應(yīng)用中,元組的清潔度可以通過人工或者自動的方法獲取,主要來源包括:

        (1)人工添加。最直接的方法是由用戶根據(jù)領(lǐng)域知識和數(shù)據(jù)的來源添加數(shù)據(jù)的清潔度。這種方法的問題在于,當(dāng)數(shù)據(jù)量很大時,需要大量的人力。

        (2)屬性清潔度組合。由于一些屬性的清潔度是可以預(yù)知的,比如在科學(xué)統(tǒng)計數(shù)據(jù)庫中描述某儀器采回數(shù)據(jù)的關(guān)系,模式為(Time,Value),其中:Value列來源于數(shù)據(jù)采集設(shè)備,該設(shè)備的相對誤差是知道的;而 Time列是在采樣時由系統(tǒng)添加,可以看成清潔的列。因此,該關(guān)系中元組的清潔度定義為Value列的清潔度。

        (3)模式轉(zhuǎn)換。在信息集成中,在數(shù)據(jù)之間進(jìn)行模式轉(zhuǎn)換會產(chǎn)生清潔度的損失,在一些信息集成方法中會給出模式轉(zhuǎn)換時數(shù)據(jù)的損失,經(jīng)過歸一化以后,該損失可以用作表示數(shù)據(jù)清潔度。

        (4)信息提取。信息提取的過程中,一些技術(shù)會根據(jù)原始數(shù)據(jù)的特點或者機器學(xué)習(xí)的方法求得某數(shù)據(jù)屬于某元組概率或者準(zhǔn)確率,這個值可用作數(shù)據(jù)清潔度的描述。

        (5)實體識別。當(dāng)前,有很多實體識別的方法將數(shù)據(jù)集合劃分成為實體,通過描述同一實體的不同元組之間的不一致性來描述實體的清潔度。

        以上多種方法在一些應(yīng)用中是可以結(jié)合使用的,根據(jù)本模型的特點,在結(jié)合使用時,元組的清潔度應(yīng)為多來源清潔度的乘積。一方面使得元組的清潔度滿足取值在[0,1]之間;另一方面,這樣的方法體現(xiàn)了多種清潔度的復(fù)合。例如信息提取系統(tǒng)中,首先進(jìn)行信息提取,然后進(jìn)行實體識別,則最終結(jié)果的清潔度可以定義為信息提取步驟的清潔度與實體識別步驟清潔度的乘積。

        6.2 操作的實現(xiàn)策略

        通過在每個關(guān)系中添加描述清潔度的列(如表3),現(xiàn)有的關(guān)系數(shù)據(jù)庫系統(tǒng)可以對本模型所描述的數(shù)據(jù)進(jìn)行管理。然而,現(xiàn)有關(guān)系數(shù)據(jù)庫中的管理機制不足以支持所有的操作??紤]到隨著操作的進(jìn)行數(shù)據(jù)清潔度是遞減的,因此根據(jù)查詢的需求,在操作執(zhí)行的過程中某些環(huán)節(jié)需要過濾掉清潔度不可能滿足查詢要求的中間結(jié)果,這樣可以減小中間結(jié)果的數(shù)據(jù)量,從而加速查詢的處理。例如,對于如果查詢要求結(jié)果中每條元組的清潔度在 0.5以上,則在查詢處理的過程中可以過濾掉清潔度小于0.5的中間結(jié)果,因為由這些中間結(jié)果生成最終結(jié)果的清潔度一定小于 0.5。

        6.3 基于閥值的相似連接算法

        相似連接是在兩個元組集合中選擇出滿足相似性下界(閥值)的元組對。目前已經(jīng)有很多衡量相似性的方法:編輯距離、Hamming距離、杰卡德相似度以及余弦相似度等。本小節(jié)考慮的是基于編輯距離的相似連接。對于給定的兩個字符串 r和 s,r和 s的編輯距離 ed(r,s)是指從 r變?yōu)閟所需要的最少的編輯操作(包括:刪除、插入和替換 )次數(shù)。如表4中,ed (Wal-Mart,Mal-Mart)=1,ed(80103389,010-80103389)=4。 在實體關(guān)系數(shù)據(jù)庫中,屬性值可能含有多個取值,本書對相似連接算法給出如下定義。

        表4 集合R和S

        定義1:相似連接。給定兩個屬性值集合R和S及編輯距離閥值k,R和S的相似連接是指選出所有的屬性值組合(r,s),其中 r∈R,s∈S,而且 r和 s滿足至少存在一組可能取值 r和 s。 它們的編輯距離 ed(r,s)≤k。

        以表4為例,給出兩個集合R和S。若編輯距離閥值k 設(shè)為 3,則對應(yīng)相似連接結(jié)果僅為(r,s)與(r,s),因為ed (Wal-Mart,Mal-Mart) =1 ≤3,ed (Jerry Strauss,Jerry Strauss)=0≤3。 其余相似連接中(r,s)、(r,s)顯然其編輯距離均超過閥值3,表5給出了連接結(jié)果。

        表5 集合R和S的相似連接結(jié)果

        其中,第二條元組(ID=2),ed (Jerry Smith,Jerry Strauss)>3、ed(Jerry Smith,Jeff Strauss)>3,故第二條元組對應(yīng)清潔度為1/5*2/5+1/5*3/5=0.2。

        在實際關(guān)系數(shù)據(jù)庫中,所有可能值都有對應(yīng)的清潔度,所以,所有相似連接結(jié)果也都會有一個清潔度,表示該結(jié)果的質(zhì)量,如表5結(jié)果所示,而在實際應(yīng)用中,我們只對清潔度比較高的結(jié)果感興趣,對于那些較低清潔度的結(jié)果可以忽略。

        定義2:基于閥值的相似連接。給定兩個屬性值集合R和S及編輯距離閥值k和清潔度閥值α,R和S的閥值相似連接是指選出所有的屬性值組合 (r,s),其中r∈R,s∈S,而且r和s連接結(jié)果的清潔度不低于α。

        上例中,如果清潔度閥值α設(shè)為0.3,表5中兩個集合 R 和 S 的閥值的相似連接結(jié)果不再是(r,s)與(r,s),因為第二條元組對應(yīng)清潔度為1/5*2/5+1/5*3/5=0.2,該結(jié)果不滿足清潔度閥值要求。

        基于閥值的相似連接算法的特點是當(dāng)編輯距離閥值k較大且清潔度閥值較小時,連接結(jié)果大小將接近于n(n是連接集合的大?。?,反之連接結(jié)果集比較大。

        6.4 清潔度的機制的研究不足

        目前關(guān)于非清潔數(shù)據(jù)的清潔度機制的研究成果非常少,匯聚在圖書情報領(lǐng)域的成果更少。而事實上,知識來源于數(shù)據(jù)的提煉,大數(shù)據(jù)大維度與碎片化中蘊含了豐富的知識內(nèi)涵。上一節(jié)的探討,只描述了清潔度機制的框架,研究也還停留在數(shù)據(jù)本身的處理,而清潔度機制是一項復(fù)雜的研究,還有深入優(yōu)化的研究空間。譬如,將清潔度機制與知識的語義距離結(jié)合,如ed(Wal-Mart,Mal-Mart)=1,ed(80103389,010-80103389)=4,雖然存在編輯距離,其實它們都是同一個知識點,進(jìn)一步的研究將涉及到是先進(jìn)行知識的語義距離計算還是先進(jìn)行清潔度計算,或者兩者并行計算,這將是圖書情報領(lǐng)域又一個難點。

        7 結(jié)語

        大數(shù)據(jù)時代的到來給知識服務(wù)帶來了變革,迫使其將碎片化信息、社會化的信息提煉成描述用戶行為、用戶關(guān)系,并能解決問題的知識。為此,本文從大數(shù)據(jù)的研究背景下提出了對知識服務(wù)的要求,并面向知識服務(wù),數(shù)據(jù)清洗的過程又是大數(shù)據(jù)環(huán)境下的瓶頸。給出了數(shù)據(jù)清洗的基本框架模型及其局限性,針對大數(shù)據(jù)的多維度性,在元組上增加了清潔度的描述,基于此研究了應(yīng)對大數(shù)據(jù)環(huán)境下的非清潔數(shù)據(jù)的清潔度機制。

        通過研究也發(fā)現(xiàn)了不足,下一步針對大數(shù)據(jù)的數(shù)據(jù)清洗將從知識的概念層次性入手,能體現(xiàn)知識之間的語義交叉這樣更適用于大數(shù)據(jù)的大維度,根據(jù)知識的概念層次,通過消除知識的重復(fù)應(yīng)用,建立原子知識序列,優(yōu)化了用戶的請求,減少了對知識庫掃描的次數(shù),從而提高了數(shù)據(jù)清洗效率。

        [1]孟小峰,慈祥.大數(shù)據(jù)管理:概念、技術(shù)與挑戰(zhàn)[J].計算機研究與發(fā)展,2013,50(1):146-169.

        [2]The Economist.Data,data,everywhere-A special report on managing information [EB/OL].[2013-04-26].http://www.economist.com/node/15557443.

        [3]王曰芬,章成志.數(shù)據(jù)清洗研究綜述[J].現(xiàn)代圖書情報技術(shù),2007,(12):50-56.

        [4]曹建軍,刁興春,陳爽.數(shù)據(jù)清洗及其一般性系統(tǒng)框架[J].計算機科學(xué),2012,39(11):207-211.

        [5]葉煥倬,吳迪.相似重復(fù)記錄清理方法研究綜述[J].現(xiàn)代圖書情報技術(shù),2010,(9):56-66.

        [6]王宏志,李建中,高宏.一種非清潔數(shù)據(jù)庫的數(shù)據(jù)模型[J].軟件學(xué)報,2012,23(3):539-549.

        [7]周傲英,金澈清,王國仁等.不確定性數(shù)據(jù)管理技術(shù)研究綜述[J].計算機學(xué)報,2009,32(1):1-16.

        [8]張巖,楊龍,王宏志.劣質(zhì)數(shù)據(jù)庫上閾值相似連接結(jié)果大小估計[J].計算機學(xué)報,2012,35(10):2159-2168.

        [9]葉鷗,張璟,李軍懷.中文數(shù)據(jù)清洗研究綜述[J].計算機工程與應(yīng)用,2012,48(14):121-129.

        猜你喜歡
        閥值元組清潔度
        發(fā)動機零部件清潔度檢測技術(shù)
        Python核心語法
        電腦報(2021年14期)2021-06-28 10:46:22
        航空發(fā)動機零部件清潔度控制標(biāo)準(zhǔn)分析
        光敏傳感器控制方法及使用其的滅蚊器
        傳感器世界(2019年6期)2019-09-17 08:03:20
        海量數(shù)據(jù)上有效的top-kSkyline查詢算法*
        基于小波分析理論的橋梁監(jiān)測信號去噪研究
        基于減少檢索的負(fù)表約束優(yōu)化算法
        激光多普勒測速系統(tǒng)自適應(yīng)閥值檢測算法
        某型號旁通閥內(nèi)部清潔度的清洗次數(shù)驗證
        汽車零部件(2016年6期)2016-07-18 11:46:49
        深度學(xué)習(xí)在無人駕駛汽車中的應(yīng)用
        亚洲人妻有码中文字幕| 狠狠色丁香婷婷久久综合| 日本午夜精品一区二区三区电影| 拍摄av现场失控高潮数次| 欧美在线综合| 日韩精品有码中文字幕在线| 在线观看视频亚洲一区二区三区| 一本色道无码不卡在线观看| 国产sm调教视频在线观看| 亚洲日韩欧美一区二区三区| 亚洲黄片久久| 亚洲精品视频一区二区三区四区 | 免费久久99精品国产| 人人爽久久涩噜噜噜av| 丰满多毛少妇做爰视频| 中国精品视频一区二区三区 | 亚洲欧洲日产国码久在线| 黄片国产一区二区三区| 国产一区二区三区毛片| 国产无吗一区二区三区在线欢| 男人扒开女人双腿猛进女人机机里| 扒下语文老师的丝袜美腿| 日韩少妇人妻中文视频| 国产a国产片国产| 亚洲欧洲精品成人久久曰影片| 百合av一区二区三区| 亚洲情久久久精品黄色| 92午夜少妇极品福利无码电影| 久久久久亚洲精品天堂| 亚洲图片第二页| 宅男亚洲伊人久久大香线蕉| 亚洲精品乱码久久久久久蜜桃不卡| 国产精品天堂avav在线| 亚洲视频精品一区二区三区| 久久精品免费中文字幕| 欧美巨大巨粗黑人性aaaaaa| 国产成人综合日韩精品无| 国产三级精品三级男人的天堂| 国产综合色在线视频区| 99久久久无码国产精品9| 国产目拍亚洲精品二区|