亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一種基于非監(jiān)控學習的數(shù)據(jù)清洗算法

        2016-06-02 05:55:08李景民吉林工商學院長春130062
        黑龍江科學 2016年3期
        關鍵詞:數(shù)據(jù)庫

        李景民(吉林工商學院,長春130062)

        ?

        一種基于非監(jiān)控學習的數(shù)據(jù)清洗算法

        李景民
        (吉林工商學院,長春130062)

        摘要:在數(shù)據(jù)庫的應用中經(jīng)常會出現(xiàn)數(shù)據(jù)的“相似重復記錄”問題,筆者提出一種基于非監(jiān)控學習的數(shù)據(jù)清洗算法。這種算法主要采用了基于非監(jiān)控學習的方法,在學習過程中能夠結(jié)合需要增添新的聚類,去除錯誤聚類,進而能夠避免出現(xiàn)死神經(jīng)元問題,經(jīng)實驗數(shù)據(jù)證明可以有效地實體識別。

        關鍵詞:非監(jiān)控學習;數(shù)據(jù)清洗;數(shù)據(jù)庫;數(shù)據(jù)轉(zhuǎn)換

        在現(xiàn)代高等院??蒲邢到y(tǒng)信息化的建設過程中,管理人員發(fā)現(xiàn)存在數(shù)量龐大的異構(gòu)系統(tǒng)、海量的資源。面對如此多的不同來源、較為分散和清潔度不夠的信息,科研系統(tǒng)管理人員需要提煉有效信息,以供決策,因而急需信息集成和整合的行之有效的方法。創(chuàng)建數(shù)據(jù)倉庫的主要目標是提供準確的數(shù)據(jù),為數(shù)據(jù)分析服務,為科研領導的決策提供參考。為了能夠?qū)φ_決策提供足夠的支持,需要依據(jù)的參考數(shù)據(jù)應該是可靠的,沒有偏差的,以體現(xiàn)科研的實際情況[1,2]。鑒于以上的環(huán)境及需求,ETL技術作為一種工具和手段蓬勃發(fā)展起來。ETL主要是指數(shù)據(jù)抽取、轉(zhuǎn)換、清洗、加載的過程。ETL是建立數(shù)據(jù)倉庫非常重要的一個步驟,管理員從數(shù)據(jù)源中提煉出需要的數(shù)據(jù),經(jīng)過數(shù)據(jù)轉(zhuǎn)換及數(shù)據(jù)清洗過程,最后根據(jù)事先確定好的數(shù)據(jù)倉庫模型,把數(shù)據(jù)最終加載到數(shù)據(jù)倉庫中去。

        在科研管理系統(tǒng)當中,由于數(shù)據(jù)倉庫中的數(shù)據(jù)可能來源于多種不同的數(shù)據(jù)源,該數(shù)據(jù)源又可能存在于差異的硬件平臺上,數(shù)據(jù)庫管理系統(tǒng)也千差萬別,這就導致這些數(shù)據(jù)在很多方面都是不同的,甚至是相互沖突的,所以控制數(shù)據(jù)質(zhì)量成為極為重要的問題。

        1  ETL技術中的數(shù)據(jù)質(zhì)量控制方法

        1.1數(shù)據(jù)質(zhì)量問題的類別

        在科研管理系統(tǒng)中進行數(shù)據(jù)ETL過程時,管理者有可能碰到形形色色的數(shù)據(jù)質(zhì)量問題,有必要將它們進行分類管理。通過總結(jié)該問題的產(chǎn)生究竟是在模式層還是在實例層,進而把數(shù)據(jù)質(zhì)量問題進一步劃分成四大類:A.單數(shù)據(jù)源模式層問題。B.單數(shù)據(jù)源實例層問題。C.多數(shù)據(jù)源模式層問題。D.多數(shù)據(jù)源實例層問題。

        如果在模式層次上存在問題,那么在實例層次上會有相應的體現(xiàn),不好的數(shù)據(jù)模式設計、定義的完整性約束缺乏、多個數(shù)據(jù)源之間命名沖突以及結(jié)構(gòu)沖突等,全部都是這類問題。人們可以采用改進模式設計、模式轉(zhuǎn)化和模式集成的方法解決模式層次上的問題。目前主流的方法是通過相關問題域的專家,采用手工方法來處理此類問題,但是效率低下。

        1.2數(shù)據(jù)質(zhì)量評估方法

        在高校科研系統(tǒng)中,需要解決不同數(shù)據(jù)質(zhì)量的異常問題,首要任務是分析產(chǎn)生異常的根源。導致數(shù)據(jù)異常的因素較多,可能是系統(tǒng)自身的原因,也可能是歷史因素[3]:在不同階段,系統(tǒng)的數(shù)據(jù)模型可能存在差異;相應的處理過程有所區(qū)別;新舊幾套系統(tǒng)模塊處理財務、人事等有關信息時有所區(qū)別;老舊系統(tǒng)與新增業(yè)務以及管理系統(tǒng)數(shù)據(jù)在進行集成時的不完備也會產(chǎn)生差異;源系統(tǒng)在數(shù)據(jù)輸入時沒有對數(shù)據(jù)進行數(shù)據(jù)驗證,無法攔截不合格的數(shù)據(jù)輸入到系統(tǒng)。分析數(shù)據(jù)質(zhì)量應該從以上幾個方面進行考量,評估采集到的具體數(shù)據(jù)源,衡量數(shù)據(jù)源的質(zhì)量,進而確定采用的ETL規(guī)則。

        2 基于非監(jiān)控學習的數(shù)據(jù)清洗策略

        2.1數(shù)據(jù)清洗

        所謂數(shù)據(jù)清洗就是在檢測數(shù)據(jù)集中過程之后出現(xiàn)的錯誤和差異,并通過人工或者自動化工具將其刪除和修正,進而提升數(shù)據(jù)質(zhì)量。

        在對實例層次的數(shù)據(jù)進行清洗的過程中,即使通過模式轉(zhuǎn)化和集成取得了一致模式,在實例層上依舊需要對不一致性進行清除,關鍵是對缺損屬性修正,并進行相應的實體識別。處理缺損屬性時,主要是針對不確定信息的理論,對于不完全數(shù)據(jù),需要進行推理和相應的研究,并且提出合適的規(guī)則。在實體識別時,對于相同的實體,在不同的數(shù)據(jù)源的記錄中,有可能標識的主鍵是不同的,這些信息在內(nèi)容上互為補充,可能存在冗余情況,嚴重時甚至會有互相矛盾的情況。

        針對相似重復記錄的處理方式,筆者采用了非監(jiān)控的學習方法,以此來處理數(shù)據(jù)集中過程中的實體識別困難。非監(jiān)控學習是針對海量的、未標記的數(shù)據(jù)分析的聚類技術。主要目的是提供一系列類,而且要求相同類中數(shù)據(jù)的特性要保持一致,類別不同的數(shù)據(jù)要有明顯的、便于區(qū)分的差異。

        2.2非監(jiān)控學習算法

        這種學習方法主要包括競爭學習和增強式學習兩種方法。筆者在實體識別中總結(jié)出采用基于Hebbian假設的一種非監(jiān)控的學習算法。

        由Hebbian的假設,神經(jīng)元的學習規(guī)則能夠用如下的函數(shù)進行表示:

        表達式中的W為突觸權值向量,X表示輸入樣本向量,ψ()是可微函數(shù),α≥0是遺忘系數(shù)。神經(jīng)元的輸出為:

        2.3非監(jiān)控學習算法性能測試

        在對非監(jiān)控學習算法性能進行測試的過程中,設計了兩組數(shù)據(jù)。其中一組是系數(shù)σ=0.05服從高斯分布的測試數(shù)據(jù),另外一組是系數(shù)σ=0.5測試數(shù)據(jù)。結(jié)果是σ=0.05,數(shù)據(jù)相對集中,聚類邊界明顯;σ=0.5,數(shù)據(jù)不集中,聚類邊界不夠清晰。

        因為從多數(shù)據(jù)源當中直接進行對象識別具有非常大的困難,所以我們可以把整個識別過程分成不同的階段來完成。

        3 結(jié)論

        在進行數(shù)據(jù)清洗操作中,利用非監(jiān)控學習算法處理在實體識別方面的問題,完成“相似重復記錄”的查詢,可以進一步提高清洗的準確程度。

        參考文獻:

        [1]Wand Y,Anchoring Wang R Y.Data Quality Dimensions In Ontological Foundations[J].Commun ACM39,1996,(11):86- 95.

        [2]Strong Diane M,Lee Yang W,Wang Richard Y.Data Quality In Context[J].Commun ACM40,1997,(05):103- 110.

        [3]郭志懋,周傲英(Guo Z.M., Zhou A.Y.).數(shù)據(jù)質(zhì)量和數(shù)據(jù)清洗研究綜述(Research on Data Quality and Data Cleaning:a Survey)[J]軟件學報(Journal of Software),2002,13(11):2076- 2082.

        中圖分類號:TP311.13

        文獻標志碼:A

        文章編號:1674- 8646(2016)02- 0044- 02

        收稿日期:2015- 12- 19

        猜你喜歡
        數(shù)據(jù)庫
        數(shù)據(jù)庫
        財經(jīng)(2017年15期)2017-07-03 22:40:49
        數(shù)據(jù)庫
        財經(jīng)(2017年2期)2017-03-10 14:35:35
        兩種新的非確定數(shù)據(jù)庫上的Top-K查詢
        數(shù)據(jù)庫
        財經(jīng)(2016年15期)2016-06-03 07:38:02
        數(shù)據(jù)庫
        財經(jīng)(2016年3期)2016-03-07 07:44:46
        數(shù)據(jù)庫
        財經(jīng)(2016年6期)2016-02-24 07:41:51
        數(shù)據(jù)庫
        財經(jīng)(2015年3期)2015-06-09 17:41:31
        數(shù)據(jù)庫
        財經(jīng)(2014年21期)2014-08-18 01:50:18
        數(shù)據(jù)庫
        財經(jīng)(2014年6期)2014-03-12 08:28:19
        數(shù)據(jù)庫
        財經(jīng)(2013年6期)2013-04-29 17:59:30
        日韩亚洲午夜精品一区二区三区| 精品日韩欧美一区二区在线播放| 国产精品第一二三区久久蜜芽| 欧美1区二区三区公司| 人妻少妇偷人精品视频| 欧美精品欧美人与动人物牲交 | 国内偷拍第一视频第一视频区| 男女视频在线观看一区| 欧美日韩视频在线第一区| 美女在线国产| 一本色道亚州综合久久精品| 国产亚洲超级97免费视频| 老妇女性较大毛片| 亚洲中文字幕无码二区在线| 日韩精品一区二区三区视频| 99久久99久久精品国产片| 中文无码乱人伦中文视频在线v| 亚洲欧美国产日产综合不卡| 日本一区二区三区一级片| 亚洲成a人v欧美综合天堂| 国精产品一品二品国在线| 噜噜噜色97| 一区二区三区在线少妇| 亚洲热妇无码av在线播放 | 91亚洲欧洲日产国码精品 | 亚洲一区二区三区国产| 色www视频永久免费| 国产午夜精品理论片| 搞黄色很刺激的网站二区| 中文在线中文a| 亚洲美国产亚洲av| 国产小车还是日产的好| 少妇人妻中文久久综合| a级毛片成人网站免费看| 色综合久久精品中文字幕| 亚洲熟女熟妇另类中文| 人妻少妇无码精品视频区 | 91九色播放在线观看| 成人精品视频一区二区三区尤物| 波多野结衣在线播放一区| 人妻丰满熟妇一二三区|