亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于AHP的大數(shù)據(jù)可用性及挖掘方案模型研究

        2018-05-25 08:50:47李鐵冰高提雷
        計算機技術(shù)與發(fā)展 2018年5期
        關(guān)鍵詞:數(shù)據(jù)挖掘一致性研究

        楊 明,李鐵冰,姜 茸,高提雷,王 佳

        (云南財經(jīng)大學 信息學院,云南 昆明 650221)

        0 引 言

        2015年國內(nèi)印發(fā)了《促進大數(shù)據(jù)發(fā)展行動綱要》,提出要全面推進大數(shù)據(jù)的發(fā)展和應(yīng)用,將中國建設(shè)成為數(shù)據(jù)強國。然而,大數(shù)據(jù)規(guī)模龐大(volume)、類型多樣(variety)、生成迅速(velocity)和價值密度低(value)的特征[1]給數(shù)據(jù)的運用和分析帶來了阻礙。在沒有理論體系的支撐下,面對海量的數(shù)據(jù)時更是難以判斷其可用性,也就無法有效地進行數(shù)據(jù)價值的提取。此時,所面對的將不再是大數(shù)據(jù),而是“一堆數(shù)據(jù)”[2],就好比坐擁金山卻不知,失去了大數(shù)據(jù)的原有意義。

        大數(shù)據(jù)的諸多特征使其難以琢磨,對此李建中[3-4]等指出,一個正確的大數(shù)據(jù)集合至少應(yīng)該滿足5個性質(zhì):精準性、實效性、完整性、實體同一性和一致性,并在此基礎(chǔ)上提出了大數(shù)據(jù)可用性研究的方向和問題。諸如:大數(shù)據(jù)可用性的描述、影響因素的分析、可用性的量化評估、挖掘模型的評價研究等。圍繞這些關(guān)鍵問題,文中結(jié)合AHP方法建立大數(shù)據(jù)可用性及挖掘方案的評估模型,通過定量的比較分析討論大數(shù)據(jù)的可用性及其有效挖掘方案。

        1 大數(shù)據(jù)可用性影響因素分析

        建立系統(tǒng)的大數(shù)據(jù)可用性指標體系,首先需要梳理其影響因素。圍繞大數(shù)據(jù)的4V特征,通過參閱文獻[5-10],結(jié)合數(shù)據(jù)挖掘的目的,梳理得到以下可用性影響因素:

        (1)相關(guān)性。指數(shù)據(jù)是否滿足用戶的需求,包括用戶的預期、感興趣度和決策目標等。滿足用戶需求是決定大數(shù)據(jù)可用性的重要因素,數(shù)據(jù)挖掘的目的正是為了縮小挖掘結(jié)果和用戶預期之間的差距。邁爾-舍恩伯格[11]教授在其書中也曾提到,在面對紛繁復雜的數(shù)據(jù)時,更應(yīng)側(cè)重于事物之間的相關(guān)關(guān)系,而不是其因果關(guān)系。

        (2)準確性。其含義包括數(shù)據(jù)的客觀性、公正性、真實性、精確性等,指數(shù)據(jù)是否能夠客觀反映事物的本質(zhì),并對事物進行準確的描述。在數(shù)據(jù)挖掘的過程中精確性必不可少,而決定挖掘結(jié)果是否可用、是否正確的關(guān)鍵就在于所處理的數(shù)據(jù)是否正確;相反,一個不準確的數(shù)據(jù)經(jīng)過處理所得到的結(jié)果,將會對決策造成較大的影響。

        (3)完整性。指數(shù)據(jù)是否完整,是否包含了對事物的所有信息。大數(shù)據(jù)的挖掘目標旨在將全體數(shù)據(jù)資源化,保留數(shù)據(jù)的最大價值。完整的數(shù)據(jù),能夠為數(shù)據(jù)的挖掘提供多角度、多層次的事實,從而保證大數(shù)據(jù)的質(zhì)量。而數(shù)據(jù)的不完整則會由于其片面性,造成數(shù)據(jù)價值的丟失,影響數(shù)據(jù)的可用性,甚至導致決策的錯誤。

        (4)一致性。指相關(guān)數(shù)據(jù)對于事物本身是否存在不一致的判定,一致性的數(shù)據(jù)要求在空間、時間、因果等關(guān)系上都是保存一致的。例如用1組數(shù)據(jù)描述客戶{年齡=“30”,職業(yè)=“工人”,所屬地區(qū):“重慶”,所屬省份:“四川”},其中就存在空間和時間上的沖突(因為1997年后重慶便不再隸屬于四川省)。可見,一致性的問題也會影響到數(shù)據(jù)的運用和分析。

        (5)時效性。指數(shù)據(jù)的時間段是否滿足當前的業(yè)務(wù)需求,是否存在由于時間長遠而失效的數(shù)據(jù)?!吧裳杆佟笔谴髷?shù)據(jù)的主要特征之一,大數(shù)據(jù)的質(zhì)量需求除了數(shù)據(jù)的規(guī)模外,同時也要求數(shù)據(jù)的實時性。只有及時掌握了數(shù)據(jù)的最新變化,才能指引未來決策的方向。過時的數(shù)據(jù)不僅存在信息落后的弊病,甚至還可能由于未及時更新而出現(xiàn)錯誤的問題。

        (6)同一性。不同于一致性,同一性是指多源數(shù)據(jù)對同一實體的描述是否一致。假如同一實體在不同的數(shù)據(jù)集中存在不同的描述,或是存在表達模糊、描述差異等問題,這就會造成決策模凌兩可的局面。另外。同一實體的多種描述,也會造成數(shù)據(jù)源中信息重復或冗余的問題。類型多樣是大數(shù)據(jù)的另一特征,正因如此,在大數(shù)據(jù)分析的過程中同一性就顯得額外重要。

        (7)擴展性。傳統(tǒng)的數(shù)據(jù)注重數(shù)據(jù)的一致性,便于數(shù)據(jù)的挖掘分析。但是在面對大數(shù)據(jù)規(guī)模龐大的特征時,針對具體問題還需考慮數(shù)據(jù)的擴展性。雖然從數(shù)據(jù)源中獲得的數(shù)據(jù)是零散的,但是這些數(shù)據(jù)如果能夠通過有效的組合滿足業(yè)務(wù)的需求,或是擴大數(shù)據(jù)的描述范圍,對于提升數(shù)據(jù)的質(zhì)量將起到重要的作用,因為數(shù)據(jù)在經(jīng)過不同的組合后也會產(chǎn)生新的價值。

        上述內(nèi)容從不同角度論述了大數(shù)據(jù)可用性的影響因素,結(jié)合這些因素,利用AHP方法展開進一步的評估研究。

        2 基于AHP的大數(shù)據(jù)可用性評估

        2.1 AHP在大數(shù)據(jù)可用性研究中的應(yīng)用

        AHP(層次分析法)是一種定性和定量相結(jié)合的評價決策方法,適用于多目標、多要素、多層次的問題求解[12-13]。它能夠通過定量的比較為決策提出合適的解決方案。在評估大數(shù)據(jù)的可用性時,擬解決的關(guān)鍵問題是保證評價的客觀性。在處理該類問題上,AHP方法通常是對兩兩因素進行比較,進而通過判斷矩陣實現(xiàn)對整體的評價。該方法能夠有效地減小評估過程中人為主觀因素的影響。

        2.2 大數(shù)據(jù)可用性研究結(jié)構(gòu)模型

        鑒于此,將AHP融入到大數(shù)據(jù)的可用性研究中,建立其研究結(jié)構(gòu)模型,如圖1所示。

        圖1 基于AHP的大數(shù)據(jù)可用性研究結(jié)構(gòu)模型

        (1)目標層(可用性研究目標層)。

        目標層是整個AHP框架的核心,是研究的主題。大數(shù)據(jù)可用性研究的核心目的旨在提升大數(shù)據(jù)的質(zhì)量,通過合理的方法保證其可用性,得到最優(yōu)的數(shù)據(jù)處理方案。

        (2)準則層(可用性評估指標層)。

        準則層描述的是達成目標需要考慮的因素集。在大數(shù)據(jù)的可用性評估中,則是指影響大數(shù)據(jù)可用性的相關(guān)因素。對此前文已經(jīng)論述了7個因素,用集合C={C1,C2,C3,C4,C5,C6,C7}表示。

        (3)方案層(大數(shù)據(jù)挖掘方案層)。

        方案層指綜合考慮第2層中提出的影響指標擬采納的解決方案,也就是面向大數(shù)據(jù)可用性的數(shù)據(jù)挖掘方案。

        3 面向可用性的數(shù)據(jù)挖掘方案

        3.1 擬定挖掘方案

        在圖1模型的基礎(chǔ)上,擬定3種不同的挖掘方案進行比較,它們分別側(cè)重于“整體價值”、“挖掘速度”和“挖掘精度”3個不同的點,用P={P1,P2,P3}表示。

        方案1:盡可能保證數(shù)據(jù)的整體價值。該方案對于數(shù)據(jù)挖掘的速度要求較低,要求從最大程度上保留數(shù)據(jù)的整體價值。

        方案2:以最快速度從數(shù)據(jù)中獲取價值,盡快提出決策。該方案側(cè)重于價值的快速提取,對其他方面要求一般。

        方案3:保證數(shù)據(jù)的挖掘精度及挖掘結(jié)果的準確性。該方案的特征在于保證數(shù)據(jù)的精確性,但勢必會在一定程度上影響挖掘的速度。

        3.2 構(gòu)造判斷矩陣

        在擬定挖掘方案后,則是構(gòu)造各層的判斷矩陣。

        (1)準則層(可用性指標判斷矩陣)。

        首先是準則層的判斷矩陣。采用表1中的對比標準,針對某公司的大數(shù)據(jù)研究項目,綜合12名專家的評估意見,將C={C1,C2,C3,C4,C5,C6,C7}進行比較,得到的判斷矩陣如表2所示。

        表1 兩兩指標對比標準

        表2 大數(shù)據(jù)可用性指標判斷矩陣

        (2)方案層(挖掘方案判斷矩陣)。

        同理,比較得到3類挖掘方案相對于各指標的判斷矩陣,如圖2所示,其中Pij表示相對于某指標,方案i與方案j在權(quán)重上的比較。

        圖2 各挖掘方案判斷矩陣

        例如,其中相對于時效性C2,P2方案比P1方案對時效性的要求更高;而相對于完整性C4,P1方案則比其他方案對完整性的要求都高。

        3.3 計算過程

        步驟1:用和積法[14-15]計算得到可行性指標矩陣的最大特征向量ω以及特征根λmax:

        ω=(ω1,ω2,ω3,ω4,ω5,ω6,ω7)T=

        (0.156,0.096,0.362,0.106,0.207,0.049,0.024)T

        (1)

        λmax=7.611

        (2)

        步驟2:將上述特征根代入到一致性指標檢驗公式中。

        (3)

        計算得到CI=0.102,CR=0.077。其中,CI為一致性指標,其值越大矩陣的不一致程度越高;n為判斷矩陣的階數(shù);RI為隨機一致性指標,是經(jīng)過1 000次正反矩陣計算得到的平均隨機一致性指標,如表3所示;CR為一致性比率。當C<0.1時,說明該判斷矩陣的不一致性程度在容許范圍內(nèi),即說明對于大數(shù)據(jù)各可用性指標的權(quán)重比較屬于合理范圍。

        表3 矩陣平均隨機一致性指標

        步驟3:同理,用和積法求出方案層對目標的最大特征向量,分別為:

        (ω11,ω21,ω31)=(0.260,0.106,0.633)

        (ω12,ω22,ω32)=(0.118,0.681,0.201)

        (ω13,ω23,ω33)=(0.539,0.297,0.164)

        (ω14,ω24,ω34)=(0.653,0.096,0.251)

        (ω15,ω25,ω35)=(0.260,0.106,0.633)

        (ω16,ω26,ω36)=(0.334,0.098,0.568)

        (ω17,ω27,ω37)=(0.600,0.200,0.200)

        (4)

        得到結(jié)果為{ω(P1),ω(P2),ω(P3)}={0.401,0.231,0.368},ω(Pj)的值越大說明該方案j對于提高大數(shù)據(jù)可用性的權(quán)重越大,其可行性更高。

        3.4 研究結(jié)果對比

        研究結(jié)果對比如表4和表5所示。

        表4 指標對比

        表5 方案對比

        (1)通過結(jié)果比較可以看出,該項目大數(shù)據(jù)的可用性對時效性C2、同一性C6以及數(shù)據(jù)擴展性C7的要求較低,而以相關(guān)性C3最高,說明決定該項目大數(shù)據(jù)可用性最重要指標是“數(shù)據(jù)的相關(guān)性”,它將決定該項目大數(shù)據(jù)所產(chǎn)生的價值,同時也說明數(shù)據(jù)源中數(shù)據(jù)的時間變化以及冗余性等并不會較大地影響其決策。

        (2)從方案對比可以看出P1>P3>P2。說明要實現(xiàn)該項目價值的最大化,提高數(shù)據(jù)的可用性,所采用的挖掘方案應(yīng)該首先要注重的是保留數(shù)據(jù)的完整性,從整體上對數(shù)據(jù)進行分析;其次在處理的過程中盡量保證數(shù)據(jù)的準確性等,而不宜過于追求挖掘的速度,否則將會影響到最終結(jié)果的可用性。

        以上結(jié)論與邁爾-舍恩伯格在文獻[11]中所提出的觀點一致,說明大數(shù)據(jù)的可用性重在其關(guān)聯(lián)性,在分析過程中需要對全體數(shù)據(jù)進行分析而不是抽樣分析,同時需要保證數(shù)據(jù)的準確性,不能一味地追求速度,只有在這樣的條件下才能盡可能滿足用戶需求,縮小挖掘結(jié)果與用戶預期之間的差距,將數(shù)據(jù)進行有效的價值轉(zhuǎn)化。

        4 結(jié)束語

        圍繞大數(shù)據(jù)的特征,通過參閱文獻梳理得到大數(shù)據(jù)可用性的因素集,提出了基于AHP方法的大數(shù)據(jù)可用性及挖掘方案模型研究。用數(shù)學的方法描述了大數(shù)據(jù)的可用性,并在該模型基礎(chǔ)上結(jié)合數(shù)學的方法針對有利于提高大數(shù)據(jù)可用性的挖掘方案展開了定量的對比研究,為大數(shù)據(jù)的可用性評價以及挖掘方案研究提出了一種可行方法。

        整個模型的建立科學合理,采用定性和定量相結(jié)合的方法,有效減少了評價過程中人為主觀因素的影響,對于大數(shù)據(jù)的可用性研究具有一定的參考價值。然而,大數(shù)據(jù)的可用性研究并非是一項簡單的任務(wù),在今后的研究中還有許多需要完善的地方,包括可用性因素集的完善、提高大數(shù)據(jù)可用性的方案研究等。總之,只有在遇到新問題時,針對具體問題具體分析,不斷總結(jié),才能逐漸完善大數(shù)據(jù)的可用性研究理論。

        參考文獻:

        [1] GANTZ J,REINSEL D.Extracting value from chaos[EB/OL].(2011)[2017-07-05].https://russia.emc.com/collateral/analyst-reports/idc-extracting-value-from-chaos-

        ar.pdf.

        [2] 張 引,陳 敏,廖小飛.大數(shù)據(jù)應(yīng)用的現(xiàn)狀與展望[J].計算機研究與發(fā)展,2013,50:216-233.

        [3] 李建中,劉顯敏.大數(shù)據(jù)的一個重要方面:數(shù)據(jù)可用性[J].計算機研究與發(fā)展,2013,50(6):1147-1162.

        [4] 李建中,王宏志,高 宏.大數(shù)據(jù)可用性的研究進展[J].軟件學報,2016,27(7):1605-1625.

        [5] MILLER D W,YEAST J D,EVANS R L.Missing prenatal records at a birth center:a communication problem quantified[C]//Proceedings of AMIA annual fall symposium.Maryland:American Medical Informatics Association,2005:535-539.

        [6] SWARTZ N.Gartner warns firms of ‘dirty data’[J].Information Management Journal,2007,41(3):6-12.

        [7] KORN F,MUTHUKRISHNAN S,ZHU Y.Checks and balances:monitoring data quality problems in network traffic databases[C]//Proceedings of the 29th international conference on very large data bases.[s.l.]:[s.n.],2003:536-547.

        [8] XIONG Hui,PANDEY G,STEINBACH M,et al.Enhancing data analysis with noise removal[J].IEEE Transactions on Knowledge & Data Engineering,2006,18(3):304-319.

        [9] 李聰穎,王瑞剛,于金良.大數(shù)據(jù)分布式全文檢索系統(tǒng)的設(shè)計與實現(xiàn)[J].計算機與數(shù)字工程,2016,44(12):2426-2430.

        [10] 李衛(wèi)榜,李戰(zhàn)懷,陳 群,等.分布式大數(shù)據(jù)不一致性檢測?[J].軟件學報,2016,27(8):2068-2085.

        [11] 維克托·邁爾-舍恩伯格,肯尼斯·庫克耶.大數(shù)據(jù)時代[M].杭州:浙江人民出版社,2013.

        [12] 曹黎俠,馮孝周.新的改進AHP算法研究及應(yīng)用[J].計算機技術(shù)與發(fā)展,2010,20(12):115-117.

        [13] 王 磊,黃夢醒.云計算環(huán)境下基于灰色AHP的供應(yīng)商信任評估研究[J].計算機應(yīng)用研究,2013,30(3):742-744.

        [14] 趙煥臣,許樹柏,和金生.層次分析法[M].北京:科學出版社,1986:22-26.

        [15] 魏翠萍.層次分析法中和積法的最優(yōu)化理論基礎(chǔ)及性質(zhì)[J].系統(tǒng)工程理論與實踐,1999,19(9):113-115.

        猜你喜歡
        數(shù)據(jù)挖掘一致性研究
        關(guān)注減污降碳協(xié)同的一致性和整體性
        公民與法治(2022年5期)2022-07-29 00:47:28
        FMS與YBT相關(guān)性的實證研究
        注重教、學、評一致性 提高一輪復習效率
        遼代千人邑研究述論
        IOl-master 700和Pentacam測量Kappa角一致性分析
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
        視錯覺在平面設(shè)計中的應(yīng)用與研究
        科技傳播(2019年22期)2020-01-14 03:06:54
        EMA伺服控制系統(tǒng)研究
        基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
        電力與能源(2017年6期)2017-05-14 06:19:37
        一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
        亚洲一区二区女优av| 看全色黄大色大片免费久久| 国产精品麻花传媒二三区别| 女同性恋精品一区二区三区| 蜜桃成人精品一区二区三区| 我和丰满妇女激情视频| 国产97在线 | 亚洲| 国产欧美日韩网站| 国产三级视频一区二区| 中文字幕乱码在线人妻| 男ji大巴进入女人的视频小说| 国产精品久免费的黄网站| 免费在线观看亚洲视频| 在线免费看91免费版.| 中文字幕乱码无码人妻系列蜜桃| 日本动态120秒免费| 国产日产久久福利精品一区| 成人av综合资源在线| 欧美熟妇性xxx交潮喷| 99爱这里只有精品| 国产激情视频免费观看| 91自拍视频国产精品| 性色av闺蜜一区二区三区| 中文人妻无码一区二区三区信息 | 亚洲免费一区二区三区四区| 蜜臀av无码人妻精品| 国产精品亚洲一区二区无码| 久久国产av在线观看| 白白色发布的在线视频| 国偷自产视频一区二区久| 久久精品国产99久久丝袜| 一区二区三区日本在线| 色翁荡息又大又硬又粗视频| 老熟妇乱子伦av| 在线亚洲AV成人无码一区小说| 亚洲国产一区一区毛片a| 中国精品18videosex性中国| 最新亚洲人成无码网www电影| 亚洲国产综合精品久久av| 中文字日产幕码三区国产| 亚洲av无码久久精品蜜桃|