Soni Bergmsi, Emnuele Crlini, Mielngelo Cei, Brr Furletti, Fos Ginnotti, Donto Mler,e,*, Mrio Mezznzni, Ann Monrele, Griell Psi*, Dino Peresi,, Rele Perego, Slvtore Ruggieri
aDepartment of Engineering “Enzo Ferrari,” University of Modena and Reggio Emilia, Modena 41125, Italy
bHigh Perform ance Computing Laboratory, Institute of Information Science and Technologies of the Italian National Research Council (ISTI-CNR), Pisa 56124, ItalycDepartment of Computer Science, University of Bari Aldo Moro, Bari 70125, Italy
dKnowledge Dis covery and Data Mining Laboratory, ISTI-CNR, Pisa 56127, Italy
eBig Data Labo ratory, National Interuniversity Consortium for Informatics, Rome 00185, Italy
fDepartment of Statistics and Quantitative Methods, University of Milano-Bicocca, Milan 20126, Italy
gDepartment of Computer Science, Systems and Communications, University of Milano-Bicocca, Milan 20126, Italy
hDepartment of Computer Science, University of Pisa, Pisa 56127, Italy
大數(shù)據(jù)研究在意大利的遠(yuǎn)景
Sonia Bergamaschia, Emanuele Carlinib, Michelangelo Cecic, Barbara Furlettid, Fosca Giannottid, Donato Malerbac,e,*, Mario Mezzanzanicaf, Anna Monrealed, Gabriella Pasig,*, Dino Pedreschid,h, Raffele Peregob, Salvatore Ruggierih
aDepartment of Engineering “Enzo Ferrari,” University of Modena and Reggio Emilia, Modena 41125, Italy
bHigh Perform ance Computing Laboratory, Institute of Information Science and Technologies of the Italian National Research Council (ISTI-CNR), Pisa 56124, ItalycDepartment of Computer Science, University of Bari Aldo Moro, Bari 70125, Italy
dKnowledge Dis covery and Data Mining Laboratory, ISTI-CNR, Pisa 56127, Italy
eBig Data Labo ratory, National Interuniversity Consortium for Informatics, Rome 00185, Italy
fDepartment of Statistics and Quantitative Methods, University of Milano-Bicocca, Milan 20126, Italy
gDepartment of Computer Science, Systems and Communications, University of Milano-Bicocca, Milan 20126, Italy
hDepartment of Computer Science, University of Pisa, Pisa 56127, Italy
article info
Article history:
Received 16 December 2015 Revised 4 June 2016
Accepted 13 June 2016
Available online 30 June 2016
大數(shù)據(jù)
智慧城市
能源
工作機(jī)會(huì)
隱私
這篇文章的目的在于綜述在大數(shù)據(jù)背景下一些意大利大學(xué)正在從事的研究項(xiàng)目。本文不求面面俱到,目的是提供從意大利不同領(lǐng)域收集到的有關(guān)大數(shù)據(jù)管理方面的問題的實(shí)際解決方案。
? 2016 THE AUTHORS.Published by Elsevier LTD on behalf of Chinese Academy of Engineering and Higher Education Press Limited Company.This is an open access article under the CC BY-NC-ND license (http://creativecommons.org/licenses/by-nc-nd/4.0/).
在過去的幾年中,無論是在研究中心、學(xué)院還是行業(yè),與大數(shù)據(jù)相關(guān)的計(jì)劃、活動(dòng)和項(xiàng)目激增。每天產(chǎn)生的與社會(huì)生活各個(gè)方面相關(guān)的數(shù)據(jù)(包括手機(jī)數(shù)據(jù)、社會(huì)數(shù)據(jù)、城市相關(guān)數(shù)據(jù)、基于網(wǎng)絡(luò)的數(shù)據(jù)和健康相關(guān)數(shù)據(jù))為觀察和了解人們的喜好和行為,以及利用這些信息以改善人們生活的某些方面,提供了前所未有的機(jī)會(huì)。
針對(duì)這個(gè)顛覆性的變化——一個(gè)開辟了新的經(jīng)濟(jì)學(xué)領(lǐng)域的變化——?dú)W洲委員會(huì)要求各國(guó)政府要意識(shí)到這場(chǎng)“大數(shù)據(jù)”革命?。與美國(guó)相比,歐洲的數(shù)字經(jīng)濟(jì)確實(shí)在接受數(shù)據(jù)革命方面進(jìn)展較慢,而且也缺乏可比的工業(yè)能力。為了擺脫這種落后的局面,一筆數(shù)量可觀的基金已經(jīng)建立起來,并將由歐盟委員會(huì)以及歐洲各國(guó)提供用以支持由大數(shù)據(jù)產(chǎn)生的價(jià)值相關(guān)的研究和創(chuàng)新活動(dòng)。為了妥善地達(dá)到這個(gè)目標(biāo),必須考慮各種問題,包括功能強(qiáng)大而技術(shù)上滿足支持密集的數(shù)據(jù)驅(qū)動(dòng)計(jì)算的設(shè)施的確定(包括硬件和軟件),以及建立能從不同領(lǐng)域的數(shù)據(jù)中正確并高效地提取知識(shí)的多學(xué)科團(tuán)隊(duì)。
盡管起步較晚,歐洲的大數(shù)據(jù)市場(chǎng)占據(jù)了第二大市場(chǎng)份額,占到了全球大數(shù)據(jù)市場(chǎng)收入的20%[1]。德國(guó)、英國(guó)、法國(guó)和意大利是這個(gè)市場(chǎng)的核心國(guó)家。尤其是意大利的大數(shù)據(jù)市場(chǎng)在去年增長(zhǎng)迅猛,并且預(yù)計(jì)不久會(huì)有私人和公共部門的重要投資。這篇簡(jiǎn)短的調(diào)查報(bào)道了意大利大學(xué)在應(yīng)對(duì)大數(shù)據(jù)挑戰(zhàn)時(shí)所做的一些應(yīng)用和項(xiàng)目,重點(diǎn)報(bào)道了與提高城市居民生活相關(guān)的項(xiàng)目。作為與大數(shù)據(jù)管理相關(guān)的技術(shù)應(yīng)用的有趣案例,第4部分描述了以監(jiān)測(cè)能源生產(chǎn)和消耗為目的的系統(tǒng);與此同時(shí),第5部分全面地介紹了一個(gè)以分析從5個(gè)歐盟國(guó)家搜集到的網(wǎng)絡(luò)空缺職位及從數(shù)據(jù)中提取職位所需要的技能為目的的模型。
值得注意的是,這篇調(diào)查并沒有面面俱到,無論是與之相關(guān)的活躍的研究小組(這種小組的數(shù)量遠(yuǎn)比文中提到的要多)還是項(xiàng)目,在意大利都遠(yuǎn)遠(yuǎn)多于調(diào)查中所報(bào)道的這些。這篇調(diào)查的主要目的在于給讀者提供一些關(guān)于目前學(xué)術(shù)界正在解決這一重大問題的思考。
最近一項(xiàng)關(guān)于大數(shù)據(jù)的國(guó)家倡議是以CINI大數(shù)據(jù)實(shí)驗(yàn)室為代表提出。CINI(www.consorzio-cini.it)是意大利國(guó)家校際信息聯(lián)盟,由41所意大利公立大學(xué)組成,致力于促進(jìn)和協(xié)調(diào)在計(jì)算機(jī)科學(xué)和計(jì)算機(jī)工程內(nèi)多個(gè)領(lǐng)域的、涵蓋理論和應(yīng)用的科學(xué)研究活動(dòng)和技術(shù)轉(zhuǎn)讓。這個(gè)聯(lián)盟是大數(shù)據(jù)價(jià)值協(xié)會(huì)(www.bdva.eu)的創(chuàng)始成員。大數(shù)據(jù)價(jià)值協(xié)會(huì)是歐盟委員會(huì)在制定和實(shí)施歐洲大數(shù)據(jù)戰(zhàn)略研究議程的行業(yè)領(lǐng)袖型的契約伙伴。此外,CINI大數(shù)據(jù)實(shí)驗(yàn)室關(guān)注數(shù)據(jù)在全國(guó)領(lǐng)土內(nèi)的分布,致力于成為意大利大數(shù)據(jù)及數(shù)據(jù)科學(xué)領(lǐng)域知識(shí)和技術(shù)發(fā)展的專家中心。33所意大利大學(xué)和將近300位研究人員目前已經(jīng)加入這項(xiàng)倡議。
第2部分簡(jiǎn)要介紹了不同的意大利大學(xué)和研究機(jī)構(gòu)在解決大數(shù)據(jù)問題和致力于提高人們生活的各個(gè)方面所做的一些項(xiàng)目。這些項(xiàng)目與不同應(yīng)用領(lǐng)域息息相關(guān),包括了解城市動(dòng)態(tài)、意大利醫(yī)療保健系統(tǒng)、預(yù)測(cè)光伏發(fā)電廠的能源產(chǎn)量和管理工作機(jī)會(huì)。最后兩個(gè)部分分別論述了隱私和大數(shù)據(jù)可用性這兩個(gè)重要議題。
城市一直都是一個(gè)由人、物、環(huán)境和活動(dòng)組成的復(fù)雜系統(tǒng),他(它)們的快速演變也不可避免地增加了復(fù)雜性。這個(gè)事實(shí)也促使科學(xué)家擯棄了傳統(tǒng)的模型驅(qū)動(dòng)分析范式,而更熱衷于數(shù)據(jù)驅(qū)動(dòng)的方法,開啟了大數(shù)據(jù)分析時(shí)代。人們每天通過與設(shè)備、社交媒體和其他技術(shù)系統(tǒng)交互產(chǎn)生的數(shù)字信號(hào),為從多種角度研究和理解城市動(dòng)態(tài)和社會(huì)行為提供了前所未有的機(jī)會(huì)。理解這些動(dòng)態(tài)意味著可以預(yù)見現(xiàn)象所造成的影響,并幫助政策和規(guī)劃者回應(yīng)公民的需求。
事實(shí)上,手機(jī)數(shù)據(jù)可用于研究和度量城市以及市民的位置,它讓我們?cè)诔鞘谐叨壬戏直娉鋈藗兊奈恢肹2–4],重現(xiàn)他們的流動(dòng)性[5–8]和社會(huì)性[9],并研究城市中這些事件的影響[4,10]。
2.1.手機(jī)和出發(fā)地–目的地(OD)矩陣估計(jì)
對(duì)人們?cè)诶系胤街g的位置和流動(dòng)進(jìn)行評(píng)估可用于重建一個(gè)出發(fā)地–目的地(OD)矩陣[5,6],這有助于推斷出交通需求以及理解人們對(duì)基礎(chǔ)設(shè)施的要求。在文獻(xiàn)[6]中,作者對(duì)個(gè)人通話軌跡進(jìn)行了長(zhǎng)期的分析,在兩個(gè)最重要的地點(diǎn)之間重建具有規(guī)律性的活動(dòng)(即高頻率活動(dòng))。這樣的地點(diǎn)是通過分析一個(gè)人在哪些地點(diǎn)打了最多的電話所確定的,通常與家和工作聯(lián)系在一起。在確定了這些地點(diǎn)之間的規(guī)律性活動(dòng)之后,OD矩陣總結(jié)了空間區(qū)域之間的預(yù)期交通流。
2.2.手機(jī)用于新人口統(tǒng)計(jì)學(xué)和城市用戶估計(jì)
估計(jì)和監(jiān)測(cè)社會(huì)現(xiàn)象的可能性增加了人們使用大數(shù)據(jù)支持官方統(tǒng)計(jì)的興趣[5]。由于管理類數(shù)據(jù)無法高頻次地搜集,并且往往不包含準(zhǔn)確的移動(dòng)信息,因此,通話數(shù)據(jù)正在被越來越多地用于整合傳統(tǒng)數(shù)據(jù)源,如用于建設(shè)城市的長(zhǎng)期觀測(cè)數(shù)據(jù)庫(kù)[3]和確定城市用戶的實(shí)際類型。在文獻(xiàn)[2]和[4]中提出了社會(huì)性測(cè)量量表——一個(gè)旨在將手機(jī)用戶分為不同行為類別的分析框架。分析過程從構(gòu)建時(shí)空分布開始,整合了人在所有興趣地的定位。然后通過運(yùn)用一種數(shù)據(jù)挖掘的方法,了解不同人的類別,這樣屬于居民、動(dòng)態(tài)居民、通勤者和游客的注釋簡(jiǎn)介就產(chǎn)生了。在文獻(xiàn)[5]中,從社會(huì)性測(cè)量量表的結(jié)果出發(fā),創(chuàng)建了一個(gè)在直轄市尺度下的OD矩陣,目的是用于觀測(cè)城市內(nèi)部的人的流動(dòng)。這種統(tǒng)計(jì)數(shù)據(jù)可以與國(guó)家統(tǒng)計(jì)局(意大利)的統(tǒng)計(jì)數(shù)據(jù)相媲美,它為整合現(xiàn)有人口和由手機(jī)數(shù)據(jù)實(shí)時(shí)估算出的流動(dòng)統(tǒng)計(jì)數(shù)據(jù)提供了一種安全途徑。
2.3.手機(jī)、流動(dòng)多樣性和經(jīng)濟(jì)發(fā)展
當(dāng)需要通過調(diào)查社會(huì)現(xiàn)狀以改善生活條件時(shí),研究就會(huì)變得越來越具有挑戰(zhàn)性。在文獻(xiàn)[8]中,作者從全國(guó)手機(jī)數(shù)據(jù)中提取了一種分析每個(gè)人的流動(dòng)多樣性和流動(dòng)數(shù)量的方法,并研究了外部社會(huì)經(jīng)濟(jì)指標(biāo)之間的相關(guān)性。多樣性被定義為一個(gè)用戶軌跡的熵,流動(dòng)的量是通過測(cè)量一個(gè)人移動(dòng)的特征距離所得到的。實(shí)驗(yàn)表明,流動(dòng)性是和幸福指標(biāo)(如教育水平、失業(yè)率、收入和免職)相關(guān)的,證明了流動(dòng)行為可以很好地預(yù)測(cè)城市的社會(huì)經(jīng)濟(jì)發(fā)展。在另外一項(xiàng)社會(huì)層面的探索中,文獻(xiàn)[9]通過比較流動(dòng)性和從電話中提取的社會(huì)網(wǎng)絡(luò)得到了一個(gè)很有趣的結(jié)論。運(yùn)動(dòng)中的相似性和社會(huì)網(wǎng)絡(luò)中的臨近性呈現(xiàn)出很強(qiáng)的關(guān)聯(lián),從中可以得出那些在網(wǎng)絡(luò)中不連接的人但在拓?fù)渖暇o密并有相似移動(dòng)模式的人,很有可能在未來建立起社會(huì)聯(lián)系。
2.4.手機(jī)和大事件預(yù)測(cè)
監(jiān)測(cè)并記錄人們對(duì)于大事件的反應(yīng)的可能性引起了公共管理學(xué)的極大興趣[10]。類似的研究可以應(yīng)用在對(duì)城市事件的影響的分析上[4],以設(shè)計(jì)出針對(duì)安全和流動(dòng)性的充足預(yù)案。文獻(xiàn)[10]提出了相關(guān)性模式分析——一個(gè)提取了由城市中各種事件引起的不同區(qū)域之間的內(nèi)在關(guān)系的過程。通過在同一尺度上分析通話的密度,人的數(shù)量就可以被估計(jì),并且利用時(shí)間和空間約束的序列模式就可以分析出人的數(shù)量的顯著協(xié)變量。文獻(xiàn)[4]提出了一種在城市尺度通過由社會(huì)性測(cè)量量表得出的人口分析結(jié)果衡量事件(如節(jié)日、音樂和藝術(shù)表演以及季節(jié)性活動(dòng))影響力的方法。通過統(tǒng)計(jì)學(xué)方法和多分類分析,對(duì)一個(gè)興趣區(qū)域內(nèi)和在一個(gè)特定時(shí)間范圍內(nèi)城市用戶構(gòu)成的變化進(jìn)行了分析。多分類分析使我們發(fā)現(xiàn)當(dāng)將分析從一個(gè)小區(qū)域(如城市歷史中心)移動(dòng)到大區(qū)域(如城市郊區(qū))時(shí)人口的構(gòu)成是如何變化的。實(shí)驗(yàn)證明,社會(huì)性測(cè)量量表可以在城市尺度確定人的構(gòu)成,并且整套方法對(duì)于測(cè)量大型活動(dòng)在中小城市中的影響力是有效的。
2.5.人口流動(dòng)性的手機(jī)模型
由于這些數(shù)據(jù)具有無處不在的特性并不斷擴(kuò)散,人口動(dòng)力學(xué)出現(xiàn)了新的特征。在將近10年被視為隨機(jī)游走或者Lévy flight(列維飛行)的人口流動(dòng),如今已經(jīng)顯現(xiàn)出了一種不排除模式上異質(zhì)性的高度的時(shí)空規(guī)律。通過研究手機(jī)軌跡的回旋半徑,發(fā)現(xiàn)人們只在少數(shù)地點(diǎn)度過大量的時(shí)間。這個(gè)結(jié)果允許科學(xué)家更深入地研究流動(dòng)性,并發(fā)現(xiàn)個(gè)人的移動(dòng)距離特征的多變性也意味著其未來位置的可預(yù)測(cè)程度高。這個(gè)明顯的矛盾可以通過進(jìn)一步分析系統(tǒng)性的運(yùn)動(dòng)來解釋,研究發(fā)現(xiàn)兩種新的旅行者類型:回歸者和探索者?;貧w者的系統(tǒng)性流動(dòng)是通過他們的回旋半徑估計(jì)的,特征是反復(fù)在幾個(gè)首選地點(diǎn)之間移動(dòng)。而探索者則傾向于在更多的不同地點(diǎn)間移動(dòng),并且他們的系統(tǒng)性流動(dòng)對(duì)于整體流動(dòng)的貢獻(xiàn)很小[7]。
基于由大量醫(yī)療數(shù)據(jù)提取出的醫(yī)學(xué)知識(shí)證據(jù),標(biāo)準(zhǔn)的醫(yī)療保健體系正在逐步地建立。在所有發(fā)達(dá)國(guó)家,醫(yī)療保健供應(yīng)商收集并管理了大量復(fù)雜、種類不同的數(shù)據(jù)。大量的可用數(shù)據(jù)實(shí)際上保證了醫(yī)療保健體系不斷完善的可能,涵蓋了個(gè)性化醫(yī)療、疾病預(yù)防和有效的醫(yī)療保健組織[11]。然而,由于大量患者從不同供應(yīng)商獲得醫(yī)療保健,造成了電子健康數(shù)據(jù)在眾多組織中碎片化地傳播。因此,整合和協(xié)調(diào)這些數(shù)據(jù),變得越來越重要。
在此背景下,由于其普遍的覆蓋范圍和區(qū)域管理,意大利以稅收為基礎(chǔ)的公共醫(yī)療保健系統(tǒng)面臨著獨(dú)特的挑戰(zhàn)。意大利是世界上人口老齡化最嚴(yán)重的國(guó)家之一,為了防止并發(fā)癥和殘疾(以確保國(guó)家經(jīng)濟(jì)的可持續(xù)性),對(duì)于患者而言,有效地管理慢性疾病[12]是最重要的。
意大利的醫(yī)療保健系統(tǒng)的組織是分層并分散的。國(guó)家層面負(fù)責(zé)確定醫(yī)療保健系統(tǒng)的總目標(biāo)和基本原則。在另一方面,區(qū)域政府(共21個(gè))負(fù)責(zé)通過基層醫(yī)療衛(wèi)生單位(LHU,平均每個(gè)區(qū)域10所)提供醫(yī)療保健服務(wù)。由于這些醫(yī)療衛(wèi)生單位分散獨(dú)立,因此醫(yī)療保健數(shù)據(jù)管理系統(tǒng)不可互操作。在這種背景下,國(guó)家區(qū)域醫(yī)療服務(wù)機(jī)構(gòu)(AGENAS——協(xié)調(diào)區(qū)域醫(yī)療保健系統(tǒng)的國(guó)家機(jī)構(gòu)),與托斯卡納的區(qū)域健康機(jī)構(gòu)(ARS)和意大利國(guó)家研究委員會(huì)合作,共同開發(fā)大數(shù)據(jù)分析平臺(tái),致力于提供對(duì)區(qū)域單位管理的電子健康記錄做統(tǒng)一分析的工具。
THEMATRIX
THEMATRIX平臺(tái)支持全生命周期的所有大數(shù)據(jù)分析,包括從分布式數(shù)據(jù)采集、存儲(chǔ)到設(shè)計(jì)和分析的并行部署及結(jié)果的展示。平臺(tái)允許通過支持公共數(shù)據(jù)的提取和重新映射,實(shí)現(xiàn)區(qū)域信息系統(tǒng)極端多樣化的隱藏。這一過程通過記錄每位市民和公共醫(yī)療保障系統(tǒng)的所有交互來實(shí)現(xiàn)。
數(shù)據(jù)模型和數(shù)據(jù)存儲(chǔ)技術(shù)所在區(qū)域?qū)用娴亩鄻有院彤愘|(zhì)性集中構(gòu)成了數(shù)據(jù)收集工作面臨的挑戰(zhàn)。盡管數(shù)據(jù)模型在國(guó)家層面已經(jīng)很普遍,但很少或者根本沒有應(yīng)用于地區(qū)層面。此外,LHU在選擇數(shù)據(jù)管理技術(shù)方面有絕對(duì)的自由度,導(dǎo)致了數(shù)據(jù)存儲(chǔ)服務(wù)和訪問接口(包括開源安裝到全面企業(yè)數(shù)據(jù)庫(kù))方案的不斷繁殖。正在開發(fā)的THEMATRIX平臺(tái),從LHU收集到了長(zhǎng)期的數(shù)據(jù),并將這些數(shù)據(jù)以共同的格式管理以供綜合研究。數(shù)據(jù)收集的一個(gè)重要方面就是數(shù)據(jù)的匿名性。事實(shí)上,當(dāng)電子健康數(shù)據(jù)被管理時(shí),隱私就是最引人關(guān)注的問題之一[11]。我們的數(shù)據(jù)收集機(jī)制根據(jù)由國(guó)家隱私局(National Authority of Privacy)設(shè)立的指導(dǎo)方針將病患記錄做了匿名處理。在隱藏患者身份的同時(shí),數(shù)據(jù)的模糊性允許執(zhí)行非常有用的跨區(qū)域分析。這個(gè)過程在地區(qū)層面實(shí)施并在國(guó)家層面推行,個(gè)人身份信息的隱藏并沒有削弱國(guó)家層面進(jìn)行分析獲取的價(jià)值。
數(shù)據(jù)分析界面讓流行病學(xué)家能靈活地訪問數(shù)據(jù),還為他們提供了可以用來定義提取(基于一定規(guī)則的算法)到的信息的圖形界面。數(shù)據(jù)轉(zhuǎn)換和分析開發(fā)了一種靈活的特定領(lǐng)域語(yǔ)言,為研究區(qū)域內(nèi)部和全國(guó)范圍關(guān)于人口健康和疾病狀態(tài)的模式、原因和影響提供了可能??删幊逃?jì)算引擎將運(yùn)算工作組織為一個(gè)有向非循環(huán)圖(DAG),其中每一個(gè)節(jié)點(diǎn)代表一個(gè)要應(yīng)用在患者記錄流(stream of patient records)上的任務(wù)。
先前對(duì)選定飛行員進(jìn)行的研究都集中在識(shí)別和預(yù)測(cè)少數(shù)幾種慢性病,如糖尿病或心血管疾病。由于大量數(shù)據(jù)可用,用來計(jì)算這些情況的效率和有效性的關(guān)鍵績(jī)效指標(biāo)允許區(qū)域公共醫(yī)療保健系統(tǒng)可以在比較客觀的基礎(chǔ)上進(jìn)行比較,預(yù)測(cè)算法的質(zhì)量也得以加強(qiáng)。到目前為止,該平臺(tái)已經(jīng)在意大利全國(guó)試點(diǎn)LHU內(nèi)和兩個(gè)區(qū)域機(jī)構(gòu)內(nèi)部署并測(cè)試??捎玫臄?shù)據(jù)包括4年內(nèi)700萬居民的行政記錄。為了完善基于醫(yī)療保健數(shù)據(jù)的預(yù)測(cè)模型,60萬患者已經(jīng)與特定患者的健康狀況做了匿名匹配,并由在意大利負(fù)責(zé)調(diào)解患者和公共醫(yī)療保健系統(tǒng)關(guān)系的主要保健醫(yī)生進(jìn)行評(píng)估。明年,計(jì)劃在至少10個(gè)區(qū)域(覆蓋一半以上意大利人口)部署THEMATRIX分析解決方案的項(xiàng)目。為了支持這個(gè)國(guó)家級(jí)的大型數(shù)據(jù)分析挑戰(zhàn),DAG計(jì)算的并行化將會(huì)增強(qiáng)。其要求是提供一套針對(duì)LHU硬件異質(zhì)性特點(diǎn)的靈活而有效的開發(fā),硬件類型涵蓋了從低規(guī)格商品機(jī)器到大企業(yè)集群支持的Apache Spark和Hadoop。
減少污染排放這一迫切需求使得可再生能源成為一個(gè)戰(zhàn)略領(lǐng)域[13],尤其是對(duì)歐盟而言。這導(dǎo)致了可再生能源的涌現(xiàn)以及具有重要意義的分布式發(fā)電的產(chǎn)生。這個(gè)新能源市場(chǎng)面臨的主要挑戰(zhàn)有網(wǎng)格集成、負(fù)載均衡和能源交易。首先,將這樣的分布式可再生能源整合到電網(wǎng)中,同時(shí)要避免依賴降低和配電損失,是一項(xiàng)艱巨的任務(wù)。事實(shí)上,可再生能源,如光伏數(shù)組,在它們的能源輸出中是可變的和間斷的,因?yàn)楫a(chǎn)生的能量也可能取決于一些不可控因素,如天氣情況[14]。其次,能源市場(chǎng)上的主角——在供應(yīng)鏈中扮演供求雙方的分銷商和一些小公司,在為他們的顧客計(jì)劃能源供給時(shí),也不得不面對(duì)需求和供給的不確定性。再次,由單一來源(尤其是從可再生能源)生產(chǎn)的能源有助于確定每天或者每小時(shí)市場(chǎng)的最終結(jié)算價(jià)格[15],這使得能源市場(chǎng)非常有競(jìng)爭(zhēng)性,對(duì)于局外人而言猶如迷宮。
為了應(yīng)對(duì)這樣的挑戰(zhàn),在地區(qū)以及全球?qū)用姹O(jiān)測(cè)能源的生產(chǎn)和消費(fèi),儲(chǔ)存歷史數(shù)據(jù),并設(shè)計(jì)新的可靠的預(yù)測(cè)工具具有極其重要的地位。虛擬電源運(yùn)行中心(Vi-POC)項(xiàng)目致力于原型的設(shè)計(jì)和實(shí)施,以便達(dá)成該目標(biāo)[16,17]。由于數(shù)據(jù)量龐大且具有異質(zhì)性,為了能高效地訪問這些不能通過傳統(tǒng)數(shù)據(jù)管理手段獲得的數(shù)據(jù),利用合適的大數(shù)據(jù)分析技術(shù)是非常有必要的。然后,由于新的(低成本)技術(shù)的可用性,小的供應(yīng)商也能夠收集到關(guān)于他們自己業(yè)務(wù)的數(shù)據(jù)。事實(shí)上,從小的發(fā)電廠獲得的數(shù)據(jù)是相當(dāng)異質(zhì)的,這些源源不斷的數(shù)據(jù)持續(xù)快速地增長(zhǎng)。這些數(shù)據(jù)按照持續(xù)的(快速的)頻率到達(dá)并且數(shù)量不斷增長(zhǎng)。此外,為了考慮不可控制的因素,如天氣條件,有必要儲(chǔ)存來自于氣象服務(wù)組織的天氣觀測(cè)信息和預(yù)測(cè)信息(如溫度、濕度、風(fēng)速等)。
從這個(gè)角度看,開發(fā)Vi-POC項(xiàng)目為(可再生)能源供應(yīng)商提供了一個(gè)數(shù)據(jù)收集、儲(chǔ)存、分析、查詢和檢索框架,而這些數(shù)據(jù)來自于廣泛分布的多樣化的發(fā)電廠(如光伏、風(fēng)、地?zé)帷⑺固亓职l(fā)動(dòng)機(jī)和自來水)。此外,Vi-POC項(xiàng)目的一大特點(diǎn)便是整合發(fā)電廠數(shù)據(jù)和天氣服務(wù)數(shù)據(jù)的產(chǎn)能實(shí)時(shí)預(yù)測(cè)系統(tǒng)。
Vi-POC項(xiàng)目設(shè)計(jì)了一個(gè)用于存儲(chǔ)天氣信息數(shù)據(jù)和工廠傳感器數(shù)據(jù)的HBase存儲(chǔ)系統(tǒng)。通過客戶端運(yùn)行數(shù)據(jù)挖掘算法,這些數(shù)據(jù)可以用來預(yù)測(cè)工廠未來24/48小時(shí)內(nèi)的產(chǎn)能。每個(gè)發(fā)電廠都會(huì)定時(shí)發(fā)送傳感器搜集的數(shù)據(jù)。時(shí)間的間隔是基于發(fā)電廠的類型和容積所設(shè)定的。由于是在給定的時(shí)間內(nèi)通過多個(gè)傳感器搜集,從發(fā)電廠搜集到的數(shù)據(jù)往往包含了不同的測(cè)量方式。事實(shí)上,發(fā)電廠之間傳感器的數(shù)量和型號(hào)可能存在差異。另外,預(yù)測(cè)的數(shù)據(jù)包含基于給定時(shí)間和地點(diǎn)的多種天氣預(yù)測(cè)參數(shù)。
對(duì)于(可再生)能源的預(yù)測(cè),在文獻(xiàn)中,已經(jīng)提出了幾種數(shù)據(jù)挖掘的方法。研究人員通常在兩類方法之間進(jìn)行區(qū)分:物理的和統(tǒng)計(jì)的。前者依靠基于物理考量(障礙物和山志學(xué))[18]和測(cè)量數(shù)據(jù)(模型輸出統(tǒng)計(jì)方法或者M(jìn)OS)[19]的天氣預(yù)測(cè)數(shù)值的優(yōu)化;而后者則基于模型建立歷史數(shù)值和預(yù)測(cè)變量之間的關(guān)系。
盡管已經(jīng)存在應(yīng)用于可再生能源預(yù)測(cè)中學(xué)習(xí)自適應(yīng)模型的數(shù)據(jù)挖掘算法[15,20],但是在時(shí)空信息、學(xué)習(xí)環(huán)境和使用算法的考量上,仍未達(dá)成一致。Vi-POC框架中應(yīng)用的預(yù)測(cè)模型包括以下分析。
(1) 時(shí)空自相關(guān)性[21]:地球物理現(xiàn)象具有這樣的特性能獲得更準(zhǔn)確的預(yù)測(cè)??臻g自相關(guān)性是通過對(duì)兩個(gè)空間統(tǒng)計(jì)數(shù)據(jù)進(jìn)行分析,即空間聯(lián)系的局部指標(biāo)(LISA)和主軸鄰距法(PCNM),而時(shí)間自相關(guān)性是通過分析不同形式的空間統(tǒng)計(jì)。
(2) 學(xué)習(xí)環(huán)境:這個(gè)可通過每小時(shí)使用一個(gè)簡(jiǎn)單的輸出預(yù)測(cè)或者使用一個(gè)結(jié)構(gòu)化的輸出預(yù)測(cè)模型(即一個(gè)24個(gè)元素的向量對(duì)應(yīng)第二天的24個(gè)小時(shí))。
(3) 學(xué)習(xí)算法:在學(xué)習(xí)自適應(yīng)模型方面,我們將常被用作預(yù)測(cè)光伏發(fā)電的人工神經(jīng)網(wǎng)絡(luò),與回歸樹和k近鄰算法(或應(yīng)用于Apache Spark框架中的最短k-NN[22])相比。兩組數(shù)據(jù)得出的結(jié)果顯示考慮時(shí)空自相關(guān)性是有益的。
然而,最重要的方面是學(xué)習(xí)環(huán)境:結(jié)構(gòu)性的輸出預(yù)測(cè)設(shè)置在很大幅度上優(yōu)于非結(jié)構(gòu)性的輸出預(yù)測(cè)設(shè)置。最終,結(jié)果顯示回歸樹能提供比人工神經(jīng)網(wǎng)絡(luò)和k-NN預(yù)測(cè)模型更好的模型。
通過專門的網(wǎng)絡(luò)勞動(dòng)力市場(chǎng)端口和服務(wù)招聘的空缺職位在過去幾年內(nèi)急速增長(zhǎng),使得招聘(也被稱為“e招聘”)和勞動(dòng)力市場(chǎng)分析(也被稱為勞動(dòng)力市場(chǎng)智能)有了新方法。通俗地說,一個(gè)網(wǎng)絡(luò)空缺職位可以被看作一段在不同網(wǎng)站資源上刊登多次的原始文本,內(nèi)容詳述了職務(wù)名稱和一段長(zhǎng)度不限的介紹,往往包含了一個(gè)應(yīng)聘者需要的技能。正如人們所想的,大量數(shù)據(jù)的收集、凈化、歸類和推理,對(duì)于公共和私營(yíng)的勞動(dòng)力市場(chǎng)運(yùn)營(yíng)者而言都是非常值得關(guān)注的,應(yīng)該考慮從不同觀點(diǎn)(如領(lǐng)土面積、新興職業(yè)和技能)來描述勞動(dòng)力市場(chǎng)的趨勢(shì)和動(dòng)態(tài)。在這樣的背景下,歐盟一直在努力定義一個(gè)國(guó)際技能/職業(yè)分類系統(tǒng)(如ESCO①ESCO is the multilingual classification of European Skills, Competences, Qualifications, and Occupations built on top of the International Standard Classifi cation System (ISCO).ESCO is part of the Europe 2020 strategy.),這將為跨國(guó)和跨語(yǔ)言研究勞動(dòng)力市場(chǎng)動(dòng)態(tài)的勞動(dòng)力市場(chǎng)分析師和政策制定者提供一種通用語(yǔ)。
在2015年,CRISP-UNIMIB②The Interuniversity Research Centre on Public Services-University of Milan-Bicocca.與米蘭比可卡大學(xué)(UNIMIB)計(jì)算機(jī)科學(xué)系統(tǒng)和通信學(xué)院中的信息檢索實(shí)驗(yàn)室(IR-Lab)協(xié)作,開始研究由Cedefop③The European Center for the Development of Vocational Training.贊助的歐洲項(xiàng)目,該項(xiàng)目的目的是構(gòu)建一個(gè)(系統(tǒng))原型,用以分析在5個(gè)歐盟國(guó)家網(wǎng)絡(luò)上發(fā)布的空缺職位以及必要的技能。項(xiàng)目背后的原理就是提取網(wǎng)絡(luò)上發(fā)布的空缺職位數(shù)據(jù),將其轉(zhuǎn)化為支持勞動(dòng)力市場(chǎng)智慧的知識(shí)(從而價(jià)值)。為此,著名的數(shù)據(jù)庫(kù)知識(shí)挖掘過程(KDD)[23]已經(jīng)被用作一種方法論框架。事實(shí)上,除了這個(gè)項(xiàng)目與全歐洲勞動(dòng)力市場(chǎng)監(jiān)測(cè)系統(tǒng)之間的關(guān)系,它還體現(xiàn)了在大數(shù)據(jù)全景下的一些有趣的方面,因?yàn)樗枰幚泶髷?shù)據(jù)背景下的4個(gè)“V”:數(shù)據(jù)的“量”(例如,隨著時(shí)間的推移所搜集到的空缺職位的數(shù)量不斷增加),通過哪家招聘平臺(tái)發(fā)布最新的和之前的空缺職位的“速度”,每個(gè)網(wǎng)絡(luò)資源(如半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù))的不同數(shù)據(jù)特性的“多樣性”,以及“準(zhǔn)確性”,由于在多個(gè)資源中存在重復(fù)的職位空缺,或者需要被識(shí)別和處理的缺失信息。在下面的討論中,提供了一個(gè)過程的概述,突出了每一步中所針對(duì)的“V”以及所用的技術(shù)。
在數(shù)據(jù)來源選擇這個(gè)步驟(準(zhǔn)確性),根據(jù)領(lǐng)域內(nèi)的專家們提供的質(zhì)量標(biāo)準(zhǔn)(如更新后的職位和領(lǐng)土的粒度)對(duì)70個(gè)網(wǎng)絡(luò)數(shù)據(jù)來源進(jìn)行排名。在數(shù)據(jù)收集步驟(數(shù)量、速度、多樣性和準(zhǔn)確性)建立了由3個(gè)不同組件組成的一個(gè)抓取模塊,這3個(gè)組件分別是:①一個(gè)檢索網(wǎng)頁(yè)的下載器;②一個(gè)識(shí)別空缺職位主要(招聘)要求的提取器,并將這些要素儲(chǔ)存在一個(gè)數(shù)據(jù)庫(kù)中;③一個(gè)周期性地計(jì)劃和執(zhí)行所有抓取過程的監(jiān)視器。這個(gè)模塊已在內(nèi)部建成,通過使用Spring框架和Talend任務(wù)流程來處理網(wǎng)絡(luò)資源的高異質(zhì)性。在3個(gè)月中,已經(jīng)搜集到了歐洲5個(gè)國(guó)家的400萬個(gè)空缺職位。數(shù)據(jù)的清洗和歸類任務(wù)(數(shù)量、多樣性、準(zhǔn)確性)負(fù)責(zé)識(shí)別重復(fù)的空缺職位信息,并根據(jù)ESCO職業(yè)分類(大約436種職業(yè)項(xiàng)目)對(duì)其進(jìn)行分類。注意到信息清洗是個(gè)曲折的過程,因?yàn)樗赡軙?huì)影響到隨后步驟的可信度(見文獻(xiàn)[24-26])。為此,使用了機(jī)器學(xué)習(xí)算法,因?yàn)樗鼉?yōu)于在一個(gè)領(lǐng)域相關(guān)基準(zhǔn)[27]中的其他方法,并能在項(xiàng)目設(shè)置中達(dá)到高級(jí)別的分類精度(如從德國(guó)的79%最高可達(dá)捷克的98%)。
分類模塊是使用SCiPy框架的自定義代碼構(gòu)建的。技能提取任務(wù)(數(shù)量、多樣性和準(zhǔn)確性)負(fù)責(zé)使用語(yǔ)言模型從空缺職位的描述中提取技能。根據(jù)ESCO職業(yè)分類標(biāo)準(zhǔn)中的數(shù)據(jù)分類就會(huì)被雇主所要求的技能信息所豐富,這樣就能詳細(xì)地描述一個(gè)通過網(wǎng)絡(luò)發(fā)布工作機(jī)會(huì)。
最后,使用著名的D3.js可視化庫(kù)對(duì)幾個(gè)可視化模型進(jìn)行了識(shí)別。這個(gè)過程中的一個(gè)終端產(chǎn)品(只關(guān)注意大利勞動(dòng)力市場(chǎng)數(shù)據(jù))的例子就是WollyBI①http://www.wollybi.com/en/。
總而言之,這個(gè)項(xiàng)目揭示了應(yīng)用智能化技術(shù)和數(shù)據(jù)工程來應(yīng)對(duì)在一個(gè)真實(shí)和特定領(lǐng)域背景下的大數(shù)據(jù)問題。研究結(jié)果為今后的工作鋪設(shè)了這幾條道路:首先,根據(jù)雇主的技能要求自動(dòng)對(duì)相似的職業(yè)進(jìn)行歸類;其次,基于圖模型展示所搜集到的知識(shí),這對(duì)于一個(gè)包含了所有空缺職位(數(shù)以百萬計(jì)的節(jié)點(diǎn))的一個(gè)大型而且高度動(dòng)態(tài)的知識(shí)庫(kù)而言是一個(gè)自然且便捷的選擇。在項(xiàng)目部署之后,一個(gè)關(guān)于歐洲一些主要國(guó)家的網(wǎng)絡(luò)勞動(dòng)力市場(chǎng)數(shù)據(jù)就會(huì)被搜集。這個(gè)具有高價(jià)值的知識(shí)庫(kù)將有利于勞動(dòng)力市場(chǎng)智能領(lǐng)域的研究活動(dòng)。
源于人類活動(dòng)細(xì)枝末節(jié)的大數(shù)據(jù),作為我們每天使用的通信技術(shù)(ICT)系統(tǒng)的副產(chǎn)品,記錄著社會(huì)生活的多重維度:自動(dòng)付款系統(tǒng)記錄了我們的消費(fèi)軌跡;搜索引擎記錄了我們?cè)诰W(wǎng)絡(luò)上的查詢?nèi)罩?;無線網(wǎng)絡(luò)和手機(jī)設(shè)備則記錄了我們的移動(dòng)軌跡。這些描述人類活動(dòng)的大數(shù)據(jù)就在一個(gè)虛擬化的“知識(shí)社會(huì)”的中心,其中對(duì)社會(huì)現(xiàn)象的認(rèn)識(shí)就是通過社會(huì)挖掘技術(shù)不斷地從多社會(huì)維度的大數(shù)據(jù)中提取知識(shí)。因此,人類的數(shù)字軌跡的分析為理解復(fù)雜面創(chuàng)造了新的機(jī)會(huì),例如,流動(dòng)行為、經(jīng)濟(jì)和金融危機(jī)、流行病的蔓延和意見的擴(kuò)散。然而,在數(shù)據(jù)處理和分析中的倫理問題的高風(fēng)險(xiǎn),以及建議和預(yù)測(cè)所帶來的倫理后果,要遠(yuǎn)遠(yuǎn)高于從這些數(shù)據(jù)中發(fā)現(xiàn)有趣模式的機(jī)會(huì)。幾個(gè)重要的倫理風(fēng)險(xiǎn)包括:①隱私侵犯,發(fā)生在無約束地侵入研究對(duì)象的個(gè)人資料時(shí);②歧視,當(dāng)被發(fā)現(xiàn)的信息不公平地用于制定針對(duì)某一類人(可能這些人不知道)的歧視性的決定時(shí)。
然而,大數(shù)據(jù)和道德并非天敵。在文獻(xiàn)中,一些研究已經(jīng)表明許多基于大數(shù)據(jù)分析的實(shí)踐和應(yīng)用,可以被設(shè)計(jì)成一種與道德要求共存的高品質(zhì)結(jié)果的形式。其秘訣是設(shè)計(jì)開發(fā)執(zhí)行倫理價(jià)值要求的大數(shù)據(jù)分析技術(shù),為公平提供保障。
在大數(shù)據(jù)分析隱私權(quán)保護(hù)的背景下,Monreale等[28]推薦最早由Ann Cavoukian在20世紀(jì)90年代提出的隱私設(shè)計(jì)范式的實(shí)例化——一種大數(shù)據(jù)分析服務(wù)設(shè)計(jì)。這個(gè)方法論在以下領(lǐng)域被應(yīng)用以保障隱私。
6.1.數(shù)據(jù)發(fā)布中的隱私
Monreale等[29]設(shè)計(jì)了一個(gè)移動(dòng)數(shù)據(jù)發(fā)布的隱私保護(hù)方法,它使聚類分析用于理解人們?cè)诿鞔_的城市區(qū)域內(nèi)的流動(dòng)性行為。發(fā)布的軌跡是通過一個(gè)適當(dāng)?shù)倪^程實(shí)現(xiàn)匿名,實(shí)現(xiàn)了原始軌跡的一個(gè)廣義版本。通過應(yīng)用這個(gè)框架所獲得的結(jié)果顯示軌跡是如何通過匿名化,達(dá)到高級(jí)別的保護(hù)防止再度被識(shí)別,同時(shí)保存了挖掘軌跡集群的可能性。這個(gè)方法使得更新、更強(qiáng)大的信息流動(dòng)分析服務(wù)或定位服務(wù)成為可能。
6.2.數(shù)據(jù)挖掘外包中的隱私
Giannotti等[30]設(shè)計(jì)一個(gè)在模式挖掘任務(wù)外包中的隱私保護(hù)方法。尤其是,結(jié)果顯示了一個(gè)公司是如何將交易數(shù)據(jù)外包給一個(gè)第三方,并以保護(hù)隱私的方式獲得數(shù)據(jù)挖掘的服務(wù)。在此設(shè)置中,不僅僅是基礎(chǔ)數(shù)據(jù),挖掘結(jié)果(戰(zhàn)略信息)也不會(huì)共享,并且必須保留隱私。在參考文獻(xiàn)[27]中所提出的隱私解決方案包括了應(yīng)用一種加密體系通過以下步驟改造原來的數(shù)據(jù)庫(kù):①通過一個(gè)1-1替代功能取代原有數(shù)據(jù)庫(kù)中的每一條目;②通過對(duì)數(shù)據(jù)庫(kù)進(jìn)行假的轉(zhuǎn)換的方法,即每個(gè)條目變得至少和其他所有條目(k–1)是沒有區(qū)別的?;谶@個(gè)簡(jiǎn)單的思想,這個(gè)框架保證了不僅僅是個(gè)體條目,而且任何一組條目,都能在最壞的情況下與至少其他k組不被區(qū)分,而且事實(shí)上平均來看不止k組。這種保護(hù)意味著攻擊者有更小的概率在交易數(shù)據(jù)或者挖掘結(jié)果中猜到包含在其中的真實(shí)內(nèi)容。與之相反,數(shù)據(jù)所有者能夠利用有限的計(jì)算資源有效地解密由第三方機(jī)構(gòu)返還的正確的挖掘結(jié)果。
6.3.分布式分析系統(tǒng)中的隱私
Monreale等[31]提出了一種分布式移動(dòng)數(shù)據(jù)分析中的隱私保護(hù)方法,主要針對(duì)當(dāng)一個(gè)不被信任的中央站收集了一些基于每個(gè)節(jié)點(diǎn)觀察到的移動(dòng)數(shù)據(jù)流所計(jì)算得出的匯總統(tǒng)計(jì)的情況。這個(gè)中央站儲(chǔ)存收集到的統(tǒng)計(jì)信息,并基于從數(shù)據(jù)采集器中收集到的信息計(jì)算所有領(lǐng)土內(nèi)的交通概況。提出的框架通過應(yīng)用一個(gè)知名的隱私模型——“差異隱私”,從而保證能在個(gè)人層面保護(hù)隱私。尤其是,隱私技術(shù)能在節(jié)點(diǎn)的移動(dòng)數(shù)據(jù)發(fā)送到不被信任的中央站前就對(duì)其進(jìn)行擾亂。
6.4.從數(shù)據(jù)中發(fā)現(xiàn)的歧視及其預(yù)防
在分析歧視數(shù)據(jù)的背景下,主要分為兩個(gè)研究方向(見參考文獻(xiàn)[32]中的一項(xiàng)調(diào)查)。從數(shù)據(jù)中發(fā)現(xiàn)的歧視存在于真實(shí)發(fā)現(xiàn)的歧視現(xiàn)象以及隱藏在大量歷史決策記錄中的做法。最初被提出的是一個(gè)關(guān)于社會(huì)組織使用分類規(guī)則進(jìn)行挖掘和過濾的直接或間接歧視的過程。這個(gè)過程是由以法律為基礎(chǔ)的歧視評(píng)估作為指導(dǎo),可能包括置信度的統(tǒng)計(jì)檢驗(yàn)[32]。個(gè)體歧視被一個(gè)k-NN方法模型所取代,并應(yīng)用于一個(gè)研究項(xiàng)目資金的真實(shí)案例研究中[33]。
歧視預(yù)防包括了從可能導(dǎo)致預(yù)測(cè)模型作出(可能是自發(fā)的)歧視決定的訓(xùn)練數(shù)據(jù)和學(xué)習(xí)算法中消除偏見。參考文獻(xiàn)[34]研究了防止歧視的數(shù)據(jù)凈化,首先將隱私的t-closeness模型變?nèi)醯揭粋€(gè)非歧視模型,然后通過使用最先進(jìn)的數(shù)據(jù)凈化方法處理t-closeness。一個(gè)能同時(shí)處理隱私和歧視凈化的方法見參考文獻(xiàn)[35]。關(guān)于學(xué)習(xí)算法,有人提出了一種改良的基于規(guī)則分類器的投票機(jī)制以減少可能的歧視性規(guī)則的權(quán)重[32]。
7.1.大數(shù)據(jù)的實(shí)體解析
網(wǎng)絡(luò)已經(jīng)成為結(jié)構(gòu)化和半機(jī)構(gòu)化數(shù)據(jù)的寶貴來源。大量的高質(zhì)量關(guān)系數(shù)據(jù)可以從HTML表格中提取[36],并且隨著網(wǎng)絡(luò)數(shù)據(jù)的出現(xiàn),大量作為鏈接數(shù)據(jù)的公開半結(jié)構(gòu)化數(shù)據(jù)呈指數(shù)性增長(zhǎng)[37]。這些數(shù)據(jù)以數(shù)量大、品種多、變化快為特點(diǎn),但與此同時(shí),它們的準(zhǔn)確性和質(zhì)量也常常是個(gè)問題[38,39]?;谝陨线@些原因,這樣的數(shù)據(jù)常常被認(rèn)為是“大數(shù)據(jù)”。數(shù)據(jù)真正的潛能往往體現(xiàn)在整合不同來源數(shù)據(jù)的時(shí)候,最近在網(wǎng)絡(luò)挖掘中提取實(shí)體、關(guān)系和本體以建立大型通用知識(shí)庫(kù)就可以作為論證,如Freebase和Yago[40]。對(duì)于企業(yè)、政府機(jī)構(gòu)和在大型科研項(xiàng)目的研究人員,如果能與他們已經(jīng)擁有的受限于傳統(tǒng)數(shù)據(jù)集成過程的數(shù)據(jù)相結(jié)合,這些數(shù)據(jù)甚至可以更有價(jià)值。
能夠識(shí)別指向同一實(shí)體的記錄是使這些數(shù)據(jù)有意義的基礎(chǔ)步驟。一般來說,為了能夠?qū)崿F(xiàn)實(shí)體解析(ER),傳統(tǒng)的技術(shù)要求在數(shù)據(jù)源之間有一個(gè)模式對(duì)齊。不幸的是,大數(shù)據(jù)典型的特點(diǎn)就是高異質(zhì)性、高噪聲和非常大的數(shù)據(jù)量,造成傳統(tǒng)的模式對(duì)齊技術(shù)不再適用。例如,谷歌基地包含超過1萬個(gè)用10萬個(gè)獨(dú)特的圖形描述的實(shí)體類型;在這樣的情況下,執(zhí)行和維護(hù)一個(gè)模式對(duì)齊是行不通的[41]。
最近,已經(jīng)提出了兩種技術(shù)以解決這些問題:①放棄挖掘模式信息并完全依賴于冗余來限制錯(cuò)誤匹配機(jī)會(huì)的技術(shù)[42-44];②從數(shù)據(jù)中直接提取模糊模式信息,不執(zhí)行傳統(tǒng)的模式對(duì)齊的技術(shù),這對(duì)于ER是有用的[45]。后者的結(jié)果是最有保障的,但被研究得最少。事實(shí)上,遵循他們建議的方向,是有可能讓基于模式的ER技術(shù)支持大數(shù)據(jù)的,既保證了高查全率和精度,又不需要執(zhí)行不堪忍受的傳統(tǒng)的模式對(duì)齊步驟。
7.2.大數(shù)據(jù)的探索
在大數(shù)據(jù)時(shí)代,新的用戶界面需要與我們收集到的大量數(shù)據(jù)進(jìn)行交互;否則,用戶將被數(shù)據(jù)淹沒。在參考文獻(xiàn)[46]中,提出了一種解決方案,可以幫助用戶將他們的注意力集中在一個(gè)小組相關(guān)的數(shù)據(jù),使用貝葉斯方法推斷用戶的選擇。在我們的試驗(yàn)中,我們研究了一種利用在大數(shù)據(jù)背景中的用戶輸入推斷相關(guān)信息的方法。
貝葉斯網(wǎng)絡(luò)增強(qiáng)的面瀏覽[47],通過分析用戶的選擇作為概率模型,為用戶推斷有價(jià)值的信息。面瀏覽是一種通過多個(gè)步驟應(yīng)用動(dòng)態(tài)過濾器對(duì)數(shù)據(jù)進(jìn)行探索的技術(shù):每次使用一個(gè)過濾器,結(jié)果就會(huì)顯示給用戶,用戶還可以應(yīng)用額外的過濾器或者調(diào)整現(xiàn)有的。在每一步驟中,顯示的過濾器和過濾器中的數(shù)值可能是不同的。
所提出的方法對(duì)于在大數(shù)據(jù)環(huán)境中探索數(shù)據(jù)是有效的,即屬性的個(gè)數(shù)和值都很巨大。換而言之,面瀏覽所提供的優(yōu)勢(shì)就是過濾器的動(dòng)態(tài)性。此外,對(duì)于用戶為了能動(dòng)態(tài)地獲得最有用的過濾器,有必要利用用戶目前的選擇進(jìn)行推斷。因此,通過利用圖形貝葉斯網(wǎng)絡(luò)概率模型對(duì)用戶的選擇進(jìn)行分析,有可能推斷出對(duì)于他們最有價(jià)值的過濾器。圖模型是首選,主要因?yàn)樗鼈円子诶斫?、?yàn)證和解釋結(jié)果。在這樣的背景下,貝葉斯網(wǎng)絡(luò)中的變量就是數(shù)據(jù)集的屬性。貝葉斯網(wǎng)絡(luò)被用于推測(cè)這些屬性之間的關(guān)系,用于計(jì)算一個(gè)用戶的選擇和其他網(wǎng)絡(luò)中屬性之間相關(guān)性的概率,然后將最相關(guān)的屬性展現(xiàn)為過濾器。此外,為了避免顯示太多的值,可以在過濾器中推斷出相似和不相似的值。為了總結(jié)過程,只有5個(gè)最相似和最不相似的值會(huì)展示給用戶。
本文展示了一些在意大利進(jìn)行的有關(guān)大數(shù)據(jù)的學(xué)術(shù)研究活動(dòng),內(nèi)容涵蓋了旨在提高人們生活的多個(gè)方面的應(yīng)用,以及兩個(gè)普遍性的重要問題——隱私和大數(shù)據(jù)的可用性。文中展現(xiàn)了一個(gè)多產(chǎn)的學(xué)術(shù)研究界,已經(jīng)能夠面對(duì)大數(shù)據(jù)目前在數(shù)量、速率、多樣性和準(zhǔn)確性上所帶來的挑戰(zhàn)。下一階段是與行業(yè)更緊密地合作,共同面對(duì)最實(shí)質(zhì)性的挑戰(zhàn):從大數(shù)據(jù)中創(chuàng)造價(jià)值。從這個(gè)意義上講,參與實(shí)施由大數(shù)據(jù)價(jià)值協(xié)會(huì)制定的歐洲戰(zhàn)略研究議程,以及從CINI“大數(shù)據(jù)”實(shí)驗(yàn)室獲得支持,將會(huì)是至關(guān)重要的。
Sonia Bergamaschi, Emanuele Carlini, Michelangelo Ceci, Barbara Furletti, Fosca Giannotti, Donato Malerba, Mario Mezzanzanica, Anna Monreale, Gabriella Pasi, Dino Pedreschi, Raffele Perego, and Salvatore Ruggieri declare that they have no confl ict of interest or fi nancial confl icts to disclose.
[1] Europe Big Data market 2015-2020 [Internet].New York: PR Newswire Association LLC.; c2016 [updated 2016 May 3 0, cited 2016 Jun 12].Available from: http://www.prnewswire.com/news-releases/europe-big-data-market-2015---2020-300276656.html.
[2] Furletti B, Gabrielli L, Renso C, Rinzivillo S.Anal ysis of GSM calls data for understanding user mobility behavior.In: Hu X, Lin TY, Raghavan V, Wah B, Baeza-Yates R, Fox G, et al., editors Proceedings of the 2013 IEEE International Conference on Big Data; 2013 Oct 6-9; Santa Clara, CA, USA; 2013.p.550-5.
[3] Furletti B, Gabrielli L, Renso C, Rinzivillo S.Pisa t ourism fluxes observatory: deriving mobility indicators from GSM call habits.In: Proceedings of the 3rd International Conference on the Analysis of Mobile Phone Datasets; 2013 May 1-3; Cambridge, MA, USA; 2013.
[4] Gabrielli L, Furletti B, Trasarti R, Giannotti F, Pedreschi D.City u sers’ classification with mobile phone data.In: Ho H, Ooi BC, Zaki MJ, Hu X, Haas L, Kumar V, et al., editors Proceedings of the 2015 IEEE International Conference on Big Data; 2015 Oct 29-Nov 1; Santa Clara, CA, USA; 2015.p.1007-12.
[5] Furletti B, Gabrielli L, Giannotti F, Milli L, Nanni M, Pedreschi D.Use of mobile phone data to estimate mobility flows.Measuring urban population and inter-city mobility using big data in an integrated approach.In: Proceedings of the 47th SIS Scientific Meeting of the Italian Statistical Society; 2014 Jun 11-13; Cagliari, Italy; 2014.
[6] Nanni M, Trasarti R, Furletti B, Gabrielli L,Van Der Mede P, De Bruijn J, et al.Transpor tation planning based on GSM traces: a case study on ivory coast.In: Nin J, Villatoro D, editors Citizen in sensor networks.Cham: Springer International Publishing; 2014.p.15-25.
[7] Pappalardo L, Simini F, Rinzivillo S, Pedreschi D, Giannotti F, Barabási AL.Returners and explorers dichotomy in human mobility.Nat Commun 2015;6:8166.
[8] Pappalardo L, Pedreschi D, Smoreda Z, Giannotti F.Using big data to study the link between human mobility and socio-economic development.In: Ho H, Ooi BC, Zaki MJ, Hu X, Haas L, Kumar V, et al., editors Proceedings of the 2015 IEEE International Conference on Big Data; 2015 Oct 29-Nov 1; Santa Clara, CA, USA; 2015.p.871-8.
[9] Wang D, Pedreschi D, Song C, Giannotti F, Barabási AL.Human mobilit y, social ties, and link prediction.In: Proceedings of the 17th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining; 2011 Aug 21-24; San Diego, CA, USA; 2011.p.1100-8.
[10] Trasarti R, Olteanu-Raimond AM., Nanni M, Couronné T, Furletti B, Giannotti F, et al.Discovering urba n and country dynamics from mobile phone data with spatial correlation patterns.Telecommu Policy 2015;39(3-4):347-62.
[11] Liu W, Park EK.Big data as an e-h ealth service.In: Proceedings of the 2014 IEEE International Conference on Computing, Networking and Communications; 2014 Feb 3-6; Honolulu, HI, USA; 2014.p.982-8.
[12] Gini R, Francesconi P, Mazzaglia G, Cricelli I, Pasqua A, Gallina P, et al.Chronic disease prevalence from Italian administrative databases in the VALORE project: a validation through comparison of population estimates with general practice databases and national survey.BMC Public Health 2013;13(1):15.
[13] Directive 2009/28/ EC of the European Parliament and of the Council on the promotion of the use of energy from renewable sources and amending and subsequently repealing Directives 2001/77/EC and 2003/30/EC.Official Journal of the European Union L 140; 2009 Jun 5.p.16-47.
[14] Ioakimidis CS, Oliveira LJ, Genikomsakis KN.Wind power forecas ting in a residential location as part of the energy box management decision tool.IEEE Trans Ind Inform 2014;10(4):2103-11.
[15] Bessa RJ, Miranda V, Gama J.Entropy and corren tropy against minimum square error in offline and online three-day ahead wind power forecasting.IEEE Trans Power Syst 2009;24(4):1657-66.
[16] Ceci M, Cassavia N, Corizzo R, Dicosta P, Malerba D, Maria G, et al.Innovative power o perating center management exploiting big data techniques.In: Proceedings of the 18th International Database Engineering & Applications Symposium; 2014 Jul 7-9; Porto, Portugal.New York: ACM; 2014.p.326-9.
[17] Ceci M, Corizzo R, Fumarola F, Ianni M, Malerba D, Maria G, et al.Big data techniques for supporting accurate predictions of energy production from renewable sources.In: Proceedings of the 19th International Database Engineering and Applications Symposium; 2015 Jul 13-15; Yokohama, Japan New York: ACM; 2015.p.62-71.
[18] Bofinger S, Heilscher G.Solar electricity fore cast-approaches and first results.In: Proceedings of the 21st European Photov oltaic Solar Energy Conference; 2006 Sep 4-8; Dresden, Germany; 2006.p.4-8.
[19] Pelland S, Galanis G, Kallos G.Solar and photovoltaic fo recasting through post-processing of the Global Environmental Multiscale numerical weather prediction model.Prog Photovoltaics 2013;21(3):284-96.
[20] Sharma N, Sharma P, Irwin DE, Shenoy PJ.Predicting solar generati on from weather forecasts using machine learning.In: Proceedings of the 2011 IEEE International Conference on Smart Grid Communications; 2011 Oct 17-20; Brussels, Belgium; 2011.p.528-33.
[21] Stojanova D, Ceci M, Appice A, D?eroski S.Network regression with predictive clustering trees.Data Min Knowl Disc 2012;25(2):378-413.
[22] Zaharia M, Chowdhury M, Franklin MJ, Shenker S, Stoica I.Spark: cluster computing wi th working sets.In: Proceedings of the 2nd USEN IX Conference on Ho t Topics in Cloud Computing; 2010 Jun 22-25; Boston, MA, USA.Berkeley: USENIX Association; 2010.p.1765-73.
[23] Fayyad U, Piatetsky-Shapiro G, Smyth P.The KDD process for extracting useful knowledge from volumes of data.Commun ACM 1996;39(11):27-34.
[24] Boselli R, Cesarini M, Mercorio F, Mezzanzanica M.Planning meets data cleansing.In: Proceedings of the 24th International Conference on Automated Planning and Scheduling; 2014 Jun 21-26; Portsmouth, NH, USA; 2014.p.439-43.
[2 5] Mezzanzanica M, Boselli R, Cesarini M, Mercorio F.Data quality sensitivity analy sis on aggregate indicators.In: Helfert M, Francalanci C, Felipe J, editors Proceedings of the International Conference on Data Technologies and Applications; 2012 Jul 25-27; Rome, Italy; 2012.p.97-108.
[26] Mezzanzanica M, Boselli R, Cesarini M, Mercorio F.A model-based evaluation of data quality activities in KDD.Inform Process Manag 2015;51(2):144-66.
[27] Amato F, Boselli R, Cesarini M, Mercorio F, Mezzanzanica M, Moscato V, et al.Challenge: processing web texts f or classifying job offers.In: Kankanhalli MS, Li T, Wang W, editors Proceedings of the 2015 IEEE International Conference on Semantic Computing; 2015 Feb 7-9; Anaheim, CA, USA; 2015.p.460-3.
[28] Monreale A, Rinzivillo S, Pratesi F, Giannotti F, Pedreschi D.Privacy-by-design in big data analytics and social mining.EPJ Data Sci 2014;3(1):10.
[29] Monreale A, Andrienko G, Andrienko NV, Giannotti F, Pedreschi D, Rinzivillo S, et al.Movement data anonymity through generalization.Trans Data Privacy 2010;3(2):91-121.
[30] Giannotti F, Lakshmanan LVS, Monreale A, Pedreschi D, Wang H.Privacy-preserving mining of associat ion rules from outsourced transaction databases.IEEE Syst J 2013;7(3):385-95.
[31] Monreale A, Wang WH, Pratesi F, Rinzivillo S, Pedreschi D, Andrienko G, et al.Privacy-preserving distributed move ment data aggregation.In: Vandenbroucke D, Bucher B, Crompvoets J, editors Geographic information science at the heart of Europe.Cham: Springer International Publishing; 2013.p.225-45.
[32] Romei A, Ruggieri S.A multidisciplinary survey on discrimination analysis.Knowl Eng Rev 2014;29(5):582-638.
[33] Romei A, Ruggieri S, Turini F.Discrimination discovery in scientific project evaluation: a case study.Expert Syst Appl 2013;40(15):6064-79.
[34] Ruggieri S.Using t-closeness anonymity to contro l for non-discrimination.Trans Data Privacy 2014;7(2):99-129.
[35] Hajian S, Domingo-Ferrer J, Monreale A, Pedreschi D, Giannotti F.Discrimination- and privacy-aware patterns.Data Min Knowl Disc 2015;29(6):1733-82.
[36] Cafarella MJ, Halevy A, Wang ZD, Wu E, Zhang Y.WebTables: exploring the power of tables on the web.In: Proceedings of the Very Large Database Endowment; 2008 Aug 23-28; Auckland, New Zealand; 2008.p.538-49.
[37] Bizer C, Heath T, Berners-Lee T.Linked data: the story so far.In: Sheth A, editor Semantic services, interoperability an d web applications: emerging concepts.Hershey: IGI Global; 2011.p.205-27.
[38] Batini C, Rula A, Scannapieco M, Viscusi G.From data quality to big data quality.J Database Manage 2015;26(1):60-82.
[39] Firmani D, Mecella M, Scannapieco M, Batini C.On the meaningfulness of “Big Data Quality”.Data Sci Eng 2016;1(1):6-20.
[40] Dong XL, Srivastava D.Big data integration.In: Proceedings of the Very Large Databases Endowment; 2013 Aug 26-30; Trento, Italy; 2013.p.1188-9.
[41] Madhavan J, Jeffery SR, Cohen S, Dong XL, Ko D, Yu C, et al.Web-scale data integration: you can affor d to Pay As You Go.In: Proceedings of the 3rd Biennial Conference on Innovative Data Systems Research; 2007 Jan 7-10; Asilomar, CA, USA; 2007.p.342-50.
[42] Papadakis G, Ioannou E, Palpanas T, Niederée C, Nejdl W.A blocking framework for entity resolution in highly heterogeneous information spaces.IEEE Trans Knowl Data En 2013;25(12):2665-82.
[43] Papadakis G, Koutrika G, Palpan as T, Nejdl W.Meta-blocking: taking entity resolution to the next level.IEEE Trans Knowl Data En 2014;26(8):1946-60.
[44] Papadakis G, Papastefanatos G, Koutrika G.Supervised meta-blocking.In: Proceedings of the Very Large Databases Endowment; 2014 Sep1-5; Hangzhou, China.; 2014.p.1929-40.
[45] Bergamaschi S, Ferrari D, Guerra F, Simonini G.Discovering the topics of a data source: a statistical approach.In: Proceedings of the Workshop on Surfacing the Deep and the Social Web Co-located with the 13th International Semantic Web Conference ; 2014 Oct 19; Trentino, Italy; 2014.
[46] Bergamaschi S, Simonini G, Zhu S.Enhancing big data exploration with facete d browsing.In: Proceedings of the 10th Scientific Meeting of Classification and Data Analysis Group; 2015 Oct 8-10; Cagliari, Italy; 2015.
[47] Fagan JC.Usability studies of faceted browsing: a l iterature review.Inform Technol Libr 2010;29(2):58-66.
* Corresponding author.
E-mail address: donato.malerb@uniba.it; pasi@disco.unimib.it
?“Towards a thriving data-driven economy,” communication from the Commission to the European Parliament, the Council, the European Economic and Social Committee, and the Committee of the Regions, Brussels, 2014 Jul 2.
2095-8099/? 2016 THE AUTHORS.Published by Elsevier LTD on behalf of Chinese Academy of Engineering and Higher Education Press Limited Company.This is an open access article under the CC BY-NC-ND license (http://creativecommons.org/licenses/by-nc-nd/4.0/).
英文原文: Engineering 2016, 2(2): 163-170
Sonia Bergamaschi, Emanuele Carlini, Michelangelo Ceci, Barbara Furletti, Fosca Giannotti, Donato Malerba, Mario Mezzanzanica, Anna
Monreale, Gabriella Pasi,Dino Pedreschi, Raff ele Perego, Salvatore Ruggieri.Big data research in Italy: A perspective.Engineering, http://dx.doi.org/10.1016/ J.ENG.2016.02.011