亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        聚數(shù)融智的應用與挑戰(zhàn)

        2021-03-11 02:04:12鄔賀銓
        關鍵詞:融合

        鄔賀銓

        (中國工程院,北京 100088)

        0 引 言

        傳統(tǒng)的數(shù)據(jù)統(tǒng)計分析通常是對單一數(shù)據(jù),如交通數(shù)據(jù)流量、電商營銷數(shù)據(jù)等,獨立地進行跟蹤和分析[1]。而在以大數(shù)據(jù)和智能化為主要特征的數(shù)據(jù)時代,各種領域,如從電子醫(yī)療(e-health)到智能交通(smart transportation),從在線游戲(online game)到網絡傳媒(network media),實時產生著廣泛而多樣的數(shù)據(jù)集。多源性、異構性為主要特征的數(shù)據(jù)集驅使著我們在解決問題時,將各種數(shù)據(jù)集進行有機融合。例如,為了更好地解決空氣污染問題,需要結合氣象數(shù)據(jù)、車輛和工廠的排放,以及一個地方的人口分布情況等來探索空氣質量數(shù)據(jù);為了為用戶生成更準確的旅游推送指南,可以將用戶的網絡行為和社會關系進行綜合分析,有選擇地進行旅游推送;而為了更好地理解圖像的語義含義,可以利用圖像周圍的文本和從圖像像素派生出來的特征進行推斷等。在上述過程中,從多元數(shù)據(jù)集中派生出關鍵信息,并對數(shù)據(jù)進行有機融合已成為不可或缺的關鍵一步。

        數(shù)據(jù)融合不同于數(shù)據(jù)一體化。數(shù)據(jù)融合不是將所有數(shù)據(jù)集中在一起,而是以決策為目的將數(shù)據(jù)源中的關鍵信息進行提取、融合并整合為一個獨立和靈活的分析數(shù)據(jù)集的過程。此分析數(shù)據(jù)集可隨源數(shù)據(jù)集的變化進行調整及更新并可有效地提升數(shù)據(jù)的內涵價值。

        對于多源異構數(shù)據(jù)融合,文獻[2]使用基于統(tǒng)計和人工智能方法研究了多傳感器數(shù)據(jù)融合技術。文獻[3]構建了一個多源非線性異構數(shù)據(jù)融合模型,用于研究多源異構數(shù)據(jù)的融合。文獻[4]將無線傳感器網絡和數(shù)據(jù)融合技術相結合,提出了一種卡爾曼濾波估計融合算法,該算法已成功應用于目標位置跟蹤過程。文獻[5]研究了數(shù)字礦山建設過程中多源異構數(shù)據(jù)的融合技術,從而確保了數(shù)字礦山建設中基本信息平臺的安全性,穩(wěn)定性和效率。文獻[6]研究了物聯(lián)網環(huán)境中的大規(guī)模多模式數(shù)據(jù)融合方法,并將其成功用于目標位置跟蹤過程。文獻[7]將深度學習引入多模式數(shù)據(jù)的特征提取中,將音頻和視頻的2種不同信息模式集成到語音識別數(shù)據(jù)上,并訓練了深度神經網絡以從2種模式中提取聯(lián)合特征。文獻[8]將深度神經網絡應用于圖像檢索任務,并將從圖像數(shù)據(jù)中提取的各種特征用作圖像模態(tài)。

        數(shù)據(jù)融合是目前大數(shù)據(jù)應用和智能決策過程中的一個瓶頸。尤其是在大數(shù)據(jù)和智能化時代,促進多元異構數(shù)據(jù)的融合和智能化的數(shù)據(jù)處理,對發(fā)揮數(shù)據(jù)作為生產要素的作用具有十分重要的理論意義和實際價值。本文介紹了大數(shù)據(jù)在城市、交通、醫(yī)療、電商等領域的融合及可視化應用。重點說明了海量數(shù)據(jù)、小數(shù)據(jù)分析面臨的難題,并討論了人與數(shù)據(jù)融合、數(shù)據(jù)融合共享與商密保護、開源軟件與數(shù)據(jù)安全管理、數(shù)據(jù)融合中AI技術的兩面性等挑戰(zhàn)。

        1 聚數(shù)融智的應用

        數(shù)據(jù)的融合和應用在城市管理、交通、醫(yī)療、電商等領域有著廣泛的應用,并在大數(shù)據(jù)和智能化時代的驅動下出現(xiàn)了一些新的特征應用,如街景生成,視頻合成,交通鏡像,3D還原和AR體驗等。

        1.1 街景生成

        古羅馬遺址如圖1。這些古羅馬遺址特征散落在現(xiàn)代建筑中,在收集大量古羅馬遺址照片后(圖1左),通過人工智能、大數(shù)據(jù)的技術,可以還原出古羅馬的街景(圖1右)。將時空分散的照片合成為視頻,這在評價一個建筑物的風格等方面也是很有用的。例如將大量歷史照片還原成實際街景,也可以將不同結構與風格的建筑合成在一個畫面,以評價是否協(xié)調。

        圖1 圖像合成: 古羅馬遺址Fig.1 Image synthesis: Ancient Roman ruins

        1.2 視頻合成

        在未來智慧城市的建設中,將會有大量攝像頭、傳感器收集交通狀況,傳統(tǒng)方法是將攝像頭對應的電視屏放在交管中心。一方面,如此多的電視屏無法全部放在交管中心;另一方面,在實際中,單靠肉眼觀察如此多的電視屏來判別馬路交通情況的效果很差。而通過攝像頭感知與手機定位數(shù)據(jù)可精確獲得城市交通實時狀況,同時利用大數(shù)據(jù)與人工智能技術深度挖掘,可得出可視化的全局視圖,如圖2為以色列的首都特拉維夫。將攝像頭的所有視頻組合起來合成一個視頻,就像坐著直升飛機俯視整個城市。在不同時間用不同顏色標注不同的道路交通狀況,這樣利用大數(shù)據(jù)的視頻合成技術就可以將道路上的交通事故、交通管制等情況實時地發(fā)送到駕駛員的手機上,方便選擇較好的出行路線。

        圖2 可視化全局視圖Fig.2 Visual global view

        1.3 交通鏡像

        在圖3中,左圖為2019年希臘上空的航班運行情況,右圖為2020年疫情時的航班運行情況,圖3是空域交通的數(shù)字孿生。利用數(shù)字孿生的航班運行圖,可以看出疫情對航空業(yè)的影響。同時,利用數(shù)字孿生技術可以在礦山和大型工業(yè)園區(qū)建立對生產流程的數(shù)字孿生平臺,實時掌握運行的全局狀況。

        圖3 2019年與2020年疫情間希臘航班運行情況Fig.3 Flight operations in Greece between 2019 and outbreaks in 2020

        1.4 3D還原和AR體驗

        醫(yī)療患者胸部CT檢查會生成200—300張CT影像,即使每張只需要看3 s,放射科醫(yī)生也需要至少10 min才能看完。借助AI可以將肺部多達百張CT照片還原為一幅3D影像,可以有效地提高醫(yī)生的診斷效率。同時,在網上選購衣服時,利用AR技術,可以在自己的手機上看到將衣服虛擬穿在身上的感覺,可以同時比較穿不同服飾的體驗,從中選出合適的衣服。

        2 聚數(shù)融智的挑戰(zhàn)

        數(shù)據(jù)融合具有廣泛的應用前景,然而,大數(shù)據(jù)融合給眾多領域帶來積極作用的同時,也依然面臨數(shù)據(jù)融合的規(guī)范、融合數(shù)據(jù)的處理、數(shù)據(jù)的安全與隱私等挑戰(zhàn)。

        2.1 數(shù)據(jù)融合標準規(guī)范

        數(shù)據(jù)融合需要標準先行。數(shù)據(jù)標準應從可見性、易理解性、可鏈接性、可信性、互操作性和安全性等方面進行標準規(guī)范。

        1)數(shù)據(jù)要具有可見性。需要有元數(shù)據(jù)標準,包括共享數(shù)據(jù)的位置和訪問方法,有標準且可重用的API等。

        2)數(shù)據(jù)要具有易理解性。要求數(shù)據(jù)以一種保留語義的方式呈現(xiàn),并以標準化的方式表達,同時還要求具有科學的數(shù)據(jù)目錄、識別轉換、組合和衍生新數(shù)據(jù)能力的自適應智能系統(tǒng)。

        3)數(shù)據(jù)要具有可鏈接性。孤立數(shù)據(jù)的價值很難體現(xiàn),要讓數(shù)據(jù)之間可以進行鏈接,這就要求實施統(tǒng)一的標識符和通用的元數(shù)據(jù)標準,能夠發(fā)現(xiàn)、鏈接、檢索、合并和整合數(shù)據(jù)。

        4)數(shù)據(jù)要具有可信性。如果數(shù)據(jù)來源本身不可信或數(shù)據(jù)質量很差,這說明技術挖掘本身就存在問題。要保證數(shù)據(jù)的可信性,要有數(shù)據(jù)質量管理技術,按規(guī)定程序適當標記和保存數(shù)據(jù)和記錄。在壽命周期內要有保護和血緣元數(shù)據(jù)的約束。

        5)數(shù)據(jù)要具有互操作性。不同的數(shù)據(jù)彼此間要進行數(shù)據(jù)交換,需要數(shù)據(jù)交換規(guī)范來協(xié)調不同數(shù)據(jù)的標準和格式,保證不損失數(shù)據(jù)本身的保真度、精確度或準確性。

        6)數(shù)據(jù)要具有安全性。數(shù)據(jù)在進行挖掘的時候,要注意個人隱私的保護、商業(yè)秘密的保護以及結構體數(shù)據(jù)的授權審計等。這要求實現(xiàn)精細化權限管理(身份、屬性、權限)和審計,定期評估分類標準并測試合規(guī)性。

        2.2 海量數(shù)據(jù)對算力的要求

        IDC分析報告顯示,互聯(lián)網總數(shù)據(jù)到2025年將達到175 ZB,其中視覺數(shù)據(jù)幾乎占一半。雖然視頻壓縮技術在進步,但進步的速度差不多每10年才提高一倍,而數(shù)據(jù)量每2年就翻一番,靠視頻壓縮沒辦法減少數(shù)據(jù)量。例如醫(yī)療的數(shù)據(jù)本身就已經超過二維,新冠病毒的數(shù)據(jù)中很多圖片都是百萬像素以上,病毒大數(shù)據(jù)的維數(shù)更高。

        海量數(shù)據(jù)需要大算力來支持,2012年至2019年,隨著深度學習模型的演進,人工智能需要的計算量已經增加到了30萬倍,對云上服務器能力有很高的要求,需要探尋更適合機器學習的算力和低算力約束下的算法。

        另外,機器學習使用專用計算機可能比通用計算機會更適合。如:①機器學習大部分場景僅需要較低精度計算即可,一般應用場景下機器學習8比特即可滿足95%以上的需求,無需FP32,F(xiàn)P16等高精度計算;②機器學習計算只需要很小的操作指令集,高性能運行矩陣乘法、向量計算、卷積核等線性代數(shù)計算,無需分支預測器、推測執(zhí)行、超線程執(zhí)行處理核、深度緩存內存層次結構等計算技術。

        2.3 端邊云協(xié)同的數(shù)據(jù)處理

        傳統(tǒng)的視頻數(shù)據(jù)是非結構化的,價值密度較低。如一個8M攝像頭一天產生的數(shù)據(jù)量大概是168 GB,而一個城市有大量的攝像頭,如果都送到云端進行處理,會占用大量的計算、存儲及網絡資源,而其中可用信息又是有限的,因此,大數(shù)據(jù)不等于數(shù)據(jù)大,通過提取視頻特征信息的方式,把特征信息送到后臺,減少數(shù)據(jù)量。然而,這種方式又面臨前端數(shù)據(jù)分析能力的有限性,不能很準確地確定特征信息,提取的特征信息是有限或者不準確的,無法通過后臺分析來彌補。

        通過仿照生物視覺系統(tǒng),構建云邊端協(xié)同計算,端側顯示視頻編碼,邊緣計算實現(xiàn)特征壓縮。通過云端協(xié)同,總的存儲和帶寬可以節(jié)省50%以上,算力可以節(jié)省90%。所以根據(jù)大數(shù)據(jù)分析,可提升數(shù)據(jù)的處理效率。此外,還需要一些關鍵技術,如全局統(tǒng)一的時空ID、視頻編碼、特征編碼、聯(lián)合優(yōu)化,模型可更新、可調節(jié)、軟件可定義等。如何合理分配端邊云的能力以及選擇視頻編碼與特征信息的數(shù)據(jù)量比例是值得重視的。

        2.4 建立并優(yōu)化數(shù)學模型

        大數(shù)據(jù)分析中有很多數(shù)學模型,正如生產具有很多環(huán)節(jié),每個環(huán)節(jié)都有數(shù)據(jù)產生,如圖4。臺灣一家鋼鐵企業(yè)利用人工智能解決方案,預測27噸鋼熱軋為0.5 mm成品的過程中的缺陷,這家企業(yè)先收集一年7 000多批次產品的各種工藝參數(shù),對于缺陷率有關的數(shù)據(jù)進行清洗,然后把數(shù)據(jù)分為2組,80%的數(shù)據(jù)用于機器學習,從中選出4種數(shù)學模型,再利用20%的數(shù)據(jù)驗證模型的可行性,得到優(yōu)化的數(shù)學模型,最后由優(yōu)化數(shù)學模型分析產品線上產生的數(shù)據(jù),找出關鍵環(huán)節(jié)做出改進。

        圖4 某鋼鐵企業(yè)生產環(huán)節(jié)Fig.4 Production link of a steel company

        此例說明了數(shù)學模型的應用前提是了解模型開發(fā)的背景及原定用途、誰訓練模型、數(shù)據(jù)來源,以及模型應用的效果,要關注算法的完整性、可解釋性、公平性及適應能力。需要注意模型得出后不是一勞永逸的,一段時間后模型可能會出錯,模型運行時間越長偏差越大,運行時間偏差的蔓延、時間推移導致的預測不準確和對抗性攻擊等問題會妨礙模型輸出結果的有效性。

        2.5 數(shù)據(jù)融合的前提是分析與抽取

        數(shù)據(jù)融合的前提是數(shù)據(jù)的分析及抽取。如圖5,將圖片分解,可以分解為只有馬路和樹,沒有房子,也可以分解為馬路、房子沒有樹。實際上數(shù)據(jù)融合反過來就是數(shù)據(jù)分析和抽取。如果能分別把關鍵數(shù)據(jù)分析和抽取出來,就能實現(xiàn)數(shù)據(jù)融合。例如,基于AI技術,在語義分割掩碼輸入下,換個掩碼顏色,該系統(tǒng)就能直接將街景中的樹變成建筑物。

        2.6 小數(shù)據(jù)融合更需要優(yōu)化數(shù)學模型

        在實際中,更多情況面對的是小數(shù)據(jù)。AI決策效果前提是有海量準確標注與清洗的數(shù)據(jù),但很多情況下僅有小數(shù)據(jù),例如小語種的機器翻譯。在小數(shù)據(jù)小算力情況下提供高效人工智能分析能力是值得研究的創(chuàng)新課題。如2020年6月IEEE舉辦世界計算機視覺植物病理學細粒度分類挑戰(zhàn)賽,考察對蘋果樹葉“健康、銹病、痂病、銹病+痂病”4種疾病的AI識別能力。比賽組委會提供含標簽錯誤的1 821張?zhí)O果樹葉訓練集照片和1 821張試題照片,讓選手判斷這些樹葉的分類。1 000多張的訓練樣本是小數(shù)據(jù),靠這些小數(shù)據(jù)利用大數(shù)據(jù)的算法一般得不出最佳結果,這是典型的“小數(shù)據(jù)小算力”問題。支付寶天筭安全實驗室采用隨機光照、隨機對比增強、上下與左右翻轉、隨機旋轉縮放、知識蒸餾等數(shù)據(jù)增強技術,得分居1 327個參賽團隊之首。

        圖5 照片分解結果Fig.5 Result of decomposing a photograph

        “小數(shù)據(jù)小算力大任務” 是人工智能技術需要研究的目標,推理與類腦計算結合是研究方向之一。

        2.7 人與數(shù)據(jù)的融合

        過去許多企業(yè)的企業(yè)資源計劃(enterprise resource planning,ERP)是以Excel表的方式來靜態(tài)運行的,但生產過程中總是會臨時發(fā)生各種問題,需要召開臨時生產調度會議,重新改表格,效率低下。而在ERP中增加物聯(lián)網、區(qū)塊鏈、大數(shù)據(jù)分析、機器學習等功能,自適應地根據(jù)發(fā)現(xiàn)的問題相應地修改ERP表,效率就會提高很多。前者是依靠人,后者是依靠現(xiàn)場數(shù)據(jù)。但完全依賴現(xiàn)場數(shù)據(jù)靠AI決策執(zhí)行會有風險,因為數(shù)據(jù)有可能有誤,或者算法有風險,需要做到在正確的時點和場景下人的準確介入,人在回路或者人機協(xié)同是工業(yè)互聯(lián)網的難點,需要企業(yè)根據(jù)積累的經驗來判斷?!吧田w大腦”建立了數(shù)據(jù)融合標準,統(tǒng)一了上千種數(shù)據(jù)類型,整合上百種工業(yè)機理,歸納出上百項基于人工經驗的數(shù)學模型,完整描述了大飛機全生命周期業(yè)務流程。人與數(shù)據(jù)融合的ERP如圖6。

        圖6 人與數(shù)據(jù)融合的ERPFig.6 Integration of human and date for ERP

        2.8 數(shù)據(jù)融合與隱私及商密保護

        在跨企業(yè)做數(shù)據(jù)融合時,為了保證數(shù)據(jù)共享同時敏感數(shù)據(jù)不外泄,需要建立一個新的數(shù)據(jù)隔空分析機制,用虛擬的黑箱使得數(shù)據(jù)不脫離所在單位的管理又能被授權給其他的單位調用,雖然已有人提出基于黑盒子的可信計算環(huán)境方式,但是仍需要證明第三方的可靠性。

        圖靈獎獲得者、清華大學姚期智院士,他在圖靈獎中的主要貢獻是提出了多方計算(muti-party computation,MPC)概念。MPC主要機理概念模型如圖7。MPC協(xié)議是一種分布式協(xié)議,基于秘密分享、同態(tài)加密、混淆電路、不經意傳送4項技術。它的主要機理是當A,B都有數(shù)據(jù)時,對A,B的數(shù)據(jù)進行融合計算分析,以前數(shù)據(jù)既不能儲存在A里,也不能儲存在B里,若儲存在第三方又不知道數(shù)據(jù)是否會外泄。而現(xiàn)在數(shù)據(jù)可以儲存在A也可以存儲在B,也可以在第三方,但都不是原始數(shù)據(jù),而是加密數(shù)據(jù)。即便是加密數(shù)據(jù),B要取A的數(shù)據(jù)時,A也可以猜到B的用途,這里要用到不經意傳送機理。不經意傳送就是在取有用的數(shù)據(jù)時實際上會同時取一大堆無關數(shù)據(jù),這避免了對方知道你的意圖。A和B都不可能知道對方的數(shù)據(jù),但利用加密數(shù)據(jù)就可以聯(lián)合計算出一個函數(shù),A和B可以取出各自所需的數(shù)據(jù)融合結果,卻不會透露各自數(shù)據(jù)和知識產權。不過MPC的計算量很大,性能還有待改進。

        圖7 MPC過程圖Fig.7 MPC process diagram

        如何簡化計算量以及支持更多方的協(xié)同計算是推廣MPC應用需要解決的挑戰(zhàn),這也是數(shù)據(jù)融合與數(shù)據(jù)安全的重要課題及創(chuàng)新空間。

        2.9 數(shù)據(jù)分析軟件及數(shù)據(jù)的安全管理

        大數(shù)據(jù)分析與人工智能會用到大量開源軟件,優(yōu)點是可移植性,可以在操作系統(tǒng)上也可以在專有硬件上運行軟件,硬件和軟件生態(tài)系統(tǒng)的脫鉤有利于創(chuàng)新。但開源軟件漏洞很多,而且版本升級頻繁,軟件測試與漏洞分析檢查工作量太大,執(zhí)行未知來源程序會面臨安全威脅?,F(xiàn)在開發(fā)了從自然語言標準文檔直接生成代碼的自動編程方式,又可以由代碼反推原來的自然語言,通過反推軟件意圖就可以發(fā)現(xiàn)軟件是否有不該加入的代碼,這種方式可以用于自動化遵從性測試、正確性證明、協(xié)議執(zhí)行完整性檢查等。當然,為了防止數(shù)據(jù)泄露和被篡改,數(shù)據(jù)加密是一種手段,但加密的數(shù)據(jù)很難進行安全掃描檢測,所以怎么對加密數(shù)據(jù)進行檢查也是一種挑戰(zhàn)。此外,防止別人對加密數(shù)據(jù)再加密也是很重要的,勒索軟件就是通過對被攻擊對象的數(shù)據(jù)或軟件加密的方式來實現(xiàn)其利益??梢哉f,網絡信息安全也是大數(shù)據(jù)融合分析必須面對的挑戰(zhàn)。

        2.10 智能化挑戰(zhàn)

        由于數(shù)據(jù)樣本規(guī)則的缺漏和模型當中有限的設定點,人工智能會出現(xiàn)誤判。一旦將模型投入實際使用,其準確性就開始下降。此外,當事件和圖像處于AI模型辨識分界線,或受到樣本攻擊時會使AI誤判。不過,對抗樣本僅對指定的圖片和攻擊模型生效,對諸如區(qū)域截圖、放大縮小之類的預處理過程是非常敏感的,因此可通過數(shù)據(jù)增強技術來應對。

        3 結束語

        在智慧城市管理與工業(yè)互聯(lián)網中有很多需要數(shù)據(jù)融合應用的場景,多元異構的數(shù)據(jù)融合將盤活數(shù)據(jù),發(fā)揮數(shù)據(jù)作為生產要素的作用。同時,數(shù)據(jù)融合和數(shù)據(jù)的智能化分析依然面對海量數(shù)據(jù)處理能力、建模、小數(shù)據(jù)融合、人與數(shù)據(jù)融合、數(shù)據(jù)自身安全、隱私與商密保護等挑戰(zhàn),需要從基礎理論與工程實踐多方面研究聚數(shù)融智的問題,開發(fā)更高效的大數(shù)據(jù)分析技術任重道遠。

        猜你喜歡
        融合
        一次函數(shù)“四融合”
        兩個壓縮體融合為一個壓縮體的充分必要條件
        村企黨建聯(lián)建融合共贏
        融合菜
        寬窄融合便攜箱TPFS500
        寬窄融合便攜箱IPFS500
        從創(chuàng)新出發(fā),與高考數(shù)列相遇、融合
        寬窄融合便攜箱IPFS500
        《融合》
        媒體的五個融合和兩個不融合
        聲屏世界(2015年3期)2015-02-28 15:19:21
        日韩国产自拍视频在线观看| 99久久久无码国产精品9| 国产偷国产偷亚洲欧美高清| 国产在线精彩自拍视频| 国产成年人毛片在线99| 久久精品欧美日韩精品| 欧美日韩在线观看免费| 女人一级特黄大片国产精品| 中国少妇久久一区二区三区| 成人午夜视频精品一区| 国产jizzjizz视频免费看| 亚洲国产日韩精品综合| 中文字幕免费人成在线网站| 国产成人一区二区三区| 好吊妞人成免费视频观看| 日本a一区二区三区在线| 久久久精品视频网站在线观看| 久久无码专区国产精品s| 无码精品一区二区三区超碰| 人妖系列在线免费观看| 男人吃奶摸下挵进去啪啪软件 | 国产国产精品人在线视| 亚洲精品国产成人| 亚洲AⅤ樱花无码| 亚洲精品中字在线观看| 亚洲精品国产suv一区88| 国产女精品| 日韩一区中文字幕在线| 未发育成型小奶头毛片av| 精品人妻潮喷久久久又裸又黄| 偷拍熟女亚洲另类| 亚洲av成熟国产一区二区| 香港三级精品三级在线专区| 中文字幕av一区二区三区| 日本精品少妇一区二区| 欧洲多毛裸体xxxxx| 十八岁以下禁止观看黄下载链接| 国产免费激情小视频在线观看| 国产av综合网站不卡| 大肉大捧一进一出好爽视色大师| 国产精品情侣露脸av在线播放|