亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

張量表達(dá)下的多模態(tài)交通缺失數(shù)據(jù)補(bǔ)全算法

2021-02-05 03:28:30彭敦陸

小型微型計(jì)算機(jī)系統(tǒng) 2021年1期

胡雪，彭敦陸

(上海理工大學(xué) 光電信息與計(jì)算機(jī)工程學(xué)院，上海 200093)

1 引言

近年來(lái)，汽車數(shù)量的快速增長(zhǎng)導(dǎo)致道路擁擠現(xiàn)象越來(lái)越嚴(yán)重，對(duì)交通管理的智能化迫在眉睫.行車數(shù)據(jù)是進(jìn)行智能交通網(wǎng)絡(luò)規(guī)劃、避免擁堵等應(yīng)用的基礎(chǔ)，完整的數(shù)據(jù)有利于提取有價(jià)值的交通信息.然而，實(shí)際采集的真實(shí)數(shù)據(jù)，由于檢測(cè)器故障、通信處理錯(cuò)誤等各種因素，往往使得來(lái)自多源感知設(shè)備的交通數(shù)據(jù)產(chǎn)生丟失的情況，甚至在一些情況下非常普遍[1].同時(shí)，高速公路攝像頭(監(jiān)控視頻、圖像等)、流量檢測(cè)器等所采集的多模態(tài)交通數(shù)據(jù)，其編碼方式、語(yǔ)義、標(biāo)識(shí)存在差異，導(dǎo)致了信息無(wú)法融合，形成一個(gè)個(gè)信息孤島.如何高效地實(shí)現(xiàn)多模態(tài)交通數(shù)據(jù)缺失值補(bǔ)全具有明顯的現(xiàn)實(shí)應(yīng)用意義.

國(guó)內(nèi)外學(xué)者提出了許多交通數(shù)據(jù)缺失的補(bǔ)全方法.研究人員最初將歷史(最近鄰)歸責(zé)方法[2]應(yīng)用到交通數(shù)據(jù)補(bǔ)全上.隨后基于主成分分析提出了大量數(shù)據(jù)補(bǔ)全方法，如貝葉斯主成分分析(BPCA)[3]和概率主成分分析法(PPCA)[4].作為一種能夠綜合表達(dá)數(shù)據(jù)的工具，近年來(lái)張量在數(shù)據(jù)處理領(lǐng)域中快速發(fā)展，尤其是在交通數(shù)據(jù)處理和挖掘領(lǐng)域應(yīng)用越來(lái)越廣.Acar[5]等人提出了用加權(quán)優(yōu)化的CP分解(CP-WOPT) 處理缺失值，通過(guò)實(shí)驗(yàn)驗(yàn)證具有很好的性能.

盡管在單一數(shù)據(jù)源時(shí)具有較好的表現(xiàn)，但這些方法沒(méi)有對(duì)多模態(tài)數(shù)據(jù)集合進(jìn)行缺失數(shù)據(jù)補(bǔ)全的進(jìn)一步研究.基于此，本文針對(duì)交通監(jiān)控視頻(非結(jié)構(gòu)化數(shù)據(jù))與車流量探測(cè)數(shù)據(jù)(結(jié)構(gòu)化數(shù)據(jù))，建立了用以描述多模態(tài)交通數(shù)據(jù)的張量模型，同時(shí)提出了基于Tucker-Crossover的多模態(tài)數(shù)據(jù)補(bǔ)全算法(Tucker-Crossover based Multimodal Data Imputation Algorithm，TCMD-IA).該方法融合了非結(jié)構(gòu)化與結(jié)構(gòu)化數(shù)據(jù)，通過(guò)張量對(duì)不同類型的數(shù)據(jù)進(jìn)行統(tǒng)一表達(dá)，并改進(jìn)Tucker分解所得的因子矩陣，將其與另一階上所得的核矩陣進(jìn)行特征融合，從而進(jìn)一步提高數(shù)據(jù)補(bǔ)全的準(zhǔn)確性.結(jié)合真實(shí)的多模態(tài)交通數(shù)據(jù)集實(shí)驗(yàn)，結(jié)果證明TCMD-IA對(duì)于多模態(tài)缺失數(shù)據(jù)的補(bǔ)全效果優(yōu)于其他方法，且魯棒性好.

論文其余部分的組織如下：第2部分介紹近年來(lái)交通數(shù)據(jù)缺失值估計(jì)的研究結(jié)果；第3部分給出本文所用符號(hào)的含義、張量理論基礎(chǔ)、多模態(tài)交通數(shù)據(jù)及問(wèn)題定義；第4部分給出多模態(tài)交通數(shù)據(jù)的表達(dá)和本文提出的基于Tucker-Crossover的多模態(tài)數(shù)據(jù)補(bǔ)全算法(TCMD-IA)；第5部分在真實(shí)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)，對(duì)所提算法進(jìn)行有效性驗(yàn)證；第6部分給出論文的結(jié)論.

2 相關(guān)工作

過(guò)去幾十年中，學(xué)者們提出了各種補(bǔ)全算法已經(jīng)被應(yīng)用到缺失值補(bǔ)全中.歷史(最近鄰)歸責(zé)方法[2]通常用鄰近幾天同一時(shí)間、地點(diǎn)的已知數(shù)據(jù)，通過(guò)取平均值等簡(jiǎn)單操作進(jìn)行填補(bǔ).Qu[3，4]等人提出了BPCA和PPCA，綜合考慮了交通數(shù)據(jù)的日周期性和區(qū)間變化，是解決交通流量數(shù)據(jù)估計(jì)的經(jīng)典方法，并通過(guò)實(shí)驗(yàn)證明了其有效性.Liu[6]等人首次提出了一種基于跡范數(shù)最小化的張量補(bǔ)全方法(HaLRTC).他們推廣了矩陣跡范數(shù)并定義了張量跟蹤范數(shù)，從而將張量補(bǔ)全問(wèn)題表示為一個(gè)凸優(yōu)化問(wèn)題.Zhao[7]提出了一種基于分布式減法聚類的數(shù)據(jù)填充方法，通過(guò)利用云計(jì)算技術(shù)優(yōu)化聚類算法，根據(jù)聚類結(jié)果和加權(quán)距離進(jìn)行填充.Han[8]等人提出了一種基于不完備集的雙向聚類的算法，通過(guò)雙聚類的完美簇的特性來(lái)構(gòu)造屬性差異矩陣，保存了對(duì)象之間的最大相似屬性集，進(jìn)而以雙聚類的結(jié)果對(duì)缺失數(shù)據(jù)進(jìn)行填補(bǔ).Li[9]等人使用同類簇的均值對(duì)不完備數(shù)據(jù)進(jìn)行預(yù)填充，通過(guò)形成初始完備數(shù)據(jù)集，進(jìn)一步對(duì)數(shù)據(jù)集聚類，并運(yùn)用同類簇的均值修正初始充填值.

在交通數(shù)據(jù)分析上，Tan[10]等人提出了多模式關(guān)聯(lián)張量模型，將交通數(shù)據(jù)分為鏈路、周、天、小時(shí)4個(gè)不同模式，構(gòu)建了四階張量交通數(shù)據(jù)表達(dá)模型.并提出了基于Tucker分解的流量數(shù)據(jù)注入方法(TDI)，用于處理缺失數(shù)據(jù)的問(wèn)題.該方法在保留矩陣模型優(yōu)點(diǎn)的基礎(chǔ)上，更好地挖掘了交通數(shù)據(jù)的潛在相關(guān)性.Asif[11]等人通過(guò)提取大型路網(wǎng)中常見(jiàn)的交通模式來(lái)估計(jì)缺失值，采用定點(diǎn)連續(xù)的近似奇異值分解、正則多進(jìn)分解、最小二乘和變分貝葉斯主成分分析，提出了多種基于矩陣和張量的交通數(shù)據(jù)補(bǔ)全方法.Chen[12]等人將貝葉斯概率矩陣分解模型推廣到高階張量，并將其應(yīng)用于時(shí)空交通數(shù)據(jù)的輸入任務(wù)，通過(guò)大量實(shí)驗(yàn)探討了不同的數(shù)據(jù)表示方式對(duì)歸責(zé)性能的影響.Lin[13]等人提出了一種基于張量分解的張量補(bǔ)全算法，并在算法中引入了時(shí)空正則化約束，提高了算法的補(bǔ)全性能，該算法利用該代數(shù)框架對(duì)交通數(shù)據(jù)的缺失進(jìn)行處理效率更高.

目前交通數(shù)據(jù)的補(bǔ)全研究絕大多數(shù)是針對(duì)結(jié)構(gòu)化數(shù)據(jù)，對(duì)于多模態(tài)交通數(shù)據(jù)的研究相對(duì)較少，而多源的異構(gòu)數(shù)據(jù)進(jìn)行融合處理對(duì)于交通數(shù)據(jù)的利用十分重要.因此，在本項(xiàng)研究中，我們提出了TCMD-IA方法，對(duì)結(jié)構(gòu)化和非結(jié)構(gòu)化兩種類型的數(shù)據(jù)缺失值進(jìn)行補(bǔ)全.該方法通過(guò)構(gòu)造合適的三階張量來(lái)表達(dá)包含時(shí)空信息的多模態(tài)交通數(shù)據(jù)，結(jié)合Tucker分解，對(duì)其進(jìn)行最小二乘法分解所得的因子矩陣與核矩陣進(jìn)行交叉相乘，融合了不同階之間的潛在相關(guān)信息，從而提高對(duì)缺失數(shù)據(jù)的補(bǔ)全效果，通過(guò)實(shí)驗(yàn)證明該方法的估計(jì)效果優(yōu)于其他方法，且具有較好的魯棒性.

3 準(zhǔn)備工作

本節(jié)主要介紹多模態(tài)交通數(shù)據(jù)，并且給出下文所需張量理論基礎(chǔ)、多模態(tài)交通數(shù)據(jù)知識(shí)，同時(shí)定義了如何對(duì)缺失數(shù)據(jù)進(jìn)行補(bǔ)全.3.1節(jié)給出所需張量理論基礎(chǔ).3.2節(jié)介紹了多模態(tài)交通數(shù)據(jù).3.3定義了本文所研究的問(wèn)題.文章用到的符號(hào)以及其所代表的含義見(jiàn)表1.

表1 文章中所用符號(hào)其含義Table 1 Explanation of words used in paper

3.1 張量理論基礎(chǔ)

矩陣乘積：給定矩陣A∈RI×J和矩陣B∈RJ×K，我們稱C∈RI×K為A和B的乘積，用AB表示，其第(i，k)項(xiàng)如公式(1)所示.當(dāng)A的列數(shù)與B的行數(shù)相同時(shí)，矩陣乘積才有意義.

(1)

n-Mode展開(kāi)：對(duì)于張量X∈RI1×I2×…×Ir，從指定的第n階上進(jìn)行切割得到若干數(shù)據(jù)切片，其中1≤n≤r.將得到的切片以In為行，按順序展開(kāi)合并成矩陣，我們將這一過(guò)程稱為張量的n-Mode展開(kāi).本文用Γ(X,n)表示張量在第n階的展開(kāi)矩陣，如公式(2)所示：

(2)

n階模乘：給定張量X∈RI1×I2×…×Ir和矩陣M∈RIn×J，先將張量X在第n階上進(jìn)行n-Mode展開(kāi)，然后將M與展開(kāi)得到的矩陣相乘得到矩陣乘積，最后將得到的矩陣在第n階上重建張量，表達(dá)式如公式(3)所示：

X×nM∈RI1×In-1×J×In+1×…×Ir

(3)

圖1 Tucker分解Fig.1 Tucker decomposition

Tucker：以三階張量X∈RI1×I2×I3為例，如圖1所示，將X分解為一個(gè)核張量G∈RL1×L2×L3和3個(gè)因子矩陣U1∈RI1×L1，U2∈RI2×L2，U3∈RI3×L3，核張量G包含了不同階之間的潛在相關(guān)性，因子矩陣U1，U2，U3可以理解為張量模型在各個(gè)階的主成分，他們通常是兩兩正交的，三階張量的Tucker分解表達(dá)式如公式(4)所示：

(4)

3.2 多模態(tài)交通數(shù)據(jù)

生活中，交通數(shù)據(jù)的完整性對(duì)于進(jìn)一步數(shù)據(jù)分析、智能交通的優(yōu)化等具有十分重要的作用，如圖2所示.隨著技術(shù)的發(fā)展，我們收集交通數(shù)據(jù)的方法也越來(lái)越多，道路監(jiān)控?cái)?shù)據(jù)、流量檢測(cè)、GPS定位等設(shè)備都收集了成千上萬(wàn)的數(shù)據(jù).這些數(shù)據(jù)由于來(lái)源的不同，導(dǎo)致了他們的編碼方式、語(yǔ)義的差異，構(gòu)成了信息孤島.但來(lái)自于不同平臺(tái)的異構(gòu)數(shù)據(jù)，往往存在著相關(guān)性.例如對(duì)于同一路口的監(jiān)控錄像和車流量對(duì)于該路段的實(shí)時(shí)車況有著很高的價(jià)值，同時(shí)經(jīng)過(guò)該路段的GPS數(shù)據(jù)對(duì)于我們交通規(guī)劃也有很大的幫助.因此，將不同類型的交通數(shù)據(jù)通過(guò)特定的方法，本文采用張量進(jìn)行融合后，將原本無(wú)法交互的信息進(jìn)行統(tǒng)一映射，便于后續(xù)進(jìn)一步挖掘交通信息的相關(guān)性，提高交通數(shù)據(jù)的利用率，這一過(guò)程對(duì)于智能交通規(guī)劃、擁塞避免、智慧城市有著很大的意義.

圖2 多模態(tài)交通數(shù)據(jù)Fig.2 Multimodal traffic data

數(shù)據(jù)融合技術(shù)已在多傳感器環(huán)境中廣泛應(yīng)用，目的是通過(guò)使用多源數(shù)據(jù)來(lái)獲得較高的可靠性.但由于各種傳感器的特點(diǎn)以及數(shù)據(jù)類型的差異，以更小的代價(jià)獲取更高質(zhì)量的信息并不是一件簡(jiǎn)單的事情.在過(guò)去的十幾年中，學(xué)者們對(duì)數(shù)據(jù)融合做了較多的研究，主要包括信息融合的方法、結(jié)構(gòu)、層次以及信息的表示和轉(zhuǎn)換.但對(duì)于多模態(tài)交通數(shù)據(jù)的融合目前的研究本不是很多.本文針對(duì)非結(jié)構(gòu)化(道路監(jiān)控視頻)和結(jié)構(gòu)化(車流量)兩大類交通數(shù)據(jù)，進(jìn)行張量建模，并對(duì)其所包含的缺失數(shù)據(jù)進(jìn)行補(bǔ)全.

3.3 問(wèn)題定義

結(jié)合上文提出的多模態(tài)交通數(shù)據(jù)張量模型，我們分別用P，W∈RI1×I2×I3表示完整數(shù)據(jù)和缺失權(quán)重張量.便于分析，我們將P分成實(shí)驗(yàn)數(shù)據(jù)和檢驗(yàn)數(shù)據(jù)兩部分.實(shí)驗(yàn)數(shù)據(jù)(即缺失數(shù)據(jù))用于驗(yàn)證缺失值估計(jì)的誤差，用Wi1,i2,i3=0表示.已知數(shù)據(jù)用用Wi1,i2,i3=1表示，所有已知數(shù)據(jù)的集合用Ω表示，如公式(5)所示：

(5)

我們可以根據(jù)P，W得到包含缺失的實(shí)驗(yàn)數(shù)據(jù)集A，表達(dá)如公式(6)所示：

Ai1,i2,i3=Pi1,i2,i3Wi1,i2,i3

(6)

多模態(tài)交通數(shù)據(jù)張量化后，估計(jì)缺失數(shù)據(jù)可以視為一個(gè)張量補(bǔ)全問(wèn)題，其目標(biāo)是通過(guò)張量分解對(duì)缺失值進(jìn)行估計(jì)，并且使估計(jì)值盡可能地接近真實(shí)值.用X表示填充后的數(shù)據(jù)集，那么，我們可以用公式(7)來(lái)表示目標(biāo)函數(shù)：

min|P-X|，s.t.PΩ=XΩ

(7)

4 TCMD-IA

4.1 多模態(tài)交通數(shù)據(jù)的表達(dá)

結(jié)合交通數(shù)據(jù)，本文針對(duì)兩種不同類型的數(shù)據(jù)進(jìn)行缺失值估計(jì)：1) 非結(jié)構(gòu)化數(shù)據(jù)，主要包含道路監(jiān)控視頻；2) 結(jié)構(gòu)化數(shù)據(jù)，主要針對(duì)車流量檢測(cè)數(shù)據(jù).交通監(jiān)控視頻主要包括視頻幀、分辨率、色彩空間等特征.其中分辨率由像素寬和高組成，色彩空間可用RGB表示.又可利用灰度值將三維RGB轉(zhuǎn)化為一維灰度值.轉(zhuǎn)化公式如公式(8)所示：

Gray=0.299Red+0.587Green+0.114Blue

(8)

因此，視頻數(shù)據(jù)可用三階張量T∈RIWI×IHI×IFR表示，其中IWI表示水平像素點(diǎn)，IHI表示垂直像素點(diǎn)，IFR表示視頻幀數(shù)，對(duì)應(yīng)的數(shù)據(jù)為該像素點(diǎn)的灰度值.

車流量檢測(cè)數(shù)據(jù)通過(guò)道路檢測(cè)設(shè)備采集，每間隔一段時(shí)間收集通過(guò)車輛數(shù)目，可根據(jù)不同時(shí)間間隔分成不同的時(shí)間片數(shù)據(jù).根據(jù)文獻(xiàn)[14]中提出車流量信息以天和周為時(shí)間切割單位時(shí)具有一定的循環(huán)性和相關(guān)性，因此本文構(gòu)造F∈RITI×IDA×IWE來(lái)表達(dá)車流量數(shù)據(jù)，其中ITI表示一天中測(cè)試車流量次數(shù)，IDA表示按天為單位劃分，IWE表示按周為單位劃分，對(duì)應(yīng)的每個(gè)單元數(shù)據(jù)為車流量.

得到上述兩種不同類型的交通數(shù)據(jù)張量模型后，我們觀察可知，視頻數(shù)據(jù)的水平和垂直像素維數(shù)是固定的，幀數(shù)可隨著監(jiān)控時(shí)長(zhǎng)增加.同時(shí)，車流量數(shù)據(jù)劃分之后，每天的測(cè)試次數(shù)與每周的天數(shù)是固定的，測(cè)試的周數(shù)是可增加的.即T,F第一、二階上的維度是不變的，第三階的維度會(huì)隨著時(shí)間的增加而變大.基于此，我們將上述兩種不同類型數(shù)據(jù)映射到同一張量P中，在第一階上取T,F維度之和，對(duì)其進(jìn)行疊加映射.在第二階上取T,F對(duì)應(yīng)維度的較大值，較小張量的對(duì)應(yīng)缺失數(shù)據(jù)置空.第三階的維數(shù)取決于時(shí)間長(zhǎng)短.得到融合了結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù)統(tǒng)一表達(dá)張量P.

4.2 基于Tucker-Crossover的多模態(tài)數(shù)據(jù)補(bǔ)全算法

上節(jié)我們已經(jīng)將兩種不同類型的交通數(shù)據(jù)統(tǒng)一映射到張量空間中，本節(jié)我們將重點(diǎn)介紹Tucker-Crossover模型，并將其應(yīng)用到多模態(tài)張量表達(dá)下的交通數(shù)據(jù)補(bǔ)全上，并提出基于Tucker-Crossover的多模態(tài)交通數(shù)據(jù)補(bǔ)全算法(TCMD-IA).該方法利用了最小二乘法Tucker分解，計(jì)算三階張量模型的核張量和各階的因子矩陣.并提取核矩陣與另一階的因子矩陣進(jìn)行交叉相乘，將各階的潛在相關(guān)性融合到因子矩陣中，使其更具有特征性，增加了缺失數(shù)據(jù)補(bǔ)全的準(zhǔn)確性.

結(jié)合前文定義的P和W，構(gòu)造包含缺失的多模態(tài)交通數(shù)據(jù)集A∈RI1×I2×I3，通過(guò)最小二乘法的Tucker選取合適的初始核張量B∈RL1×L2×L3.將張量進(jìn)行n-Mode展開(kāi)后與初始因子矩陣相乘，計(jì)算該次迭代的特征值與特征向量，排序后選取前n個(gè)特征值所對(duì)應(yīng)特征向量作為因子矩陣組成.迭代至收斂，可以得到最終的核張量B和因子矩陣Ut，即算法1中的Ft.

Ft∈RIt×Lt，wheret=1,2,3

(9)

核張量B表達(dá)了各階上數(shù)據(jù)之間的潛在相關(guān)性，因子矩陣則代表著各階的主要特征.針對(duì)不同的數(shù)據(jù)，核張量不同.為了進(jìn)一步利用各階之間的潛在相關(guān)性，本文定義了核張量在第t階的特征矩陣為核矩陣Ct.

Ct∈RLt×Lt，wheret=1,2,3

(10)

為了更好地利用各階之間的潛在相關(guān)性，我們將因子矩陣Ft與下一階的核矩陣Ct進(jìn)行交叉相乘，得到特征矩陣Rt，最后結(jié)合Tucker進(jìn)行張量的重建，得到的X為補(bǔ)全缺失值后的完整數(shù)據(jù)集.該操作再次利用不同階之間的潛在相關(guān)性，將階之間的特征融合到特征矩陣中，從而提高了算法對(duì)于數(shù)據(jù)補(bǔ)全的準(zhǔn)確性.

Rt=FtCk，where k=(t+1)mod 3

(11)

X=B×1R1×2R2×3R3

(12)

TCMD-IA的偽代碼如算法1所示.算法第1行通過(guò)缺失權(quán)重張量W構(gòu)造了包含缺失的實(shí)驗(yàn)數(shù)據(jù)集A，如公式(6)所示.第2-12行為最小二乘法的Tucker分解，通過(guò)迭代將實(shí)驗(yàn)數(shù)據(jù)集分解成核張量B和因子矩陣Ft兩部分.第13-18行構(gòu)造了核矩陣Ct，將因子矩陣與下一階的核矩陣進(jìn)行信息融合，計(jì)算特征矩陣Rt.第19行重建完整張量，X可視為補(bǔ)全后的數(shù)據(jù)集.第20-22行，通過(guò)不同的評(píng)價(jià)指標(biāo)對(duì)缺失值補(bǔ)全效果進(jìn)行估計(jì).

算法1.基于Tucker-Crossover的多模態(tài)交通數(shù)據(jù)補(bǔ)全算法

輸入：包含完整數(shù)據(jù)和缺失權(quán)重張量P,W∈RI1×I2×I3和最大迭代次數(shù)maxIterate

輸出：補(bǔ)全評(píng)價(jià)指標(biāo)Δ

1. A←(P,W);

#通過(guò)最小二乘法Tucker分解構(gòu)建核張量與因子矩陣

2. InitialU;

3. For iterate i in 1:maxIterate do

4. For order n in 1:3 do

5. U=ttm(A，U，-n);

6.U{n}=nvecs(U，n);

7. End For

8. C=ttm(U，U，n);

9. End For

10. Ttensor=ttensor(C，U);

11.N=ndims(C);#計(jì)算核張量各階維數(shù)

12. B=Ttensor.C;

13. For order t in 1:3 do

14.Ft=C.Ttensor.Ut#因子矩陣

15.Ct=Ft(1:N{t},:);#核矩陣

16. k=(t+1) mod 3;

17.Rt=FtCk;#特征矩陣

18. End For

19. X=B×1R1×2R2×3R3;#重構(gòu)張量

20. For missing item in A do

21. Δ=Eval(P，X);

22. End for

5 實(shí)驗(yàn)分析

5.1 數(shù)據(jù)來(lái)源

實(shí)驗(yàn)道路監(jiān)控視頻與車流量數(shù)據(jù)采集于上海市楊浦區(qū)某路段.車流量數(shù)據(jù)選取的時(shí)間節(jié)點(diǎn)為2019年9月1日-2019年9月30日，每天的13點(diǎn)-21點(diǎn)，以1分鐘為單位采集通過(guò)車輛數(shù)，共14，400條數(shù)據(jù).道路監(jiān)控視頻像素656*656，共650幀.

5.2 評(píng)價(jià)指標(biāo)

(13)

(14)

錯(cuò)誤率(Error Ratio，ER)用來(lái)度量估計(jì)后張量項(xiàng)的恢復(fù)誤差，其表達(dá)式如公式(15)所示，值域?yàn)閇0，1]，值越接近0表示數(shù)據(jù)補(bǔ)全的效果越接近真實(shí)值.

(15)

5.3 實(shí)驗(yàn)結(jié)果與分析

實(shí)驗(yàn)1.核張量大小對(duì)實(shí)驗(yàn)結(jié)果影響

實(shí)驗(yàn)通過(guò)設(shè)置核張量在各個(gè)階上維數(shù)的不同，探究了核張量大小對(duì)缺失數(shù)據(jù)估計(jì)的影響.本節(jié)根據(jù)核張量各階維數(shù)的比例，選取了[50～300，50～200，50～70]的取值范圍，通過(guò)隨機(jī)組合共設(shè)置了12組不同大小的核張量來(lái)探究核張量對(duì)缺失數(shù)據(jù)估計(jì)效果的影響，如表2所示.圖3給出不同核張量大小對(duì)缺失數(shù)據(jù)的補(bǔ)全效果RMSE折線對(duì)比圖.從圖中可以看出，C1-C4的RMSE較大，保持在112.3左右.隨著第二階維數(shù)的增加，C5-C8的RMSE下降至110附近.C9-C12四組的RMSE相對(duì)較小，且C10所包含的數(shù)據(jù)最少.因此，在后續(xù)實(shí)驗(yàn)中，我們選取C10所對(duì)應(yīng)的核張量大小，即[200，200，50].

表2 核張量表Table 2 Core tensor Table

圖3 核張量對(duì)補(bǔ)全效果影響Fig.3 Effects of core tensor on completion

實(shí)驗(yàn)2.與其他缺失值填充方法的比較

圖4 不同補(bǔ)全方法效果對(duì)比圖Fig.4 Comparison of different completion methods

實(shí)驗(yàn)設(shè)定P[：，：，90：100]為缺失數(shù)據(jù)，其余數(shù)據(jù)為已知數(shù)據(jù)，結(jié)果如圖4所示.RMSE子圖中，最大期望法的誤差最小，TCMD-IA僅次于最大期望法，且與前者差距較小，平均值法的誤差最大.R-square子圖中，TCMD-IA的得分最大，擬合效果最好，最大期望值得分最小.ER子圖中，TCMD-IA的錯(cuò)誤率最小，平均值法最大.綜合3種評(píng)價(jià)指標(biāo)，我們可知T-CURE與TCMD-IA兩種基于張量的方法，相比于傳統(tǒng)方法對(duì)于缺失值處理的整體效果更佳，進(jìn)一步驗(yàn)證了前文給出的張量在數(shù)據(jù)處理領(lǐng)域的表現(xiàn).TCMD-IA通過(guò)Tucker分解所得的各階特征矩陣和不同階之間的相關(guān)性，更好地利用了已知數(shù)據(jù)，從而提高了數(shù)據(jù)補(bǔ)全的準(zhǔn)確性，整體效果均優(yōu)于T-CURE.

實(shí)驗(yàn)3.不同缺失率下的數(shù)據(jù)補(bǔ)全效果

實(shí)驗(yàn)通過(guò)選取了不同的缺失率(Missing Ratio，MR)來(lái)進(jìn)一步衡量TCMD-IA對(duì)于多模態(tài)交通數(shù)據(jù)的補(bǔ)全效果.缺失率從10%-80%，每增加10%計(jì)算數(shù)據(jù)估計(jì)的RMSE、R-square和ER值，實(shí)驗(yàn)結(jié)果如表3所示.從表中可知，隨著缺失率不斷增加，TCMD-IA的補(bǔ)全效果在3種評(píng)價(jià)指標(biāo)下均表現(xiàn)優(yōu)秀，其RMSE穩(wěn)定在23左右，R-square維持在0.7，ER恒定在0.3，具有較高的魯棒性.這表明TCMD-IA在對(duì)數(shù)據(jù)補(bǔ)全的過(guò)程中，通過(guò)采用Tucker分解，對(duì)已知數(shù)據(jù)的比例要求并不是十分嚴(yán)格，僅需要少量已知數(shù)據(jù)即可進(jìn)行高質(zhì)量數(shù)據(jù)估計(jì)，因此更適合于缺失率較大的情況.

表3 不同缺失率下的數(shù)據(jù)補(bǔ)全實(shí)驗(yàn)結(jié)果Table 3 Experimental results of data completion under different miss rates

6 結(jié) 論

多模態(tài)交通數(shù)據(jù)的表達(dá)有利于數(shù)據(jù)的統(tǒng)一處理，同時(shí)，交通數(shù)據(jù)的補(bǔ)全可以幫助我們更好地挖掘數(shù)據(jù)的相關(guān)性和潛在價(jià)值，進(jìn)一步為智能交通網(wǎng)絡(luò)規(guī)劃、避免擁堵等應(yīng)用提供可靠數(shù)據(jù).本文所提的模型將結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù)通過(guò)張量方法進(jìn)行融合表達(dá)，并在此基礎(chǔ)上提出了基于Tucker-Crossover的多模態(tài)數(shù)據(jù)補(bǔ)全算法(TCMD-IA).該方法通過(guò)Tucker分解，將因子矩陣與另一階分解所得核矩陣交叉相乘，更好地融合了階與階的特征，進(jìn)一步利用了不同階的潛在相關(guān)性，從而提高算法的補(bǔ)全效果.在真實(shí)數(shù)據(jù)集上實(shí)驗(yàn)表明，文本所提算法具有更好地補(bǔ)全效果和魯棒性.下一步工作將繼續(xù)考慮更多不同類型的數(shù)據(jù)進(jìn)行融合，提高缺失數(shù)據(jù)統(tǒng)一補(bǔ)全的效果.