莫世鴻,范冰冰
(華南師范大學計算機學院,廣東廣州510631)
近幾年,隨著各地城市監(jiān)控視頻建設(shè)的持續(xù)投入,監(jiān)控攝像頭在城市的部署數(shù)量以每年超過30%的復(fù)合速率增長,同時從以往的標清逐步向現(xiàn)在的高清過度,大量視頻監(jiān)控設(shè)備產(chǎn)生海量視頻及其相關(guān)的數(shù)據(jù),如交通卡口和電子警察記錄數(shù)據(jù),視頻監(jiān)控領(lǐng)域大數(shù)據(jù)時代已來臨。盡管目前各類視頻壓縮編碼技術(shù)已經(jīng)十分成熟,但是,城市視頻大數(shù)據(jù)的數(shù)據(jù)量增長速度遠遠超過視頻壓縮編碼技術(shù)的發(fā)展速度,從而造成所需的存儲開銷呈指數(shù)級增長。根據(jù)美國國際數(shù)據(jù)公司(IDC)的估計,數(shù)據(jù)每2年翻1番,10年將增長50倍[1]。
除重要點或案件相關(guān)等監(jiān)控視頻外,由于受存儲空間限制,國內(nèi)絕大部分監(jiān)控視頻一般保存時長為30天,沒有考慮監(jiān)控視頻價值量的差異性,造成價值量不高的視頻占用了大量存儲空間,價值量較高的視頻保存時長過短而缺失歷史數(shù)據(jù),對大數(shù)據(jù)應(yīng)用產(chǎn)生不可彌補的損失。因此,希望面向應(yīng)用對城市監(jiān)控視頻進行差異化的存儲管理。在無法把所有視頻數(shù)據(jù)保存下來的條件下,首先,不同的攝像頭價值量會有所差異,其次,同一攝像頭在一天的不同時段價值量會有所差異。基于監(jiān)控視頻價值實現(xiàn)動態(tài)存儲管理分配與優(yōu)化,對監(jiān)控視頻大數(shù)據(jù)應(yīng)用具有重大意義。
目前,國內(nèi)外對于視頻價值量的研究幾乎空白,相關(guān)的研究有關(guān)于通用數(shù)據(jù)價值的研究。文獻[3-5]給出了數(shù)據(jù)價值的簡單定義。關(guān)于數(shù)據(jù)價值的評定方法,文獻[6]等人介紹了基于應(yīng)用程序的方法對數(shù)據(jù)價值進行評估。文獻[7]介紹了一種基于信息使用的最近時間判斷信息的價值。文獻[8]等基于電子文件的完整性、真實性、有效性4個指標建立了電子文件價值評估模型。文獻[9]提出的usage-time(UT)模型同時考慮了最近使用時間和使用度兩個因素,基于訪問時間距離當前時間的遠近程度賦予訪問量不同的權(quán)值,從而對總使用度作出一個綜合評價,并且經(jīng)過案例驗證了其有效性和健壯性。文獻[10]等通過按比例計算數(shù)據(jù)的固有屬性和預(yù)期價值,得出數(shù)據(jù)價值的量化指標。文獻[11]等提出了一種基于數(shù)據(jù)本身重要性和潛在價值的數(shù)據(jù)價值評估模型。然而,針對監(jiān)控視頻,視頻數(shù)據(jù)往往是以數(shù)據(jù)流的方式寫入和存儲的,無法基于文件的方式獲取上述信息。此外,上述模型并未考慮監(jiān)控視頻特有的攝像頭布點重要性因素和時間戳因素。
此外,還有部分關(guān)于視頻質(zhì)量評價或者視頻熱度分析預(yù)測的相關(guān)文獻[12-15]。在視頻質(zhì)量評價方法上,只回答了視頻“可看性”問題,而并未回答視頻內(nèi)容價值量多少的問題。視頻熱度的相關(guān)研究在多媒體視頻領(lǐng)域(例如電影電視劇等)分析了哪些視頻會更吸引用戶的注意,在監(jiān)控視頻領(lǐng)域的研究則是空白。
如何基于監(jiān)控視頻價值量解決存儲優(yōu)化問題,是本文的研究點。據(jù)此,在監(jiān)控視頻價值量的評價上,仍存在以下問題:首先,目前對于監(jiān)控視頻價值量的概念缺乏一個明確的定義;其次,對于監(jiān)控視頻價值量的評價缺乏一個科學的評估體系。
綜合考慮前人對價值的定義以及監(jiān)控視頻的特性,給出監(jiān)控視頻價值量定義:監(jiān)控視頻價值量是其所包含信息量多少、所含信息可能應(yīng)用價值、以及其對應(yīng)攝像頭重要性的綜合體現(xiàn)。所謂信息量多少,主要指的是監(jiān)控視頻中特征對象出現(xiàn)率,如車、人等,即對象出現(xiàn)率越高,價值量越高。攝像頭重要性主要取決于所處區(qū)域或位置,例如,若一個攝像頭處于交通要道,或在重點目標監(jiān)控區(qū)域(例如大使館等),則該攝像頭所含的信息就越重要,價值量也越高。信息的應(yīng)用價值主要通過用戶的訪問、使用來體現(xiàn),一段監(jiān)控視頻序列訪問度越高,則其價值量越高。
基于上述監(jiān)控視頻價值量的概念,評估體系應(yīng)分為兩個部分:首先,要針對監(jiān)控攝像頭的各項訪問指標,建立一套評價單個攝像頭總體價值量的模型;然后,針對高價值量的攝像頭,對一天的不同時段進行分組,采用一定的計算方法,最后篩選出這些攝像頭一天中價值量最高的時段。兩個部分分別定義為攝像頭篩選模型與時間段篩選模型,如圖1所示。
圖1 監(jiān)控視頻價值評估體系
設(shè)計評估體系基于以下4個要素,其一,監(jiān)控視頻數(shù)據(jù)的價值是通過其使用來實現(xiàn)和體現(xiàn)的;其二,監(jiān)控視頻的價值會隨著橫向時間的推移而有所差異;其三,不同類別攝像頭的數(shù)據(jù)價值量應(yīng)有所差異;其四,監(jiān)控視頻數(shù)據(jù)在每天不同時段其價值量是有明顯差異的。
基于UT模型,加入攝像頭類別重要性因素,對監(jiān)控視頻價值量評價模型做出適應(yīng)性改進,提出CUT(camera-usage-time)模型對攝像頭價值進行評估,如圖2所示。
圖2 CUT模型
該模型具體描述如下:
這里,vt(d)指的是攝像頭d在時間t的價值,時間t是宏觀上的,精確度是某一天。評估周期用vp表示,持續(xù)時間為[t-Nt×s,t],s是每個活躍期的長度,Nt是活躍期的個數(shù)。f(Ui(d))表示攝像頭d在活躍期i的使用值,此處數(shù)值是進行歸一化處理后的數(shù)值,在[0,1]區(qū)間內(nèi)。w(i)是每個活躍期i的權(quán)值進行標準化后的數(shù)值,權(quán)值總和為1。權(quán)值w(i)通過上述權(quán)值函數(shù)指定。i越小,表示活躍期距離現(xiàn)在越近,該權(quán)值函數(shù)可以表明,距離當前時間越近的活躍期,具有越高的權(quán)值。z為每類攝像頭的重要級別,由人為指定,取值為1,2,3…,c(z)是每種類別的權(quán)重,級別越高,權(quán)重越大,q是人為定義的總類別數(shù)。最后,把價值尺度vt(d)利用公式(5)標準化為一定區(qū)間[ls,us]內(nèi)(例如[1,10])。
在確定高價值量攝像頭的基礎(chǔ)上,進一步對一天不同時段價值量進行分析比較,把一天分為多個時間段T1、T2、T3…Tn,針對不同的應(yīng)用領(lǐng)域,確定不同的評價參數(shù)k1、k2…kn,記ck1T1表示參數(shù)k1某一天在時間段T1的值,為了使評價結(jié)果更加準確,對同一時段多天的數(shù)據(jù)取平均,記天數(shù)為CUT模型中一個活躍期的天數(shù)s,可對每個參數(shù)在每個時間段取值利用公式(6)取平均,并由此可得到多維矩陣(7):
基于這些參數(shù)對不同時間段的價值量進行區(qū)分,可考慮采用聚類算法,本文使用的是K-means聚類算法[16]。
3.3 中醫(yī)健康宣教的重要性 小米粥營養(yǎng)價值豐富,有“代參湯”之美稱,一般患者及家屬對小米的飲食功效都比較熟悉,但是對于小米其他的作用就了解比較少。我院是中醫(yī)醫(yī)院,對患者進行中醫(yī)健康宣教是護理工作的一個重要組成部分,也是護理質(zhì)量考核的一個指標。所以對入選本課題的壓瘡高?;颊咧v解小米的中醫(yī)作用是不可或缺的一部分,讓患者了解小米的作用后,在知情同意的情況下愿意配合使用小米墊,真正從心里接受此實驗方法,符合醫(yī)學倫理范疇。
K-Means是一種基于距離的排他的聚類劃分方法。K-means算法是硬聚類算法,是典型的基于原型的目標函數(shù)聚類方法的代表,它是數(shù)據(jù)點到原型的某種距離作為優(yōu)化的目標函數(shù),利用函數(shù)求極值的方法得到迭代運算的調(diào)整規(guī)則。K-means算法以歐式距離作為相似度測度,它是求對應(yīng)某一初始聚類中心向量V最優(yōu)分類,使得評價指標J最小。假設(shè)給定集合R={Xm|m=1,2,…,total},對于R中的每個樣本給定d個描述屬性A1,A2,…,Ad來表示,運用多維向量表示數(shù)據(jù)樣本Xm所擁有屬性為:Xm=(Xm1,Xm2…,Xmd),其中Xm1,Xm2…,Xmd是數(shù)據(jù)樣本Xm的具體取值。樣本Xi和Xj之間的相似度通常用它們之間的距離d(Xi,Xj)來表示,距離越小,樣本Xi和Xj越相似,差異度越?。痪嚯x越大,樣本Xi和Xj越不相似,差異度越大。歐氏距離公式如下:
算法采用誤差平方和準則函數(shù)作為聚類準則函數(shù)。算法是將樣本聚類成k個簇(cluster),具體算法描述如下:
1)隨機選取k個聚類質(zhì)心點(cluster centroids)為:μ1,μ2,…μk∈Rn,
算法流程圖如圖3所示。
圖3 K-means算法流程圖
本章將基于交通應(yīng)用領(lǐng)域?qū)μ岢龅膬r值評估體系進行分析和驗證,為此,對500路交通監(jiān)控攝像頭3個月內(nèi)(9.1-11.30)的訪問數(shù)據(jù)進行跟蹤,并利用這些數(shù)據(jù)進行驗證和分析輸出結(jié)果。
對CUT模型各參數(shù)定義如下:首先把交通領(lǐng)域攝像頭按重要級別分為4類,如表1所示。
表1 攝像頭類別與對應(yīng)重要性
則公式(4)中q=4,并取y=2,然后對式(1)~(3)、(5)采用文獻中[9]UT模型的默認參數(shù),則:
ls=1,us=10,價值尺度為[1,10]
Ui(d)=訪問量,
2.1.1 橫向時間因素
根據(jù)3種不同的訪問狀態(tài)對攝像頭進行分類:突發(fā)性訪問,周期性訪問和常量性訪問。如果對一個攝像頭所有的訪問只發(fā)生在很短的時間內(nèi),則認為這類攝像頭是一個突發(fā)性訪問攝像頭。如果訪問發(fā)生在某個固定的時間間隔,則該攝像頭是周期性的。如果攝像頭在整個評估期間不斷被訪問,則該攝像頭具有不變的訪問模式。從每種訪問類別中隨機選擇3個同一重要類別的攝像頭,并使用60天的評估期計算不同日期的攝像頭價值,并默認所有其他參數(shù),輸出結(jié)果如圖4所示,累計訪問量如表2所示。
圖4 3種類型攝像頭價值隨時間變化折線圖
表2 累計訪問量統(tǒng)計
具有周期性和恒定訪問模式的攝像頭隨著時間的推移具有微小的價值變化。突發(fā)性訪問攝像頭顯示出相對顯著的價值變化。此外,盡管在某些時段突發(fā)性攝像頭的累計訪問量高于常量性攝像頭,但是其價值輸出結(jié)果卻不如常量性攝像頭,這是由于該模型對不同的橫向時間段賦予不同的權(quán)值決定的,充分證明了該模型能反映橫向時間推移對監(jiān)控視頻價值的影響。
2.1.2 布點重要性因素
從2.1.1節(jié)具有常量性訪問特征的攝像頭里隨機選取4個類別不同的攝像頭,同樣使用60天的評估期計算不同日期的攝像頭價值,并默認所有其他參數(shù),顯然重要級別越高的攝像頭,其整體價值量越高,如圖5,重要級別從高到低的平均價值量分別為:7.8、4.5、3.9、1.7,然而,在某些日期不同重要性的攝像頭擁有相近的價值量,甚至在11/5、11/12會出現(xiàn)重要級別較低的攝像頭價值量反而較高的情況,這是訪問度因素導(dǎo)致的,當某段時間訪問度大量提高時,由于訪問度對結(jié)果的影響大于布點重要性對結(jié)果的影響,因此這種情況布點重要性因素會對模型輸出結(jié)果的敏感度降低。
圖5 不同重要性攝像頭整體價值量折線圖
2.1.3 訪問量因素
對模型的輸出結(jié)果根據(jù)價值尺度(1~10)劃分為4個部分,攝像頭價值量分布圖如表3所示,根據(jù)對模型的輸出結(jié)果進行分類,可以看出該模型能把不同價值量的攝像頭從宏觀上較好地區(qū)分開來,價值尺度高的攝像頭雖然所占比例少,但擁有高訪問量。其中,價值量為6~10的攝像頭占總攝像頭數(shù)量的4%,但是其訪問量占據(jù)了總訪問量50%以上,價值量3~6的攝像頭占總攝像頭數(shù)量8%,其訪問量占總訪問量的18%;相反,價值量為1的攝像頭雖然占總攝像頭數(shù)量的67%,但是其訪問量僅占總訪問量的3%。顯然,該模型對訪問量因素具有很好的敏感度。
表3 攝像頭價值與訪問量分布情況
2.2.1 特征值選擇和數(shù)據(jù)預(yù)處理
針對高價值量攝像頭進一步進行時間分布性分析,隨機選取其中一路高價值攝像頭(對應(yīng)2.1.3節(jié)中價值量為(6,10]的攝像頭),根據(jù)1.3節(jié)理論基礎(chǔ),取T=2小時,即把一天分為12個時間區(qū)間。針對交通領(lǐng)域,主要的研究對象為車輛。此外,違章檢測作為智能交通的重要應(yīng)用研究,保存大量具有違章行為的視頻序列,對智能交通的研究具有重要意義。因此選定評價參數(shù)車流量c和違章標記數(shù)目p,利用公式(7)對多天同一時段的數(shù)據(jù)取均值,得到基礎(chǔ)數(shù)據(jù)如表4(括號外數(shù)據(jù))。由于這兩個特征值的度量單位不一致,它們具有不同的量綱和量綱單位,這種情況可能會導(dǎo)致數(shù)據(jù)分析結(jié)果不準確,而且收斂速度慢。為了消除指標之間的量綱影響,解決數(shù)據(jù)指標之間的可比性,加快模型收斂速度,需要進行數(shù)據(jù)標準化處理。對原數(shù)據(jù)以列為單位經(jīng)過線性變換,進行標準化處理,使得結(jié)果均落在[0,1]區(qū)間內(nèi)。以平均車流量c為例,轉(zhuǎn)換如下,并得標準化數(shù)據(jù)如表4(括號內(nèi)數(shù)據(jù)):
2.2.2 仿真實驗結(jié)果
取K值為3,利用matlab進行聚類仿真,得到如圖6結(jié)果。
可見,通過聚類后可以把一路視頻大致分為3類:分別為高價質(zhì)量時間時間段,中價值量時間段,低價質(zhì)量時間段。其中高價質(zhì)量視頻數(shù)據(jù)為第5組與第10組,中價值量視頻數(shù)據(jù)為第4、6、7、9組,低價質(zhì)量視頻數(shù)據(jù)為第1、2、3、12組。最后,可以篩選出該路視頻價值量最高的時間段是8:00-10:00與18:00-20:00。
表4 各時段車流量與違章均值數(shù)據(jù)
圖6 聚類結(jié)果
本文對監(jiān)控視頻價值評定問題進行了研究,分析了監(jiān)控視頻價值評估過程涉及的關(guān)鍵因素,提出了監(jiān)控視頻價值量概念及其評估體系。通過實驗驗證,該評估體系具有以下4個特點:1)捕獲攝像頭價值隨時間的變化而變化;2)捕獲不同攝像頭類別數(shù)據(jù)之間價值的差異;3)從宏觀上把不同價值的攝像頭區(qū)分開來;4)把同一個攝像頭一天中不同時段的價值量區(qū)分開來。據(jù)此可為基于監(jiān)控視頻價值量實現(xiàn)動態(tài)存儲管理分配與優(yōu)化提供理論基礎(chǔ)。然而,該評估體系仍然具有一定的局限性,在CUT模型中對攝像頭布點的重要性依靠人為指定,缺乏一定的客觀性,考慮的因素不夠全面,在這方面可繼續(xù)深入考慮人口(例如外來人口、宗教信仰、年齡結(jié)構(gòu)等)、建筑(例如建筑檔次、建筑密度等)、經(jīng)濟(例如人均收入、貧富差距等)等因素對攝像頭布點重要性的影響。此外,在攝像頭篩選階段,未考慮到關(guān)聯(lián)性因素,相關(guān)的攝像頭之間可能存在大量重復(fù)冗余的數(shù)據(jù)。因此,下一步研究方向應(yīng)對上述問題繼續(xù)深入探討。