ACO-SVM
姜慧研,宗茂,劉相瑩
計(jì)算機(jī)科學(xué)技術(shù)
基于ACO-SVM的軟件缺陷預(yù)測模型的研究
姜慧研,宗茂,劉相瑩
針對傳統(tǒng)軟件缺陷預(yù)測模型的應(yīng)用范圍通常被局限在一定的子空間而影響其適用性和準(zhǔn)確性的問題,文中利用支持向量機(jī)(SVM)的非線性運(yùn)算能力和蟻群優(yōu)化算法(ACO)的尋優(yōu)能力提出了一種基于ACO-SVM的軟件缺陷預(yù)測模型。文中首先對待預(yù)測的數(shù)據(jù)進(jìn)行主成分分析降低數(shù)據(jù)的維數(shù)以提高運(yùn)算速度,然后根據(jù)蟻群優(yōu)化算法來計(jì)算最優(yōu)的SVM參數(shù),然后再運(yùn)用SVM進(jìn)行軟件缺陷的預(yù)測。并基于十折交叉方法進(jìn)行實(shí)驗(yàn),通過與傳統(tǒng)方法的對比,證明文中方法具有較高的預(yù)測精度。隨著計(jì)算機(jī)系統(tǒng)應(yīng)用領(lǐng)域的不斷擴(kuò)大,軟件缺陷預(yù)測問題變得越來越受到人們的關(guān)注。例如,在銀行和股票等系統(tǒng)中,由于系統(tǒng)一旦失效將會(huì)導(dǎo)致巨大的經(jīng)濟(jì)損失,軟件缺陷是軟件開發(fā)首要因素。而軟件缺陷預(yù)測模型能夠在軟件開發(fā)的早期預(yù)測出哪些模塊有出錯(cuò)的傾向從而找到相應(yīng)的解決方案,是軟件可靠性工程的重要組成部分,對提高軟件可靠性具有重要的意義。本文的貢獻(xiàn)是針對軟件缺陷預(yù)測問題提出了一種新穎的基于ACO-SVM的軟件缺陷預(yù)測模型,其基本思想是基于PCA縮減特征空間、基于ACO-SVM建立和優(yōu)化軟件缺陷預(yù)測模型。實(shí)驗(yàn)結(jié)果表明,該模型比傳統(tǒng)方法具有更好的預(yù)測效果。但是該方法在參數(shù)尋優(yōu)過程中需要較長的時(shí)間,如何進(jìn)一步降低模型的運(yùn)行時(shí)間和提高模型的預(yù)測準(zhǔn)確率,是今后的課題。隨著計(jì)算機(jī)系統(tǒng)應(yīng)用領(lǐng)域的不斷擴(kuò)大,軟件缺陷預(yù)測問題變得越來越受到人們的關(guān)注。例如,在銀行和股票等系統(tǒng)中,由于系統(tǒng)一旦失效將會(huì)導(dǎo)致巨大的經(jīng)濟(jì)損失,軟件缺陷是軟件開發(fā)首要因素。而軟件缺陷預(yù)測模型能夠在軟件開發(fā)的早期預(yù)測出哪些模塊有出錯(cuò)的傾向從而找到相應(yīng)的解決方案,是軟件可靠性工程的重要組成部分,對提高軟件可靠性具有重要的意義。目前,軟件缺陷預(yù)測模型主要包括馬爾可夫模型、分類回歸樹模型、人工神經(jīng)網(wǎng)絡(luò)模型、線性判別分析模型、時(shí)間序列分析模型、分類樹模型等,但這些方法尚存在一定問題,難以達(dá)到理想的效果。例如,馬爾可夫模型需要對軟件內(nèi)部錯(cuò)誤及失效過程的特性做出很多假設(shè);分類回歸樹模型的泛化能力差;人工神經(jīng)網(wǎng)絡(luò)模型的網(wǎng)絡(luò)結(jié)構(gòu)選擇尚無統(tǒng)一完整的理論指導(dǎo)。
來源出版物:計(jì)算機(jī)學(xué)報(bào), 2011, 34(6): 1148-1154
入選年份:2015
大數(shù)據(jù)流式計(jì)算:關(guān)鍵技術(shù)及系統(tǒng)實(shí)例
孫大為,張廣艷,鄭緯民
摘要:目的:云計(jì)算、物聯(lián)網(wǎng)、移動(dòng)互連、社交媒體等新興信息技術(shù)和應(yīng)用模式的快速發(fā)展,促使全球數(shù)據(jù)量急劇增加,推動(dòng)人類社會(huì)邁入大數(shù)據(jù)時(shí)代。一般意義上,大數(shù)據(jù)是指利用現(xiàn)有理論、方法、技術(shù)和工具難以在可接受的時(shí)間內(nèi)完成分析計(jì)算、整體呈現(xiàn)高價(jià)值的海量復(fù)雜數(shù)據(jù)集合。大數(shù)據(jù)計(jì)算是發(fā)現(xiàn)蘊(yùn)含在大數(shù)據(jù)中的大信息,并提煉大信息中的大知識(shí)的實(shí)現(xiàn)途徑。大數(shù)據(jù)計(jì)算主要有批量計(jì)算和流式計(jì)算兩種形態(tài)。目前,關(guān)于大數(shù)據(jù)批量計(jì)算系統(tǒng)的研究和討論相對充分,而如何構(gòu)建低延遲、高吞吐且持續(xù)可靠運(yùn)行的大數(shù)據(jù)流式計(jì)算系統(tǒng)是當(dāng)前亟待解決的問題且研究成果和實(shí)踐經(jīng)驗(yàn)相對較少。方法:首先,從大數(shù)據(jù)流式計(jì)算的應(yīng)用場景出發(fā),按照數(shù)據(jù)產(chǎn)生方式、數(shù)據(jù)規(guī)模大小以及技術(shù)成熟度高低這3個(gè)不同維度,選擇金融銀行業(yè)應(yīng)用、互聯(lián)網(wǎng)應(yīng)用和物聯(lián)網(wǎng)應(yīng)用這3種典型應(yīng)用場景,用于分析說明大數(shù)據(jù)流式計(jì)算的基本特征。其次,從系統(tǒng)體系結(jié)構(gòu)的角度,分析如何構(gòu)建滿足大數(shù)據(jù)流式計(jì)算所需要的低延遲、高吞吐、持續(xù)穩(wěn)定運(yùn)行和彈性可伸縮等要求的系統(tǒng)。最后,選擇了當(dāng)前比較典型的、應(yīng)用較為廣泛的、具有代表性的5款大數(shù)據(jù)流式計(jì)算系統(tǒng),分別是Storm系統(tǒng)、S4系統(tǒng)、Data Freeway and Puma系統(tǒng)、Kafka系統(tǒng)和TimeStream系統(tǒng),從系統(tǒng)架構(gòu)、數(shù)據(jù)傳輸、應(yīng)用接口、容錯(cuò)機(jī)制、狀態(tài)持久化等多個(gè)不同角度進(jìn)行了實(shí)例分析和對比。結(jié)果:在應(yīng)用場景方面,大數(shù)據(jù)流式計(jì)算環(huán)境中的數(shù)據(jù)流主要體現(xiàn)了5個(gè)典型特征,即實(shí)時(shí)性、易失性、突發(fā)性、無序性、無限性。理想的大數(shù)據(jù)流式計(jì)算系統(tǒng)應(yīng)該表現(xiàn)出低延遲、高吞吐、持續(xù)穩(wěn)定運(yùn)行和彈性可伸縮等特性,這其中離不開系統(tǒng)架構(gòu)、數(shù)據(jù)傳輸、編程接口、高可用技術(shù)等關(guān)鍵技術(shù)的合理規(guī)劃和良好設(shè)計(jì)。當(dāng)前比較典型的大數(shù)據(jù)流式計(jì)算系統(tǒng)多數(shù)是采用分布式體系結(jié)構(gòu),實(shí)現(xiàn)了數(shù)據(jù)處理和狀態(tài)管理間的分離,系統(tǒng)的響應(yīng)時(shí)間保持在毫秒級(jí)的水平,在很大程度上滿足了大數(shù)據(jù)流式計(jì)算應(yīng)用場景的實(shí)際需要。同時(shí),大數(shù)據(jù)流式應(yīng)用的不斷發(fā)展,也使得大數(shù)據(jù)流式環(huán)境中的數(shù)據(jù)計(jì)算在系統(tǒng)的可伸縮性、系統(tǒng)容錯(cuò)、狀態(tài)一致性、負(fù)載均衡、數(shù)據(jù)吞吐量等方面均面臨著前所未有的新的挑戰(zhàn)。結(jié)論:在大數(shù)據(jù)時(shí)代,對新鮮數(shù)據(jù)的計(jì)算往往可以創(chuàng)造新的價(jià)值,隨著數(shù)據(jù)處理時(shí)效性要求的不斷增強(qiáng),大數(shù)據(jù)流式計(jì)算的應(yīng)用需求也在不斷增多,特別是在大數(shù)據(jù)的前期處理過程中。大數(shù)據(jù)流式計(jì)算的研究和應(yīng)用仍處于很不成熟的階段,這與其廣泛的市場需求和應(yīng)用前景很不吻合。傳統(tǒng)的先存儲(chǔ)后計(jì)算的批量數(shù)據(jù)計(jì)算理念不適用于大數(shù)據(jù)流式計(jì)算的環(huán)境,為了促進(jìn)大數(shù)據(jù)流式計(jì)算的成熟、穩(wěn)健發(fā)展,亟待構(gòu)建低延遲、高吞吐且持續(xù)可靠運(yùn)行的大數(shù)據(jù)流式計(jì)算系統(tǒng),亟待全面、系統(tǒng)、深入地開展相關(guān)理論和實(shí)踐的研究工作。
來源出版物:軟件學(xué)報(bào), 2014, 25(4): 839-862
入選年份:2014
圖像場景分類中視覺詞包模型方法綜述
趙理君,唐娉,霍連志,等
摘要:目的:隨著計(jì)算機(jī)多媒體技術(shù)、數(shù)據(jù)庫技術(shù)和計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)的快速發(fā)展,越來越多的圖像亟待分類和標(biāo)記。計(jì)算機(jī)輔助的自動(dòng)圖像場景分類技術(shù)逐漸取代了傳統(tǒng)的人工標(biāo)記方式,成為熱門的研究領(lǐng)域。在眾多圖像場景分類方法中,視覺詞包模型作為一種中間層特征被廣泛運(yùn)用,一定程度上縮小了低層視覺特征和高層語義特征的差距。然而,關(guān)于圖像場景分類中視覺詞包模型方法的綜述性文章在國內(nèi)外雜志上鮮有報(bào)導(dǎo),為了使國內(nèi)外同行對圖像場景分類中的視覺詞包模型方法有一個(gè)較為全面的了解,本文對這些研究工作進(jìn)行了系統(tǒng)總結(jié)。方法:本文在參考了近十年國內(nèi)外大量文獻(xiàn)的基礎(chǔ)上,將視覺詞包模型研究的發(fā)展歷程劃分為五個(gè)階段,分別為:早期詞包模型在圖像領(lǐng)域的直接應(yīng)用階段、視覺詞包模型中潛在語義信息的研究階段、視覺詞包模型中空間布局或結(jié)構(gòu)信息的研究階段、視覺詞包模型中上下文信息和共生信息的研究階段、視覺詞典中單詞語義優(yōu)化及新方法引入的研究階段。同時(shí),本文對現(xiàn)有圖像場景分類(本文主要指針對單一圖像場景的分類)中出現(xiàn)的各種視覺詞包模型方法從低層特征的選擇與局部圖像塊特征的生成、視覺詞典的構(gòu)建、視覺詞包特征的直方圖表示、視覺單詞優(yōu)化等多方面加以總結(jié)和比較。結(jié)果:回顧了視覺詞包模型的發(fā)展歷程,對目前存在的多種視覺詞包模型進(jìn)行了歸納,比較了常見方法各自的優(yōu)缺點(diǎn),總結(jié)了視覺詞包模型性能評(píng)價(jià)方法,并對目前常用的標(biāo)準(zhǔn)場景庫進(jìn)行匯總,同時(shí)給出了各自所達(dá)到的最高精度。結(jié)論:圖像場景分類中視覺詞包模型方法的研究作為計(jì)算機(jī)視覺領(lǐng)域方興未艾的熱點(diǎn)研究領(lǐng)域,在國內(nèi)外研究中取得了不少進(jìn)展,在計(jì)算機(jī)視覺領(lǐng)域的研究也不再局限于直接應(yīng)用模型描述圖像內(nèi)容,而是更多地考慮圖像與文本的差異。目前,仍有如下幾個(gè)方面的問題亟需解決:當(dāng)視覺詞包被應(yīng)用于與訓(xùn)練樣本存在巨大差異的樣本時(shí),視覺詞包模型的性能會(huì)受到很大影響,然而基于新的樣本訓(xùn)練新的視覺詞包又十分費(fèi)事費(fèi)力;目前對于視覺詞典大小的確定還沒有理論指導(dǎo);視覺單詞與語義之間的關(guān)系仍然沒有被充分挖掘;視覺詞包模型在諸如高空間分辨率遙感圖像土地利用分類等特殊領(lǐng)域的研究還很缺乏。另外,基于上述問題,存在以下幾方面的研究方向:構(gòu)建通用的自適應(yīng)的視覺詞包用于不同的樣本集;根據(jù)具體問題自動(dòng)選擇最優(yōu)化的視覺詞包大??;在圖像的詞包表示中加入更加豐富的空間分布和上下文信息,發(fā)掘視覺單詞的潛在語義信息;對圖像視覺語法進(jìn)行研究,使其作為圖像模型服務(wù)于圖像理解;研究特殊領(lǐng)域圖像的場景分類問題,如高分辨率遙感圖像中城市功能區(qū)的識(shí)別等;研究新的具有良好性能的低層特征提取算法用于構(gòu)建高層的視覺詞包。雖然視覺詞包模型在圖像場景分類的應(yīng)用中還存在很多亟需解決的問題,但是這絲毫不能掩蓋其研究的重要意義。
來源出版物:中國圖象圖形學(xué)報(bào), 2014, 19(3): 333~343
入選年份:2014
玻爾茲曼機(jī)研究進(jìn)展
劉建偉,劉媛,羅雄麟
摘要:目的:最近,基于復(fù)雜的層次概率模型的深度學(xué)習(xí)理論被廣泛用于解決許多人工智能相關(guān)的任務(wù)。由多層神經(jīng)元組成的深度神經(jīng)網(wǎng)絡(luò),如深信念網(wǎng)絡(luò)和深層玻爾茲曼機(jī),已經(jīng)不僅在分類任務(wù)中,而且也在回歸和降維任務(wù)得到了成功的應(yīng)用,如協(xié)同過濾,視覺對象識(shí)別,圖像塊建模,提取光流機(jī)器人學(xué),信息和圖像檢索,視覺對象識(shí)別,語音感知,語言理解和時(shí)間序列建模。理論和生物學(xué)因素也提示,提取復(fù)雜的高水平對象表示,需要使用實(shí)現(xiàn)非線性變換的多個(gè)可見層和隱層結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)。深度信任網(wǎng)的主要構(gòu)造塊是一種叫做受限制玻爾茲曼機(jī)的二分無向圖模型。RBM是具有一層隨機(jī)Bernoulli隱層和一層Bernoulli或Gaussian分布的對稱耦合隨機(jī)反饋類型的二值單元神經(jīng)網(wǎng)絡(luò)??梢妴卧碗[單元表示隨機(jī)網(wǎng)和隨機(jī)場景學(xué)習(xí)模型,用邊權(quán)表示可見單元和隱單元的相關(guān)程度。玻爾茲曼機(jī)理論起源于統(tǒng)計(jì)物理,是一個(gè)基于能量函數(shù)描述變量之間的相互高階相互作用關(guān)系的建模方法,雖然玻爾茲曼機(jī)學(xué)習(xí)過程比較復(fù)雜,但是玻爾茲曼機(jī)的模型的構(gòu)造和學(xué)習(xí)算法具有完備的物理意義和嚴(yán)格的統(tǒng)計(jì)學(xué)習(xí)理論作為基礎(chǔ)。玻爾茲曼機(jī)是類似于由一階和二階距完全確定概率分布的高斯馬爾科夫隨機(jī)場的高維二值隨機(jī)變量上的概率分布。關(guān)鍵不同是增加了隱變量使得擴(kuò)大了可以表示的概率分布的范圍,所以,從原理上講,玻爾茲曼機(jī)可以對任意概率分布建模。鑒于玻爾茲曼機(jī)的理論意義和應(yīng)用價(jià)值,本文系統(tǒng)地總結(jié)了玻爾茲曼機(jī)的研究進(jìn)展,對以后的理論研究和應(yīng)用打下基礎(chǔ)。方法:玻爾茲曼機(jī)按拓?fù)浣Y(jié)構(gòu)分類分為一般玻爾茲曼機(jī),半受限玻爾茲曼機(jī)和受限玻爾茲曼機(jī)。BM通過下面的訓(xùn)練過程完成學(xué)習(xí):在訓(xùn)練過程中,環(huán)境將所有可見單元約束到特定狀態(tài);在測試過程中,環(huán)境可以約束可見單元的任意子集的狀態(tài)。在上面所有過程中,環(huán)境始終不約束隱單元的狀態(tài)。具體地,BM的學(xué)習(xí)過程分為兩個(gè)階段:(1)約束學(xué)習(xí)階段,也稱為正階段,將可見單元狀態(tài)值取為訓(xùn)練樣本值,采樣得到隱單元。(2)自由學(xué)習(xí)階段,也稱為負(fù)階段,網(wǎng)絡(luò)自由運(yùn)行,不約束任何可見單元的狀態(tài),從當(dāng)前模型采樣得到可見單元和隱單元狀態(tài)值,即單元的狀態(tài)不是由訓(xùn)練樣本決定的。BM的學(xué)習(xí)是通過調(diào)整連接權(quán)矩陣,使模型定義的概率分布盡可能地與訓(xùn)練樣本集定義的概率分布相一致。學(xué)習(xí)BM的目的:是學(xué)習(xí)連接權(quán)矩陣使出現(xiàn)概率最高的全局狀態(tài)得到最低的能量,因此問題變?yōu)樽钚』迫缓瘮?shù)的過程。學(xué)習(xí)BM的典型學(xué)習(xí)算法主要有吉布斯采樣法(Gibbs sampling)、平行回火法(parallel tempering,PT)、變分近似法(variational approach)、隨機(jī)近似法(stochastic approximation procedure,SAP)、對比離差算法(contrastive divergence,CD)、持續(xù)對比離差算法(persistent contrastive divergence,PCD)和快速持續(xù)對比離差算法(fast persistent contrastive divergence,F(xiàn)PCD)。結(jié)果:本文詳細(xì)概述了BM的基本概念、單層反饋網(wǎng)絡(luò)的模型及拓?fù)浣Y(jié)構(gòu)分類,對BM和DBM的學(xué)習(xí)過程和典型學(xué)習(xí)算法進(jìn)行了探討,從學(xué)習(xí)算法、模型結(jié)構(gòu)和實(shí)際應(yīng)用三方面介紹了近幾年BM研究的相關(guān)進(jìn)展。隨著BM理論與方法研究的深入,BM將被更加廣泛地應(yīng)用在各個(gè)領(lǐng)域。結(jié)論:BM作為深神經(jīng)網(wǎng)絡(luò)的一個(gè)重要代表受到了廣泛的關(guān)注。BM是對稱耦合的隨機(jī)二值單元網(wǎng)絡(luò),通過學(xué)習(xí)建立單元之間的高階相關(guān)模型,用基于模型的能量函數(shù)中的隱單元和可見單元來得到具有更高表示能力的模型,能夠?qū)?fù)雜層次結(jié)構(gòu)數(shù)據(jù)進(jìn)行建模。BM的原理比較完備,在各種數(shù)據(jù)集上顯示出優(yōu)越的學(xué)習(xí)性能。但是,BM的推理學(xué)習(xí)過程算法復(fù)雜性過高,無法有效地應(yīng)用于大規(guī)模學(xué)習(xí)問題,因而研究人員提出對網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)簡化,改進(jìn)學(xué)習(xí)算法,對非線性尋優(yōu)過程合理近似,減少學(xué)習(xí)時(shí)間,許多BM理論和方法得以發(fā)展。
來源出版物:計(jì)算機(jī)研究與發(fā)展, 2014, 51(1): 42751
入選年份:2014
位置大數(shù)據(jù)隱私保護(hù)研究綜述
王璐,孟小峰
摘要:目的:大數(shù)據(jù)時(shí)代移動(dòng)通信和傳感設(shè)備等位置感知技術(shù)的發(fā)展形成了位置大數(shù)據(jù)。由于位置大數(shù)據(jù)內(nèi)容交叉冗余,經(jīng)典的基于“知情與同意”以及匿名的隱私保護(hù)方法不能全面地保護(hù)用戶隱私,這就需要位置大數(shù)據(jù)的隱私保護(hù)技術(shù)可以度量用戶的位置隱私,并且在信息論意義上保護(hù)用戶的敏感信息。因此,位置大數(shù)據(jù)隱私保護(hù)技術(shù)需要考慮以下3個(gè)具有挑戰(zhàn)性的問題:(1)如何度量用戶的敏感信息的泄露程度;(2)如何實(shí)現(xiàn)對位置大數(shù)據(jù)隱私全面的保護(hù);(3)如何兼顧隱私保護(hù)的程度和基于位置服務(wù)的可用性。本文綜述位置大數(shù)據(jù)隱私保護(hù)技術(shù)的最新進(jìn)展,分類闡述位置大數(shù)據(jù)的隱私保護(hù)技術(shù),分析不同技術(shù)的優(yōu)缺點(diǎn)、適用場景等。其中,重點(diǎn)介紹當(dāng)前該領(lǐng)域的前沿問題,基于隱私信息檢索的隱私保護(hù)技術(shù)。本文在對位置大數(shù)據(jù)的隱私保護(hù)技術(shù)進(jìn)行綜合對比和分析后,探討了位置大數(shù)據(jù)未來的研究方向。方法:首先對現(xiàn)有的國內(nèi)外關(guān)于隱私保護(hù)的相關(guān)文獻(xiàn)和技術(shù)文檔進(jìn)行廣泛的收集和整理。在此基礎(chǔ)上按照文獻(xiàn)主題對材料進(jìn)行詳細(xì)的分類,一方面,總結(jié)出針對位置大數(shù)據(jù)隱私的統(tǒng)一的基于度量的攻擊模型等研究背景;另一方面,以統(tǒng)一的攻擊模型為依據(jù),根據(jù)不同隱私保護(hù)技術(shù)在隱私保護(hù)程度和服務(wù)可用性之間的權(quán)衡情況,確定位置大數(shù)據(jù)隱私保護(hù)研究領(lǐng)域的主要問題和關(guān)鍵性技術(shù)等。最后圍繞提取出的核心問題將現(xiàn)有文獻(xiàn)進(jìn)行歸納和總結(jié)。結(jié)果:介紹了位置大數(shù)據(jù)的基本概念以及總結(jié)出針對位置大數(shù)據(jù)隱私基于度量的統(tǒng)一攻擊模型等研究背景;以統(tǒng)一的攻擊模型為依據(jù),根據(jù)不同隱私保護(hù)技術(shù)在隱私保護(hù)程度和服務(wù)可用性之間的權(quán)衡情況,把現(xiàn)有方法總結(jié)為基于啟發(fā)式隱私度量、概率推測和隱私信息檢索的位置大數(shù)據(jù)隱私保護(hù)技術(shù)。分類闡述位置大數(shù)據(jù)的隱私保護(hù)技術(shù),分析不同技術(shù)的優(yōu)缺點(diǎn)、適用場景等。其中,重點(diǎn)介紹當(dāng)前該領(lǐng)域的前沿問題、基于隱私信息檢索的隱私保護(hù)技術(shù)。考慮到大數(shù)據(jù)時(shí)代的攻擊者可以獲得和位置數(shù)據(jù)相關(guān)的非位置數(shù)據(jù),可以從其他角度獲得或者分析用戶的歷史位置數(shù)據(jù)得到有關(guān)用戶的背景知識(shí),探討了位置大數(shù)據(jù)與非位置大數(shù)據(jù)結(jié)合產(chǎn)生的隱私問題將是未來的研究熱點(diǎn)。結(jié)論:大數(shù)據(jù)時(shí)代,經(jīng)典的基于“知情與同意”以及匿名的隱私保護(hù)方法不能全面地保護(hù)用戶隱私。位置大數(shù)據(jù)的隱私保護(hù)技術(shù)需在信息論意義上保護(hù)用戶的敏感信息。位置大數(shù)據(jù)隱私保護(hù)方法的保護(hù)效果由發(fā)布后的位置大數(shù)據(jù)能夠提供給攻擊者多少用戶處于某敏感位置的信息增益來表示。當(dāng)用戶的隱私需求較高時(shí),基于隱私信息檢索的位置大數(shù)據(jù)隱私保護(hù)技術(shù)最為適用。在對已有技術(shù)深入分析對比的基礎(chǔ)上,指出了未來在位置大數(shù)據(jù)與非位置大數(shù)據(jù)相結(jié)合、用戶背景知識(shí)不確定等情況下保護(hù)用戶位置隱私的發(fā)展方向。
來源出版物:軟件學(xué)報(bào), 2014, 25(4): 693-712
入選年份:2014
深度學(xué)習(xí)及其在目標(biāo)和行為識(shí)別中的新進(jìn)展
鄭胤,陳權(quán)崎,章毓晉
摘要:目的:隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展以及計(jì)算機(jī)硬件性能的增強(qiáng),人們可以獲得的數(shù)據(jù)量規(guī)模越來越大,同時(shí)處理數(shù)據(jù)的能力也不斷的提升。這兩方面因素使得人們希望從大規(guī)模數(shù)據(jù)中有效的提取信息。深度學(xué)習(xí)是近些年機(jī)器學(xué)習(xí)領(lǐng)域中涌現(xiàn)出來的一個(gè)新的研究領(lǐng)域,它通過構(gòu)建深度網(wǎng)絡(luò)來從數(shù)據(jù)中學(xué)習(xí)特征,而這種特征學(xué)習(xí)的方法在實(shí)踐中被證明十分有效。為了引起更多的計(jì)算機(jī)視覺和機(jī)器學(xué)習(xí)領(lǐng)域的研究者對深度學(xué)習(xí)技術(shù)進(jìn)行探索和討論,并推動(dòng)深度學(xué)習(xí)在目標(biāo)識(shí)別和行為識(shí)別領(lǐng)域的進(jìn)展,本文對深度學(xué)習(xí)以及其在目標(biāo)和行為識(shí)別領(lǐng)域的進(jìn)展進(jìn)行概述。方法:本文首先對深度學(xué)習(xí)進(jìn)行概述,介紹深度學(xué)習(xí)與神經(jīng)科學(xué)中哺乳動(dòng)物的信息表達(dá)的關(guān)系,并且指出目前深度學(xué)習(xí)已經(jīng)成為計(jì)算機(jī)視覺中的一個(gè)熱點(diǎn)方向,每年都有大量的研究成果出現(xiàn),產(chǎn)生了諸多深度學(xué)習(xí)的新算法和新方向,而同時(shí)深度學(xué)習(xí)算法的性能也逐漸在一些國際重大評(píng)測中超過了其他傳統(tǒng)的方法;接著,本文對深度學(xué)習(xí)的原理進(jìn)行綜述,結(jié)合當(dāng)前深度學(xué)習(xí)的進(jìn)展將深度學(xué)習(xí)技術(shù)進(jìn)行分類歸納,并且對當(dāng)前主流的深度學(xué)習(xí)架構(gòu):基于限制玻爾茲曼機(jī)的深度學(xué)習(xí)架構(gòu),基于自編碼器的深度學(xué)習(xí)架構(gòu)進(jìn)行介紹,并且對訓(xùn)練深度網(wǎng)絡(luò)時(shí)的稀疏性約束進(jìn)行介紹;在此基礎(chǔ)上,本文介紹了目前深度學(xué)習(xí)的新進(jìn)展:用于增強(qiáng)魯棒性的去噪自編碼器、考慮像素之間關(guān)系的三元因子玻爾茲曼機(jī)、通過引入卷積運(yùn)算來共享參數(shù)的卷積受限玻爾茲曼機(jī)以及收到受限玻爾茲曼機(jī)啟發(fā)而提出了神經(jīng)自回歸分布估計(jì)器。接著,本文介紹目前深度學(xué)習(xí)在目標(biāo)識(shí)別和行為識(shí)別中的應(yīng)用:谷歌公司通過計(jì)算機(jī)集群來訓(xùn)練大規(guī)模深度網(wǎng)絡(luò)的“虛擬人腦”項(xiàng)目;深度學(xué)習(xí)在大規(guī)模視覺識(shí)別競賽中取得的進(jìn)展;神經(jīng)自回歸分布估計(jì)器在同時(shí)的圖像分類和標(biāo)注中的應(yīng)用以及深度學(xué)習(xí)在行為識(shí)別中的應(yīng)用。結(jié)果:本文在最后的部分闡述了深度學(xué)習(xí)與傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)之間的關(guān)系、深度學(xué)習(xí)的優(yōu)缺點(diǎn),以及目前深度學(xué)習(xí)理論需要解決的主要問題,并且指出深度學(xué)習(xí)的本質(zhì)是學(xué)習(xí)到多層的非線性的函數(shù)關(guān)系,而這種多層的非線性的函數(shù)關(guān)系使得人們能夠更好地對視覺信息進(jìn)行建模,從而更好地理解圖像和視頻。結(jié)論:該文對擬將深度學(xué)習(xí)應(yīng)用于目標(biāo)和行為識(shí)別的研究人員有所幫助。
來源出版物:中國圖象圖形學(xué)報(bào), 2014, 19(2): 175~184
入選年份:2014
基于結(jié)構(gòu)的社會(huì)網(wǎng)絡(luò)分析
竇炳琳,李澍淞,張世永
摘要:互聯(lián)網(wǎng)的發(fā)展和社交網(wǎng)站的流行為研究社會(huì)網(wǎng)絡(luò)提供了大規(guī)模的實(shí)驗(yàn)平臺(tái)。主要使用DBLP和Facebook數(shù)據(jù)集構(gòu)建網(wǎng)絡(luò),采取角色連接輪廓方法從結(jié)構(gòu)上進(jìn)行劃分,發(fā)現(xiàn)它們屬于外圍串類型;驗(yàn)證了社會(huì)網(wǎng)絡(luò)的一些統(tǒng)計(jì)性質(zhì),比如無標(biāo)度分布、稠化定律和直徑縮減等;發(fā)現(xiàn)社會(huì)網(wǎng)絡(luò)中存在緊密連接且直徑較小的核心結(jié)構(gòu),規(guī)模中等的社區(qū)主要呈現(xiàn)星型結(jié)構(gòu);基于事件框架研究了社會(huì)網(wǎng)絡(luò)中社區(qū)結(jié)構(gòu)的進(jìn)化,發(fā)現(xiàn)社區(qū)間的融合很大程度上取決于社區(qū)間直接連接的節(jié)點(diǎn)所構(gòu)成網(wǎng)絡(luò)的聚類系數(shù),而社區(qū)的分裂則與該社區(qū)的聚類系數(shù)相關(guān)。本文研究了社會(huì)網(wǎng)絡(luò)的類型、性質(zhì)和社區(qū)進(jìn)化的結(jié)構(gòu)特征。本文主要使用DBLP和Facebook數(shù)據(jù)集構(gòu)建網(wǎng)絡(luò),采用角色連接輪廓方法從結(jié)構(gòu)上將它們劃分為外圍串類型;本文驗(yàn)證了社會(huì)網(wǎng)絡(luò)的無標(biāo)度分布、直徑縮減和稠化性質(zhì),發(fā)現(xiàn)社會(huì)網(wǎng)絡(luò)中社區(qū)大小服從冪律分布,規(guī)模中等的社區(qū)主要呈現(xiàn)星型結(jié)構(gòu);發(fā)現(xiàn)社會(huì)網(wǎng)絡(luò)中存在緊密連接且直徑較小的核心結(jié)構(gòu);本文基于事件框架研究了社會(huì)網(wǎng)絡(luò)中社區(qū)結(jié)構(gòu)的進(jìn)化特征,發(fā)現(xiàn)社區(qū)間的融合很大程度上取決于社區(qū)間直接連接的節(jié)點(diǎn)所構(gòu)成網(wǎng)絡(luò)的聚類系數(shù),而社區(qū)的分裂則與該社區(qū)的聚類系數(shù)相關(guān)。本文的進(jìn)一步工作是提出新的社區(qū)進(jìn)化分析方法,深入挖掘影響社區(qū)進(jìn)化的結(jié)構(gòu)特征,并建立相應(yīng)的演化模型。社會(huì)網(wǎng)絡(luò)是以人為中心構(gòu)建的網(wǎng)絡(luò),與它相關(guān)的研究成果對人們的工作生活有著潛在的影響?;ヂ?lián)網(wǎng)的發(fā)展和各種社交網(wǎng)站的出現(xiàn)也為我們提供了實(shí)驗(yàn)平臺(tái),并為計(jì)算機(jī)相關(guān)學(xué)科的研究帶來了新的挑戰(zhàn)和機(jī)遇。社會(huì)網(wǎng)絡(luò)所表現(xiàn)出來的各種性質(zhì)是如何形成的,是否存在一個(gè)理論模型能夠解釋在個(gè)體與個(gè)體交互中涌現(xiàn)出來的這些特征?不同的網(wǎng)絡(luò)拓4期竇炳琳等:基于結(jié)構(gòu)的社會(huì)網(wǎng)絡(luò)分析751撲結(jié)構(gòu)與個(gè)體的行為如何相互產(chǎn)生影響?如何刻畫和控制信息在社會(huì)網(wǎng)絡(luò)上的傳播?等等,這些是需要我們研究和解決的問題。
來源出版物:計(jì)算機(jī)學(xué)報(bào), 2012, 35(4): 741-753
入選年份:2015
基于混合推理的知識(shí)庫的構(gòu)建及其應(yīng)用研究
鐘秀琴,劉忠,丁盤蘋
摘要:該文提出了基于OWL本體與Prolog規(guī)則的平面幾何知識(shí)庫的構(gòu)建方法,從而可形式化地表示平面幾何中豐富的語義信息。一方面,用類型、定義域、值域、分類、屬性、實(shí)例等本體描述來表達(dá)結(jié)構(gòu)化的知識(shí),為領(lǐng)域內(nèi)概念與概念之間關(guān)系的描述提供形式化的語義;另一方面,用Prolog規(guī)則來解決本體不能有效表達(dá)的諸如屬性之間的關(guān)系和操作等問題,從而支持復(fù)雜關(guān)系間的推理。在此基礎(chǔ)上,用Protété和Prolog構(gòu)建了一個(gè)基于本體和規(guī)則的平面幾何知識(shí)庫。實(shí)驗(yàn)證明:此知識(shí)庫可實(shí)現(xiàn)知識(shí)和語義層次上的信息查詢,還可進(jìn)行復(fù)雜問題求解,其豐富的語義描述和混合推理能力彌補(bǔ)了傳統(tǒng)知識(shí)庫的不足。隨著計(jì)算機(jī)和人工智能技術(shù)的迅速發(fā)展,智能系統(tǒng)或基于知識(shí)的系統(tǒng)的研發(fā)已成為計(jì)算機(jī)應(yīng)用的研究熱點(diǎn)之一。與此同時(shí),人們對智能系統(tǒng)提出了更高的要求,迫切要求它們能更有效地解決更復(fù)雜的問題,代替人完成各種困難的任務(wù)。因此,如何有效地存儲(chǔ)、管理、組織、維護(hù)和更新大規(guī)模的知識(shí),如何有效地利用存儲(chǔ)的知識(shí)進(jìn)行推理和問題求解,即知識(shí)庫系統(tǒng)技術(shù)便應(yīng)運(yùn)而生,并成為人工智能技術(shù)的重要分支。知識(shí)庫是針對某一領(lǐng)域問題求解的需要,采用某種知識(shí)表示方式在計(jì)算機(jī)中存儲(chǔ)、組織、管理和使用的互相聯(lián)系的知識(shí)片集合。這些知識(shí)片包括和領(lǐng)域相關(guān)的理論知識(shí)、事實(shí)數(shù)據(jù),由專家經(jīng)驗(yàn)得到的啟發(fā)式知識(shí),如某領(lǐng)域內(nèi)有關(guān)的定義、定理和運(yùn)算法則及常識(shí)性知識(shí)等。知識(shí)庫系統(tǒng)的實(shí)現(xiàn)主要涉及知識(shí)的表示、傳遞、推理和獲取,以實(shí)現(xiàn)知識(shí)的檢索,滿足用戶的需求。進(jìn)一步,本體模型的構(gòu)建及其混合推理還可應(yīng)用于數(shù)據(jù)挖掘,為行業(yè)用戶提供精確的信息檢索、智能推送等服務(wù)。本文在前人研究與實(shí)踐的基礎(chǔ)上,首先構(gòu)建一個(gè)平面幾何知識(shí)本體,然后將本體與Prolog規(guī)則結(jié)合進(jìn)行平面幾何知識(shí)庫的構(gòu)建,最終實(shí)現(xiàn)基于本體的語義查詢和基于混合推理的平面幾何問題求解,促進(jìn)知識(shí)庫的規(guī)范化和增強(qiáng)語義性,實(shí)現(xiàn)復(fù)雜問題的求解。
來源出版物:計(jì)算機(jī)學(xué)報(bào), 2012, 35(4): 761-766
入選年份:2015
云計(jì)算數(shù)據(jù)中心的新能源應(yīng)用:研究現(xiàn)狀與趨勢
鄧維,劉方明,金海,等
摘要:隨著大規(guī)模云計(jì)算數(shù)據(jù)中心在全球范圍內(nèi)的廣泛部署,其高能耗、高費(fèi)用、高污染等問題日益突出。為了節(jié)能減排,越來越多的云服務(wù)商嘗試?yán)镁G色新能源,像太陽能或風(fēng)能,為其數(shù)據(jù)中心供電。然而,不同于穩(wěn)定供電的傳統(tǒng)電網(wǎng),新能源往往具有不穩(wěn)定性、間歇性和隨時(shí)變化等特點(diǎn),這使得新能源在數(shù)據(jù)中心中的高效可靠應(yīng)用面臨諸多新挑戰(zhàn)。本文剖析了新能源應(yīng)用的機(jī)遇與挑戰(zhàn),回答了為什么、何時(shí)、何地及如何在云計(jì)算數(shù)據(jù)中心利用新能源。從綠色數(shù)據(jù)中心現(xiàn)狀與新評(píng)價(jià)標(biāo)準(zhǔn)、新能源產(chǎn)電模型與預(yù)測機(jī)制、綠色數(shù)據(jù)中心能源配額規(guī)劃、數(shù)據(jù)中心內(nèi)負(fù)載調(diào)度機(jī)制、跨區(qū)域云數(shù)據(jù)中心間負(fù)載均衡機(jī)制5個(gè)關(guān)鍵方面,對新能源在云計(jì)算數(shù)據(jù)中心應(yīng)用的最新研究成果進(jìn)行分類、對比與總結(jié),并展望了未來研究趨勢。在云計(jì)算席卷全球、云計(jì)算產(chǎn)業(yè)發(fā)展浪潮風(fēng)起云涌的背景下,建設(shè)綠色數(shù)據(jù)中心、實(shí)現(xiàn)節(jié)能減排成為了近年來學(xué)術(shù)界和產(chǎn)業(yè)界關(guān)注的話題之一。傳統(tǒng)數(shù)據(jù)中心企業(yè)原有的數(shù)據(jù)中心如何盡快轉(zhuǎn)變成適合云計(jì)算要求的云計(jì)算中心,也是迫切需要解決的問題。以谷歌、亞馬遜為代表的互聯(lián)網(wǎng)巨頭在從傳統(tǒng)內(nèi)容服務(wù)商向云計(jì)算服務(wù)轉(zhuǎn)型的過程中,需要規(guī)劃和建設(shè)規(guī)模巨大的數(shù)據(jù)中心。本文第2節(jié)介紹綠色云數(shù)據(jù)中心的現(xiàn)狀與挑戰(zhàn);第3節(jié)分析新能源評(píng)價(jià)標(biāo)準(zhǔn)、新能源的特性和可選擇利用種類;第4節(jié)介紹研究分類評(píng)價(jià)標(biāo)準(zhǔn),并據(jù)此對目前研究現(xiàn)狀進(jìn)行對比分析;第5節(jié)分別從新能源模型和預(yù)測機(jī)制、數(shù)據(jù)中心能源配額規(guī)劃、新能源數(shù)據(jù)中心內(nèi)作業(yè)調(diào)度機(jī)制和新能源數(shù)據(jù)中心間負(fù)載均衡機(jī)制4個(gè)方面,對綠色數(shù)據(jù)中心的最新研究進(jìn)展進(jìn)行分類比較,并總結(jié)國內(nèi)綠色數(shù)據(jù)中心的研究現(xiàn)狀;最后對全文進(jìn)行總結(jié),并提出未來值得進(jìn)一步研究的方向。
來源出版物:計(jì)算機(jī)學(xué)報(bào), 2013, 36(3): 582-598
入選年份:2015
大數(shù)據(jù)安全與隱私保護(hù)
馮登國,張敏,李昊
摘要:大數(shù)據(jù)(BigData)是當(dāng)前學(xué)術(shù)界和產(chǎn)業(yè)界的研究熱點(diǎn),正影響著人們?nèi)粘I罘绞?、工作?xí)慣及思考模式。但目前大數(shù)據(jù)在收集、存儲(chǔ)和使用過程中面臨著諸多安全風(fēng)險(xiǎn),大數(shù)據(jù)所導(dǎo)致的隱私泄露為用戶帶來嚴(yán)重困擾,虛假數(shù)據(jù)將導(dǎo)致錯(cuò)誤或無效的大數(shù)據(jù)分析結(jié)果。該文分析了實(shí)現(xiàn)大數(shù)據(jù)安全與隱私保護(hù)所面臨的技術(shù)挑戰(zhàn),整理了若干關(guān)鍵技術(shù)及其最新進(jìn)展。分析指出大數(shù)據(jù)在引入安全問題的同時(shí),也是解決信息安全問題的有效手段。它為信息安全領(lǐng)域的發(fā)展帶來了新的契機(jī)。大數(shù)據(jù)帶來了新的安全問題,但它自身也是解決問題的重要手段。本文從大數(shù)據(jù)的隱私保護(hù)、信任、訪問控制等角度出發(fā),梳理了當(dāng)前大數(shù)據(jù)安全與隱私保護(hù)相關(guān)關(guān)鍵技術(shù)。但總體上來說,當(dāng)前國內(nèi)外針對大數(shù)據(jù)安全與隱私保護(hù)的相關(guān)研究還不充分。只有通過技術(shù)手段與相關(guān)政策法規(guī)等相結(jié)合,才能更好地解決大數(shù)據(jù)安全與隱私保護(hù)問題。前面列舉了部分當(dāng)前基于大數(shù)據(jù)的信息安全技術(shù),未來必將涌現(xiàn)出更多、更豐富的安全應(yīng)用和安全服務(wù)。由于此類技術(shù)以大數(shù)據(jù)分析為基礎(chǔ),因此如何收集、存儲(chǔ)和管理大數(shù)據(jù)就是相關(guān)企業(yè)或組織所面臨的核心問題。除了極少數(shù)企業(yè)有能力做到之外,對于絕大多數(shù)信息安全企業(yè)來說,更為現(xiàn)實(shí)的方式是通過某種方式獲得大數(shù)據(jù)服務(wù),結(jié)合自己的技術(shù)特色領(lǐng)域,對外提供安全服務(wù)。一種未來的發(fā)展前景是,以底層大數(shù)據(jù)服務(wù)為基礎(chǔ),各個(gè)企業(yè)之間組成相互依賴、相互支撐的信息安全服務(wù)體系,總體上形成信息安全產(chǎn)業(yè)界的良好生態(tài)環(huán)境。在認(rèn)證技術(shù)中引入大數(shù)據(jù)分析則能夠有效地解決這兩個(gè)問題?;诖髷?shù)據(jù)的認(rèn)證技術(shù)指的是收集用戶行為和設(shè)備行為數(shù)據(jù),并對這些數(shù)據(jù)進(jìn)行分析,獲得用戶行為和設(shè)備行為的特征,進(jìn)而通過鑒別操作者行為及其設(shè)備行為來確定其身份。這與傳統(tǒng)認(rèn)證技術(shù)利用用戶所知秘密,所持有憑證,或具有的生物特征來確認(rèn)其身份有很大不同。
來源出版物:計(jì)算機(jī)學(xué)報(bào), 2014, 37(1): 246-258
入選年份:2015
基于開放網(wǎng)絡(luò)知識(shí)的信息檢索與數(shù)據(jù)挖掘
王元卓,賈巖濤,劉大偉,等
摘要:目的:網(wǎng)絡(luò)大數(shù)據(jù)是指“人、機(jī)、物”三元世界在網(wǎng)絡(luò)空間(cyberspace)中交互、融合所產(chǎn)生并在互聯(lián)網(wǎng)上可獲得的大數(shù)據(jù)。這些數(shù)據(jù)具有多源異構(gòu)、交互性、時(shí)效性、社會(huì)性、突發(fā)性和高噪聲等特點(diǎn),不但非結(jié)構(gòu)化數(shù)據(jù)多,而且數(shù)據(jù)的實(shí)時(shí)性強(qiáng)。網(wǎng)絡(luò)大數(shù)據(jù)背后蘊(yùn)含著豐富的、復(fù)雜關(guān)聯(lián)的知識(shí)。建立面向開放網(wǎng)絡(luò)的知識(shí)庫,是獲取網(wǎng)絡(luò)大數(shù)據(jù)中的豐富知識(shí)的有效手段。本文分析了主流開放網(wǎng)絡(luò)知識(shí)庫的構(gòu)建的主要特點(diǎn),論述了開放網(wǎng)絡(luò)知識(shí)庫在信息檢索和知識(shí)挖掘方面的主要作用,并介紹了當(dāng)前知名系統(tǒng)和應(yīng)用的情況。最后對開放網(wǎng)絡(luò)知識(shí)庫的研究與應(yīng)用面臨的挑戰(zhàn)和未來研究的重點(diǎn)進(jìn)行了展望。方法和結(jié)果:在開放網(wǎng)絡(luò)知識(shí)庫構(gòu)建方面,本文從開放網(wǎng)絡(luò)知識(shí)庫的構(gòu)建、多源知識(shí)的融合以及知識(shí)庫的更新3個(gè)方面,對當(dāng)前國內(nèi)外主要的開放網(wǎng)絡(luò)庫進(jìn)行了比較。具體的講,本文主要論述了開放網(wǎng)絡(luò)知識(shí)庫的自動(dòng)構(gòu)建的兩種方法,即有監(jiān)督的構(gòu)建方法和半監(jiān)督的構(gòu)建方法。列舉了包括KnowItAll,TextRunner,NELL,Probase這些典型的通過半監(jiān)督的構(gòu)建方法構(gòu)建知識(shí)庫的具體流程。在多源知識(shí)的融合方面,本文介紹了以YAGO和Probase為代表的、建立在機(jī)器學(xué)習(xí)算法之上的、可擴(kuò)展的融合方法。在知識(shí)庫的更新方面,本文介紹了以NELL和YAGO為代表的兩類知識(shí)庫更新方法,即基于知識(shí)庫構(gòu)建人員的更新和基于知識(shí)庫存儲(chǔ)的時(shí)空信息的更新。在基于開放網(wǎng)絡(luò)知識(shí)庫的信息檢索方面,本文從用戶意圖理解、查詢擴(kuò)展、語義問答3個(gè)方面展開論述,并就線索挖據(jù)、關(guān)系推理以及關(guān)系和屬性預(yù)測這3個(gè)基于開放網(wǎng)絡(luò)知識(shí)庫數(shù)據(jù)挖掘方向進(jìn)行了回顧。最后,本文分析比較了兩類基于開放網(wǎng)絡(luò)知識(shí)庫的代表性的智能搜索引擎,即人物關(guān)系搜索和知識(shí)關(guān)系搜索的特點(diǎn)。并就流行趨勢分析、排名關(guān)鍵詞分析、統(tǒng)計(jì)分析這3類代表性的商業(yè)情報(bào)分析系統(tǒng)進(jìn)行了論述。結(jié)論:基于開放網(wǎng)絡(luò)大數(shù)據(jù)的知識(shí)庫為人們深入利用網(wǎng)絡(luò)大數(shù)據(jù)的價(jià)值提供有效的途徑。目前,雖然在國內(nèi)外已經(jīng)有了一些以開放網(wǎng)絡(luò)數(shù)據(jù)為基礎(chǔ)的知識(shí)庫,并興起了一些新興的應(yīng)用,但無論知識(shí)庫的構(gòu)建、更新,還是應(yīng)用都還不能完美地滿足人們的應(yīng)用需求,也就意味著每個(gè)方向都有極具挑戰(zhàn)性的工作。本文從5個(gè)方面,即開放網(wǎng)絡(luò)知識(shí)庫的創(chuàng)建和更新中融入群體智慧,開放網(wǎng)絡(luò)知識(shí)庫的實(shí)時(shí)感知與自動(dòng)更新,通用知識(shí)庫與領(lǐng)域知識(shí)庫相結(jié)合實(shí)現(xiàn)有效跨庫映射,實(shí)現(xiàn)知識(shí)庫的跨語言融合,通過計(jì)算實(shí)現(xiàn)對潛在知識(shí)的推斷和未來趨勢的預(yù)測對下一步的工作進(jìn)行了展望。
來源出版物:計(jì)算機(jī)研究與發(fā)展, 2015, 52(2): 456-474
入選年份:2015
求解VLSI電路劃分問題的混合粒子群優(yōu)化算法
郭文忠,陳國龍,熊乃學(xué),等
摘要:目的:電路劃分是VLSI物理設(shè)計(jì)過程中的一個(gè)關(guān)鍵階段,該問題本質(zhì)上是一個(gè)NP困難的組合優(yōu)化問題。針對此問題。本文針對VLSI電路劃分問題,采用一種帶FM策略混合粒子群優(yōu)化算法,同時(shí)將遺傳算法的交叉和變異算子融入其中,以進(jìn)一步增強(qiáng)整個(gè)算法的搜索能力,進(jìn)而求解給定電路的最優(yōu)劃分。方法:本文提出了一種帶FM策略的混合粒子群優(yōu)化算法,采用一種0-1結(jié)構(gòu)的離散化粒子編碼方式,設(shè)計(jì)了一種以劃分后子集間最小切割線網(wǎng)數(shù)為目標(biāo)的粒子適應(yīng)度評(píng)估函數(shù),同時(shí)引入遺傳算法的兩點(diǎn)交叉算子和隨機(jī)兩點(diǎn)交換變異算子,保證了粒子在位置更新后依然可行。為提高算法的局部搜索能力,將具有較強(qiáng)局部搜索能力的FM策略融入算法的位置更新,設(shè)計(jì)了種群多樣性變異策略,提高種群多樣性,避免易陷入局部最優(yōu)的缺陷。最后通過對ISCAS89標(biāo)準(zhǔn)測試電路進(jìn)行仿真實(shí)驗(yàn),結(jié)果表明所構(gòu)造算法的可以取得非常出色的劃分解。結(jié)果:為了評(píng)價(jià)和分析本文提出算法的性能,我們采用主頻為2.00 GHz的PC機(jī)在MATLAB環(huán)境下對經(jīng)典的FM電路劃分算法、DPSO算法、僅帶有FM局部交換策略的DPSO算法(discrete particle swarm optimization with FM,簡稱FDPSO)及本文最終構(gòu)造的帶有FM局部交換策略和多樣性變異策略的DPSO算法(discrete particle swarm optimization with FM and diversity mutation,簡稱FDPSOM)等多個(gè)算法進(jìn)行了一系列的仿真實(shí)驗(yàn)。第一,實(shí)驗(yàn)結(jié)果表明,本文在DPSO算法的每代粒子更新部分混合了基于FM的局部交換策略后形成的FDPSO算法,首先提高了DPSO算法的局部搜索效果,降低了搜索的盲目性,使得FDPSO算法在電路劃分問題上比DPSO算法具有了更好的收斂效果和更快的收斂速度;其次,F(xiàn)DPSO算法劃分各電路所得的平均解上優(yōu)于FM算法取得的結(jié)果,這主要是由于DPSO算法比FM算法具有更高的全局搜索能力,進(jìn)而證明DPSO算法上混合基于FM的局部交換策略對求解電路劃分問題是行之有效的。第三,實(shí)驗(yàn)證明FDPSO算法的收斂速度以及收斂效果均顯著優(yōu)于DPSO算法,從而也驗(yàn)證了在DPSO算法上加入基于FM的局部交換策略的有效性。對于FDPSOM算法和FDPSO算法的比較,從以一定收斂速度的損失來換取能夠得到明顯更優(yōu)的劃分結(jié)果的能力方面來說,F(xiàn)DPSOM算法比FDPSO算法對于求解電路劃分問題是更有效的。也就是說,將粒子的多樣性策略融入到FDPSO算法的思想亦行之有效。最后,通過同經(jīng)典的FM算法和基于模擬退火的算法進(jìn)行對比,進(jìn)一步證明了本文所提出的FDPSOM算法的有效性。結(jié)論:為解決VLSI物理設(shè)計(jì)中的電路劃分問題,針對其它眾多優(yōu)化算法存在收斂效果差和收斂速度較慢的缺陷,本文在所構(gòu)造的DPSO算法基礎(chǔ)上,將具有較強(qiáng)局部搜索能力的FM局部交換策略以及粒子多樣性變異策略引入了DPSO算法中,構(gòu)造了一種有效求解電路劃分問題的混合離散粒子群優(yōu)化算法。實(shí)驗(yàn)結(jié)果表明該混合算法在局部求解與全局探索之間取得了較好的平衡,能在較短的時(shí)間內(nèi)獲得比較滿意的劃分結(jié)果,說明了本文對原來DPSO算法所融入的兩種混合策略的可行性和有效性。下一步工作方向是針對多目標(biāo)電路劃分問題,力爭尋求一種多目標(biāo)適應(yīng)度評(píng)價(jià)函數(shù)的有效策略并構(gòu)造一個(gè)有效的、收斂的離散多目標(biāo)粒子群優(yōu)化算法。
來源出版物:軟件學(xué)報(bào), 2011, 22(5): 833-842
入選年份:2015
稀疏表示和貪婪搜索的人臉分類
劉梓,宋曉寧,唐振民
摘要:目的:隨著稀疏表示方法在圖像重建問題中的巨大成功,研究人員提出了一種特殊的分類方法,即基于稀疏表示的分類方法。在稀疏表示分類器框架中,測試樣本被表示成所有訓(xùn)練樣本的線性組合。通過最優(yōu)化方法,可以得到線性方程組的表示系數(shù)。在基于稀疏表示分類器的框架中,稀疏性約束將會(huì)加強(qiáng)編碼向量的鑒別性從而可以提高識(shí)別精度。為了加強(qiáng)樣本間的協(xié)作表示能力以及減弱稀疏分解時(shí)的強(qiáng)約束,本文提出了一種在稀疏分類框架下的迭代剔除機(jī)制和貪婪搜索策略的人臉識(shí)別方法。方法:在研究中發(fā)現(xiàn),不僅僅是稀疏性約束,同時(shí)協(xié)作表示機(jī)制也保證了稀疏分類框架的良好性能。方法:首先在全局稀疏分類框架中將測試樣本表示為所有訓(xùn)練樣本的線性組合。在所述線性組合訓(xùn)練樣本的系數(shù)可視為該訓(xùn)練樣本的權(quán)重。較小的系數(shù)意味著一些訓(xùn)練樣本有較少的貢獻(xiàn),換句話說,這些訓(xùn)練樣本對分類決策并不起決定性作用。因此,在表示測試樣品時(shí)具有較少的貢獻(xiàn)類別的系數(shù)可以分配為零,并且所有剩余的訓(xùn)練樣本的線性組合權(quán)重將被重新評(píng)估。最終剩余的若干翔實(shí)的訓(xùn)練樣本將用來為測試樣本提供最優(yōu)的逼近。同時(shí),在系數(shù)分解的過程中采用最小誤差正交匹配追蹤(Error-Constrained Orthogonal Matching Pursuit,EcOMP)算法,進(jìn)而選擇出貢獻(xiàn)程度大的類別樣本并進(jìn)行分類。結(jié)果:在迭代更新樣本字典的過程中,強(qiáng)化了真實(shí)類別的表示能力,并弱化了分解系數(shù)的強(qiáng)l1約束。在所有的實(shí)驗(yàn)中,正則化參數(shù)的取值為0.001,在ORL、FERET和AR三個(gè)人臉數(shù)據(jù)庫上,本文的識(shí)別率可分別達(dá)到97.88%、67.95%和94.50%,進(jìn)而驗(yàn)證了提出算法的有效性。結(jié)論:本文提出的在稀疏分類框架下的迭代剔除機(jī)制和貪婪搜索策略的人臉識(shí)別方法,在每一次迭代中,利用貪婪搜索的策略將類別剔除,直到剩下的類別數(shù)量滿足預(yù)設(shè)的條件。事實(shí)上,該方法簡化原始的多類別分類問題到相對少的類別分類。最終剩余的樣本將用來構(gòu)成最優(yōu)的線性組合方式并進(jìn)行分類。在動(dòng)態(tài)迭代的機(jī)制中完成了樣本字典的更新,平衡了協(xié)作表示和稀疏約束的關(guān)系,相比較原始的稀疏分類模型有更好的準(zhǔn)確性和穩(wěn)定性。
來源出版物:中國圖象圖形學(xué)報(bào), 2015, 20(1): 39-49
入選年份:2015
任務(wù)并行編程模型研究與進(jìn)展
王蕾,崔慧敏,陳莉,等
摘要:目的:自2005年起,計(jì)算機(jī)處理器設(shè)計(jì)已經(jīng)從單核芯設(shè)計(jì)轉(zhuǎn)向多核芯設(shè)計(jì),通過增加芯片上的并行計(jì)算能力提高處理器性能,多核時(shí)代正式到來。多核芯片的出現(xiàn),計(jì)算機(jī)編程模式面臨著由傳統(tǒng)串行編程模式向新型并行編程模式轉(zhuǎn)變的巨大壓力。人們再也享受不到“免費(fèi)的午餐”,只能通過并行方式來提升串行應(yīng)用程序的性能,程序員開始走向并行編程之路。任務(wù)并行編程模型是近年來多核平臺(tái)上廣泛研究和使用的并行編程模型,旨在簡化并行編程和提高多核利用率。本文綜述了任務(wù)并行編程模型的研究背景、研究意義、最新研究成果以及目前面臨的主要問題和困難,并探討其未來的研究方向,試圖為該研究方向勾畫出一個(gè)較為全面和清晰的概貌,為并行編程模型和編程環(huán)境等相關(guān)領(lǐng)域的研究者提供有益的參考。方法:首先對現(xiàn)有的國內(nèi)外任務(wù)并行編程模型相關(guān)文獻(xiàn)和技術(shù)文檔進(jìn)行廣泛收集和整理。在此基礎(chǔ)上從編程接口和運(yùn)行時(shí)支持兩方面對現(xiàn)有工作進(jìn)行綜述,確定任務(wù)并行編程模型研究領(lǐng)域的主要問題和關(guān)鍵性技術(shù)等。最后圍繞提取出的核心問題將現(xiàn)有文獻(xiàn)進(jìn)行歸納和總結(jié)。結(jié)果:(1)介紹任務(wù)并行編程模型的基本概念和系統(tǒng)框架,提取出3個(gè)核心問題。該編程模型把任務(wù)作為并行的基本單位,為程序員提供任務(wù)劃分和同步的編程接口。程序員可以把應(yīng)用程序劃分出大量細(xì)粒度任務(wù)。然而,具體到每個(gè)任務(wù)在哪個(gè)物理核上執(zhí)行、任務(wù)間到底是并行執(zhí)行還是串行執(zhí)行、以及如何實(shí)現(xiàn)任務(wù)之間的同步則由運(yùn)行時(shí)系統(tǒng)完成。并行性表達(dá)、數(shù)據(jù)管理和任務(wù)調(diào)度是該編程模型的3個(gè)核心問題。(2)并行性表達(dá)。任務(wù)并行編程模型提供顯式的任務(wù)劃分和同步編程接口,除了支持非規(guī)則并行的嵌套并行控制結(jié)構(gòu)以外,最新研究成果還包括支持沒有迭代間依賴的forall并行、歸約并行和scan并行等循環(huán)并行控制結(jié)構(gòu);放松了嵌套并行中父子任務(wù)關(guān)系,支持尾端嚴(yán)格特性;高效支持無條件原子塊結(jié)構(gòu)和有條件原子塊結(jié)構(gòu);以及引入層次移相器,支持性能可擴(kuò)展的同步和歸約。(3)數(shù)據(jù)管理。任務(wù)并行編程模型把數(shù)據(jù)分為共享和私有兩種,通過共享數(shù)據(jù)進(jìn)行通信。但有些數(shù)據(jù)是部分任務(wù)共享,或者一個(gè)線程內(nèi)執(zhí)行的所有任務(wù)共享,因此需要對數(shù)據(jù)進(jìn)一步區(qū)分共享范圍,需要研究如何高效實(shí)現(xiàn)不同級(jí)別的共享數(shù)據(jù)。最新研究成果包括Cilk++提供的超級(jí)對象,使多個(gè)任務(wù)能互不影響地訪問全局變量;提供常用的并發(fā)數(shù)據(jù)結(jié)構(gòu),使用細(xì)粒度鎖或lock-free技術(shù)等方法進(jìn)行實(shí)現(xiàn),保證線程安全的同時(shí)得到并行加速比;提供鎖外協(xié)助技術(shù),降低鎖等待時(shí)間。(4)任務(wù)調(diào)度。該編程模型提供隱式的任務(wù)映射機(jī)制,運(yùn)行時(shí)系統(tǒng)負(fù)責(zé)任務(wù)調(diào)度,把邏輯任務(wù)映射到物理線程上去執(zhí)行,采用任務(wù)竊取調(diào)度算法獲得負(fù)載平衡,提高執(zhí)行效率。任務(wù)竊取調(diào)度算法的研究分為3個(gè)階段,理論研究階段是從20世紀(jì)90年代到21世紀(jì)初,研究共享存儲(chǔ)多處理器(SMP)架構(gòu)上的多線程任務(wù)竊取調(diào)度算法,為任務(wù)竊取奠定理論基礎(chǔ);算法實(shí)現(xiàn)方面的優(yōu)化階段是從2006年開始至今,研究多核平臺(tái)上任務(wù)竊取實(shí)現(xiàn)方面的優(yōu)化,主要包括控制任務(wù)粒度和局部性敏感的任務(wù)調(diào)度研究以及任務(wù)隊(duì)列改進(jìn)的研究;目前正在研究面向處理器結(jié)構(gòu)特點(diǎn)的任務(wù)調(diào)度,包括眾核和集群上的任務(wù)竊取關(guān)鍵技術(shù)研究。結(jié)論:經(jīng)過15年的發(fā)展,任務(wù)并行機(jī)制已被大量的并行語言所支持?,F(xiàn)有的任務(wù)并行機(jī)制已經(jīng)能表達(dá)更寬泛的并行性,且支持多種數(shù)據(jù)屬性的管理,任務(wù)調(diào)度技術(shù)得到深入研究,已經(jīng)能適應(yīng)各種不同的應(yīng)用類型。但最近幾年,硬軟件發(fā)生變化,任務(wù)并行編程模型還需要在以下方面進(jìn)行深入研究:(1)針對NUMA結(jié)構(gòu)的多路多核處理器,需要考慮數(shù)據(jù)分布的編程接口以及運(yùn)行時(shí)支持;(2)針對異構(gòu)平臺(tái),需要考慮提供數(shù)據(jù)分布和通信的編程接口以及相關(guān)優(yōu)化的支持;(3)針對新興的非規(guī)則應(yīng)用,需要提供更豐富的數(shù)據(jù)管理組件提高可編程性。
來源出版物:軟件學(xué)報(bào), 2015, 24(1): 77-90
入選年份:2015
城市道路交通數(shù)據(jù)可視分析綜述
姜曉睿,田亞,蔣莉,等
摘要:目的:交通問題與各行業(yè)各階層息息相關(guān),是困擾現(xiàn)代大都市的世界性難題。車流的激增帶來交通擁堵、尾氣排放等經(jīng)濟(jì)、環(huán)境問題,同時(shí)也是導(dǎo)致交通事故頻發(fā)的原因之一。與此同時(shí),GPS地理感知設(shè)備所提供的大量定位數(shù)據(jù)為人們感知城市交通和生活脈搏提供了新的機(jī)會(huì)。通過智能交互手段分析大量個(gè)體車輛GPS時(shí)空數(shù)據(jù),可以為診斷城市交通問題、挖掘人群出行模式提供便利。這也是智能交通研究的主要內(nèi)容之一,為此,本文全面回顧了自信息可視化和可視分析興起以來城市交通數(shù)據(jù)可視分析領(lǐng)域的研究現(xiàn)狀。方法:首先簡要敘述了交通數(shù)據(jù),主要是交通GPS軌跡數(shù)據(jù)的預(yù)處理技術(shù),即軌跡數(shù)據(jù)清洗、軌跡數(shù)據(jù)校準(zhǔn)、軌跡數(shù)據(jù)化簡等。然后,從道路交通流量、交通事件分析和其他交通(公共汽車、地鐵、出租車等)問題分析兩個(gè)方面,按照數(shù)據(jù)的類型及問題的分類探討交通領(lǐng)域的可視化技術(shù)和可視分析系統(tǒng)。最后,簡要回顧了近一年來出現(xiàn)的新研究趨勢。結(jié)果:早期研究注重對道路流量的可視化展示方案,主要方法有箭頭圖、馬賽克圖和軌跡墻等。隨著可視分析手段的豐富,對城市道路交通流量的分析層次上升到交通事件層面,但是交通事件的定義僅局限于交通擁堵。應(yīng)用可視分析的其他交通問題領(lǐng)域包括公共交通、交通事故和人群出行行為等。近年出現(xiàn)了挖掘和利用交通軌跡或交通事件的社會(huì)屬性或稱環(huán)境上下文信息,以及將可視化和地圖視圖有機(jī)地結(jié)合起來的研究新趨勢。結(jié)論從對交通流量的可視化到交通事件的可視分析,從面向道路交通狀況到與交通相關(guān)的其他社會(huì)性問題,單純反映路況的交通數(shù)據(jù)到富含社會(huì)性語義的多源數(shù)據(jù),從傳統(tǒng)的PC端可視化和交互范式到新型的可視化展示介質(zhì),交通數(shù)據(jù)可視化領(lǐng)域的研究在深度和廣度上都得到大大拓展,未來該領(lǐng)域的研究趨勢也體現(xiàn)于其中。
來源出版物:中國圖象圖形學(xué)報(bào), 2015, 20(4): 454-467
入選年份:2015
基于OpenFlow的SDN技術(shù)研究
左青云,陳鳴,趙廣松,等
摘要:目的:軟件定義網(wǎng)絡(luò)(Software-Defined Networking,簡稱SDN)技術(shù)分離了網(wǎng)絡(luò)的控制平面和數(shù)據(jù)平面,為研發(fā)網(wǎng)絡(luò)新應(yīng)用和未來互聯(lián)網(wǎng)技術(shù)提供了一種新的解決方案。當(dāng)前SDN技術(shù)尚處于起步階段,它由斯坦福大學(xué)的OpenFlow概念發(fā)展而來,目前已在學(xué)術(shù)界和工業(yè)界引起廣泛關(guān)注。為更好的研究和推廣SDN技術(shù),本文綜述了基于OpenFlow的SDN技術(shù)發(fā)展現(xiàn)狀。方法:首先總結(jié)了邏輯控制和數(shù)據(jù)轉(zhuǎn)發(fā)分離架構(gòu)的研究背景,介紹了IETF的ForCES概念、Greenberg的4D架構(gòu)、Caesar提出的RCP平臺(tái)、斯坦福大學(xué)Casado等人的SANE和Ethane系統(tǒng),列舉了OpenFlow和SDN技術(shù)在當(dāng)前學(xué)術(shù)界和工業(yè)界的相關(guān)研究項(xiàng)目。從OpenFlow的基本架構(gòu)入手,介紹了OpenFlow交換機(jī)、控制器等關(guān)鍵組件,并引出SDN基礎(chǔ)設(shè)施層、控制層、應(yīng)用層的三層架構(gòu)。然后從4個(gè)方面分析了基于OpenFlow的SDN技術(shù)目前面臨的問題和解決思路。結(jié)合近年來的發(fā)展現(xiàn)狀,歸納了SDN技術(shù)在校園網(wǎng)、數(shù)據(jù)中心以及面向網(wǎng)絡(luò)管理和網(wǎng)絡(luò)安全方面的應(yīng)用,并深入探討未來研究趨勢。結(jié)果:基于OpenFlow的SDN在技術(shù)、運(yùn)作模式和演進(jìn)趨勢上還存在以下幾個(gè)問題:(1)SDN轉(zhuǎn)發(fā)平面的設(shè)計(jì)問題。OpenFlow交換機(jī)作為SDN轉(zhuǎn)發(fā)平面抽象的實(shí)際載體,協(xié)議標(biāo)準(zhǔn)處在更新和完善過程當(dāng)中。隨著OpenFlow規(guī)范的不斷發(fā)布,OpenFlow交換機(jī)流表從最初的單表結(jié)構(gòu)變?yōu)槎啾斫Y(jié)構(gòu),流表項(xiàng)匹配字段從最初的十元組到支持IPv6,MPLS等,這些都表明SDN轉(zhuǎn)發(fā)平面功能的逐漸擴(kuò)展,意味著OpenFlow交換機(jī)結(jié)構(gòu)設(shè)計(jì)的復(fù)雜化,因此必須認(rèn)識(shí)到由此帶來的新的問題和挑戰(zhàn)。(2)控制平面的可擴(kuò)展性。隨著網(wǎng)絡(luò)規(guī)模的增大和業(yè)務(wù)需求的增加,可以從橫向擴(kuò)展和縱向擴(kuò)展兩個(gè)方面來增加可擴(kuò)展性。橫向擴(kuò)展通過修改OpenFlow交換機(jī)的處理流程或硬件架構(gòu),給OpenFlow交換機(jī)增加部分控制功能來實(shí)現(xiàn);縱向擴(kuò)展通過多控制器的分布式管控平面,實(shí)現(xiàn)分域管控網(wǎng)絡(luò),從而在控制器之間實(shí)現(xiàn)狀態(tài)分發(fā)過程。(3)SDN控制邏輯的一致性。控制平面的分離、網(wǎng)絡(luò)狀態(tài)分發(fā)機(jī)制、控制平面和數(shù)據(jù)平面之間可能存在的時(shí)延,都難以保證控制邏輯更新的一致性,有可能造成網(wǎng)絡(luò)出現(xiàn)斷路、丟包、環(huán)路等現(xiàn)象??梢钥紤]從狀態(tài)更新機(jī)制、時(shí)延監(jiān)控等方面研究控制邏輯一致性的實(shí)際需求。(4)運(yùn)作模式和演進(jìn)趨勢問題。SDN技術(shù)顛覆了網(wǎng)絡(luò)設(shè)備的設(shè)計(jì)理念,帶來了新的市場需求,同時(shí)也對傳統(tǒng)的網(wǎng)絡(luò)設(shè)備制造商提出了挑戰(zhàn)。OpenFlow自身設(shè)計(jì)標(biāo)準(zhǔn)的不穩(wěn)定性和轉(zhuǎn)發(fā)設(shè)備硬件的復(fù)雜化趨勢,也為SDN技術(shù)的演進(jìn)趨勢帶來了不確定性。結(jié)論:基于OpenFlow的SDN技術(shù)的未來研究重點(diǎn)和發(fā)展趨勢包括以下幾個(gè)方向:(1)OpenFlow標(biāo)準(zhǔn)的發(fā)布和控制器軟件的開發(fā)。(2)OpenFlow并不是支撐SDN技術(shù)的唯一標(biāo)準(zhǔn),但基于OpenFlow實(shí)現(xiàn)SDN將是未來發(fā)展趨勢。(3)基于OpenFlow實(shí)現(xiàn)的網(wǎng)管和安全功能主要集中在接入控制、流量轉(zhuǎn)發(fā)和負(fù)載均衡等方面,而在安全性機(jī)制設(shè)計(jì)、異常檢測和惡意攻擊防護(hù)等方面都可以進(jìn)行更深入的研究。(4)SDN控制轉(zhuǎn)發(fā)分離的技術(shù)特點(diǎn)滿足了數(shù)據(jù)中心密集型服務(wù)器需要集中管控的需求,將在數(shù)據(jù)中心中發(fā)揮更大的作用。(5)Onix為SDN的大規(guī)模部署提供了技術(shù)指導(dǎo),SDN在未來將進(jìn)一步應(yīng)用于廣域網(wǎng)。(6)當(dāng)前各國都已展開未來互聯(lián)網(wǎng)研究,基于OpenFlow的SDN技術(shù)有可能發(fā)展成為面向未來互聯(lián)網(wǎng)的新型設(shè)計(jì)標(biāo)準(zhǔn)。
來源出版物:軟件學(xué)報(bào), 2013, 24(5): 1078-1097
入選年份:2015