亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        攝影測(cè)量與深度學(xué)習(xí)

        2018-06-25 03:13:50龔健雅季順平
        測(cè)繪學(xué)報(bào) 2018年6期
        關(guān)鍵詞:神經(jīng)元網(wǎng)絡(luò)卷積攝影

        龔健雅,季順平

        武漢大學(xué)遙感信息工程學(xué)院,湖北 武漢 430079

        1 簡(jiǎn) 介

        1.1 攝影測(cè)量學(xué)回顧

        攝影測(cè)量學(xué)是一門“利用光學(xué)像片研究被攝物體的形狀、位置、大小、特性及相互位置關(guān)系”的學(xué)科。攝影測(cè)量誕生于19世紀(jì)早期。1838年,物理學(xué)家惠斯頓發(fā)明了實(shí)體鏡,第一次發(fā)現(xiàn)和定義了立體視覺。1839年,法國(guó)畫家達(dá)蓋爾發(fā)明了銀版攝影法,并制作了世界上第一臺(tái)真正的照相機(jī)。在此基礎(chǔ)上,法國(guó)測(cè)量學(xué)家Fourcade首先發(fā)現(xiàn)了用立體照片可重建立體視覺,從而促成了攝影測(cè)量學(xué)的誕生[1]。攝影測(cè)量的第一個(gè)也是最重要的分支是航空攝影測(cè)量。1783年,西方的Montgolfier兄弟發(fā)明熱氣球,并第一次載人航行。1858年,法國(guó)攝影師納達(dá)爾乘坐氣球拍攝了世界上第一張航空影像。1903,萊特兄弟發(fā)明世界上第一架螺旋槳飛機(jī)。這些飛行技術(shù)的發(fā)展促成了能夠大范圍測(cè)圖的航空攝影測(cè)量。而此前,人們只能利用大地測(cè)量技術(shù)進(jìn)行測(cè)圖。例如著名的數(shù)學(xué)家高斯繪制漢諾威公國(guó)的地圖就花了30年。

        20世紀(jì)開始后,物理和電子技術(shù)的進(jìn)步持續(xù)推動(dòng)著攝影測(cè)量的發(fā)展。1957年,第一顆衛(wèi)星被發(fā)射到外太空,開啟了衛(wèi)星攝影測(cè)量與遙感研究領(lǐng)域。1960年開始,迅猛發(fā)展的計(jì)算機(jī)以及專業(yè)的解析測(cè)圖儀使攝影測(cè)量進(jìn)入解析攝影測(cè)量時(shí)代。光線的重現(xiàn)和交會(huì)不再依賴于此前的光學(xué)模擬儀器(60年代之前也因此稱為模擬攝影測(cè)量時(shí)代),而是以虛擬形式在計(jì)算機(jī)中實(shí)現(xiàn)。根據(jù)愛因斯坦的光量子假說和光電效應(yīng),1973年貝爾實(shí)驗(yàn)室的博伊爾和史密斯發(fā)明了電荷耦合器件(charge coupled device,CCD)[2],促成數(shù)碼相機(jī)和數(shù)字?jǐn)z影測(cè)量時(shí)代的誕生。90年代末,無人機(jī)航攝逐漸興起,其便捷、廉價(jià)的特性,是傳統(tǒng)航攝的有益補(bǔ)充。2000年前后,各國(guó)陸續(xù)開始深空探測(cè)項(xiàng)目,比如中國(guó)的嫦娥登月和美國(guó)的火星探測(cè)。此外,地面測(cè)量、地下測(cè)量、水下測(cè)量、彈道測(cè)量、工業(yè)測(cè)量等也是攝影測(cè)量常見的應(yīng)用研究領(lǐng)域。

        在研究?jī)?nèi)容上,攝影測(cè)量以二維像片和被攝三維物體的幾何關(guān)系為主流方向。在理論方法上,沿用笛卡兒開辟的解析幾何,用代數(shù)方程表達(dá)二維或三維笛卡兒坐標(biāo)系中所描繪的幾何圖形。如像點(diǎn)、物點(diǎn)、投影中心三點(diǎn)共線由共線條件方程表達(dá);攝影基線、同名光線共面由核線方程表達(dá)。在模型解算上,由于測(cè)量中觀測(cè)值固有的誤差特性,以誤差處理理論為指導(dǎo)。代表性理論是1795年高斯發(fā)明的最小二乘法和1959年德國(guó)的Schmid提出光束法區(qū)域網(wǎng)平差。此外,由于重建幾何關(guān)系需要提取像片上的同名點(diǎn),一些圖像處理的內(nèi)容也因此成為攝影測(cè)量的研究領(lǐng)域。20世紀(jì)后期,攝影測(cè)量學(xué)者提出了相關(guān)系數(shù)匹配、最小二乘匹配等經(jīng)典立體匹配方法,21世紀(jì)開始,同樣關(guān)注3D幾何重建的計(jì)算機(jī)視覺也更加豐富了匹配方法。

        雖然基于光學(xué)像片的2D/3D幾何關(guān)系是攝影測(cè)量的主流,但根據(jù)攝影測(cè)量的定義,“物體的特性及其相互關(guān)系”,即語義部分也屬于攝影測(cè)量學(xué)的研究?jī)?nèi)容。語義被忽略既有歷史的原因也有技術(shù)上的困難。首先,從20世紀(jì)70年代開始,隨著衛(wèi)星成像技術(shù)的發(fā)展,攝影測(cè)量被擴(kuò)展為攝影測(cè)量與遙感,圖像解譯任務(wù)因之成為遙感的課題。其次,攝影測(cè)量作為應(yīng)用工程學(xué)科,需要為測(cè)繪等領(lǐng)域提供相當(dāng)精度的各類地形圖和專題圖。然而,傳統(tǒng)計(jì)算機(jī)分類和模式識(shí)別的方法難以達(dá)到所謂的“攝影測(cè)量精度(photogrammetric accuracy)”,而通常采用半自動(dòng)或全人工判讀法,所以研究進(jìn)展緩慢。幸運(yùn)的是,以深度學(xué)習(xí)為主流的人工智能方法開辟了關(guān)于“學(xué)習(xí)”的新航道,并把精度提高到前所未及的高度。例如,將恰當(dāng)?shù)纳疃壬窠?jīng)元網(wǎng)絡(luò)架構(gòu)應(yīng)用于航空?qǐng)D像的道路、建筑、水體等地物的自動(dòng)提取,并實(shí)現(xiàn)高精度語義專題圖,將為攝影測(cè)量學(xué)在語義方向的拓展提供新的契機(jī),這也是本文的一個(gè)中心議題。

        1.2 深度學(xué)習(xí)的歷史

        深度學(xué)習(xí)起源于20世紀(jì)中葉的人工智能。人工智能的兩個(gè)主要流派分別是符號(hào)主義(symbolism)和聯(lián)結(jié)主義(connectionism)。其中,符號(hào)主義者在1956年首次提出“人工智能”的概念,并統(tǒng)治了該領(lǐng)域近半個(gè)世紀(jì);基于統(tǒng)計(jì)學(xué)習(xí)的思想被廣泛應(yīng)用于機(jī)器學(xué)習(xí)、計(jì)算機(jī)視覺,以及攝影測(cè)量與遙感。與此對(duì)應(yīng),聯(lián)結(jié)主義起伏不定,經(jīng)歷了低谷,也經(jīng)歷了3次發(fā)展浪潮:20世紀(jì)40年代到60年代的控制論[3]、80年代到90年代的聯(lián)結(jié)主義[4]及2006年之后的“深度學(xué)習(xí)”[5]。

        在控制論時(shí)期,聯(lián)結(jié)主義的代表性名詞是“人工神經(jīng)元網(wǎng)絡(luò)”。事實(shí)上,當(dāng)時(shí)這只是一個(gè)單層的線性模型:根據(jù)輸入變量x、輸出函數(shù)f(x,w)與已知標(biāo)簽y的一一對(duì)應(yīng)關(guān)系,學(xué)習(xí)未知參量w。這種模型(又稱為單層感知機(jī))由于無法學(xué)習(xí)諸如XOR(異或)等非線性函數(shù),而受到以明斯基為首的符號(hào)主義流派的批評(píng);并造成第一次人工神經(jīng)元網(wǎng)絡(luò)的衰退。

        在20世紀(jì)80年代,聯(lián)結(jié)主義的概念被正式提出。當(dāng)時(shí)符號(hào)主義流派依然是主流,但他們也有自己的麻煩:符號(hào)推理模型難以解釋大腦神經(jīng)元的工作原理。而聯(lián)結(jié)主義者認(rèn)為,將大量的簡(jiǎn)單計(jì)算單元連接在一起,就可以實(shí)現(xiàn)智能行為。并提出了“分布式表示”、“后向傳播算法(back propagation)”、“長(zhǎng)短期記憶(long short-term memory,LSTM)”等對(duì)今天的深度學(xué)習(xí)異常重要的思想和概念。然而,到了20世紀(jì)90年代中期,基于神經(jīng)元網(wǎng)絡(luò)的人工智能研究無法滿足商業(yè)界的業(yè)務(wù)化需求,加上諸如SVM[6]等核方法,以及概率圖模型(probabilistic graphic model,PGM)的盛行[7],神經(jīng)元網(wǎng)絡(luò)再次衰退了。

        2006年,Hinton的研究表明,采用一種逐層的貪心算法可實(shí)現(xiàn)深度神經(jīng)元網(wǎng)絡(luò)的訓(xùn)練[8]。而此前,訓(xùn)練一個(gè)多層神經(jīng)網(wǎng)絡(luò)被認(rèn)為是不現(xiàn)實(shí)的。深度學(xué)習(xí)的概念由此浮出水面,新旗幟是:現(xiàn)在已經(jīng)有能力訓(xùn)練一個(gè)深度網(wǎng)絡(luò),并且這個(gè)深度將贏得人工智能方法和實(shí)踐上的突破。2012年,在ImageNet挑戰(zhàn)賽中,深度學(xué)習(xí)的方法奪得第一,并一舉超過傳統(tǒng)機(jī)器學(xué)習(xí)方法10個(gè)百分點(diǎn)[9];而第二至第四名相差不超過1%,顯示了傳統(tǒng)方法的天花板。隨后的大量試驗(yàn)表明,無論在圖像分類、物體識(shí)別、語音識(shí)別、遙感應(yīng)用等關(guān)于學(xué)習(xí)和語義的研究領(lǐng)域,深度學(xué)習(xí)都占據(jù)上風(fēng)。

        符號(hào)主義流派的空間在縮小,但基于概率圖模型[7]的方法也得到了廣泛應(yīng)用。此外,深度學(xué)習(xí)也有自身的缺陷。雖然理論上多層網(wǎng)絡(luò)確實(shí)可能學(xué)習(xí)出最優(yōu)的函數(shù)模型,但它無法解釋該模型如何構(gòu)建以及模型背后的含義,就像暗箱操作一樣。目前,有些學(xué)者試圖發(fā)現(xiàn)其背后的原理。如物理學(xué)者發(fā)現(xiàn)了量子力學(xué)中的重整化技術(shù)與深度學(xué)習(xí)能夠精確對(duì)應(yīng)[10],神經(jīng)科學(xué)和計(jì)算機(jī)科學(xué)家發(fā)現(xiàn)深度學(xué)習(xí)符合一種瓶頸理論[11],即把大量次要信息擠出去,而留下真正有效的信息。當(dāng)然,這些發(fā)現(xiàn)距離完整回答深度神經(jīng)元網(wǎng)絡(luò)如何學(xué)習(xí)仍處在初步階段。

        1.3 攝影測(cè)量與深度學(xué)習(xí)及計(jì)算機(jī)視覺的聯(lián)系

        除了自然語言處理(natural language processing,NLP)[12],深度學(xué)習(xí)的最重要應(yīng)用是在視覺圖像上,如手寫字體識(shí)別[13]、自然圖像分類[9]和檢索等。而攝影測(cè)量的研究對(duì)象就是視覺圖像,因此深度學(xué)習(xí)的成功和蓬勃發(fā)展,使得攝影測(cè)量也成為最受益的學(xué)科之一。

        在幾何上,攝影測(cè)量中的研究?jī)?nèi)容包括:傳感器的定位定姿、從2D像片重建3D幾何。將深度學(xué)習(xí)應(yīng)用于幾何定位目前還未進(jìn)入攝影測(cè)量研究領(lǐng)域,但已經(jīng)出現(xiàn)在密切相關(guān)的計(jì)算機(jī)視覺的分支中:運(yùn)動(dòng)恢復(fù)結(jié)構(gòu)(structure from motion,SfM),以及機(jī)器人學(xué)的分支;同時(shí)定位與地圖構(gòu)建(simultaneous localization and mapping,SLAM)。根據(jù)文獻(xiàn)[14],深度學(xué)習(xí)方法的定位精度目前尚不能同傳統(tǒng)的方法相比,相差約一個(gè)數(shù)量級(jí)。對(duì)于3D重建中的關(guān)鍵技術(shù)密集匹配,深度學(xué)習(xí)已經(jīng)取得很好的應(yīng)用效果。如在KITTI等標(biāo)準(zhǔn)數(shù)據(jù)集上[15],前10名的方法都是深度學(xué)習(xí)方法。不過,雖然SGM等經(jīng)典方法已經(jīng)落在30名開外,但是經(jīng)典方法是通用的,既可以用在自然圖像中,也可以用于航空、航天圖像。而深度學(xué)習(xí)方法則依賴于高精度、可靠的相似數(shù)據(jù)集。目前,完整的3D重建解決方案依然是經(jīng)典方法一統(tǒng)天下。

        在語義上,攝影測(cè)量中的研究?jī)?nèi)容就是采用智能方法為各行業(yè)提供專題圖。攝影測(cè)量的應(yīng)用特性使得它并不關(guān)心諸如特征描述、上下文關(guān)系等中間結(jié)果。這種端到端的模式(end-to-end)特別適用深度學(xué)習(xí)方法。目前,深度學(xué)習(xí)已經(jīng)被廣泛用于遙感圖像的分類、識(shí)別、檢索和提取。與在幾何方面的欠佳表現(xiàn)不同,在語義上基本全面碾壓了傳統(tǒng)的方法。

        最后簡(jiǎn)要討論攝影測(cè)量、深度學(xué)習(xí)及計(jì)算機(jī)視覺的關(guān)系。1982年,Marr發(fā)表《視覺:從計(jì)算的視角研究人的視覺信息表達(dá)與處理》,是計(jì)算機(jī)視覺的開山之作。計(jì)算機(jī)視覺的最初研究:用計(jì)算機(jī)代替人眼,從圖片中重建3D世界。與攝影測(cè)量在幾何方面具有很高的重疊度。20世紀(jì)90年代,在語義方面計(jì)算機(jī)視覺開始蓬勃開展。其中運(yùn)用了大量的機(jī)器學(xué)習(xí)知識(shí)。有學(xué)者分析指出機(jī)器學(xué)習(xí)與計(jì)算機(jī)視覺重疊度約在60%~70%,因此是非常緊密的兩門學(xué)科。隨著深度學(xué)習(xí)成為機(jī)器學(xué)習(xí)的主流,深度學(xué)習(xí)在計(jì)算機(jī)視覺中得到廣泛應(yīng)用。將深度學(xué)習(xí)引入到攝影測(cè)量中,特別是提高攝影測(cè)量后期語義處理的智能水平,是科學(xué)研究發(fā)展的必然途徑。

        2 方 法

        2.1 深度學(xué)習(xí)基本原理

        深度學(xué)習(xí)是“表示學(xué)習(xí)(representation learning)”[16]的一種。表示學(xué)習(xí)的最大特點(diǎn)是不需要設(shè)計(jì)人工特征。它指計(jì)算機(jī)根據(jù)一套通用規(guī)則自動(dòng)地學(xué)習(xí)出從輸入到輸出的最優(yōu)特征表示的方法。表示學(xué)習(xí)可用于無監(jiān)督分類,如自編碼器(autoencoder)[17]。而在監(jiān)督學(xué)習(xí)中,深度學(xué)習(xí)是表示學(xué)習(xí)的最佳代表。深度學(xué)習(xí)通過設(shè)定神經(jīng)元網(wǎng)絡(luò)層數(shù)、每層的參數(shù)(隨機(jī)初始化)、迭代規(guī)則等,自動(dòng)學(xué)習(xí)調(diào)整出最優(yōu)的參數(shù)。這些參數(shù)的集合最終構(gòu)成從輸入到輸出的特征表示?;镜亩鄬由窠?jīng)元網(wǎng)絡(luò)稱為前饋神經(jīng)網(wǎng)絡(luò)(feedforward neural network)[18]。

        前饋神經(jīng)網(wǎng)絡(luò)或多層感知機(jī)(multilayer perceptron,MLP)[19]是一種典型的深度學(xué)習(xí)模型。前饋網(wǎng)絡(luò)定義一個(gè)映射y=f(x,w),以x和y為已知條件,通過學(xué)習(xí)參數(shù)w的值,得到某個(gè)最優(yōu)的近似函數(shù)f*。因此,前饋是指:僅由w和f得到輸出y,而y不會(huì)反作用于模型f。若y反饋于f,則稱為循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)[20]。RNN很少應(yīng)用于圖像中,攝影測(cè)量中常用的深度學(xué)習(xí)方法幾乎都是MLP。

        MLP由多個(gè)函數(shù)fi復(fù)合而成:f(x)=fn…(f2(f1(x))),f1稱為第一層,最后一層稱為輸出層,函數(shù)鏈的全長(zhǎng)n稱為網(wǎng)絡(luò)的深度。在最后一層上,模型要求fn的輸出接近于給定的標(biāo)簽y;在其他層上,訓(xùn)練數(shù)據(jù)〈x,y〉并未指出應(yīng)該如何訓(xùn)練,這些層被稱為隱藏層。基于深度學(xué)習(xí)的方法就是采用“表示學(xué)習(xí)”的策略去主動(dòng)地學(xué)習(xí)各層的參數(shù)模型而非傳統(tǒng)的手工設(shè)計(jì)。

        當(dāng)f作為一個(gè)線性模型時(shí),它無法訓(xùn)練諸如XOR等非線性模型[21]。因此,在隱藏層中,需要擴(kuò)展為一個(gè)非線性的函數(shù),通常稱為激活函數(shù)σ。激活的概念來自人類的神經(jīng)元作用機(jī)理:將0看作不激活,1看作激活,則組成一個(gè)簡(jiǎn)單的非線性系統(tǒng)。目前,最常用的激活函數(shù)是整流線性單元(rectified linear unit,ReLU)[22],即x′=max(0,x)。此時(shí),一個(gè)典型的fi就是一個(gè)線性仿射變換再加上一個(gè)激活

        fi(x,w,b)=σ(wx+b)=max(0,wx+b)

        式中,w稱為權(quán)重模板或核函數(shù);b稱為偏置。在加上了這個(gè)非線性激活函數(shù)后,通過二層或以上的神經(jīng)元網(wǎng)絡(luò)就可以學(xué)習(xí)出XOR等復(fù)雜的非線性模型。

        輸出層函數(shù)fout要保證模型的輸出y′與其對(duì)應(yīng)的標(biāo)簽y盡可能一致。在攝影測(cè)量中的光束法平差中,通常取p-范式|y-y′|p最小(通常p=2),并稱之為代價(jià)函數(shù)。在深度學(xué)習(xí)中,也稱為代價(jià)函數(shù),或者損失函數(shù)(loss function)。除了最小化p-范式外,由最大似然估計(jì)導(dǎo)出的、給定樣本與期望模型間的交叉熵也是常用的代價(jià)函數(shù)[23]。即

        fout=L(y,y′)=-1/n∑[yln(y′)+

        (1-y)ln(1-a)]

        此外,和平差中的L-M算法[24]類似,對(duì)于損失函數(shù)也要考慮收斂性的問題。故常用的代價(jià)函數(shù)也包含正則化項(xiàng)

        J=L(y,y′)+λφ(w,b)

        式中,y為標(biāo)簽;y′為模型的輸出;L為損失函數(shù);J為總代價(jià)函數(shù);φ為正則化函數(shù)。

        與光束法平差一樣,要設(shè)定參數(shù)w和b的初始化及迭代規(guī)則。通過學(xué)者們的研究,w可初始化為隨機(jī)小數(shù)。隨機(jī)初值經(jīng)過前饋網(wǎng)絡(luò)傳播后,得到的輸出y′顯然與標(biāo)簽y相距甚遠(yuǎn)。一個(gè)直觀的想法是通過代價(jià)函數(shù)來反向逐層調(diào)整隱藏層中的參量w與b。這就是著名的梯度反向傳播和鏈?zhǔn)椒▌t[25]。標(biāo)量的鏈?zhǔn)椒▌t表達(dá)如下

        式中,z=f(g(x))=f(y)。擴(kuò)展到神經(jīng)元網(wǎng)絡(luò)中常用的矢量形式,即z=f(g(x))=f(y),鏈?zhǔn)椒▌t變?yōu)?/p>

        將z理解為頂層的代價(jià)函數(shù)J,將x看作隱藏層中待修正的參量w和b;則得到z相對(duì)于每個(gè)參量的梯度。用高斯-牛頓法解算光束法平差時(shí),其迭代的步驟是x′=x+dx,即直接加上改正數(shù)。而在深度學(xué)習(xí)中,無法直接得到最優(yōu)的改正數(shù)dx。通常的思路是:梯度自身反映了參量該向哪個(gè)方向修正,但并不確定具體的修正值;因此,在梯度的基礎(chǔ)上,乘以一個(gè)很小的學(xué)習(xí)率λ,作為每次的迭代值

        wi=wi+λdwi

        給定足夠的訓(xùn)練樣本,經(jīng)過數(shù)百次乃至千萬次的迭代訓(xùn)練(只要時(shí)間足夠長(zhǎng)),基于前饋神經(jīng)元網(wǎng)絡(luò)的深度學(xué)習(xí)期望得到一組最優(yōu)參量w和b,使得代價(jià)函數(shù)最小。

        以上通過攝影測(cè)量中的光束法平差為類比,簡(jiǎn)單介紹了深度神經(jīng)元網(wǎng)絡(luò)的一些本質(zhì)的概念和方法。

        2.2 深度卷積神經(jīng)元網(wǎng)絡(luò)

        2012年,Hinton課題組的一篇論文《基于卷積神經(jīng)元網(wǎng)絡(luò)的Imagenet分類》[9]引爆了整個(gè)機(jī)器學(xué)習(xí)和人工智能領(lǐng)域,也是至今為止深度學(xué)習(xí)中引用率最高的論文之一。卷積神經(jīng)元網(wǎng)絡(luò)(convolutional neural network,CNN)是一種特殊的前饋神經(jīng)元網(wǎng)絡(luò),指那些至少在網(wǎng)絡(luò)的某一層中采用卷積運(yùn)算代替一般矩陣乘法的網(wǎng)絡(luò)[26]。事實(shí)上,CNN與攝影測(cè)量的關(guān)系也同樣密切。在攝影測(cè)量中,影像相關(guān)是一個(gè)入門級(jí)的概念,指判別圖像間相似度的一種計(jì)算方法。相關(guān)(correlation)本質(zhì)上就是卷積,或者說是卷積的一種變種,都屬于線性時(shí)不變系統(tǒng)[27]。這兩個(gè)概念的微小差異僅在于是否翻轉(zhuǎn)模板。請(qǐng)注意,在深度學(xué)習(xí)中,常將相關(guān)也寫作卷積。

        除了擁有前饋神經(jīng)元網(wǎng)絡(luò)的基本特性外,卷積神經(jīng)元網(wǎng)絡(luò)包括三個(gè)明顯的特征:稀疏連接、參數(shù)共享、池化。稀疏連接區(qū)別于傳統(tǒng)神經(jīng)網(wǎng)絡(luò)的全連接。傳統(tǒng)神經(jīng)元網(wǎng)絡(luò)采用矩陣乘法。如m個(gè)像元的圖像,n個(gè)輸出,則需要m×n個(gè)參數(shù)。然而,圖像中興趣特征可能只存在于圖像上的一小塊,而非整個(gè)圖像。這與人眼看物體是一致的,眼睛(連同背后的腦處理機(jī)制)往往只專注于那些突出的特征,而選擇性地忽略掉背景,稱為“局部視野”。如果有k(k?m)個(gè)像元可代表這個(gè)特征,那么,只要采用k個(gè)像元的卷積核,就能提取出該特征。同時(shí),卷積操作的計(jì)算量?jī)H為k×n。

        參數(shù)共享對(duì)減少計(jì)算量和冗余同樣具有積極的意義。以邊緣特征提取為例。在深度學(xué)習(xí)中,系統(tǒng)需要主動(dòng)去學(xué)習(xí)某個(gè)邊緣特征(如水平邊緣),得到某個(gè)恰當(dāng)?shù)木矸e核w。顯然這個(gè)卷積核不但對(duì)某個(gè)圖像上方的水平邊緣敏感,而且對(duì)圖像任何地方的水平邊緣敏感,甚至對(duì)所有的成百上千的輸入圖像中的水平邊緣都敏感。因此,僅需要學(xué)習(xí)一個(gè)卷積核w,就可無數(shù)次重復(fù)使用,以提取出樣本中所有的水平邊緣特征。這就體現(xiàn)了卷積(相關(guān))的作用。而在全連接中,一般不采用參數(shù)共享策略,因此參數(shù)只被使用一次。

        池化是卷積神經(jīng)元網(wǎng)絡(luò)中的一個(gè)必要組成部分。池化是去冗余的一種手段,指采用某個(gè)區(qū)域的統(tǒng)計(jì)量去簡(jiǎn)化該區(qū)域的神經(jīng)元網(wǎng)絡(luò)輸出。如在圖像某處有一個(gè)2×2像素的邊緣,而以此為中心的4×4窗口中不存在其他邊緣。顯然邊緣卷積核在邊緣處有最大的輸出,而在窗口的其他部分輸出幾乎為0。若認(rèn)為沒有必要將背景區(qū)域傳遞到下層,則可采用一種“最大池化”策略[28],即取4×4窗口中的最大的響應(yīng)作為該區(qū)域的輸出,這時(shí)輸出的大小變成2×2窗口。通常,每次池化都會(huì)使得輸入圖像減小,2×2池化對(duì)應(yīng)圖像長(zhǎng)寬都縮小一半。

        到目前為止,卷積神經(jīng)元網(wǎng)絡(luò)受到廣泛研究和巨大推動(dòng)。從2012年的AlexNet[9]開始,涌現(xiàn)了一批先進(jìn)的卷積神經(jīng)元網(wǎng)絡(luò)架構(gòu),如ZFNet[29]、GoogleNet[30]、VGGNet[31]、ResNet[32]等,但CNN的本質(zhì)依然是簡(jiǎn)單優(yōu)雅的:卷積模板提取特征并激活、池化去除背景、前向傳播計(jì)算代價(jià)、后向傳播迭代收斂。圖1是一個(gè)針對(duì)遙感圖像的以VGGNet為模板的CNN實(shí)例。樣本大小為8×8像素,m、n分別代表遙感圖像的波段和時(shí)相。首先設(shè)計(jì)卷積核(即邊緣、顏色、紋理以及更抽象的待學(xué)習(xí)特征)的數(shù)量,32@8×8指從8×8的樣本中提取32個(gè)特征。每一層典型的卷積網(wǎng)絡(luò)包括3個(gè)處理流程:卷積、激活、池化。對(duì)于任意一個(gè)卷積核,在所有的圖像的所有位置進(jìn)行卷積操作;對(duì)于每一個(gè)卷積輸出標(biāo)量,選擇恰當(dāng)?shù)募せ詈瘮?shù)并計(jì)算輸出;最后根據(jù)池化策略,得到本卷積層的輸出。圖1包括3個(gè)卷積層。經(jīng)過三次池化后,圖像的大小已經(jīng)降低為1×1的像素,此后接2個(gè)全連接層,最后一個(gè)全連接層也是輸出層。諸如圖1的看似簡(jiǎn)單的CNN有著巨大的威力,在圖像分類、物體識(shí)別、檢索中基本上全面超越了傳統(tǒng)的機(jī)器學(xué)習(xí)方法。

        2.3 深度學(xué)習(xí)在攝影測(cè)量幾何方面的應(yīng)用和展望

        深度學(xué)習(xí)目前在幾何中主要有兩類應(yīng)用。第一類是用于相機(jī)定位。將幾何定位問題歸結(jié)為深度學(xué)習(xí),首先需要考慮:如何將一個(gè)優(yōu)化問題(同時(shí)也是一個(gè)回歸問題)納入深度學(xué)習(xí)框架。2015年,PoseNet[14]第一次將CNN應(yīng)用到相機(jī)的定位定姿中,可能也是迄今為止唯一較成熟的基于CNN的SLAM系統(tǒng),并在2016年提出基于貝葉斯CNN的新版本[33]。PoseNet采用四元數(shù)表達(dá)角度,因此參數(shù)空間維度為7,即p=[xq]。采用二次范式(即最小二乘),損失函數(shù)表達(dá)為

        β為角度和位置參數(shù)間的量綱比例。對(duì)于一個(gè)分類問題,解空間是類別標(biāo)簽??梢詾槊總€(gè)類別設(shè)定有限的離散標(biāo)簽。然而回歸問題的解空間是無限、連續(xù)的,因此無法采用SoftMax等判決函數(shù)。PoseNet在GoogleNet基礎(chǔ)上進(jìn)行了改進(jìn)。添加一個(gè)2048維度的全連接層,此后再加入一個(gè)7維全連接層,最后將SoftMax層移除并替換為以上損失函數(shù)。PoseNet利用傳統(tǒng)的從運(yùn)動(dòng)恢復(fù)結(jié)構(gòu)的方法(SfM)得到傳感器的位置和姿態(tài),每張圖像對(duì)應(yīng)一個(gè)位置(即標(biāo)簽)。此外,PoseNet也利用了遷移學(xué)習(xí),將ImageNet和Places的訓(xùn)練結(jié)果作為初值參與后繼訓(xùn)練,并提高了定位精度。目前,定位精度分別為戶外2 m和3°,戶內(nèi)0.5 m和5°。距離經(jīng)典的空中三角測(cè)量、SfM和SLAM所能達(dá)到的精度尚有一定的差距。

        圖1 卷積神經(jīng)元網(wǎng)絡(luò)實(shí)例Fig.1 An example of convolutional neural network

        深度學(xué)習(xí)在幾何上的第二個(gè)應(yīng)用是3D重建。根據(jù)2D圖像重建3D場(chǎng)景是攝影測(cè)量與計(jì)算機(jī)視覺共同的本質(zhì)命題。雖然從2D到3D的重建涉及一些圖像處理和特征表示知識(shí),但是它仍屬于一個(gè)幾何問題。密集匹配是3D重建中的關(guān)鍵部分。2016年,Zbontar和LeCun的一篇文章(mc-CNN)[34]是開啟深度學(xué)習(xí)進(jìn)軍立體匹配的代表作。mc-CNN利用CNN來學(xué)習(xí)匹配代價(jià)(matching cost)。傳統(tǒng)的匹配代價(jià)包括亮度絕對(duì)值差異、相關(guān)系數(shù)、歐氏距離、交叉熵等,這些代價(jià)往往不是最優(yōu)的,會(huì)受到亮度突變、視差突變、無紋理或重復(fù)紋理、鏡面反射等影響。而深度學(xué)習(xí)方法試圖通過更復(fù)雜的模式學(xué)習(xí)出對(duì)這些不利因素穩(wěn)健的匹配代價(jià)。最終,這篇文章在KITTI和Middlebury數(shù)據(jù)集上得到了比絕對(duì)亮度差、census和歸一化相關(guān)系數(shù)等匹配代價(jià)更低的錯(cuò)誤率。此后,用深度學(xué)習(xí)進(jìn)行立體匹配成了熱門課題。許多學(xué)者紛紛提出各類匹配算法,如SGM-Net[35]、DispNetC[36]、Content-CNN[37]等。在KITTI測(cè)試集上,前30名幾乎都是深度學(xué)習(xí)算法。自從1982年Marr創(chuàng)立計(jì)算機(jī)視覺開始[38],3D幾何重建就是計(jì)算機(jī)視覺的核心。當(dāng)時(shí)的想法過于浪漫:既然有了Marr理論,實(shí)現(xiàn)3D重建只需一個(gè)夏天。事實(shí)上,直到今天這個(gè)問題也沒有完全解決。雖然計(jì)算機(jī)視覺已經(jīng)開辟廣闊的研究空間,但該學(xué)科的最基本問題依然望而不及。這也解釋了利用深度學(xué)習(xí)進(jìn)行3D重建的熱度所在。除了利用深度神經(jīng)元網(wǎng)絡(luò)學(xué)習(xí)匹配代價(jià),另外一類方法是采用端到端的策略,即從立體像對(duì)直接學(xué)習(xí)出深度圖(視差圖)。2017年,Kendall等提出GC-Net[39]。其核心思想是:將視差看作圖像外的第三維,即處理對(duì)象變成3D張量。然后,由3D卷積學(xué)習(xí)幾何與語義特征,直接得到最優(yōu)的視差圖(即3D張量中的一個(gè)曲面)。相對(duì)于2D圖像的學(xué)習(xí),這種3D方法需要更大的顯存空間。目前,處理計(jì)算機(jī)視覺中的自然圖像尚且困難,處理大視差的遙感圖像目前在微機(jī)上還遙不可及。

        雖然深度學(xué)習(xí)方法在有限的測(cè)試集上表現(xiàn)優(yōu)異,但是并不能說明它的普適性。在短期內(nèi),構(gòu)造性的經(jīng)典方法,如多視SGM,依然是2D到3D幾何重建的主流。而基于端到端的立體匹配方法具有較強(qiáng)的沖擊力,伴隨更強(qiáng)計(jì)算能力的GPU的普及和更多學(xué)者的參與改進(jìn),極有可能超越經(jīng)典方法。

        2.4 深度學(xué)習(xí)在攝影測(cè)量語義方面的應(yīng)用

        深度學(xué)習(xí)在遙感圖像語義提取方面的應(yīng)用剛剛起步并逐漸普及。以下將從各類地物語義專題圖出發(fā),回顧深度學(xué)習(xí)的具體應(yīng)用。

        遙感圖像建筑、道路網(wǎng)等地物的提取一直是數(shù)十年來的熱門課題。雖然經(jīng)典方法取得一定的效果,但距離實(shí)用、市場(chǎng)、商業(yè)軟件尚有一定的距離。CNN目前正成為道路網(wǎng)提取的主流方法。文獻(xiàn)[35]通過級(jí)聯(lián)式端到端CNN同時(shí)實(shí)現(xiàn)了道路網(wǎng)提取及道路中心線提取,與其他方法比較,達(dá)到了更高的分類精度。文獻(xiàn)[40]通過CNN結(jié)合線積分卷積克服了樹木遮蔽、房屋陰影所造成的道路網(wǎng)殘缺問題。文獻(xiàn)[41]通過非監(jiān)督學(xué)習(xí)預(yù)處理和空間相關(guān)性的應(yīng)用,利用深度學(xué)習(xí)極大地提高了復(fù)雜城市場(chǎng)景的道路提取精度。文獻(xiàn)[42—43]均為使用深度學(xué)習(xí)的方法進(jìn)行道路提取并取得了良好的效果。

        建筑物、農(nóng)作物、水體等專題的提取相對(duì)道路而言較少,但預(yù)期會(huì)有許多相關(guān)文獻(xiàn)近期發(fā)表。文獻(xiàn)[44]采用CNN實(shí)現(xiàn)高分辨率多光譜衛(wèi)星影像的建筑物提取。首先采用AlexNet提取特征,最后的全連接層用于訓(xùn)練SVM分類器并采用MRF模型精化。作物精細(xì)分類是攝影測(cè)量與遙感在農(nóng)業(yè)中的重要應(yīng)用。文獻(xiàn)[45]在影像平面上進(jìn)行2D卷積,在光譜方向上進(jìn)行1D卷積,分別提取出影像空間特征和光譜特征,取得了比隨機(jī)森林和全連接MLP更好的作物分類精度。文獻(xiàn)[46]將CNN用于土地利用分類。文獻(xiàn)[47]中也較全面地總結(jié)了深度學(xué)習(xí)在遙感方向的應(yīng)用。

        上述研究具有一定的積極意義,但目前顯然還未實(shí)現(xiàn)遙感圖像語義專題圖的全自動(dòng)提取。為了從本質(zhì)上解決該問題,需要考慮兩點(diǎn)。

        第一點(diǎn)是恰當(dāng)?shù)倪w移學(xué)習(xí)方法。目前ImageNet等龐大的數(shù)據(jù)庫來自大眾攝影圖像,并不包括鳥瞰航攝圖像和衛(wèi)星遙感圖像。照片的標(biāo)注諸如人、大象或椅子;遙感圖像中的標(biāo)注諸如耕地、建筑、森林等。若直接將這些數(shù)據(jù)庫訓(xùn)練得到的模型,用來進(jìn)行遙感圖像直接分類,就要考慮遷移學(xué)習(xí)。遷移學(xué)習(xí)是將A數(shù)據(jù)集中訓(xùn)練好的模型,應(yīng)用在B數(shù)據(jù)集上。A與B可能是同源的,也可能存在巨大差異。這就要進(jìn)一步發(fā)掘完善的遷移學(xué)習(xí)機(jī)制。以上文獻(xiàn)幾乎都存在訓(xùn)練集過小的問題,因此應(yīng)用到其他場(chǎng)景可能錯(cuò)誤率顯著提高。

        第二點(diǎn)是建立針對(duì)遙感圖像的開源的、完備的標(biāo)簽數(shù)據(jù)庫。涵蓋足夠多的地物類別,每個(gè)類別包括足夠多的樣本。這樣的數(shù)據(jù)庫是攝影測(cè)量與遙感走向“自動(dòng)化專題制圖”的必經(jīng)之路。然而,實(shí)現(xiàn)難度要比千萬圖像級(jí)別的ImageNet更大。首先,由于遠(yuǎn)距成像的特性,圖像受到更多電磁輻射傳輸?shù)挠绊?。?jīng)過大氣傳播的電磁輻射與地物間的相互作用機(jī)理更加復(fù)雜,同一標(biāo)簽的樣本往往呈現(xiàn)明顯的差異。這種差異不但對(duì)樣本的選取造成不便,而且對(duì)深度學(xué)習(xí)模型的可區(qū)分性提出更大的挑戰(zhàn)。第二,眾包模式并不能完全起作用。普通人可能很好地辨認(rèn)出諸如貓與狗的區(qū)別,因此通過互聯(lián)網(wǎng)眾包能夠快速構(gòu)建一個(gè)巨大的標(biāo)注數(shù)據(jù)庫;但是,小麥和水稻在遙感圖像上的差異,則需要專業(yè)人員的目視判讀。若影像分辨率較低,甚至可能需要實(shí)地調(diào)查。第三,攝影測(cè)量與遙感界的科研模式尚需向開源發(fā)展。目前,遙感學(xué)界已經(jīng)開始走向開源模式,希望由公司、政府或科研機(jī)構(gòu)能夠在短期內(nèi)建立的針對(duì)遙感圖像分類的標(biāo)簽數(shù)據(jù)庫,并實(shí)現(xiàn)完全開源。

        有了足夠的數(shù)據(jù)標(biāo)簽庫或恰當(dāng)?shù)倪w移學(xué)習(xí)方法,并借助深度學(xué)習(xí)的泛化能力,可以預(yù)期未來攝影測(cè)量與遙感專題制圖的精度將比傳統(tǒng)的特征分類方法得到明顯的改進(jìn)。

        3 已有的研究工作

        本節(jié)介紹深度學(xué)習(xí)在攝影測(cè)量學(xué)中兩個(gè)較有代表性的應(yīng)用。一是關(guān)于立體匹配和遷移學(xué)習(xí)。如上所述,計(jì)算機(jī)視覺所面對(duì)的數(shù)據(jù)源主要是大眾圖像和自然圖像。而攝影測(cè)量主要面對(duì)航空、航天遙感圖像。將大眾圖像訓(xùn)練獲得的深度學(xué)習(xí)模型,通過一定的方式應(yīng)用到遙感圖像中,是一個(gè)遷移學(xué)習(xí)的過程。遷移學(xué)習(xí)是深度學(xué)習(xí)在攝影測(cè)量(及其他領(lǐng)域)中體現(xiàn)泛化能力的重要概念,同時(shí)立體匹配是攝影測(cè)量以及計(jì)算機(jī)視覺的核心命題;筆者嘗試將這二者結(jié)合,期望得到當(dāng)前最先進(jìn)的結(jié)果。

        二是關(guān)于深度學(xué)習(xí)在遙感時(shí)空數(shù)據(jù)中的應(yīng)用。除了運(yùn)動(dòng)攝影,計(jì)算機(jī)視覺中的自然圖像多為靜態(tài)圖像。攝影測(cè)量與遙感則不然。大部分遙感圖像為時(shí)空數(shù)據(jù),即存在一個(gè)額外的時(shí)間維度,對(duì)應(yīng)變化、變遷、長(zhǎng)勢(shì)、趨勢(shì)、動(dòng)力學(xué)等。傳統(tǒng)的基于2D CNN的2D卷積核在理論上只能提取2D信息,因此可能無法在時(shí)空數(shù)據(jù)中取得最佳的效果。如文獻(xiàn)[45]等作物分類方法忽略了時(shí)相信息。筆者以多時(shí)相多光譜農(nóng)業(yè)遙感數(shù)據(jù)為例,引入3D卷積和3D CNN更好地提取作物生長(zhǎng)時(shí)序特征,并得到更精細(xì)的作物分類專題圖。

        3.1 基于深度學(xué)習(xí)和遷移學(xué)習(xí)的立體匹配

        KITTI2012和KITTI2015是標(biāo)準(zhǔn)的立體匹配測(cè)試數(shù)據(jù)集[15]。數(shù)據(jù)包括糾正后的立體圖像(即核線立體圖像)與深度圖,分別由安裝在車輛上的立體相機(jī)和LIDAR獲取。KITTI2012和KITTI2015各包含約200景圖像。針對(duì)該數(shù)據(jù)集,目前許多立體匹配算法都公布了在該數(shù)據(jù)集上的測(cè)試結(jié)果。根據(jù)網(wǎng)站實(shí)時(shí)信息,深度學(xué)習(xí)的方法占據(jù)前10,SGM約排在30名左右。

        如何有效地將KITTI數(shù)據(jù)集的訓(xùn)練模型應(yīng)用于航空遙感圖像密集匹配是興趣點(diǎn)。數(shù)據(jù)為20幅航空?qǐng)D像,同時(shí)以LIDAR點(diǎn)云獲取的深度圖作為參考基準(zhǔn)。受顯卡容量限制,將航空?qǐng)D像裁剪到1000×300像素大小,并生成384幅立體像對(duì)用于測(cè)試。由于傳統(tǒng)立體匹配的方法并不需要訓(xùn)練集,為公平起見,只在開源的KITTI數(shù)據(jù)集上訓(xùn)練模型,然后將模型直接應(yīng)用于航空數(shù)據(jù)集上。訓(xùn)練和測(cè)試在Nvidia顯卡Titan Xp上執(zhí)行。表1列出了SGM、SURE軟件、MC-CNN[34]及GC-NET[35]的比較結(jié)果。前二者為經(jīng)典的立體視覺方法,后二者是深度學(xué)習(xí)方法的代表作。其中,MC-CNN只學(xué)習(xí)匹配代價(jià),其他代價(jià)聚合、一致性檢驗(yàn)部分與SGM相同;而GC-NET是一種端到端的從立體像對(duì)直接獲取深度圖的CNN方法。表1的結(jié)果顯示,SGM的精度最低,而SURE最高。MC-CNN和GC-NET近似相等。比SGM要高出5個(gè)百分點(diǎn),但比SURE低將近2個(gè)百分點(diǎn)。括號(hào)中的數(shù)值表示:如果采用航空影像數(shù)據(jù)自身進(jìn)行訓(xùn)練,能達(dá)到的精度(訓(xùn)練集與測(cè)試集容量比例約為2∶1)。圖2是較有代表性的一幅立體像對(duì)。左邊是平地,右邊是有層次的建筑物。圖2(c)和圖2(d)分別為SGM和深度學(xué)習(xí)的結(jié)果。這兩種方法的唯一區(qū)別是代價(jià)函數(shù)的差異。綠色為正確匹配點(diǎn),紅色為錯(cuò)誤點(diǎn)。無論是SGM還是深度學(xué)習(xí)的方法都在平地區(qū)域表現(xiàn)優(yōu)秀。而在復(fù)雜的建筑物區(qū),MC-CNN則更加優(yōu)異。在深度急劇變化的邊緣,SGM明顯失誤更多。雖然SURE的精度要比深度學(xué)習(xí)方法略高,但SURE用到了多視匹配的策略,而深度學(xué)習(xí)方法只利用了立體約束條件。因此,可以預(yù)見深度學(xué)習(xí)方法將會(huì)有很大的提升空間。

        表1 各類方法在航空測(cè)試集上的錯(cuò)誤率

        3.2 基于3D卷積的時(shí)空農(nóng)業(yè)數(shù)據(jù)精細(xì)分類專題圖

        試驗(yàn)數(shù)據(jù)包括兩套2015年不同區(qū)域的高分2號(hào)(GF-2)數(shù)據(jù)(表2)。數(shù)據(jù)1含4波段(紅外、紅、綠、藍(lán))4時(shí)相(6、7、8和9月)。根據(jù)目視判別的結(jié)果,影像覆蓋區(qū)域內(nèi)主要地物為玉米、樹木、水稻和高粱。對(duì)各地物類隨機(jī)選取訓(xùn)練樣本400個(gè),測(cè)試樣本2000個(gè)。數(shù)據(jù)2含4波段(紅外、紅、綠、藍(lán))7時(shí)相(6月17日、7月8日、7月 27日、9月9日、9月19日、11月7日和11月17日)。影像范圍內(nèi)主要地物為:道路、荒草地、居民地、空地、林帶、濕地、水稻、水面、秧地和玉米。隨機(jī)選取訓(xùn)練樣本3180個(gè),測(cè)試樣本890個(gè)。以數(shù)據(jù)一為例,單通道樣本窗口大小為8×8,每個(gè)樣本塊大小為16×8×8。其中16通道的順序是:先紅外波段的4個(gè)時(shí)相,再紅波段的4個(gè)時(shí)相,以此類推。

        表2 試驗(yàn)數(shù)據(jù)信息

        本次試驗(yàn)的目的是為了驗(yàn)證在作物分類中,理論上更優(yōu)秀的3D CNN是否更好地作用于多時(shí)相數(shù)據(jù),并與2D CNN以及傳統(tǒng)分類方法對(duì)比。

        采用了圖3所示的針對(duì)多光譜多時(shí)相數(shù)據(jù)的網(wǎng)絡(luò)架構(gòu)。其中,原始輸入m@n×8×8指:樣本大小為n×8×8的張量,n為時(shí)相,8×8為單通道的寬和高,m為光譜段。32@則指當(dāng)前層的神經(jīng)元個(gè)數(shù)為32。該架構(gòu)采用了3層3D卷積神經(jīng)元網(wǎng)絡(luò)和2層全連接層。

        圖3 多光譜多時(shí)相遙感數(shù)據(jù)分類的3D網(wǎng)絡(luò)架構(gòu)Fig.3 The 3D CNN for multi-spectral multi-temporal remote sensing data classification

        表3對(duì)比了2D CNN、3D CNN、SVM、KNN、PCA+KNN的測(cè)試精度與全圖分類精度??梢钥闯?,在兩類精度上,CNN要高于SVM、KNN和PCA等方法;3D CNN略優(yōu)于2D CNN。圖4為不同方法對(duì)高分2號(hào)兩套數(shù)據(jù)進(jìn)行全圖分類的結(jié)果圖。

        表3 不同方法訓(xùn)練精度及分類精度對(duì)比

        圖4 高分2號(hào)數(shù)據(jù)1不同方法分類效果圖Fig.4 Classification results of different methods of GF2 data1

        本次試驗(yàn)與計(jì)算機(jī)視覺中的大量關(guān)于圖像標(biāo)簽分類文獻(xiàn)的結(jié)果相符合。在遙感圖像的分類中,基于CNN的方法同樣超越了傳統(tǒng)的分類方法。在此基礎(chǔ)上,引入了3D卷積,應(yīng)對(duì)多時(shí)相多光譜數(shù)據(jù),并得到了比2D CNN更好的分類精度。

        4 結(jié) 論

        本文首先回顧了攝影測(cè)量與深度學(xué)習(xí)的歷史,并分析了二者間的緊密聯(lián)系。然后,介紹了深度學(xué)習(xí)以及卷積神經(jīng)元網(wǎng)絡(luò)的基本思想;分析了攝影測(cè)量與遙感、計(jì)算機(jī)視覺、機(jī)器學(xué)習(xí)等領(lǐng)域的相關(guān)發(fā)展。最后,結(jié)合筆者的研究介紹了深度學(xué)習(xí)在圖像立體匹配和作物分類專題圖提取中的應(yīng)用。

        得到以下結(jié)論:第一,目前深度學(xué)習(xí)并不適合攝影測(cè)量中純幾何領(lǐng)域,其定位、定向精度低于光束法區(qū)域網(wǎng)平差、SfM、SLAM等經(jīng)典方法。第二,在圖像匹配和3D幾何重建中,深度學(xué)習(xí)表現(xiàn)出色,在標(biāo)準(zhǔn)數(shù)據(jù)集上遙遙領(lǐng)先,但是目前的主流3D重建算法依然以多視SGM等經(jīng)典方法為核心,深度學(xué)習(xí)可能需要更龐大的訓(xùn)練集才能做到真正的領(lǐng)先。第三,在圖像語義提取和分類中,深度學(xué)習(xí)方法已經(jīng)全面領(lǐng)先于傳統(tǒng)的機(jī)器學(xué)習(xí)方法,但目前迫切需要更龐大、更專業(yè)的遙感標(biāo)簽數(shù)據(jù)庫以訓(xùn)練更好的模型。最后,利用深度學(xué)習(xí)的學(xué)習(xí)和泛化能力,端到端地實(shí)現(xiàn)遙感圖像到語義專題圖的提取,將為現(xiàn)代攝影測(cè)量的發(fā)展提供契機(jī)。

        此外,本文借鑒遷移學(xué)習(xí)的思想,研究了基于深度學(xué)習(xí)的航空?qǐng)D像密集匹配,并取得比SGM更好的結(jié)果。同時(shí),首次采用3D CNN提取作物的時(shí)空生長(zhǎng)趨勢(shì),并取得比傳統(tǒng)分類方法和2D CNN更好的作物精細(xì)分類專題圖。這兩個(gè)試驗(yàn)作為拋磚引玉,期待相關(guān)學(xué)者發(fā)展更好的深度學(xué)習(xí)算法并自動(dòng)化、智能化地應(yīng)用到攝影測(cè)量領(lǐng)域;最終實(shí)現(xiàn)攝影測(cè)量定義中“幾何”與“語義”的完備性。

        參考文獻(xiàn):

        [1] 龔健雅,季順平.從攝影測(cè)量到計(jì)算機(jī)視覺[J].武漢大學(xué)學(xué)報(bào)(信息科學(xué)版),2017,42(11):1518-1522.

        GONG Jianya,JI Shunping.From Photogrammetry to Computer Vision[J].Geomatics and Information Science of Wuhan University,2017,42(11):1518-1522.

        [2] BOYLE W S,SMITH G E.Charge Coupled Semiconductor Devices[J].The Bell System Technical Journal,1970,49(4):587-593.

        [3] ASHBY W R.An Introduction to Cybernetics[M].London:Chapman & Hall Ltd,1961.

        [4] FODOR J A,PYLYSHYN Z W.Connectionism and Cognitive Architecture:A Critical Analysis[J].Cognition,1988,28(1-2):3-71.

        [5] HINTON G E,OSINDERO S,TEH Y W.A Fast Learning Algorithm for Deep Belief Nets[J].Neural Computation,2006,18(7):1527-1554.

        [6] SUYKENS J A K,VANDERWALLE J.Least Squares Support Vector Machine Classifiers[J].Neural Processing Letters,1999,9(3):293-300.

        [7] KOLLER D,F(xiàn)RIEDMAN N.Probabilistic Graphical Models:Principles and Techniques[M].Cambridge:MIT Press,2009.

        [8] BENGIO Y,LAMBLIN P,POPOVICI D,et al.Greedy Layer-Wise Training of Deep Networks[C]∥Proceedings of the 19th International Conference on Neural Information Processing Systems.Canada:ACM,2006:153-160.

        [9] KRIZHEVSKY A,SUTSKEVER I,HINTON G E.Imagenet Classification with Deep Convolutional Neural Networks[C]∥Proceedings of the 25th International Conference on Neural Information Processing Systems.Lake Tahoe,Nevada:ACM,2012:1097-1105.

        [10] MEHTA P,SCHWAB D J.An Exact Mapping between the Variational Renormalization Group and Deep Learning[J].arXiv Preprint arXiv:1410.3831,2014.

        [11] TISHBY N,PEREIRA F C,BIALEK W.The Information Bottleneck Method[J].arXiv Preprint arXiv:physics/0004057,2000.

        [12] HINTON G,DENG Li,YU Dong,et al.Deep Neural Networks for Acoustic Modeling in Speech Recognition:The Shared Views of Four Research Groups[J].IEEE Signal Processing Magazine,2012,29(6):82-97.

        [13] LECUN Y,BOSER B,DENKER J S,et al.Backpropagation Applied to Handwritten Zip Code Recognition[J].Neural Computation,1989,1(4):541-551.

        [14] KENDALL A,GRIMES M,CIPOLLA R.Posenet:A Convolutional Network for Real-time 6-dof Camera Relocalization[C]∥Proceedings of 2015 IEEE International Conference on Computer Vision.Santiago,Chile:IEEE,2015:2938-2946.

        [15] KITTI.The KITTI Vision Benchmark Suite [DB/OL].[2018-03-01].http:∥www.cvlibs.net/datasets/kitti.

        [16] BENGIO Y,COURVILLE A,VINCENT P.Representation Learning:A Review and New Perspectives[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2013,35(8):1798-1828.

        [17] NG A.Sparse Autoencoder[R].CS294A Lecture Notes,2011,72(2011):1-19.

        [18] SANGER T D.Optimal Unsupervised Learning in A Single-layer Linear Feedforward Neural Network[J].Neural Networks,1989,2(6):459-473.

        [19] RUCK D W,ROGERS S K,KABRISKY M,et al.The Multilayer Perceptron as an Approximation to ABayes Optimal Discriminant Function[J].IEEE Transactions on Neural Networks,1990,1(4):296-298.

        [20] MIKOLOV T,KARAFIT M,BURGET L,et al.Recurrent Neural Network Based Language Model[C]∥Proceedings of the 11th Annual Conference of the International Speech Communication Association.Makuhari,Chiba,Japan:International Speech Communication Association,2010,2:3.

        [21] MINSKY M L,PAPERT S A.Perceptrons[M].Cambridge:MIT Press,1969.

        [22] NAIR V,HINTON G E.Rectified Linear Units Improve Restricted Boltzmann Machines [C]∥Proceedings of the 27th International Conference on Machine Learning.Haifa,Israel:ACM,2010:807-814.

        [23] SHORE J,JOHNSON R.Axiomatic Derivation of the Principle of Maximum Entropy and the Principle of Minimum Cross-entropy[J].IEEE Transactions on Information Theory,1980,26(1):26-37.

        [24] MORé J J.The Levenberg-Marquardt Algorithm:Implementation and Theory[M]∥WATSON G A.Numerical Analysis.Berlin,Heidelberg:Springer,1978:105-116.

        [25] LE CUN Y,BOSER B E,DENKER J S,et al.Handwritten Digit Recognition with a Back-propagation Network[M]∥TOURETZKY D S.Advances in Neural Information Processing Systems.San Francisco,CA:Morgan Kaufmann Publishers Inc.,1990:396-404.

        [26] GOODFELLOW I,BENGIO Y,COURVILLE A.Deep Learning[M].Cambridge,Massachusetts:MIT Press,2016.

        [27] HORN B.Robot Vision[M].Cambridge:MIT Press,1986.

        [28] GRAHAM B.Fractional Max-pooling[J].arXiv Preprint arXiv:1412.6071,2014.

        [29] ZEILER M D,F(xiàn)ERGUS R.Visualizing and Understanding Convolutional Networks[C]∥European Conference on Computer Vision.Zurich,Switzerland:Springer,2014:818-833.

        [30] SZEGEDY C,LIU W,JIA Y,et al.Going Deeper with Convolutions[J].arXiv Preprint arXiv:1409.4842,2014.

        [31] SIMONYAN K,ZISSERMAN A.Very Deep Convolutional Networks for Large-scale Image Recognition[J].arXiv Preprint arXiv:1409.1556,2014.

        [32] HE Kaiming,ZHANG Xianyu,REN Shaoqing,et al.Deep Residual Learning for Image Recognition[C]∥Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition.Las Vegas,NV:IEEE,2016:770-778.

        [33] KENDALL A,CIPOLLA R.Modelling Uncertainty in Deep Learning for Camera Relocalization[C]∥Proceedings of 2016 IEEE International Conference on Robotics and Automation.Stockholm,Sweden:IEEE,2016:4762-4769.

        [34] ?BONTAR J,LECUN Y.Computing the Stereo Matching Cost with a Convolutional Neural Network[C]∥Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition.Boston,MA:IEEE,2015:1592-1599.

        [35] KENDALL A,MARTIROSYAN H,DASGUPTA S,et al.End-to-end Learning of Geometry and Context for Deep Stereo Regression[C]∥Proceedings of the IEEE Conference on Computer Vision.Venice,Italy:IEEE,2017:66-75.

        [36] SEKI A,POLLEFEYS M.SGM-Nets:Semi-global Matching with Neural Networks[C]∥Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition Workshops.Honolulu,HI:IEEE,2017:21-26.

        [37] MAYER N,ILG E,HUSSER P,et al.A Large Dataset to Train Convolutional Networks for Disparity,Optical Flow,and Scene Flow Estimation[C]∥Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition.Las Vegas,NV:IEEE,2016:4040-4048.

        [38] LUO Wenjie,SCHWING A G,URTASUN R.Efficient Deep Learning for Stereo Matching[C]∥Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.Las Vegas,NV:IEEE,2016:5695-5703.

        [39] MARR D.Vision:A Computational Investigation into the Human Representation and Processing of Visual Information[M].San Francisco:W.H.Freeman and Company,1982.

        [40] CHENG Guangliang,WANG Ying,XU Shibiao,et al.Automatic Road Detection and Centerline Extraction via Cascaded End-to-end Convolutional Neural Network[J].IEEE Transactions on Geoscience and Remote Sensing,2017,55(6):3322-3337.

        [41] LI Peikang,ZANG Yu,WANG Cheng,et al.Road Network Extraction via Deep Learning and Line Integral Convolution[C] ∥Proceedings of the IEEE Conference on Geoscience and Remote Sensing Symposium (IGARSS).Beijing,China:IEEE,2016:1599-1602.

        [42] MNIH V,HINTON G E.Learning to Detect Roads in High-resolution Aerial Images[C]∥Proceedings of the 11th European Conference on Computer Vision.Heraklion,Crete,Greece:Springer,2010:210-223.

        [43] WANG Jun,SONG Jingwei,CHEN Mingquan,et al.Road Network Extraction:A Neural-dynamic Framework Based on Deep Learning and a Finite State Machine[J].International Journal of Remote Sensing,2015,36(12):3144-3169.

        [44] PANBOONYUEN T,JITKAJORNWANICH K,LAWAWIROJWONG S,et al.Road Segmentation of Remotely-sensed Images Using Deep Convolutional Neural Networks with Landscape Metrics and Conditional Random Fields[J].Remote Sensing,2017,9(7):680.

        [45] VAKALOPOULOU M,KARANTZALOS K,KOMODAKIS N,et al.Building Detection in Very High Resolution Multispectral Data with Deep Learning Features[C]∥Proceedings of the IEEE Conference on Geoscience and Remote Sensing Symposium (IGARSS).Milan,Italy:IEEE,2015:1873-1876.

        [46] KUSSUL N,LAVRENIUK M,SKAKUN S,et al.Deep Learning Classification of Land Cover and Crop Types Using Remote Sensing Data[J].IEEE Geoscience and Remote Sensing Letters,2017,14(5):778-782.

        [47] CASTELLUCCIO M,POGGI G,SANSONE C,et al.Land Use Classification in Remote Sensing Images by Convolutional Neural Networks[J].arXiv Preprint arXiv:1508.00092,2015.

        [48] ZHANG Liangpei,ZHANG Lefei,DU Bo.Deep Learning for Remote Sensing Data:A Technical Tutorial on the State of the Art[J].IEEE Geoscience and Remote Sensing Magazine,2016,4(2):22-40.

        猜你喜歡
        神經(jīng)元網(wǎng)絡(luò)卷積攝影
        基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
        ML神經(jīng)元網(wǎng)絡(luò)自適應(yīng)同步的抗擾特性研究
        從濾波器理解卷積
        電子制作(2019年11期)2019-07-04 00:34:38
        基于傅里葉域卷積表示的目標(biāo)跟蹤算法
        基于改進(jìn)PID神經(jīng)元網(wǎng)絡(luò)的多變量系統(tǒng)控制算法
        電子科技(2016年6期)2016-07-04 06:33:10
        模塊神經(jīng)元網(wǎng)絡(luò)中耦合時(shí)滯誘導(dǎo)的簇同步轉(zhuǎn)遷*
        WZW—bewell攝影月賽
        旅游縱覽(2014年8期)2014-09-10 07:22:44
        最美的攝影
        焦點(diǎn)(2014年3期)2014-03-11 23:03:43
        一種基于卷積神經(jīng)網(wǎng)絡(luò)的性別識(shí)別方法
        《時(shí)序數(shù)據(jù)挖掘與過程神經(jīng)元網(wǎng)絡(luò)》
        国产熟妇一区二区三区网站| 国产成人精品男人的天堂网站| 亚洲—本道中文字幕久久66| 亚洲AV无码国产精品色午夜软件| 亚洲成在人网站天堂日本| 中文字幕乱码人妻在线| 激情内射人妻1区2区3区| 欧美成人精品三级网站| 亚洲va欧美va| 亚洲综合精品一区二区三区| 在线不卡av一区二区| 久久亚洲精品国产亚洲老地址| 内射合集对白在线| 男女爽爽无遮挡午夜视频| 99精品视频在线观看| 亚洲AV一二三四区四色婷婷| 最新国产美女一区二区三区 | 伊人色综合久久天天人手人停| 亚洲av第一区综合激情久久久| 中国黄色偷拍视频二区| 国产麻豆精品传媒av在线| 99精品人妻无码专区在线视频区| 国产超碰人人模人人爽人人喊| 亚洲人成网站久久久综合 | 青春草在线观看免费视频| 中文字幕乱码亚洲无限码| 精品亚洲一区二区三区在线观看| 任你躁国产自任一区二区三区| 日韩精品一区二区在线视 | 少妇人妻真实偷人精品视频| 亚洲综合欧美在线| 久久五月精品中文字幕| 无码精品人妻一区二区三区漫画| 欧美gv在线观看| 美女窝人体色www网站| 蜜桃视频第一区免费观看| 少妇夜夜春夜夜爽试看视频| 国产主播一区二区三区在线观看 | 国产激情在观看| 国产优质av一区二区三区| 久爱www人成免费网站|