齊 君,白釗成,孫永科,戈夢霄,唐雪瓊
(1.西南林業(yè)大學(xué)地理與生態(tài)旅游學(xué)院,云南昆明 650224;2.西南林業(yè)大學(xué)園林園藝學(xué)院,云南昆明 650224;3.西南林業(yè)大學(xué)大數(shù)據(jù)與智能工程學(xué)院,云南昆明 650224)
從19世紀(jì)中葉世界第一臺銀版照相機(jī)的發(fā)明、第一部攝影相冊《自然的畫筆》的出版,再到21世紀(jì)初期相機(jī)與手機(jī)的融合與普及、網(wǎng)絡(luò)自媒體對照片和視頻的共享,圖像的生產(chǎn)從行業(yè)運(yùn)用發(fā)展至大眾休閑,攝影也漸成生活與旅行的日常。由于照片傳遞著游客的行為心理、情感態(tài)度等信息,被學(xué)者視為考察游憩的時(shí)空特征、目的地旅游形象、游客與東道主關(guān)系等內(nèi)容的重要材料。自旅游凝視理論誕生以來,照片即被視為串聯(lián)旅游形象產(chǎn)生、投射、感知、呈現(xiàn)、延續(xù)的解釋學(xué)循環(huán)的導(dǎo)線,引發(fā)了通過旅游攝影討論游客視覺、行為、意向的研究范式。學(xué)者通過雇傭拍照、照片誘導(dǎo)等方法探討旅游景觀及旅游體驗(yàn),肯定了照片的敘事價(jià)值及其實(shí)證意義。而在Web 2.0 時(shí)代,越來越多的游客選擇將照片上傳至網(wǎng)絡(luò),基于用戶生成圖像的大數(shù)據(jù)運(yùn)用將為旅游發(fā)展決策提供更加精準(zhǔn)的支撐。通過馬蜂窩、攜程、新浪微博、TripAdvisor、Instagram、Flickr、Panoramio等旅游及社交網(wǎng)站,學(xué)者可以抓取公眾在旅行過程中的拍攝對象、照片數(shù)量、數(shù)字足跡,為行為預(yù)測、產(chǎn)品設(shè)計(jì)、形象管理等相關(guān)研究及決策提供證據(jù)。這一趨勢使得網(wǎng)絡(luò)照片分析逐漸成為當(dāng)下旅游研究的熱點(diǎn)之一。
攝影從專業(yè)向大眾的推廣并非意味著其在行業(yè)運(yùn)用的衰微。從20 世紀(jì)70 年代以來,圖像就一直扮演著景觀的代言者,成為旅游地景觀質(zhì)量評估的主要媒介。學(xué)者通過特定方法采集旅游地圖像,通過對內(nèi)容的解構(gòu)與分類歸納旅游資源的視覺景觀特征;或者邀請公眾對照片展開量表式的評價(jià),依照評分的統(tǒng)計(jì)學(xué)特征來定義其反饋的景觀美學(xué)質(zhì)量。如美國一系列環(huán)境資源保護(hù)法案催生的森林視覺管理系統(tǒng)、視覺資源管理、風(fēng)景資源管理等,利用專家或公眾對景觀照片的評價(jià)實(shí)現(xiàn)資源質(zhì)量的測評。21 世紀(jì)后,伴隨著衛(wèi)星遙感和無人機(jī)遙感技術(shù)的發(fā)展、全景拍攝與街景數(shù)據(jù)的涌現(xiàn),照片拍攝的角度、方法、形式也變得更為多元,為基于專業(yè)圖像的旅游資源評價(jià)提供了更加全面的支撐。即便在近年來數(shù)字三維模型和虛擬現(xiàn)實(shí)技術(shù)的沖擊下,照片仍然以其便利、靈活、普適等優(yōu)勢在景觀評價(jià)中占據(jù)著不可取代的地位。
雖然照片附帶的地理信息或文字標(biāo)簽同樣蘊(yùn)含著富有價(jià)值的信息,但相較之下,直觀的圖像內(nèi)容才是照片敘事的主體,是旅游者關(guān)注的重點(diǎn)。無論是用戶生成或者專業(yè)拍攝,內(nèi)容分析均是旅游圖像研究的一大主流方法。然而結(jié)合以往研究來看,該方法的進(jìn)展存在兩大瓶頸:一是分析過程依賴手動(dòng)編碼,限制了分析數(shù)據(jù)的總量。利用質(zhì)性分析軟件NVivo對用戶生成圖像進(jìn)行編碼是照片內(nèi)容分析的常用方法,研究者通過手動(dòng)勾勒、模糊判斷單張旅游照片的拍攝對象來析出初始節(jié)點(diǎn),在所有照片編碼結(jié)束后厘清各節(jié)點(diǎn)之間的樹狀關(guān)系,并依據(jù)節(jié)點(diǎn)的統(tǒng)計(jì)學(xué)特征得出結(jié)論。然而由于編碼過程需要耗費(fèi)大量精力,樣本數(shù)量往往受到限制,弱化了網(wǎng)絡(luò)照片大數(shù)據(jù)分析的價(jià)值意義。二是分析內(nèi)容局限于拍攝對象的分類,造成了可用信息的浪費(fèi)。通常的照片內(nèi)容分析往往只提取拍攝對象(如天空、森林、建筑等)所出現(xiàn)的頻率。然而作為視覺景觀的表征,照片內(nèi)容所攜帶的信息遠(yuǎn)遠(yuǎn)不止對象,還包括各景觀要素的比例、空間、輪廓、色彩等內(nèi)容。于公眾發(fā)布的網(wǎng)絡(luò)照片而言,這些內(nèi)容是不同游客旅游凝視形成的動(dòng)因;于專業(yè)的圖像采集而言,這些內(nèi)容則是深入測度旅游資源景觀質(zhì)量的依據(jù)。
針對上述瓶頸,近來在計(jì)算機(jī)視覺領(lǐng)域快速發(fā)展的圖像分割技術(shù)也許是實(shí)現(xiàn)突破的一個(gè)途徑。該技術(shù)使計(jì)算機(jī)可以根據(jù)圖像的真實(shí)語義對照片進(jìn)行分割,實(shí)現(xiàn)對視覺媒體的精準(zhǔn)計(jì)算,進(jìn)而深化照片內(nèi)容分析的量化水平,提升圖像大數(shù)據(jù)分析的可行性。本文梳理了圖像分割技術(shù)的運(yùn)用原理和操作方法,并通過兩個(gè)實(shí)證研究討論該技術(shù)在旅游領(lǐng)域的運(yùn)用前景,嘗試為旅游圖像的內(nèi)容分析提供新型智能工具,支撐旅游地景觀與形象的智慧化管理。
圖像分割是目標(biāo)識別的基礎(chǔ),其概念自提出以來就成為計(jì)算機(jī)視覺研究的熱點(diǎn)話題。20 世紀(jì)60年代以來,圖像分割開始被運(yùn)用于肺部疾病檢查、白細(xì)胞分類、癌細(xì)胞檢測、染色體核型分析等,在生物醫(yī)學(xué)領(lǐng)域表現(xiàn)出了突出的應(yīng)用價(jià)值,因而受到了較為廣泛的關(guān)注,并誕生了各種各樣針對不同應(yīng)用途徑的分割算法。發(fā)展至今,圖像分割的不同算法數(shù)以千計(jì),其運(yùn)用也早已突破醫(yī)學(xué)影像分析,在遙感影像分析、氣象觀測、人臉識別、自動(dòng)駕駛等多個(gè)領(lǐng)域表現(xiàn)出了廣闊的前景,帶領(lǐng)當(dāng)代科技逐步邁入人工智能時(shí)代,同時(shí)也為智慧旅游提供了技術(shù)保障。
在概念定義上,圖像分割即按照一定相似性原則將數(shù)字圖像劃分為若干互不重疊的區(qū)域,使每個(gè)區(qū)域內(nèi)部表現(xiàn)出同質(zhì)性特征的圖像處理過程。其數(shù)學(xué)定義為:集合表示完整圖像區(qū)域,利用算法將分割為個(gè)不相交的、相互連通的非空子集,,…,R,()· 為判斷分割區(qū)域之間同質(zhì)性的邏輯謂詞(即分割算法),則
在技術(shù)發(fā)展初期,圖像分割的算法主要包括閾值法、邊緣檢測法、區(qū)域法等,這些方法多基于圖像灰度信息對同類像素進(jìn)行分組,進(jìn)而實(shí)現(xiàn)圖像的分割。此類方法原理較為直觀,并在20世紀(jì)末計(jì)算機(jī)性能普遍不高的背景下取得了較好的成效。然而隨著圖像分割運(yùn)用領(lǐng)域的拓展,所處理的圖像場景更加復(fù)雜,對分割精度的要求也更加嚴(yán)格,促使分割算法的開發(fā)在21世紀(jì)時(shí)取得了一些突破性的進(jìn)展。2003年,Ren和Malik提出“超像素”概念,開啟了圖像處理超像素分割的新里程。超像素指具有相似特征的相鄰像素所組成的圖像塊。傳統(tǒng)圖像分割的基本單元是像素,其本質(zhì)為計(jì)算機(jī)讀取信息的數(shù)字矩陣,并非是真實(shí)世界的存在,而超像素則通過相似相鄰像素的整合來生成“人眼興趣尺度”(scale of interest)的區(qū)域,反映人體視覺系統(tǒng)下的真實(shí)對象。因而,基于超像素的圖像分割相比基于像素的圖像分割而言,更能夠產(chǎn)出更加符合人類感知的結(jié)果,也使得通過圖像分割解譯旅游照片成為可能。此后,學(xué)者基于圖論或聚類思想,進(jìn)一步開發(fā)出了Normalized Cuts、Superpixel Lattice、Mean Shift、SLIC 等算法,利用超像素分割執(zhí)行遙感地物信息提取、人體姿勢估計(jì)、目標(biāo)識別與追蹤等各類計(jì)算機(jī)視覺任務(wù)。最近10余年來,人工神經(jīng)網(wǎng)絡(luò)的發(fā)展則為圖像分割的進(jìn)步提供了更多支撐。從深度學(xué)習(xí)的提出,到卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)和全卷積神經(jīng)網(wǎng)絡(luò)(fully convolutional networks,F(xiàn)CN)的運(yùn)用,圖像的語義分割由此獲得了階段性的進(jìn)展。語義分割指在像素級別上實(shí)現(xiàn)圖像的分割與分類,使每一個(gè)像素獲得一個(gè)對應(yīng)的語義標(biāo)簽,進(jìn)而區(qū)別出圖像中的各個(gè)像素是屬于建筑、樹木或人等自然對象?;谏疃葘W(xué)習(xí)網(wǎng)絡(luò),計(jì)算機(jī)可以自動(dòng)學(xué)習(xí)、分析具有相同語義圖像的像素特征,進(jìn)而獲取更高精度的判斷,甚至可以實(shí)現(xiàn)實(shí)例分割、全景分割、三維分割等更加復(fù)雜的運(yùn)算。
于旅游研究而言,當(dāng)代的圖像分割技術(shù)為照片內(nèi)容分析提供了新的支持,使其可以突破傳統(tǒng)分析手段所面臨的瓶頸。一方面,大量簡單、重復(fù)的分析過程可以交由計(jì)算機(jī)完成,使照片內(nèi)容分析走向大數(shù)據(jù)時(shí)代。旅游照片表達(dá)了真實(shí)而復(fù)雜的圖像場景,一張照片中包含了不同對象的類型、尺度或透視,然而當(dāng)代的圖像分割技術(shù)已經(jīng)可以實(shí)現(xiàn)在無監(jiān)督或弱監(jiān)督情況下對照片內(nèi)容進(jìn)行解構(gòu),使照片中的所有信息都能被納入分析的范圍之中,在解放人工投入的同時(shí),又實(shí)現(xiàn)研究資料的最大化利用。另一方面,圖像分割的運(yùn)用可以從照片中提取更多的量化信息,拓展了實(shí)證研究的深度。傳統(tǒng)的照片內(nèi)容分析雖可通過人眼輕松識別圖像中的對象類別,但卻難以通過數(shù)字化標(biāo)準(zhǔn)精確捕捉對象的色彩、輪廓、面積等特征,而這些特征則是考察游客凝視對象、旅游地天際線、旅游色彩感知、旅游景觀質(zhì)量的數(shù)據(jù)來源,對基于用戶生成圖像的旅游者研究,或者基于專業(yè)圖像采集的旅游景觀評價(jià)而言,均表現(xiàn)出了突出的資料價(jià)值。
除了引領(lǐng)照片內(nèi)容分析走出瓶頸外,圖像分割技術(shù)的運(yùn)用將會是旅游大數(shù)據(jù)分析邁向全新階段的標(biāo)志。近10年來,大數(shù)據(jù)分析的興起使旅游照片研究發(fā)生了相應(yīng)的轉(zhuǎn)變,照片“元數(shù)據(jù)”分析,即利用照片附帶的4 類信息——用戶信息(照片或用戶ID)、時(shí)間信息(拍攝時(shí)間及上傳時(shí)間)、地理信息(拍攝地點(diǎn)與上傳地點(diǎn))和文本信息(標(biāo)題、描述、標(biāo)簽)開展的研究,為游客感知與行為研究提供了新思路。相較圖像內(nèi)容,元數(shù)據(jù)分析更關(guān)注照片背后客觀的時(shí)空信息及主觀的文字評論。而在最近3年內(nèi)新型圖像處理技術(shù)逐步投入使用的背景下,旅游照片大數(shù)據(jù)分析也開始出現(xiàn)了由元數(shù)據(jù)信息向圖像內(nèi)容發(fā)展的萌芽。例如鄧寧等利用基于CNN開發(fā)的“DeepSentiBank”實(shí)現(xiàn)圖像內(nèi)容的情感分析,討論了旅游者對北京目的地形象的感知差異;范夢余等在考察內(nèi)蒙古視覺旅游形象時(shí)也使用了類似的方法;張坤等則利用深度學(xué)習(xí)模型對照片進(jìn)行了場景統(tǒng)計(jì),結(jié)合元數(shù)據(jù)分析討論了北京入境游客的感知與行為。上述研究顯示,深度學(xué)習(xí)與計(jì)算機(jī)視覺在旅游大數(shù)據(jù)分析中逐漸開始扮演著重要的角色。在旅游圖像分析中,真實(shí)對象的成分?jǐn)?shù)據(jù)將成為照片元數(shù)據(jù)以外的另一大重要內(nèi)容。而圖像分割作為提取對象成分的重要途徑,有望成為未來圖像內(nèi)容分析的主流智能工具。對此,本文歸納了兩種旅游圖像的分割方法,并結(jié)合兩個(gè)實(shí)證案例討論其具體的運(yùn)用途徑。技術(shù)框架如圖1所示。
圖1 基于圖像分割的旅游圖像內(nèi)容分析技術(shù)框架Fig.1 Technical framework of image segmentation-based method for tourist image content analysis
雖然當(dāng)前計(jì)算機(jī)視覺領(lǐng)域普遍將基于深度學(xué)習(xí)的圖像分割稱作語義分割,但嚴(yán)格地講,超像素分割也是基于圖像語義的分割,它與深度學(xué)習(xí)的語義分割的區(qū)別在于,超像素分割依托圖像的中級語義,語義分割則依托高級語義。由于深度學(xué)習(xí)技術(shù)的出現(xiàn),圖像的語義被劃分為低級、中級與高級。其中,低級指像素的灰度信息,中級指像素塊的緊湊度、對比度、粗糙度、形狀因子等,高級指真實(shí)對象的類別。雖然超像素分割不能像語義分割那樣直接反饋對象的類型,但其分割結(jié)果已經(jīng)能夠?qū)D像中的不同對象區(qū)別開來。相較于語義分割,超像素分割的優(yōu)勢在于不需要讓計(jì)算機(jī)事前學(xué)習(xí)真實(shí)對象的像素特征,通過靈活調(diào)整中級語義參數(shù)獲取理想的分割結(jié)果,適用于不同尺度和視角的圖像,操作程序相對簡單;缺點(diǎn)是每張圖片的分析需要少量的人工干預(yù),不能完全實(shí)現(xiàn)智能化的分析流程。
Achanta等提出的“簡單線性迭代聚類”(simple linear iterative clustering,SLIC)是目前性能較為優(yōu)越的超像素分割算法,該算法可對生成的超像素?cái)?shù)量進(jìn)行控制,且相比其他算法而言,在處理時(shí)間、邊緣召回率、欠分割錯(cuò)誤率上都有著較好的表現(xiàn)。2013 年,Kovesi 提出利用SLIC 生成超像素,在通過基于密度的聚類算法DBSCAN 實(shí)現(xiàn)對超像素的聚類,以此更加簡潔、快速地獲取分割結(jié)果;與此同時(shí),Kovesi還于其個(gè)人網(wǎng)站給出了算法的MATLAB代碼,研究者可利用MATLAB 直接實(shí)現(xiàn)照片的超像素分割,僅需要設(shè)置如下幾個(gè)參數(shù):超像素?cái)?shù)量(名義上的生成數(shù)量,若參數(shù)過小,實(shí)際生成數(shù)量將略大于設(shè)定值)、色彩-空間差異權(quán)重(參數(shù)越大,超像素的邊緣將越規(guī)整和平滑)、分割半徑(形態(tài)上小于參數(shù)設(shè)置的像素將被合并)、色彩中心計(jì)算方式(根據(jù)超像素色彩均值或中值計(jì)算)等,經(jīng)過幾輪調(diào)整確定理想的參數(shù)值,即可直接生成基于真實(shí)對象的分割結(jié)果,作為照片內(nèi)容分析的依據(jù)。然而,由于SLIC 的超像素分割并沒有針對大眾用戶進(jìn)行開發(fā),其結(jié)果的反饋和調(diào)整均需要借助一定的計(jì)算機(jī)語言知識,因而在一定程度上阻礙了其在旅游圖像內(nèi)容分析方面的運(yùn)用。相較而言,同樣可以生成超像素分割結(jié)果的商業(yè)化軟件易康(eCognition)則對一般用戶表現(xiàn)出了較好的操作性。
易康是德國Trimble 公司旗下的遙感數(shù)據(jù)分析軟件,該軟件以面向?qū)ο蟮挠跋穹治鰧?shí)現(xiàn)對真實(shí)的物的分類,在旅游照片的分割上也有著出色的表現(xiàn)。易康為不具備編程知識的用戶提供了友好的操作界面,使用者可利用軟件對照片進(jìn)行多尺度分割,以異質(zhì)性最小的區(qū)域合并算法,自下而上地對像素進(jìn)行聚類,最終生成真實(shí)對象的超像素。主要步驟如下:(1)建立算法,導(dǎo)入待分析照片,于進(jìn)程樹中新建多尺度分割算法,于執(zhí)行領(lǐng)域中選擇像素級;(2)參數(shù)初設(shè),對尺度參數(shù)(控制所生成超像素的大小,需根據(jù)照片分辨率和真實(shí)對象的大小設(shè)置)、形狀參數(shù)(色彩與形狀之間的權(quán)重參數(shù),控制生成結(jié)果對色彩或形狀的參考度)、緊湊度(緊湊度與平滑度之間的權(quán)重參數(shù),控制生成超像素邊緣的緊湊或平滑程度)、圖層權(quán)重(R/G/B 3 個(gè)通道的權(quán)重參數(shù),控制生成結(jié)果對各通道的依賴度)進(jìn)行設(shè)置;(3)參數(shù)調(diào)整,利用初設(shè)參數(shù)執(zhí)行運(yùn)算,并根據(jù)結(jié)果對參數(shù)進(jìn)行調(diào)整,必要時(shí)也可通過手動(dòng)操作對相同語義的超像素進(jìn)行合并;(4)結(jié)果反饋,于圖像對象信息中選擇需要展示的超像素屬性,以提取分割后對象的面積、形狀、色彩等特征。
超像素的分割結(jié)果展示了照片中不同對象的邊界,再通過人工識別各對象所指代的現(xiàn)實(shí)含義后,即可實(shí)現(xiàn)對旅游圖像內(nèi)容的量化分析。事實(shí)上,在生成超像素分割結(jié)果后,研究人員可通過機(jī)器學(xué)習(xí)的途徑,基于同類對象的圖像特征建立算法,進(jìn)一步實(shí)現(xiàn)對超像素的分類,最終實(shí)現(xiàn)對圖像高級語義的提取。然而在現(xiàn)實(shí)情況下,即便同一類型的對象(如建筑),其形狀、色彩、紋理等圖像特征也各不相同,加之游客拍照時(shí)的角度、方位、光線等因素也存在差異,為算法建立的復(fù)雜性和分割結(jié)果的準(zhǔn)確性帶來了巨大挑戰(zhàn)。而自深度學(xué)習(xí)提出后,研究人員僅需提供大量相應(yīng)語義標(biāo)簽的訓(xùn)練樣本,計(jì)算機(jī)即可自動(dòng)學(xué)習(xí)該類圖像的像素特征,生成涵蓋不同語義標(biāo)簽的數(shù)據(jù)集,最終實(shí)現(xiàn)基于高級語義的圖像分割與識別。
正所謂“無數(shù)據(jù)不AI,無人工不智能”,利用深度學(xué)習(xí)的語義分割對圖像內(nèi)容進(jìn)行分析,其最大的阻礙在于需要大量訓(xùn)練樣本,且樣本的處理需要耗費(fèi)大量人工。幸而歷經(jīng)最近幾年的發(fā)展,來自世界各地的企業(yè)、研究機(jī)構(gòu)已經(jīng)開發(fā)出了一些成熟的端到端開源深度學(xué)習(xí)平臺,集深度學(xué)習(xí)核心訓(xùn)練框架、基礎(chǔ)模型庫、開源數(shù)據(jù)集于一體,比如谷歌的TensorFlow、亞馬遜的MXNet、百度的飛漿等,這些生態(tài)完備的平臺使開發(fā)者能夠輕松地構(gòu)建和部署深度學(xué)習(xí)任務(wù)。對圖像語義分割而言,自2014年FCN網(wǎng)絡(luò)將端到端、像素級的預(yù)測效果推廣到語義分割以來,語義分割模型在采樣方式和架構(gòu)上不斷優(yōu)化,SegNet 模型的反池化采樣(unpooling)設(shè)計(jì)、DeepLab v1 模型的空洞卷積(dilated convolutions)操作,使圖像分割的結(jié)果愈發(fā)接近于人的視覺判斷。目前該系列最先進(jìn)的DeepLab v3+模型于2018年發(fā)布,更為精細(xì)的分割效果為旅游圖像的量化分析提供了支撐。研究可借助模型對數(shù)據(jù)集進(jìn)行擬合、訓(xùn)練、驗(yàn)證,以達(dá)到理想的數(shù)據(jù)分割效果,使用不同的數(shù)據(jù)集即可完成不同領(lǐng)域內(nèi)的分割任務(wù)。目前,常用的數(shù)據(jù)集包括PASCAL VOC、Cityscapes、ADE20K、KITTI等,其中,部分?jǐn)?shù)據(jù)集的使用場景與旅游環(huán)境具有較好的耦合關(guān)系,可直接運(yùn)用于旅游圖像的內(nèi)容分析。
語義分割的操作需要一些基礎(chǔ)的計(jì)算機(jī)語言知識。以深度學(xué)習(xí)平臺MxNet為例,研究者可直接調(diào)用數(shù)據(jù)集和預(yù)訓(xùn)練模型來實(shí)現(xiàn)旅游照片的語義分割,主要步驟如下:(1)環(huán)境搭建,編寫Python 代碼,安裝GluonCV Toolkit 視覺庫,導(dǎo)入PIL 圖像處理模塊和numpy數(shù)值計(jì)數(shù)模塊,為圖像分割與數(shù)值化處理做準(zhǔn)備;(2)模型調(diào)用與圖像導(dǎo)入,在模型庫中選擇分割精度與運(yùn)算效率適宜的模型,以及標(biāo)簽類別足夠覆蓋研究對象的數(shù)據(jù)集,調(diào)節(jié)參數(shù)后導(dǎo)入待分析圖像;(3)標(biāo)簽預(yù)測,將不同景觀要素的類型視為不同標(biāo)簽,根據(jù)調(diào)用參數(shù)建立預(yù)測算法,利用PIL模塊對語義分割預(yù)測結(jié)果生成區(qū)分不同標(biāo)簽類型的彩色分割圖;(4)結(jié)果反饋,利用PIL 模塊可以對圖像原本的色彩進(jìn)行提取,Numpy模塊遍歷各個(gè)標(biāo)簽像素的大小,即可完成圖像內(nèi)容的數(shù)值化分析,提取標(biāo)簽的數(shù)量、尺度、面積、形狀等信息。
本節(jié)以云南沙溪為例,利用超像素分割考察公眾旅游審美的生成。沙溪古鎮(zhèn)位于云南省大理州劍川縣,具有世界建筑遺產(chǎn)、國家級歷史文化名鎮(zhèn)、國家4A級旅游景區(qū)、云南旅游名鎮(zhèn)等多項(xiàng)頭銜,是以傳統(tǒng)聚落景觀為代表性資源的旅游地。沙溪古鎮(zhèn)的網(wǎng)絡(luò)照片不僅記錄著當(dāng)?shù)氐穆糜涡蜗?,照片的生產(chǎn)過程更暗含著旅游學(xué)驅(qū)動(dòng)下傳統(tǒng)聚落景觀的審美規(guī)律。研究利用Python 爬取馬蜂窩網(wǎng)站中游客上傳的關(guān)于沙溪古鎮(zhèn)的照片,將重復(fù)及拍攝地點(diǎn)不在案例地范圍的剔除,最終獲取有效照片3316張。根據(jù)上文介紹的方法,利用易康Developer 9.0對網(wǎng)絡(luò)照片進(jìn)行超像素分割(圖2)。
圖2 超像素分割的操作過程Fig.2 Procudures of superpixel segmentation
利用超像素分割,研究者不僅可以實(shí)現(xiàn)游客景觀偏好類型的內(nèi)容分析,更可進(jìn)一步結(jié)合指標(biāo)體系的建構(gòu),討論旅游審美的生成機(jī)制。每一張照片的拍攝均意味著一次旅游凝視的獨(dú)立完成,而照片中各對象所占據(jù)的比例則表明其于凝視形成的重要性。因此,研究者可據(jù)對象反饋出的旅游學(xué)屬性及其重要性特征實(shí)現(xiàn)對照片內(nèi)容的深層分析。由于旅游審美是對復(fù)雜對象的綜合性判斷,不同因素對審美選擇的影響往往難以解構(gòu)。因此在沙溪古鎮(zhèn)的案例中,筆者按照旅游資源(客體)、旅游業(yè)(介體)、旅游者(主體)的邏輯關(guān)系建立了“資源依附、商品價(jià)值、服務(wù)對象”的三維指標(biāo),以照片中各對象所占據(jù)的圖幅比例為權(quán)重(若照片為特寫,則其對象權(quán)重視為1),考察沙溪旅游審美的生成機(jī)理,依托數(shù)據(jù)結(jié)果分別析出資源、商品和服務(wù)對游客審美選擇的影響力(圖3)。
圖3 基于超像素分割的旅游審美分析示例Fig.3 Example of tourist aesthetic analysis based on superpixel segmentation
據(jù)圖4 的分割結(jié)果,沙溪旅游照片中記錄的對象包括建筑物、院落空間、室內(nèi)環(huán)境、裝飾物、街巷、廣場、橋梁、標(biāo)識物、功能設(shè)施、植物、動(dòng)物、山脈、天空、水體、農(nóng)田、食物、工藝品、人文活動(dòng)、游客、居民共20 個(gè)類型。建筑物、天空、植物在單張照片中出現(xiàn)的比率為35.11%、15.72%、13.95%,構(gòu)成了沙溪旅游意象的主體,其中,建筑物則是沙溪旅游景觀最突出的核心。據(jù)評價(jià)結(jié)果,案例地單張旅游照片的總評分為1.47(滿分6分),說明總體而言,照片中景觀的旅游學(xué)屬性并不突出。通過考察各指標(biāo)的數(shù)據(jù)特征發(fā)現(xiàn),有65.00%的拍攝對象與當(dāng)?shù)芈糜钨Y源直接相關(guān),服務(wù)設(shè)施與旅游商品僅有21.62%和13.38%的可能性吸引游客的關(guān)注。研究還發(fā)現(xiàn),雖然評分?jǐn)?shù)據(jù)分布并未呈現(xiàn)出嚴(yán)格的正態(tài)特征,但評分在1 至2 分區(qū)間的個(gè)案數(shù)量最多(1417 張),左右兩側(cè)數(shù)量呈遞減趨勢。該結(jié)果反映出,相較于完全原真(分值較低)或過度開發(fā)(分值較高)的旅游景觀而言,具有適當(dāng)旅游屬性的景觀才是多數(shù)人的審美選擇。以上數(shù)據(jù)說明,基本的資源宣傳、設(shè)施服務(wù)和商品銷售仍然在一定范圍內(nèi)對旅游形象的塑造產(chǎn)生積極作用。為實(shí)現(xiàn)開發(fā)與原真之間的平衡,管理者可以通過搜集不同時(shí)期游客上傳的照片,結(jié)合超像素分割技術(shù),開展對游客景觀感知的定期監(jiān)測,以實(shí)現(xiàn)旅游地形象的動(dòng)態(tài)管理。
圖4 案例地旅游審美的結(jié)構(gòu)特征Fig.4 The composition of tourist aesthetics in the case study
本節(jié)以云南怒江為例,利用語義分割考察旅游風(fēng)景道的視覺景觀質(zhì)量。怒江美麗公路(國道G219丙中洛至六庫),是全國“旅游+交通”新型融合發(fā)展舉措的實(shí)踐探索,也是《云南省美麗公路旅游線規(guī)劃》及“大滇西旅游環(huán)線”的重要組成。該風(fēng)景道全長約280 km,穿越了橫斷山脈南部V形深切峽谷及傈僳族、怒族、獨(dú)龍族等少數(shù)民族聚居地。過往研究中,學(xué)者通過等距離專家組目視的方法來完成風(fēng)景道景觀質(zhì)量的測評,其結(jié)果無法避免地受到評價(jià)者的主觀影響。而借助語義分割、全景拍攝及雙眼視覺學(xué)理論,風(fēng)景道景觀質(zhì)量的測度方法將更為科學(xué)、客觀,其結(jié)果對風(fēng)景道線路布局與定位、景觀資源開發(fā)和保育等更具指導(dǎo)意義。
為采集風(fēng)景道休閑駕駛過程中人眼的視覺景觀信息,研究利用全景相機(jī)對案例線路進(jìn)行等距離(1 km)拍攝,并通過Adobe Photoshop對照片進(jìn)行畸變校正,隨后根據(jù)相機(jī)視場角(field of view,F(xiàn)OV)和雙眼視域范圍對照片數(shù)據(jù)進(jìn)行裁切,生成雙眼視域下的風(fēng)景道景觀照片。按上文介紹的語義分割方法,在模型調(diào)用步驟選擇適合道路場景、具有較好精度的ADE20K 數(shù)據(jù)集和DeepLab V3+ResNeSt-269預(yù)訓(xùn)練模型,對采集、合成的風(fēng)景道視域圖像進(jìn)行分析(圖5)。為實(shí)現(xiàn)對風(fēng)景道景觀質(zhì)量的進(jìn)一步解譯,研究基于遍歷視域圖像后獲取的各景觀要素面積比率,構(gòu)建非量表式的語義差異指標(biāo),從“自然-人工”(naturalness-artificiality,NA)、“多樣-統(tǒng)一”(diversity-coherence,DC)、“開闊-幽深”(opennessdeepness,OD)3組語義差異概念解讀案例地的視覺景觀質(zhì)量。
圖5 語義分割的操作過程Fig.5 Procedures of semantic segmentation
語義分割結(jié)果表明(圖6),休閑駕駛過程中,怒江美麗公路的視覺景觀要素包含喬木、草本、灌木、建筑、水體、天空、道路、裸土地面、山體、圍欄、標(biāo)識、墻體、汽車共13個(gè)類型。全路段平均來看,道路所占視域面積最大,為38.26%,除此之外,天空、山體、喬木分別占比23.65%、19.94%以及10.09%,構(gòu)成了視覺景觀的主要成分。在此數(shù)值基礎(chǔ)上,進(jìn)一步對建構(gòu)的3組指標(biāo)進(jìn)行計(jì)算,以1和0分別代表語義差異概念的兩個(gè)極值、0.5 為兩個(gè)概念的臨界點(diǎn),得出案例地NA 值0.8922、DC 值0.2731、OD 值0.6192,說明其視覺景觀表現(xiàn)出“高度自然、較為統(tǒng)一、略微開闊”的總體特征。若按行駛路徑將圖像數(shù)據(jù)串聯(lián)起來進(jìn)行整體研究,可以發(fā)現(xiàn)案例地NA值相對穩(wěn)定,而DC和OD 則頻繁變化(圖7)。上述結(jié)果為怒江美麗公路的管理帶來一些啟示。一方面,作為穿越峽谷的風(fēng)景道,案例地“略微開闊”的評價(jià)結(jié)果尚未較好地展現(xiàn)出峽谷資源的幽深特征。結(jié)合景觀要素的占比數(shù)據(jù)可發(fā)現(xiàn),道路兩側(cè)的山體比重并不低,但由于道路改造工程,路側(cè)喬木比重略少,導(dǎo)致了道路景觀向開闊特征發(fā)展。因此在后續(xù)維護(hù)中,管理方應(yīng)當(dāng)注重路側(cè)喬木的保育,突出峽谷道路的幽深特征。另一方面,景觀質(zhì)量的變化不僅可以豐富休閑駕駛的體驗(yàn),而且更有助于緩解駕駛者的視覺疲勞。而如圖6 所示,案例地雖然穿越了貢山、福貢、瀘水3 個(gè)區(qū)域,但各路段景觀質(zhì)量未能體現(xiàn)出規(guī)律性的變化,缺乏相應(yīng)的主題性。因此,各路段的管理方應(yīng)當(dāng)注重路段特色的挖掘,賦予怒江美麗公路律動(dòng)變化的視覺體驗(yàn)。
圖6 基于語義分割的景觀質(zhì)量評價(jià)示例Fig.6 Example of landscape quality evaluation based on semantic segmentation
圖7 案例地景觀質(zhì)量的動(dòng)態(tài)變化Fig.7 The trajectory of landscape quality in the case study
本文介紹了圖像分割技術(shù)的原理,以及兩種具體的分割方法——超像素分割和語義分割,并通過兩個(gè)實(shí)證案例來討論不同分割技術(shù)的適用范圍,具體結(jié)論如下(圖8)。
圖8 兩種分割方式的技術(shù)路徑對比Fig.8 Technical path comparison of two segmentation methods
(1)超像素分割根據(jù)圖像紋理、色彩、形狀、緊湊度等指標(biāo)構(gòu)建同質(zhì)性原則,并根據(jù)原則對鄰近像素進(jìn)行分類與合并,將中級語義上升至高級,實(shí)現(xiàn)真實(shí)對象的分割。其分割結(jié)果并不能確定各對象的類別名義,需要人工參與判斷,因而較難實(shí)現(xiàn)圖像的批量處理。但由于人工參與鑒別時(shí)可根據(jù)實(shí)際情況對分割結(jié)果及其同質(zhì)性原則進(jìn)行調(diào)整,故適用于任意景類和視角的圖像,是網(wǎng)絡(luò)旅游照片分析的重要工具。
(2)語義分割基于人工神經(jīng)網(wǎng)絡(luò),通過對訓(xùn)練樣本的深度學(xué)習(xí),進(jìn)而直接根據(jù)圖像的高級語義實(shí)現(xiàn)像素級別的分割,最終呈現(xiàn)的結(jié)果包含真實(shí)對象的輪廓與類別。由于不需要人工介入,因而可實(shí)現(xiàn)批量處理,更加符合大數(shù)據(jù)分析的需求。然而,語義分割的運(yùn)用依賴深度學(xué)習(xí)的數(shù)據(jù)集,因而其適用范圍受既有數(shù)據(jù)集的限制。雖然研究者可以根據(jù)實(shí)際需要自定義添加訓(xùn)練類別,但需要花費(fèi)大量精力制作訓(xùn)練樣本。因而,語義分割更適合于場景或視點(diǎn)相對固定的專業(yè)圖像分析。
結(jié)合當(dāng)前技術(shù)發(fā)展的現(xiàn)實(shí)情況來看,雖然語義分割為照片內(nèi)容分析帶來了更多便利,但在不考慮自主訓(xùn)練、僅利用既有開源數(shù)據(jù)集的情況下,該方法尚不能勝任滿目琳瑯的旅游視覺分析。因而,語義分割與超像素分割相結(jié)合的方法構(gòu)成了一個(gè)相對理想的選擇。研究者先利用語義分割對照片數(shù)據(jù)進(jìn)行批量處理,隨后針對超出數(shù)據(jù)集適用范圍或分割效果不理想的個(gè)案進(jìn)行超像素分割,最終實(shí)現(xiàn)基于圖像分割的照片內(nèi)容分析。然而,由于深度學(xué)習(xí)的語義分割在算法上直接模擬人類大腦對視覺信息的處理,更加符合由旅游圖像還原人腦視覺思維的分析初衷,其運(yùn)用更具前景。
網(wǎng)絡(luò)視覺媒體的流行以及行業(yè)應(yīng)用的拓展創(chuàng)造了一個(gè)圖像數(shù)據(jù)爆炸的時(shí)代。在這一時(shí)期,基于標(biāo)簽、足跡的旅游大數(shù)據(jù)將旅游行為視為字符串、點(diǎn)坐標(biāo),弱化了主體感知與決策的真實(shí)情境,為旅游數(shù)據(jù)分析帶來了潛在的危機(jī)。作為回應(yīng),研究的方法論需要實(shí)現(xiàn)由數(shù)據(jù)量積累向數(shù)據(jù)深度挖掘的轉(zhuǎn)向。相較于旅游照片的元數(shù)據(jù)分析,基于圖像分割的內(nèi)容分析特點(diǎn)在于緊扣照片所敘述的視覺世界,從對象的類別、屬性、組合等方面考察旅游者對景觀的凝視。當(dāng)代圖像分割技術(shù)可以實(shí)現(xiàn)對真實(shí)對象的分割,并以像素單位計(jì)算對象的圖形特征,為圖像內(nèi)容分析的深化提供了可能。研究者可從數(shù)量關(guān)系上解構(gòu)人對旅游地視覺感知的具體組分,首先開展基礎(chǔ)信息提取,包括視覺對象的類型、輪廓、色彩特征,及其在旅游凝視中出現(xiàn)的頻率與視域占比。隨后開展內(nèi)容分析的進(jìn)階演算,例如依托用戶生成的網(wǎng)絡(luò)照片,根據(jù)視覺對象在旅游資源、商品價(jià)值、服務(wù)對象等方面的表現(xiàn)判斷旅游開發(fā)對目的地形象的影響;或利用專業(yè)采集的影像資料,根據(jù)自然、多樣、開闊等視覺體驗(yàn)對旅游地景觀質(zhì)量進(jìn)行評判。借助該技術(shù),旅游圖像的內(nèi)容分析不再停留于圖像單元,而是深入至分割后的具體視覺對象,為分析過程提供具體的數(shù)據(jù)支撐,解決以往旅游形象感知及景觀評價(jià)方法的主觀性與深入性問題。該技術(shù)的引入使旅游地管理機(jī)構(gòu)可通過不同時(shí)期旅游圖像的搜集采集,實(shí)現(xiàn)旅游形象與景觀質(zhì)量的監(jiān)測監(jiān)管,通過視覺數(shù)據(jù)推動(dòng)旅游地的智慧化管理。長遠(yuǎn)而言,隨著人工智能的發(fā)展,圖像數(shù)據(jù)集的適用范圍將不斷拓展至生活的各個(gè)方面,最終覆蓋旅游照片中的不同對象,而諸如全景分割、實(shí)例分割等本文暫未涉及的前沿方法也將逐漸體現(xiàn)出其強(qiáng)大的應(yīng)用價(jià)值。屆時(shí),圖像分割有望成為分析旅游圖像數(shù)據(jù)的重要智能工具,借助數(shù)據(jù)決策賦能未來旅游事業(yè)的發(fā)展。