呂健榮 陸 旻 樂 陽
(深圳大學建筑與城市規(guī)劃學院 深圳 518060)
隨著智慧城市概念的提出,智慧校園的建設也逐漸得到重視[1]。日益進步的物聯網、云計算等技術,使智能化、信息化、物聯化的智慧校園成為了可能。20 世紀 70 年代,美國麻省理工學院提出的 E-campus 計劃最早引出“數字校園”的概念,隨后數字化的概念在全球得到傳播,“數字城市”“數字校園”逐漸得到關注[2]。近年來,涵蓋從感知層、網絡層、數據層、應用層到服務層的自上而下的智慧校園總體架構模型[3]的構造,使眾多校園管理事務得以實現和優(yōu)化,如照明管理、圖書借還管理、課堂簽到、院系資源共享等[4-6]。
數字沙盤投影系統(tǒng),簡稱數字沙盤,是一種直觀展示數據與信息的技術。其在傳統(tǒng)沙盤的基礎上,結合了仿真技術、虛擬技術,達到更好的視覺效果和虛實結合的交互能力,提高演示和分析的效率,從而更好地達到決策目的。近年來,國內外有諸多關于數字沙盤的研究和應用。在國內,故宮數字沙盤借助大數據和計算機科學技術,搭建集方案演示、規(guī)劃評估等多功能于一體的可視化平臺[7];結合地形、影像等數據構建的黃河北干流交互沙盤系統(tǒng),為水利樞紐工程建設起到重要的支撐作用[8];結合高校信息傳播及圖形化技術構建的交互式電子沙盤,可用于探究在新媒體環(huán)境下高校信息呈現的新方式[9];借助基于 Leap Motion(一種體感控制器)設計的手勢識別方案對基于 Unity3D 構建的三維電子沙盤進行控制,實現人手對沙盤系統(tǒng)的操作[10];結合增強現實技術構建的校園規(guī)劃沙盤,在保持交互性的基礎上提高了真實感[11]。在國外,Piper 等[12]通過改變黏土制作的沙盤模型的造型,利用激光掃描儀實時捕捉不斷變化的幾何形狀,完成水流和土地侵蝕等情況的模擬分析,并對結果進行了直觀展示;Mitasova 等[13]在有形用戶界面和地形分析研究的基礎上,通過改變 3D 物理模型的地形表面,來探索不同地形之間的關系及地形改變時發(fā)生的景觀變化過程;Petrasova 等[14]結合物理三維景觀模型和地理空間建模進行分析,基于分析結果進行水文模擬和野火建模等;同樣,國外也有團隊基于沉浸式技術結合增強現實設備,使用戶沉浸在數據中,流暢地進行分析與合作[15];Zhang[16]提出城市矩陣的方法,以樂高積木作為實體模型,首先構建光學標簽,然后利用計算機視覺算法識別計算,最后將結果投影到積木上。
有別于傳統(tǒng)的“鼠標-鍵盤”(簡稱“鍵鼠”)人機交互方式,數字沙盤提供了更為自然的人機交互技術,如觸摸屏,該技術已被證明可以極大地提高人機交互效率。有關數字沙盤的研究主要分為兩種思路,一種是基于可穿戴設備的自然人機交互,如國內外均有團隊為了幫助聾啞人,將無線藍牙模塊和數據手套結合,完成了從手勢到語音轉換系統(tǒng)的開發(fā)[17-18]。另一種是無需佩戴交互設備的人機交互方式,如翟雅芳[19]將Kinect 技術應用到教學中,設計具有娛樂性的虛擬教學系統(tǒng);Manghisi 等[20]基于 Kinect v2 深度相機,對不同工作場所的人群進行骨骼捕捉,結合人體工學對工作場所的風險因素進行評估。隨著深度學習的不斷發(fā)展[21-22],基于圖像識別的交互技術實現成本越來越低。孫博文等[23]利用圖像分割、圖像去噪等技術,結合神經網絡構建的模型,在單目攝像頭下也能達到很高的識別精度,完成手勢的交互操作;肖志勇等[24]利用攝像頭采集的用戶圖像,對人眼和手指進行定位,實現了基于視線跟蹤和手勢識別的交互方式。
本文在建設智慧校園的背景下,提出支持多人協作的智慧校園活動熱力模擬交互式數字沙盤。具體地,首先利用傳感器、智能計算終端等設備構建基于深度學習驅動的數字沙盤計算模型;然后采用 3D 打印技術制作交互道具,結合圖像彩色信息和深度信息,將道具與手勢置于以深度學習為基礎的檢測識別模型中,實現從鍵鼠交互的數字沙盤到以手勢/道具為交互介質的三維數字沙盤的轉變;最后構建交互式的智慧校園沙盤原型系統(tǒng),并以校園活動熱力模擬為應用場景,驗證該系統(tǒng)的可行性。
交互式校園活動熱力數字沙盤是在校園活動發(fā)生時,模擬校園內部道路的途經熱度(簡稱校園活動熱力),并支持實時可視化及交互的多人決策平臺。該系統(tǒng)脫離傳統(tǒng)的鍵鼠交互方式,以更為靈活多變的手勢及道具進行操作。利用智能計算終端對 Kinect 相機傳感器捕獲的每一幀圖像進行手勢和道具的檢測,將檢測到的目標與定義好的計算進行關聯,觸發(fā)交互事件。通過對沙盤上手勢和道具的連續(xù)感知,對道路、建筑等進行相應調整,完成不同條件下校園活動熱力的模擬計算,并通過投影儀進行可視化輸出,便于用戶進行前后對比以輔助決策(圖 1)。
圖1 平臺搭建及現場操作Fig. 1 Platform infrastructure and operation
交互式校園活動熱力數字沙盤采用客戶端和服務器(Client-Server)架構。模型的客戶端使用Kinect 攝像頭作為輸入設備,投影儀作為輸出設備,完成手勢/道具圖像捕捉(輸入)、可視化渲染(輸出)等交互界面相關的任務;服務器端負責數據存儲及訪問、校園活動熱力模擬計算、交互判別及響應等核心計算任務。
系統(tǒng)基本運作流程如圖 2 所示。首先,Kinect 攝像頭對操作平臺進行連續(xù)圖像獲取,智能計算終端對輸入圖像進行目標檢測,識別其中手勢/道具的具體位置并進行透視變換,實現向客戶端可視界面的坐標轉換;然后,根據識別的目標類別、數量、位置等信息,對校園活動熱力模擬模型設置不同的計算條件,通過服務器端訪問數據庫調用相應數據完成熱力計算,并將計算結果傳至客戶端;最后,客戶端根據接收的信息渲染更新可視化結果,并借助投影設備完成可視化界面的輸出。該技術架構擺脫了傳統(tǒng)的單人鍵鼠交互方式,通過預定義的手勢/道具語義信息,支持多人多道具的自然人機交互,從而提高團隊的協作效率。
圖2 系統(tǒng)運作流程圖Fig. 2 Flow chart of system operation
本文根據道路熱力值進行建模,完成校園活動熱力模擬模型的搭建。對于本文涉及的個別名詞及相互關系,定義如下:
校園活動:以校園內某一處或多處建筑為主要活動地點舉辦的聚集性活動,如新生軍訓、迎新晚會、校園宣講會等,是校園學習和生活中的常見形式;
道路熱力:校園道路承載著連接校園各個建筑的功能,道路熱力用于評估道路的擁擠程度,人流量越大,該道路表現越擁擠,熱力值越高;人流量越小,該道路表現越通暢,熱力值越低。
當校園活動發(fā)生時,不同個體選擇不同道路去往活動地點,造成不同道路的人流量存在差異,此時的道路途經熱度即道路人流量的相對大小,人流量越大則熱力值越高。提前預測道路熱力值,有利于對熱力值高的道路提前做好預防工作,防止踩踏等安全事故發(fā)生,是管理校園安全保障的一個重要方面。
通常情況下,行人在前往目的地的過程中往往會選擇最短路徑,因此在模擬行人對路徑的選擇時,本文采用 Dijkstra 算法構建校園道路有向圖。有向圖中的邊代表道路路段,每條邊的代價值由道路的長度決定,即長度越長,行人在其上花費的時間越多,其代價值越高。節(jié)點作為各道路的相交點也具有代價值,該值代表從起點到該點的最短路徑所花費的代價,由所經道路所在邊的代價值之和決定。最后根據 Dijkstra 算法計算過程中每條道路的使用頻數,對每條道路所在邊賦予權重值,作為道路熱力值。
在確定起點和終點建筑后,根據就近原則確定對應的有向圖節(jié)點。利用 Dijkstra 算法計算各個起點到終點的路徑并結合起點建筑出發(fā)人數,根據起點建筑與起點道路節(jié)點及起點道路節(jié)點與最短路徑的一一對應關系,將起點建筑出發(fā)的人數累加到最短路徑所經的路段上,以最終的累加值作為路段的熱力值,用于反映道路的人流量大小。最后利用顏色漸變的映射關系將道路熱力值進行結果顯示(圖 3)。熱力值越高代表路段擁擠度越高,越需要加以重視或者通過人工干預進行人流分流,以降低事故發(fā)生的概率。
圖3 道路熱力賦值Fig. 3 Road thermal assignment
本文基于圖像的深度學習方法,利用被廣泛使用的 YOLO 算法[25]對手勢/道具進行訓練識別,實現人機交互。不同于基于骨架開發(fā)的手勢交互模型,本文采用基于圖像的方法,將手勢和道具交互置于統(tǒng)一的識別模型中,在交互道具種類和數量上具有更好的可擴展性。
構建 YOLOv4 目標檢測模型需要大量的訓練圖像數據,如果每張圖像都通過拍攝獲取后進行逐張標注,那么人力和時間成本會非常高。因此,本文設計了半人工標注的訓練集生成方法。
如圖 4 所示,首先利用 Canny 算子[26]對手勢和道具圖像進行邊緣自動檢測與提取,通過圖像增強的方式增加手勢與道具的姿態(tài)信息,提高數據的多樣性;然后以 7∶3 的比例將目標影像和背景圖進行加權融合,模擬投影效果。在融合過程中記錄標注信息,以節(jié)省后續(xù)人工標注目標對象的時間。
圖4 訓練圖像生成流程Fig. 4 Automatic generation of training dataset
本系統(tǒng)采用 YOLOv4 的網絡結構,結合YOLO 官網提供的權重數據,輸入上述合成的訓練集進行訓練。該權重數據在 COCO[27]數據集(包括人、自行車、汽車、飛機等常見對象)上進行預訓練,使算法從一開始就能提取目標輪廓、形態(tài)等基本信息,并對物體有一定的識別能力。利用該權重數據能夠更快地使計算結果收斂,降低訓練所需時間。識別效果如圖 5 所示。
如圖 5(a)所示,當訓練次數迭代至 2 000 次左右時,模型損失值(Loss)趨于平緩,平均精度均值(mAP)接近 95%,該結果表明,模型此時接近最優(yōu)解。若再進行迭代訓練,結果可能會產生過擬合現象,故采用迭代 2 000 次獲得的模型參數作為實驗參數。從實際識別結果來看,該模型參數的平均識別準確度達到 85% 以上,所有手勢和道具都能被準確地檢測。即使當道具受到強光影響產生較強的鏡面反射時,該模型也能被準確識別,如圖 5(b)所示。
圖5 Loss,mAP 圖以及目標檢測識別效果Fig. 5 Loss, mAP diagram and the eあect of target detection and recognition
在圖像輸入、手勢/道具位置檢測、位置信息傳輸以及網頁渲染的過程中,由于位置信息所在的坐標系發(fā)生了變化,所以需要進行坐標轉換,在此過程中涉及的坐標系有兩種:Kinect 攝取圖像所在的圖像坐標系以及網頁渲染的屏幕坐標系(圖 6)。
圖6 坐標轉換過程Fig. 6 Coordinate transformation process
坐標系轉換實際上是基于圖像坐標系中的網頁投影區(qū)域和屏幕坐標系中整個網頁部分之間的透視變換完成的,因此需要利用 Canny 算子[26]提取網頁部分在透視變換前后的 4 組映射點坐標。詳細步驟如下:
(1) 對圖像坐標系的圖像進行網頁部分的邊緣提取,通過邊緣包圍面積過濾小邊緣,僅保留包圍網頁投影區(qū)域的大邊緣;
(2)通過多邊形近似算法將邊緣信息簡化為4 個角點坐標,記作原始角點坐標;
(3)提取網頁在屏幕坐標系下 4 個角點的坐標,記作變換角點坐標;
(4)通過透視變換求解變換矩陣,進行坐標轉換。
上述操作是在系統(tǒng)初始化計算時對交互行為中的位置完成坐標轉換,極大地降低了 Kinect 相機與投影儀相對位置的安裝精度要求。
基于 YOLO 算法識別目標對象位置并進行坐標轉換的流程實現,本文設計了多種手勢/道具的交互方式,包括手勢驅動的地圖平移和縮放及各種道具支持的地圖語義交互等,具體見表 1。
表1 手勢/道具定義Table 1 Definition of gestures/props
當學校舉行大型活動時,人流的控制是其中比較重要的部分,需要校園管理者合理規(guī)劃師生前往活動會場的路徑,將人流較為均勻地分布到各路段,更大效率地使用現有道路,避免某些路段人流過多帶來安全隱患。
假設學校舉辦校運動會,學生們分別從不同建筑前往田徑場進行集合,利用校園活動熱力模擬模型得到道路熱力圖。如圖 7(a)所示,圖中標記路段(黑色橢圓區(qū)域)沒有人流量,該區(qū)域道路沒有得到利用,可通過人工干預,將西南區(qū)宿舍的人流引導至該路段,以減少其他路段的人流壓力。如圖 7(b)所示,利用“建筑選擇”道具選中西南區(qū)宿舍,通過“箭頭”道具引導人流,使校園路段得到更充分的利用,有利于降低安全事故的發(fā)生概率。
圖7 人流疏導前后對比圖Fig. 7 Comparison before and after flow diversion
由于道路施工等緣故,校園某些路段禁止通行,所以在進行校園活動熱力模擬時,需要將某些路段禁止通行的條件納入計算。
假設學生活動中心需要舉辦活動,在所有道路均能通行的情況下,使用校園熱力模擬模型計算得到的道路熱力圖如圖 8(a)所示。此時,若某路段正在進行施工操作需要將路段暫時封閉(如圖 8(b)“禁止通行”道具處),利用“禁止通行”道具向計算終端發(fā)送路段禁行的信號,終端根據新的計算條件對校園活動熱力模擬模型進行重新計算并反饋計算結果。該操作對校園路段狀況進行了及時的模擬更新,有助于校園管理者提前預知師生活動軌跡的變化,為校園安防工作做好準備。
圖8 道路障礙布設前后對比圖Fig. 8 Comparison before and after road obstacle layout
本系統(tǒng)將傳統(tǒng)的“屏幕-鼠標-鍵盤”二維的交互方式拓展至三維,直接利用手勢/道具對系統(tǒng)進行操作。為測試系統(tǒng)的有效性和收集用戶體驗數據,特邀請 20 名受試人員(18 名學生,2 名教師),分別就單獨交互及多人交互進行系統(tǒng)的使用并評價。
與傳統(tǒng)的“鍵鼠”交互方式相比,所有體驗者認為本文系統(tǒng)的交互空間更大,更加新穎,更適合多人協作討論;90% 的體驗者(18 名受試人員)表示該系統(tǒng)入門門檻低;75% 的體驗者(15名受試人員)表示,該系統(tǒng)使用的實體道具增加了場景模擬的真實感,認為手勢/道具的設計和定義很好地貼近了使用者的思維及生活常識;40% 的體驗者(8 名受試人員)對系統(tǒng)將道具交互與即時的計算分析反饋相結合的方式印象深刻,系統(tǒng)具有與傳統(tǒng)交互系統(tǒng)相當的計算效率,同時該系統(tǒng)的實體道具讓他們對計算結果的理解更加深刻;25% 的體驗者(5 名受試人員)表示,通過形象的道具便能大致了解用途,再結合系統(tǒng)設計的道具功能識別模塊進行準確解讀,能輕松上手系統(tǒng)操作。
但是,5 名受試人員反映,該系統(tǒng)在使用過程中存在道具誤識別和漏識別的情況,影響用戶體驗。同時,12 名受試人員表示,目前所提供的實體道具功能相對有限,希望系統(tǒng)增加實體道具的種類。本實驗提出的自動批量生成虛擬訓練數據的方法,雖然解決了獲取訓練樣本成本高的問題,但在模型訓練方面還需要耗費大量時間,且在添加新手勢或道具方面仍需進一步優(yōu)化以降低系統(tǒng)的擴展成本。
在建設智慧校園的背景下,本文設計并實現了交互式校園活動熱力數字沙盤,重點探究了如何結合深度學習、傳感器和智能計算終端構建可交互的數字沙盤模型。首先,在模型構建過程中,提出通過人工合成數據集的方法降低生產數據集的時間成本;其次,利用基于透視變換的坐標轉換降低傳感器安裝的精度要求;再次,結合 Dijkstra 最短路徑算法搭建校園活動熱力模擬模型,完成以深度學習驅動的“傳感器輸入-智能計算終端-可視化輸出”的數字沙盤模型的構建,實現交互式智慧校園沙盤原型系統(tǒng);最后,基于該原型系統(tǒng),結合手勢和其他交互道具檢驗系統(tǒng)的可交互性和實用性。實驗結果表明,該系統(tǒng)可以準確地識別手勢和道具信息,通過智能計算終端輸出結果,將結果更新到沙盤可視化界面反饋給用戶。用戶調查結果顯示,該系統(tǒng)具有上手快、交互空間大、適合多人協作、真實感強、計算分析反饋及時等優(yōu)點。
在識別方面,基于樂高積木底部的光學標簽識別方法,在語義類別定義上,受限于底部積木的排列組合數,不利于定義數量較大的實體道具;而基于圖像目標識別的方法,在增加實體道具、豐富語義信息方面具有更好的拓展性。且與樂高積木[16]相比,本文采用的 3D 打印技術制作的道具更加逼近真實物體,在展示上更加形象細致。但是,目前基于 YOLO 算法實現的手勢和道具的檢測方法雖然通過人工合成數據集的方式大幅度地降低模型構建的時間開銷,但在模型訓練過程中仍需耗費大量時間,且每次更新手勢或道具的類別都需要重新訓練,不利于交互方式的更新。而在手機支付、手機屏幕解鎖中常用的人臉識別功能,則可以在短時間內拍攝人像進行訓練進而完成人臉判別的工作。因此,在之后的研究中,將對 YOLO 算法進行改造優(yōu)化,探究 YOLO算法與人臉識別的算法的結合,實現手勢/道具影像錄入到投入系統(tǒng)使用的即時應用。
在傳感器應用方面,目前以使用相機獲取彩色圖像和深度圖像為主,主要通過計算機視覺完成人機交互。在之后的開發(fā)過程中,嘗試將Kinect 相機攜帶的麥克風傳感器加入交互,在手勢/道具交互的基礎上結合語音識別技術實現更多樣化的交互方式,即用戶通過簡單的語句就能命令操控系統(tǒng),使人機交互更加簡單方便。