石光明,高大化,楊旻曦,謝雪梅,董明皓,李雷達(dá),于 凱
(1.西安電子科技大學(xué)人工智能學(xué)院,陜西西安 710071;2.鵬城實(shí)驗(yàn)室,廣東深圳 518055;3.西安電子科技大學(xué)生命科學(xué)技術(shù)學(xué)院,陜西西安 710071)
憑借著豐富的感官和發(fā)達(dá)的大腦,人類能對(duì)多模態(tài)信號(hào)進(jìn)行處理分析,從而形成生存優(yōu)勢(shì),并在溝通、交流和通信基礎(chǔ)上形成了現(xiàn)代社會(huì),以比特?cái)?shù)據(jù)為基礎(chǔ)的信息處理與通信技術(shù)更是將人類帶入了信息社會(huì).但隨著人工智能技術(shù)的發(fā)展,大量智能體(本文中的智能體是包括人在內(nèi)的智慧性系統(tǒng),如會(huì)決策的機(jī)器人)之間(如人-機(jī)、機(jī)-機(jī)之間)產(chǎn)生了巨大而頻繁的信息傳遞需求,這給以比特?cái)?shù)據(jù)為基礎(chǔ)的信息處理與通信技術(shù)帶來(lái)了巨大挑戰(zhàn).以視頻通信為例,使用目前最新的視頻編碼方法H265傳輸單路4K/30幀的視頻就需要40 Mbps的帶寬,使用5G的終端設(shè)備仍然無(wú)法同時(shí)傳輸幾十路視頻以滿足大型線上會(huì)議場(chǎng)景下的交互需求.因此,探尋并建立一套突破比特?cái)?shù)據(jù)局限的新型信息處理技術(shù)具有時(shí)代意義.其中,如何找到一種更高效、更自然的信息表達(dá)方法是開(kāi)展新型信息處理技術(shù)研究的基礎(chǔ).
通常,人類處理和傳遞信息時(shí)并不是以精準(zhǔn)傳遞數(shù)據(jù)信號(hào)為主,而是以傳遞語(yǔ)義(語(yǔ)言中包含的意思)為首要目的,這對(duì)智能體而言相當(dāng)高效和自然.事實(shí)上,從遠(yuǎn)古至今,人類近距離交互一直使用的是聲波.盡管聲波帶寬有限,但相比遠(yuǎn)古人類之間交流、處理的信息量,現(xiàn)代人類之間交流的信息量多了很多,而交流所用的聲波帶寬資源并沒(méi)有增加,增加的是人類對(duì)語(yǔ)義的表達(dá)與理解能力.近年來(lái),國(guó)內(nèi)外學(xué)者已經(jīng)對(duì)語(yǔ)義在信息處理和通信中的應(yīng)用展開(kāi)了大量的研究.在人工智能領(lǐng)域,直接從信號(hào)中提取所需信息的過(guò)程被稱為語(yǔ)義識(shí)別.對(duì)以語(yǔ)言文字為代表的離散符號(hào)所承載的語(yǔ)義的研究主要分為兩類:(1)借鑒自然語(yǔ)言的語(yǔ)法規(guī)則,構(gòu)建描述語(yǔ)義的離散符號(hào)系統(tǒng).該思路下的早期工作是由文獻(xiàn)[1]首先提出的框架邏輯.隨后Baader等人提出了更為完善且更適合計(jì)算機(jī)處理的描述邏輯[2].近年來(lái),隨著數(shù)據(jù)和算力的發(fā)展,基于知識(shí)圖譜[3]、事理圖譜[4]等靈活的離散圖數(shù)據(jù)結(jié)構(gòu)的語(yǔ)義存儲(chǔ)方法和基于圖神經(jīng)網(wǎng)絡(luò)[5,6]的數(shù)據(jù)挖掘方法被廣泛應(yīng)用于學(xué)界和業(yè)界;(2)基于語(yǔ)料數(shù)據(jù),構(gòu)建反映語(yǔ)言規(guī)則的語(yǔ)言模型.在早期,學(xué)界主要使用條件隨機(jī)場(chǎng)[7]、貝葉斯網(wǎng)絡(luò)[8]等概率模型對(duì)語(yǔ)言進(jìn)行建模.隨著深度學(xué)習(xí)的發(fā)展,從早期的句子順序建模[9,10]到詞語(yǔ)嵌入式表示[11],到基于注意力的大型跨任務(wù)模型[12,13],越來(lái)越多的基于深度模型的語(yǔ)言模型被提出,并逐漸成為離散語(yǔ)義研究的主流方法.而對(duì)以圖像為代表的連續(xù)信號(hào)所承載的語(yǔ)義研究主要分為三類:(1)建立信號(hào)和語(yǔ)義概念的直接映射.Lowe提出一種設(shè)計(jì)語(yǔ)義不變性的模板,并通過(guò)模板匹配進(jìn)行圖像識(shí)別方法[14].Pedro等人在文獻(xiàn)[15]中提出利用深度模型識(shí)別出的圖像中語(yǔ)義概念明確的部件,進(jìn)而綜合得到整體目標(biāo)的檢測(cè)結(jié)果.Koh等人在文獻(xiàn)[16]中提出一種先使用深度模型預(yù)測(cè)圖像中包含的語(yǔ)義概念,再由分類器做出判斷的可解釋圖像分類方法.(2)融合離散符號(hào)表示的語(yǔ)義先驗(yàn).Lu等人提出了一種結(jié)合人類語(yǔ)言先驗(yàn)的視覺(jué)關(guān)系檢測(cè)方法[17].該方法用深度神經(jīng)網(wǎng)絡(luò)將特征提取網(wǎng)絡(luò)得到的圖像特征和詞向量表示的人類語(yǔ)言先驗(yàn)知識(shí)融合,實(shí)現(xiàn)了對(duì)圖像中物體之間的關(guān)系的檢測(cè).Wang等人通過(guò)語(yǔ)義嵌入和知識(shí)圖譜實(shí)現(xiàn)了零樣本識(shí)別[18].該方法利用圖卷積神經(jīng)網(wǎng)絡(luò),將知識(shí)圖譜表示的圖像類別知識(shí)映射到語(yǔ)義空間.然后融合圖像特征和語(yǔ)義向量,實(shí)現(xiàn)對(duì)訓(xùn)練時(shí)沒(méi)有見(jiàn)過(guò)的類別的圖像進(jìn)行識(shí)別.(3)分析數(shù)據(jù)在表征空間中的分布.Caron等人在文獻(xiàn)[19]中提出了一種通過(guò)在表征空間上進(jìn)行數(shù)據(jù)聚類實(shí)現(xiàn)無(wú)監(jiān)督圖像分類的方法.Li等人在文獻(xiàn)[20]中基于數(shù)據(jù)在表征空間上的聚類中心,為每個(gè)類別構(gòu)建多個(gè)原型,再將待測(cè)數(shù)據(jù)和原型匹配得到分類結(jié)果.
然而,不論是傳統(tǒng)機(jī)器學(xué)習(xí)方法還是深度學(xué)習(xí)方法,由于語(yǔ)義似乎只可意會(huì)不可言傳,雖然學(xué)者們?cè)谘芯恐写罅可婕傲苏Z(yǔ)義及其應(yīng)用,但并沒(méi)有從物理和數(shù)學(xué)等方面對(duì)語(yǔ)義進(jìn)行刻畫(huà)、表達(dá)、度量和計(jì)算,導(dǎo)致其無(wú)法兼顧可解釋性和泛化性,這是造成當(dāng)今的信息處理與通信技術(shù)是非語(yǔ)義模式的重要原因之一.在本文中,我們提出了一種多模態(tài)信號(hào)的語(yǔ)義刻畫(huà)和度量的數(shù)學(xué)描述.我們首先依據(jù)信息科學(xué)和神經(jīng)科學(xué)相關(guān)結(jié)論,給出了具有模塊化、多模態(tài)、層級(jí)化特點(diǎn)的語(yǔ)義刻畫(huà)方法,包括基于語(yǔ)義基元的表達(dá)方法和語(yǔ)義計(jì)算模型;接著,在語(yǔ)義刻畫(huà)的基礎(chǔ)上,給出了語(yǔ)義空間、語(yǔ)義相似度、語(yǔ)義距離和語(yǔ)義度量的數(shù)學(xué)描述;最后,為了驗(yàn)證所提信號(hào)語(yǔ)義的刻畫(huà)和度量的可行性和有效性,我們?cè)贛NIST(Mixed National Institute of Standards and Technology database)手寫(xiě)數(shù)字識(shí)別和水聲目標(biāo)識(shí)別兩個(gè)應(yīng)用中進(jìn)行了實(shí)驗(yàn),獲得了比傳統(tǒng)深度學(xué)習(xí)更好的性能.
“語(yǔ)義(semantic)”一詞在人工智能領(lǐng)域被廣為使用,被用于指代信號(hào)中的可理解含義的表征,如語(yǔ)義分割[21]、語(yǔ)義分析[22]、語(yǔ)義理解[23],甚至語(yǔ)義計(jì)算[24].然而,此類表征都是高維張量或者文本,存在著可解釋性差,泛化能力差的問(wèn)題,制約了通用模型的產(chǎn)生.目前為止,對(duì)信號(hào)中語(yǔ)義的直觀且通用的數(shù)學(xué)描述仍然是一個(gè)極具挑戰(zhàn)性的難題,還沒(méi)有有效的解決思路.其原因之一是語(yǔ)義基本內(nèi)涵不易定義從而難以度量;原因之二是人們對(duì)語(yǔ)義的產(chǎn)生機(jī)理和過(guò)程不了解.而信息科學(xué)和神經(jīng)科學(xué)的一些工作對(duì)語(yǔ)義基本內(nèi)涵和語(yǔ)義產(chǎn)生的機(jī)理過(guò)程的探尋有著重要借鑒價(jià)值.因此本節(jié)將分別介紹信息科學(xué)和神經(jīng)科學(xué)對(duì)語(yǔ)義的相關(guān)研究,并以此總結(jié)出語(yǔ)義的特點(diǎn),為第3節(jié)中的信號(hào)語(yǔ)義的刻畫(huà)和度量的數(shù)學(xué)描述奠定基礎(chǔ).
信息論的創(chuàng)始人Shannon在其奠定現(xiàn)代信息論基礎(chǔ)的論文文獻(xiàn)[25]中率先提到語(yǔ)義層面的信息交互問(wèn)題.Shannon在其之后出版的《通信的數(shù)學(xué)理論》[26]一書(shū)中指出,語(yǔ)義問(wèn)題關(guān)心的是收信者對(duì)信息的理解是否與發(fā)信者想表達(dá)的含義一致或接近.并將通信問(wèn)題歸為三個(gè)層面:(1)技術(shù)問(wèn)題:通信符號(hào)如何準(zhǔn)確地進(jìn)行傳輸?(2)語(yǔ)義問(wèn)題:傳輸?shù)姆?hào)如何精確地傳達(dá)含義?(3)效用問(wèn)題:收到的含義如何以期望的方式有效地影響行為?不同于符號(hào)層面只關(guān)注經(jīng)過(guò)符號(hào)編碼調(diào)制的信號(hào)載波是否正確傳輸,語(yǔ)義層面的信息交互是需要交互雙方能夠理解信號(hào)中的內(nèi)容或含義,從而提取其中的信息.語(yǔ)義層面的信息也不再是由符號(hào)的熵簡(jiǎn)單定義,而是通過(guò)接受信號(hào)前后的語(yǔ)義差異性定義,即,先從對(duì)方的信號(hào)中感知出語(yǔ)義,然后與自己的已知語(yǔ)義對(duì)比,如果存在差異,這個(gè)差異就是信息.在Shannon之后的學(xué)者在語(yǔ)義信息理論框架下的語(yǔ)義刻畫(huà)與度量展開(kāi)討論,并率先開(kāi)展了基于語(yǔ)義而非比特?cái)?shù)據(jù)的通信方法的探究.Guler等人[27]提出了一種語(yǔ)義誤差,作為語(yǔ)義信息準(zhǔn)確性的衡量標(biāo)準(zhǔn),用于計(jì)算交互雙方語(yǔ)義的偏差距離.Bao等人[28]進(jìn)一步指出在進(jìn)行語(yǔ)義信息交互過(guò)程中,交互雙方需要具有共有知識(shí)儲(chǔ)備,才能進(jìn)行順暢的語(yǔ)義交流.Basu等人[29]提出了語(yǔ)義容量的概念,并指出語(yǔ)義容量等于信息源的平均語(yǔ)義熵,確立了語(yǔ)義壓縮的下界.此外Willems等人[30]研究了語(yǔ)義編碼,使用語(yǔ)義相似性指導(dǎo)機(jī)器學(xué)習(xí)算法的優(yōu)化,實(shí)現(xiàn)了數(shù)據(jù)間關(guān)系的更緊湊表示.目前信息科學(xué)對(duì)語(yǔ)義的研究主要是以信息論中關(guān)于不確定性的論述為基礎(chǔ),將香農(nóng)信息論對(duì)比特的理論遷移至語(yǔ)義,形成了以語(yǔ)義符號(hào)為基礎(chǔ)的語(yǔ)義信息論.由此,我們認(rèn)為信號(hào)語(yǔ)義具有模塊性.在節(jié)3中,我們將使用有限個(gè)預(yù)定義了語(yǔ)義的信號(hào)作為語(yǔ)義符號(hào)構(gòu)成信號(hào)語(yǔ)義刻畫(huà)的基礎(chǔ).
Hubel和Wiesel[31]發(fā)現(xiàn)大腦視覺(jué)皮層中存在相同圖像特征選擇性和相同感受野位置的眾多神經(jīng)細(xì)胞,以垂直于大腦表面的方式排列成柱狀結(jié)構(gòu),稱為神經(jīng)元功能柱(functional column).同一個(gè)功能柱內(nèi)所有的神經(jīng)細(xì)胞都編碼了相同的視覺(jué)信息,它們只對(duì)某一種視覺(jué)特征發(fā)生反應(yīng),從而形成該種視覺(jué)特征的基本單位.類似神經(jīng)元功能柱的模塊化結(jié)構(gòu)在大腦中有著不同尺度的體現(xiàn).以視覺(jué)神經(jīng)信號(hào)傳輸過(guò)程為例(如圖1).
圖1 視覺(jué)語(yǔ)義形成過(guò)程示意圖
視覺(jué)語(yǔ)義的產(chǎn)生源自視網(wǎng)膜,并終止于大腦[32],其中語(yǔ)義以稀疏的皮質(zhì)區(qū)域和連接模式的形式呈現(xiàn).該過(guò)程分層次地涉及基于低級(jí)感官的處理,并且可以分為三個(gè)級(jí)別[33].處理的初始級(jí)別發(fā)生在視網(wǎng)膜上,該過(guò)程將視網(wǎng)膜上的光的模式傳輸為編碼的電信號(hào),然后傳輸?shù)酱竽X中.中級(jí)處理通過(guò)將視覺(jué)世界分為屬于對(duì)象的輪廓和表面并將這些元素與背景隔離,從而參與視覺(jué)圖元的識(shí)別.在此階段,視覺(jué)信息處理依賴于功能柱[34],它表示一個(gè)單元,其中包含大腦皮層中一組神經(jīng)元中任何給定的感受野的完整神經(jīng)元集合[35].柱狀組織假說(shuō)是目前最廣泛用于解釋信息皮質(zhì)處理的方法[36].上層涉及對(duì)象識(shí)別,其核心是語(yǔ)義的分類,表現(xiàn)為連續(xù)語(yǔ)義空間向大腦皮層表面區(qū)域的一種映射[32].因此,一個(gè)語(yǔ)義由大腦中的多個(gè)子系統(tǒng)表示,這一現(xiàn)象可以被稱為大腦區(qū)域網(wǎng)絡(luò)[33,37].Huth和Gallant等人使用了功能性磁共振成像(functional Magnetic Resonance Imaging,fMRI),利用有聲讀物故事以及來(lái)自計(jì)算語(yǔ)言學(xué)的機(jī)器學(xué)習(xí)算法,以探討如何將語(yǔ)義映射到相應(yīng)激活的大腦皮質(zhì)區(qū)域[38].由此產(chǎn)生的圖譜表明,語(yǔ)義系統(tǒng)是復(fù)雜的層級(jí)表現(xiàn)模式,在主體內(nèi)相對(duì)穩(wěn)定,并且在個(gè)體之間分布基本一致[38].由此,我們認(rèn)為信號(hào)語(yǔ)義具有模塊化、多模態(tài)、層級(jí)化的特點(diǎn).在第3節(jié)中,我們將使用語(yǔ)義計(jì)算模擬神經(jīng)信號(hào)隨著尺度提升而逐漸抽象的過(guò)程,對(duì)基礎(chǔ)語(yǔ)義進(jìn)行抽象、調(diào)整、拓展等延伸操作,使其具有模塊化、多模態(tài)、層級(jí)化的特點(diǎn).
鑒于信號(hào)語(yǔ)義具有模塊化、多模態(tài)、層級(jí)化的特點(diǎn),我們將從基于基元的基礎(chǔ)語(yǔ)義定義和基于語(yǔ)義計(jì)算的語(yǔ)義延伸兩個(gè)方面對(duì)語(yǔ)義進(jìn)行刻畫(huà).
3.1.1 基礎(chǔ)語(yǔ)義
設(shè)δ表示一個(gè)基礎(chǔ)的語(yǔ)義,如語(yǔ)義“黑色”.那么語(yǔ)義“黑色”存在不同模態(tài)下的信號(hào)語(yǔ)義基元,如聲音模態(tài)fδ(t)為“Hēi”這一聲音信號(hào),圖色模態(tài)Fδ(x,y)為圖片“■”,文字模態(tài)sδ為中文詞“黑”.此時(shí),可定義語(yǔ)義δ:={fδ(t),F(xiàn)δ(x,y),sδ,…},其中fδ,F(xiàn)δ,sδ等分別對(duì)應(yīng)一維、二維、離散符號(hào)等模態(tài)空間中的某個(gè)由基元表示的語(yǔ)義特征函數(shù).δ集合內(nèi)的元素在語(yǔ)義層面是相互等價(jià)的,即fδ的語(yǔ)義是δ,F(xiàn)δ的語(yǔ)義是δ,sδ的語(yǔ)義也是δ,換句話說(shuō)它們之間可以相互表達(dá)或標(biāo)注.例如,“黑”(文本),“Hēi”(聲音),“■”(圖色)這三者是不同的信號(hào)模態(tài),它們之間建立了語(yǔ)義等價(jià)概念.看到“黑”文字符號(hào),就能發(fā)音“Hēi”,腦中也能產(chǎn)生黑色影像.對(duì)應(yīng)在英語(yǔ)語(yǔ)系中,同樣的語(yǔ)義可以用“Black”(文本)、“[bl?k]”(聲音)、“■”(圖色)來(lái)約定相互等價(jià)的語(yǔ)義.
更一般地,如果語(yǔ)義有N個(gè)模態(tài),則可進(jìn)一步定義其語(yǔ)義為:
其中在模態(tài)Θi上定義的特征函數(shù)的集合為FΘi=
選擇合適的語(yǔ)義基元對(duì)于定義基礎(chǔ)語(yǔ)義而言十分關(guān)鍵.在實(shí)際應(yīng)用中,可根據(jù)具體應(yīng)用場(chǎng)景,通過(guò)專家手工設(shè)計(jì)或數(shù)據(jù)學(xué)習(xí)得到.當(dāng)人類知識(shí)可靠時(shí),通過(guò)專家手工設(shè)計(jì)基元.比如對(duì)語(yǔ)義“人的軀體”,可以根據(jù)人類知識(shí)手工設(shè)計(jì)頭、手、腿、軀干等人體部件作為語(yǔ)義基元.當(dāng)人類知識(shí)不可靠時(shí),則需要收集足夠的表達(dá)某個(gè)語(yǔ)義的數(shù)據(jù),利用機(jī)器學(xué)習(xí)算法獲取基元.例如建立語(yǔ)義“木質(zhì)紋理”,則可收集足夠的木質(zhì)材料的圖像數(shù)據(jù),然后利用主成分分析等算法提取基元.
3.1.2 語(yǔ)義計(jì)算
眾所周知,智能體會(huì)對(duì)語(yǔ)義進(jìn)行擴(kuò)充、融合、提升和凝練,為此我們定義了滿足這些操作的語(yǔ)義計(jì)算方法.人在學(xué)習(xí)的過(guò)程中,會(huì)不斷地對(duì)現(xiàn)有的語(yǔ)義進(jìn)行擴(kuò)充,從計(jì)算角度看,這種語(yǔ)義內(nèi)涵的擴(kuò)充稱為語(yǔ)義加法.語(yǔ)義加法有兩種情況:一是語(yǔ)義中拓展若干新的特征函數(shù),即語(yǔ)義與特征函數(shù)集合相加;二是兩個(gè)語(yǔ)義融合為新的、更全面的語(yǔ)義,即語(yǔ)義與語(yǔ)義相加.
3.1.2.1 語(yǔ)義加法
(1)語(yǔ)義與特征函數(shù)集合相加
語(yǔ)義與特征函數(shù)集合相加主要用于對(duì)某一語(yǔ)義具有屬性的細(xì)化或擴(kuò)充.用S1={F1Θ1,F(xiàn)1Θ2,…,F(xiàn)1ΘN}表示一個(gè)語(yǔ)義,用F={FΘ1,F(xiàn)Θ2,…,F(xiàn)ΘN}表示一個(gè)特征函數(shù)的集合.那么語(yǔ)義和特征函數(shù)集合的加法可以定義為:
其中,F(xiàn)1Θ1∪FΘ1表示兩個(gè)集合之間的并集操作.我們通過(guò)上式將語(yǔ)義和特征函數(shù)的集合表示為所有子空間內(nèi)集合的并集.因此,這種加法是不會(huì)產(chǎn)生新的特征函數(shù)的.需要指出的是,特征函數(shù)集合F={FΘ1,F(xiàn)Θ2,…,F(xiàn)ΘN}和語(yǔ)義的定義形式相同,因此該操作也可以用來(lái)實(shí)現(xiàn)兩個(gè)語(yǔ)義概念的合并,而不會(huì)產(chǎn)生新的特征函數(shù).
通過(guò)語(yǔ)義和特征函數(shù)集合之間的加法可以描述人在學(xué)習(xí)外語(yǔ)時(shí)語(yǔ)義的變化過(guò)程.對(duì)于3.1.1小節(jié)中定義的 語(yǔ) 義“黑”可 以 表 示 為S={FΘs,F(xiàn)Θν,F(xiàn)Θc}.其 中FΘs,F(xiàn)Θν,F(xiàn)Θc分別表示聲音、圖像、符號(hào)語(yǔ)義模態(tài)的特征函數(shù)集合.我們假設(shè)智能體只懂漢語(yǔ),即聲音模態(tài)的特征函數(shù)集合FΘs={FChn}只記錄了漢語(yǔ)讀音“Hēi”.而通過(guò)學(xué)習(xí)英文中單詞black的發(fā)音“[bl?k]”F={FΘs|FΘs={FEng}}之后,語(yǔ)義“黑”就可以通過(guò)式(2)所述的語(yǔ)義和特征函數(shù)集合之間的加法進(jìn)行擴(kuò)展,得到S={FΘs,F(xiàn)Θν,F(xiàn)Θc},F(xiàn)Θs={FChn,F(xiàn)Eng}.
(2)語(yǔ)義與語(yǔ)義相加
語(yǔ)義和語(yǔ)義相加用于融合語(yǔ)義特征,產(chǎn)生新的特征函數(shù),從而形成新的語(yǔ)義,其定義為:
其中fusion(F1Θ1,F(xiàn)2Θ1|Θ1)表示同一個(gè)模態(tài)內(nèi)的兩個(gè)特征函數(shù)集合之間進(jìn)行特征融合:
通過(guò)語(yǔ)義間加法可以描述光線或者顏料的顏色組合過(guò)程.若仿照3.1.1小節(jié)分別定義光的三原色紅、綠、藍(lán)的語(yǔ)義.則可以根據(jù)式(5)對(duì)三原色的語(yǔ)義中的圖像模態(tài)的特征函數(shù)進(jìn)行融合,得到新的顏色的圖像特征函數(shù).而若將式(5)中的特征融合函數(shù)設(shè)定為三項(xiàng)加權(quán)求和,就可以得到任意顏色.
由于語(yǔ)義與語(yǔ)義相加需要在兩個(gè)集合間組合計(jì)算,因此計(jì)算復(fù)雜度較高.在實(shí)際應(yīng)用中,如果連續(xù)使用語(yǔ)義與語(yǔ)義相加,將會(huì)導(dǎo)致語(yǔ)義特征函數(shù)集合的規(guī)模快速擴(kuò)大,進(jìn)而引發(fā)組合爆炸問(wèn)題.語(yǔ)義與語(yǔ)義相加產(chǎn)生的大量同一模態(tài)的語(yǔ)義特征函數(shù)構(gòu)成了一個(gè)語(yǔ)義子空間的一組過(guò)完備原子,其中一些語(yǔ)義特征函數(shù)可以由其他特征函數(shù)近似線性表示,即存在冗余.因此,在完成語(yǔ)義與語(yǔ)義相加的操作后,可以采用聚類等方式對(duì)新的特征函數(shù)集合進(jìn)行去冗余,從而縮減語(yǔ)義特征函數(shù)集合的規(guī)模,從而避免組合爆炸.
3.1.2.2 語(yǔ)義乘法
(1)語(yǔ)義的數(shù)乘
人在學(xué)習(xí)的過(guò)程中,會(huì)根據(jù)新總結(jié)的經(jīng)驗(yàn)在已有概念的基礎(chǔ)上進(jìn)行調(diào)整.在語(yǔ)義計(jì)算的框架中,我們定義語(yǔ)義的數(shù)乘來(lái)描述這種語(yǔ)義概念的權(quán)重調(diào)整:
其中,c={c11,c12,…,cNn}表示每個(gè)特征函數(shù)對(duì)應(yīng)的數(shù)乘的常數(shù),F(xiàn)ki和cki表示模態(tài)Θk下的第i個(gè)特征函數(shù)及其對(duì)應(yīng)的常數(shù).
通過(guò)語(yǔ)義的數(shù)乘可以描述語(yǔ)言環(huán)境發(fā)生變化時(shí),人對(duì)語(yǔ)義做出的調(diào)整.一個(gè)懂得中英雙語(yǔ)的人在國(guó)內(nèi)生活時(shí)間長(zhǎng)了之后,對(duì)中文發(fā)音更加敏感.當(dāng)語(yǔ)言環(huán)境再次改變的時(shí)候,則根據(jù)式(6)再做出相應(yīng)的調(diào)整.
(2)語(yǔ)義的直積
聯(lián)想、抽象能力是人類智慧重要的組成部分.面對(duì)不同的概念,將其關(guān)聯(lián)起來(lái),組合成更高一級(jí)的語(yǔ)義,便是聯(lián)想、抽象能力的本質(zhì).通過(guò)之前對(duì)語(yǔ)義的定義,可以把聯(lián)想抽象能力理解為從低級(jí)語(yǔ)義生成更高一級(jí)語(yǔ)義的過(guò)程.語(yǔ)義本質(zhì)上是特征函數(shù)的集合,因此使用直積來(lái)表示這種過(guò)程:
其中,最右項(xiàng)表示規(guī)則R指導(dǎo)下的兩個(gè)集合之間的笛卡爾乘積(Cartesian product).此處引入規(guī)則R是為了減少?zèng)]有意義的模態(tài)之間的組合,從而減少笛卡爾乘積運(yùn)算后集合的規(guī)模,以避免發(fā)生組合爆炸問(wèn)題.比如,我們可以定義聲音模態(tài)Θ1和圖像模態(tài)Θ2進(jìn)行組合,其他的模態(tài)將不參與組合,此時(shí)笛卡爾乘積的結(jié)果便只有{(F1Θ1,F(xiàn)2Θ1),(F1Θ1,F(xiàn)2Θ2),(F1Θ2,F(xiàn)2Θ1),(F1Θ2,F(xiàn)2Θ2)}四種組合結(jié)果.需要注意的是,此處的組合是有向組合,即一般情況下(F1Θ1,F(xiàn)2Θ1)≠(F2Θ1,F(xiàn)1Θ1),則:這樣的規(guī)定可以表示一定的因果、先后次序,更加豐富語(yǔ)義的表達(dá)能力.需要進(jìn)一步指出的是,模態(tài)組合的結(jié)果是生成新的模態(tài),例如{(F1Θ1,F(xiàn)2Θ1),(F1Θ1,F(xiàn)2Θ2),(F1Θ2,F(xiàn)2Θ1),(F1Θ2,F(xiàn)2Θ2)}就 生成了四種新的高維模態(tài),即{(Θ1,Θ1),(Θ1,Θ2),(Θ2,Θ1),(Θ2,Θ2)}.在 新 的 高 維 模態(tài)下,將同樣按照笛卡爾乘積的形式生成高維特征函數(shù):
用語(yǔ)義直積可以描述我們根據(jù)所學(xué)聲母韻母組合成漢語(yǔ)拼音的過(guò)程.例如,我們?cè)趯W(xué)習(xí)漢語(yǔ)拼音時(shí),會(huì)區(qū)分聲母和韻母,分開(kāi)學(xué)習(xí),然后再將聲母韻母按一定規(guī)則組合起來(lái),就能形成所有的漢語(yǔ)拼音.從語(yǔ)義角度理解,我們可以首先定義所有聲母和韻母的語(yǔ)義分別為S1,S2.然后將式(7)中的規(guī)則定義為僅限聲音模態(tài)直積,對(duì)S1,S2進(jìn)行組合.接著依照式(8),根據(jù)拼音的組合規(guī)則,只保留聲母在前韻母在后的組合結(jié)果.最后依照式(9),將聲母和韻母的特征函數(shù)直積成拼音的特征函數(shù).
由于語(yǔ)義與語(yǔ)義相加需要在兩個(gè)集合間組合計(jì)算,因此計(jì)算復(fù)雜度較高.在實(shí)際應(yīng)用中,需要去除新產(chǎn)生的高維特征函數(shù)集合中的冗余.由于新產(chǎn)生的高維特征函數(shù)是由兩個(gè)屬于不同語(yǔ)義子空間的特征函數(shù)組合而成,不便直接使用聚類等方法去除冗余.因此,可以先通過(guò)主成分分析等方法先對(duì)高維特征函數(shù)進(jìn)行降維,再在低維特征空間上通過(guò)聚類去除冗余.
在本小節(jié)中,我們將以語(yǔ)義為元素,給出了語(yǔ)義空間的數(shù)學(xué)描述,并基于語(yǔ)義空間提出了語(yǔ)義相似度、語(yǔ)義距離和語(yǔ)義度量的數(shù)學(xué)描述.
3.2.1 語(yǔ)義空間
若δ(i)為一個(gè)具體的語(yǔ)義,把所有的語(yǔ)義用集合S:={δ(i)}表示,就構(gòu)成了語(yǔ)義空間,其中每一種模態(tài)特征信號(hào)的集合為對(duì)應(yīng)的模態(tài)子空間.同一個(gè)模態(tài)特征信號(hào)組成一個(gè)語(yǔ)義子空間.語(yǔ)義空間是由多個(gè)不同模態(tài)信號(hào)的子空間組成.在任何類型模態(tài)信號(hào)中,定義那些不再細(xì)分的基本特征函數(shù)為語(yǔ)義基元.語(yǔ)義基元能夠支撐這類模態(tài)信號(hào)的語(yǔ)義子空間,當(dāng)然這些語(yǔ)義基元可以按不同的時(shí)空關(guān)系組合或融合再次形成高層次含義或概念的語(yǔ)義符號(hào),這種融合可以逐級(jí)提升[39].一個(gè)語(yǔ)義的特征函數(shù)是由相應(yīng)的子空間的多個(gè)語(yǔ)義基元結(jié)構(gòu)化組合而成.例如,在視覺(jué)空間,一些基本的點(diǎn)、線、面、曲線、圓、三角形、四邊形等是視覺(jué)空間的語(yǔ)義基元,組成視覺(jué)語(yǔ)義子空間的基函數(shù).圓、三角和線可再次融合形成某一類物體的語(yǔ)義符號(hào),不同復(fù)雜程度的基函數(shù)代表不同層級(jí)的語(yǔ)義特征函數(shù).這個(gè)語(yǔ)義也可能用聽(tīng)覺(jué)模態(tài)子空間的基函數(shù),例如拼音的聲母和韻母的發(fā)音.整個(gè)語(yǔ)義空間由相互表示等價(jià)含義的多個(gè)模態(tài)信號(hào)子空間組成,如圖2所示.
圖2 語(yǔ)義空間示意圖
3.2.2 語(yǔ)義特征譜
在某個(gè)模態(tài)對(duì)應(yīng)的語(yǔ)義子空間中,假設(shè)人工設(shè)計(jì)或?qū)W習(xí)到的特征函數(shù)用一個(gè)點(diǎn)表示,則在此子空間的眾多特征函數(shù)就是一個(gè)點(diǎn)陣圖,它們呈現(xiàn)有序結(jié)構(gòu).一維特征函數(shù)點(diǎn)陣呈現(xiàn)的是時(shí)間先后的一維序列結(jié)構(gòu),可以用矢量表示;二維特征函數(shù)點(diǎn)陣呈現(xiàn)二維圖像結(jié)構(gòu),可以用矩陣表示;高維特征函數(shù)點(diǎn)陣呈現(xiàn)高維圖結(jié)構(gòu).這些結(jié)構(gòu)都稱為語(yǔ)義特征序.
如在一維聲波語(yǔ)義子空間,預(yù)先定義一維基元特征函數(shù)集合{f1(t),f2(t),f3(t),…,fn(t)},集合中的每一個(gè)元素為一個(gè)基元,它們是一個(gè)個(gè)特定連續(xù)的基本聲波.某個(gè)語(yǔ)義在聲波子空間可以由一維聲波信號(hào)sv表示:
其中,ωi是對(duì)應(yīng)特征的強(qiáng)度系數(shù),即為sv的特征譜;ti是對(duì)應(yīng)特征的時(shí)延,即為sv的特征序.又如在二維圖像模態(tài)的語(yǔ)義子空間,其語(yǔ)義基元的特征函數(shù)集合為{F1(x,y),F(xiàn)2(x,y),F(xiàn)3(x,y),…,F(xiàn)n(x,y)},每個(gè)基元的特征函數(shù)都對(duì)應(yīng)一個(gè)特定的二維圖像.某個(gè)語(yǔ)義可以在圖像子空間用二維圖像信號(hào)sp表示:
其中,ωi是對(duì)應(yīng)特征的強(qiáng)度系數(shù),即為sp的特征譜;(xi,yi)是對(duì)應(yīng)特征的空間結(jié)構(gòu)點(diǎn)集,即為sp的特征序.
3.2.3 語(yǔ)義之間的距離
前面已經(jīng)給出了語(yǔ)義子空間的概念,并指出語(yǔ)義是由不同語(yǔ)義子空間中定義的若干特征函數(shù)描述的.在同一個(gè)子空間中的特征函數(shù)很容易定義距離;而屬于不同子空間的特征函數(shù)由于物理意義不同,無(wú)法定義距離.因此語(yǔ)義之間的距離可以定義為所有子空間內(nèi)特征函數(shù)距離的集合.如果它們之間不存在相同的語(yǔ)義子空間,則表明這兩者語(yǔ)義距離無(wú)窮大;如果存在部分相同的語(yǔ)義子空間,則它們之間的語(yǔ)義距離定義為語(yǔ)義子空間距離的集合.對(duì)于語(yǔ)義子空間集合Θ={Θ1,Θ2,…,ΘN},其中在子空間Θi上定義的特征函數(shù)的集合為FΘi={F(1)Θi,F(xiàn)(2)Θi,…,F(xiàn)(ni)Θi}.于是任意兩個(gè)語(yǔ)義可以記 為S1={F1Θ1,F(xiàn)1Θ2,…,F(xiàn)1ΘN}和 語(yǔ) 義S2={F2Θ1,F(xiàn)2Θ2,…,F(xiàn)2ΘN},其中F1Θi,F(xiàn)2Θi?FΘi,i=1,2,…,N.由此,語(yǔ)義之間的距離定義為一個(gè)集合:
其中每個(gè)元素表示兩個(gè)語(yǔ)義在語(yǔ)義子空間Θi下的特征函數(shù)集合之間的距離.需要指出的是,當(dāng)兩個(gè)語(yǔ)義特征函數(shù)集合是同一模態(tài)時(shí),他們之間的距離便具有意義,而與其所屬的語(yǔ)義無(wú)關(guān).距離可定義為:
其中,Na和Nb分別為F1Θi和F2Θi中特征函數(shù)的個(gè)數(shù),兩個(gè)特征函數(shù)之間的距離度量dis(·)如下:
其中,dim(Θi)為語(yǔ)義子空間Θi的維數(shù),p為閔可夫斯基距離(Minkowski distance)的參數(shù),其取值應(yīng)根據(jù)具體應(yīng)用而定.
需要說(shuō)明的是,當(dāng)任意一個(gè)集合為空集時(shí),距離定義為無(wú)窮大:
這里,語(yǔ)義的距離是一個(gè)集合Ds={d1,d2,…,dN|di=dis(F1Θi,F(xiàn)2Θi)}.
3.2.4 語(yǔ)義之間的相似度
與語(yǔ)義之間的距離定義類似,可以定義語(yǔ)義之間的相似度集合:
其中每個(gè)元素表示兩個(gè)語(yǔ)義在語(yǔ)義子空間Θi下的特征函數(shù)集合之間的相似度.要定義特征函數(shù)集合之間的相似度,就需要先明確兩個(gè)特征函數(shù)之間的相似度sim(a,b|Θi)=sim(F(a)Θi,F(xiàn)(b)Θi).特征函數(shù)之間的相似度可以有很多定義方式,例如:采用人工標(biāo)注的方式,對(duì)所有特征函數(shù)兩兩之間的相似度進(jìn)行一個(gè)預(yù)設(shè);或者采用神經(jīng)網(wǎng)絡(luò)模型預(yù)測(cè)相似度.此處,我們給出最通用的定義方法,采用特征函數(shù)之間的閔可夫斯基距離的倒數(shù)作為特征函數(shù)之間的相似度:
其中,dim(Θi)為語(yǔ)義子空間Θi的維數(shù),p為閔可夫斯基距離(Minkowski distance)的參數(shù),其取值應(yīng)根據(jù)具體應(yīng)用而定;表示特征函數(shù)的第k維;ε為一個(gè)很小的數(shù),避免除法錯(cuò)誤.基于特征函數(shù)之間的相似度,我們給出集合之間的相似度的計(jì)算公式:
其中,|·|表示集合的長(zhǎng)度.通過(guò)該式,我們將集合間的相似度定義為兩個(gè)集合中所有特征函數(shù)兩兩之間相似度的平均值.同樣,當(dāng)任意一個(gè)集合為空集時(shí),相似度定義為0:
3.2.5 信號(hào)的語(yǔ)義度量
人在理解一種新事物的時(shí)候,往往使用我們熟知的各個(gè)屬性對(duì)其進(jìn)行衡量.有了前述語(yǔ)義定義之后,我們可以把這個(gè)過(guò)程看作是求一個(gè)信號(hào)在各個(gè)語(yǔ)義上的投影,從而實(shí)現(xiàn)信號(hào)的語(yǔ)義度量.設(shè)語(yǔ)義S={FΘ1,F(xiàn)Θ2,…,F(xiàn)ΘN},其中在子空間Θi特征函數(shù)的集合為對(duì)應(yīng)的特征譜為定 義 在 該 子 空 間 的 度 量,則其在整個(gè)語(yǔ)義空間的度量定義為:
為了說(shuō)明語(yǔ)義這一核心概念的有效性和可行性,本節(jié)基于本文提出的語(yǔ)義度量和計(jì)算方法,分別在MNIST手寫(xiě)數(shù)字圖像分類和水聲目標(biāo)識(shí)別任務(wù)上進(jìn)行了仿真驗(yàn)證.
目前,大多數(shù)機(jī)器學(xué)習(xí)方法都是基于數(shù)據(jù)驅(qū)動(dòng)的,需要使用大量樣本數(shù)據(jù),消耗大量算力對(duì)模型進(jìn)行訓(xùn)練后,才能用于圖像分類與識(shí)別.針對(duì)此問(wèn)題,本文提出了:(1)基于人類知識(shí)和語(yǔ)義計(jì)算的語(yǔ)義符號(hào)庫(kù)構(gòu)建方法;(2)基于語(yǔ)義度量的識(shí)別網(wǎng)絡(luò)(總體框圖如圖3所示).其主要思路是首先利用人類知識(shí)從樣本中抽取語(yǔ)義,然后通過(guò)語(yǔ)義計(jì)算構(gòu)建語(yǔ)義符號(hào)庫(kù);在識(shí)別過(guò)程中,結(jié)合語(yǔ)義符號(hào)庫(kù),通過(guò)識(shí)別網(wǎng)絡(luò)對(duì)待識(shí)別圖像進(jìn)行語(yǔ)義度量,完成識(shí)別過(guò)程.
圖3 基于語(yǔ)義度量和計(jì)算的圖像識(shí)別框架
該方法的優(yōu)勢(shì)在于只需要使用少量圖像樣本構(gòu)建語(yǔ)義符號(hào)庫(kù),不需要對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練或僅需少量訓(xùn)練,即可用于圖像識(shí)別.在MNIST數(shù)據(jù)集上的對(duì)比實(shí)驗(yàn)結(jié)果表明本文方法遠(yuǎn)優(yōu)于數(shù)據(jù)驅(qū)動(dòng)的卷積神經(jīng)網(wǎng)絡(luò)[40];并且訓(xùn)練數(shù)據(jù)量越小,效果差異越大.
4.1.1 語(yǔ)義符號(hào)庫(kù)的構(gòu)建
基于人類知識(shí)和語(yǔ)義計(jì)算的手寫(xiě)數(shù)字語(yǔ)義符號(hào)庫(kù)構(gòu)建方法如圖4所示.
圖4 基于人類知識(shí)和語(yǔ)義計(jì)算的手寫(xiě)數(shù)字語(yǔ)義符號(hào)庫(kù)構(gòu)建方法流程圖
第1步,根據(jù)人類知識(shí)設(shè)計(jì)出手寫(xiě)數(shù)字的基礎(chǔ)語(yǔ)義基元.通過(guò)分析MNIST圖像總結(jié)出手寫(xiě)數(shù)字的筆畫(huà)可以拆解成各個(gè)方向上的短弧線,據(jù)此設(shè)計(jì)出如圖4中所示的基礎(chǔ)語(yǔ)義基元集合其中每個(gè)基元都可以用11×11的矩陣來(lái)表示.
第2步,通過(guò)仿射變換和語(yǔ)義間加法對(duì)基礎(chǔ)語(yǔ)義基元進(jìn)行組合和擴(kuò)充,進(jìn)而得到特征函數(shù).具體過(guò)程是,先通過(guò)仿射變換對(duì)基礎(chǔ)語(yǔ)義基元集合進(jìn)行擴(kuò)充,這種經(jīng)過(guò)仿射變換之后的基元可以在幾何形變后保持相同的語(yǔ)義,提升了泛化性.然后再將變換后的基元利用式(3)所示進(jìn)行語(yǔ)義相加,得到候選特征函數(shù)F=
第3步,使用語(yǔ)義乘法(如式(9)所示)計(jì)算出語(yǔ)義樣本對(duì)應(yīng)的圖像語(yǔ)義空間下的特征函數(shù).首先以篩選出的特征函數(shù)作為卷積核,對(duì)語(yǔ)義樣本進(jìn)行卷積得到式(11)定義的特征譜集合.接著根據(jù)像素點(diǎn)空間近鄰關(guān)系作為式(7)中的組合規(guī)則R,按照式(9)進(jìn)行語(yǔ)義乘法,得到圖結(jié)構(gòu)的高維特征函數(shù).然后對(duì)該圖進(jìn)行圖傅里葉變換,將高維特征函數(shù)轉(zhuǎn)換為圖像語(yǔ)義空間下的特征函 數(shù)最后將特征函數(shù)按照式(1)構(gòu)成集合,便得到了每張圖像的語(yǔ)義.
第4步,根據(jù)MNIST數(shù)據(jù)集中對(duì)所選語(yǔ)義樣本的類別標(biāo)注,將同一類別的所有圖像語(yǔ)義特征函數(shù)定義為一個(gè)語(yǔ)義空間,同樣根據(jù)式(1)便完成了描述手寫(xiě)數(shù)字類別的語(yǔ)義符號(hào)庫(kù)的構(gòu)建,即
4.1.2 基于語(yǔ)義度量的圖像識(shí)別
在完成語(yǔ)義符號(hào)庫(kù)的構(gòu)建之后,便可基于語(yǔ)義度量方法對(duì)圖像進(jìn)行識(shí)別.首先,將待識(shí)別圖像通過(guò)語(yǔ)義符號(hào)庫(kù)中的特征函數(shù)卷積得到式(3)中的特征譜,再經(jīng)過(guò)語(yǔ)義乘法和圖傅里葉變換方法計(jì)算出圖像特征向量fI∈R(WgHgC).然后,按照3.2.5節(jié)介紹的方法,根據(jù)符號(hào)語(yǔ)義庫(kù)S中的K個(gè)子語(yǔ)義,對(duì)圖像特征向量按照式(20)進(jìn)行語(yǔ)義度量得到K個(gè)標(biāo)量,組成語(yǔ)義向量fF∈RK.最后通過(guò)計(jì)算語(yǔ)義向量的softmax得到圖像類別的預(yù)測(cè)概率向量,完成手寫(xiě)體數(shù)字的識(shí)別.
4.1.3 實(shí)驗(yàn)結(jié)果
本實(shí)驗(yàn)在MNIST數(shù)據(jù)集上將傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)和本文方法進(jìn)行了對(duì)比.用于對(duì)比的CNN由4個(gè)3×3的卷積層和一個(gè)全連接層組成.對(duì)比實(shí)驗(yàn)針對(duì)不同訓(xùn)練數(shù)據(jù)量計(jì)算了兩種方法的測(cè)試準(zhǔn)確率,對(duì)比結(jié)果如表1所示.其中nshot代表每一類使用n張圖片進(jìn)行訓(xùn)練.
表1 本文方法和卷積神經(jīng)網(wǎng)絡(luò)在不同數(shù)據(jù)量下的對(duì)比
根據(jù)表1實(shí)驗(yàn)結(jié)果,我們可以得出如下結(jié)論:(1)在使用相同訓(xùn)練數(shù)據(jù)量條件下,本文的識(shí)別方法均優(yōu)于傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò).更進(jìn)一步,本文方法比使用10倍數(shù)據(jù)量的傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)的準(zhǔn)確率更高.這表明了本文所提圖像識(shí)別方法的有效性,從而驗(yàn)證了語(yǔ)義定義、度量與計(jì)算的可行性;(2)在1-shot到100-shot時(shí),本文方法的準(zhǔn)確率比傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)的準(zhǔn)確率高20%以上,隨著數(shù)據(jù)量增加,兩者之間的性能差異逐漸縮短.這是因?yàn)楫?dāng)訓(xùn)練數(shù)據(jù)較少時(shí),語(yǔ)義知識(shí)發(fā)揮主要作用;當(dāng)訓(xùn)練數(shù)據(jù)逐步增加時(shí),數(shù)據(jù)驅(qū)動(dòng)模型將逐步接近知識(shí)驅(qū)動(dòng)模型的效果.從這個(gè)角度講,基于語(yǔ)義的知識(shí)驅(qū)動(dòng)模型更適合用于訓(xùn)練數(shù)據(jù)缺乏的場(chǎng)景.
為了進(jìn)一步驗(yàn)證本文所提出的語(yǔ)義度量方法的有效性,我們又將語(yǔ)義的概念用于水聲目標(biāo)的識(shí)別.水下聲音信號(hào)受到海洋背景噪聲大、海況復(fù)雜、季節(jié)變化等多方面因素的影響,可用于有效識(shí)別的特征少,識(shí)別難度大.現(xiàn)有的水聲信號(hào)識(shí)別方法主要基于譜分析法,識(shí)別過(guò)程沒(méi)有明確的語(yǔ)義,因此識(shí)別的精度有限.基于本文所提出的語(yǔ)義概念,我們首先定義幾種具有語(yǔ)義屬性的水聲信號(hào)基元表達(dá),在此基礎(chǔ)上構(gòu)建用于水聲信號(hào)識(shí)別的語(yǔ)義知識(shí)圖譜,然后借助于圖卷積神經(jīng)網(wǎng)絡(luò)(Graph Convolutional Network,GCN)進(jìn)行語(yǔ)義基元間的關(guān)聯(lián)推理,進(jìn)而獲得更高層次的語(yǔ)義表達(dá),實(shí)現(xiàn)基于語(yǔ)義推理的水聲信號(hào)識(shí)別.
本實(shí)驗(yàn)的目標(biāo)針對(duì)三類艦船的水聲信號(hào)進(jìn)行識(shí)別.實(shí)驗(yàn)中,我們首先定義了6種水聲的語(yǔ)義基元特征,具體如表2所示.
表2 水聲信號(hào)識(shí)別的語(yǔ)義基元定義
利用語(yǔ)義基元間的先驗(yàn)知識(shí),構(gòu)建圖5所示的知識(shí)圖譜,利用圖卷積網(wǎng)絡(luò)進(jìn)行語(yǔ)義基元間的關(guān)系推理.在三類水聲信號(hào)的分類問(wèn)題上進(jìn)行了實(shí)驗(yàn)驗(yàn)證,三類水聲信號(hào)的樣本數(shù)分別為112、136和153.實(shí)驗(yàn)過(guò)程中,采用80%的數(shù)據(jù)進(jìn)行模型訓(xùn)練,剩下20%的數(shù)據(jù)用于測(cè)試.為了驗(yàn)證基于語(yǔ)義推理的水聲識(shí)別算法的有效性,將算法與傳統(tǒng)基于支持向量機(jī)(Support Vector Machine,SVM)分類的方法進(jìn)行了對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表3所示.
圖5 基于語(yǔ)義基元的水聲識(shí)別知識(shí)圖譜
表3 基于語(yǔ)義推理的水聲識(shí)別方法與傳統(tǒng)基于SVM分類方法的性能對(duì)比
從表3的實(shí)驗(yàn)結(jié)果可以看出,傳統(tǒng)基于特征SVM分類的方法識(shí)別精度較低,采用基于語(yǔ)義推理的網(wǎng)絡(luò)識(shí)別的性能得到了大幅度的提升.這是因?yàn)樗曅盘?hào)樣本數(shù)量較少,且傳統(tǒng)特征的語(yǔ)義層次低,因此基于SVM的方法無(wú)法獲理想的識(shí)別性能;而語(yǔ)義基元可以從不同的層面描述水聲信號(hào)的屬性,圖卷積網(wǎng)絡(luò)又可以進(jìn)一步對(duì)語(yǔ)義基元進(jìn)行抽象獲得更高層次的語(yǔ)義,形成更為深刻的信號(hào)表達(dá).因此,結(jié)合語(yǔ)義基元和圖卷積網(wǎng)絡(luò)推理的方法能夠有效捕捉水聲信號(hào)的高層次語(yǔ)義特征,進(jìn)而實(shí)現(xiàn)更準(zhǔn)確的識(shí)別.
我們進(jìn)一步將本文所提語(yǔ)義度量方法付諸實(shí)踐,用于視頻信號(hào)編碼.常用的視頻編碼技術(shù)以盡可能完整的傳遞視頻信號(hào)為目的,其編碼數(shù)據(jù)量隨著視頻清晰度提升而迅速增長(zhǎng),已經(jīng)無(wú)法滿足智能物聯(lián)網(wǎng)等智能時(shí)代背景下的視頻通信場(chǎng)景的需求.然而,在大多數(shù)應(yīng)用場(chǎng)景中,視頻通信并不需要始終完整地傳輸視頻信號(hào),而只需傳輸其中的語(yǔ)義信息,實(shí)現(xiàn)達(dá)意通信即可.例如,在視頻會(huì)議場(chǎng)景中,通信雙方需要的是面部表情和肢體動(dòng)作所傳達(dá)的意義,而不需要對(duì)方所處的環(huán)境、衣物紋理等信息.因此,通過(guò)面向達(dá)意通信的視頻語(yǔ)義編碼能夠有效地節(jié)省通信帶寬,滿足大規(guī)模視頻通信需求.
本實(shí)驗(yàn)以大規(guī)模視頻會(huì)議為背景,對(duì)視頻中的人體姿態(tài)語(yǔ)義進(jìn)行層級(jí)編碼,其流程如圖6所示.我們將人體姿態(tài)語(yǔ)義分解為關(guān)節(jié)點(diǎn)和動(dòng)作姿態(tài)這兩級(jí)語(yǔ)義.先根據(jù)人類知識(shí)定義了人體上14個(gè)關(guān)節(jié)點(diǎn)(如圖6初級(jí)語(yǔ)義符號(hào)所示),組成初級(jí)特征函數(shù)庫(kù).再對(duì)由14個(gè)關(guān)鍵點(diǎn)組成的人體骨骼圖進(jìn)行聚類,得到10種標(biāo)準(zhǔn)動(dòng)作,組成高級(jí)特征函數(shù)庫(kù).根據(jù)特征函數(shù)庫(kù),我們依次提取視頻信號(hào)中的人體關(guān)節(jié)點(diǎn)和動(dòng)作姿態(tài)這兩級(jí)語(yǔ)義,作為語(yǔ)義編碼結(jié)果.具體流程為:首先,將輸入的視頻信號(hào)以初級(jí)特征函數(shù)庫(kù)為標(biāo)準(zhǔn)語(yǔ)義進(jìn)行信號(hào)語(yǔ)義度量,根據(jù)人體骨骼連接關(guān)系先驗(yàn),便可將度量結(jié)果記錄為圖結(jié)構(gòu)的初級(jí)語(yǔ)義符號(hào);隨后,以高級(jí)特征函數(shù)庫(kù),對(duì)初級(jí)符號(hào)進(jìn)行語(yǔ)義度量,得到高級(jí)語(yǔ)義符號(hào);最后,根據(jù)場(chǎng)景所需語(yǔ)義的層級(jí),選擇初級(jí)語(yǔ)義符號(hào)或高級(jí)語(yǔ)義符號(hào)進(jìn)行傳輸.
圖6 視頻信號(hào)層級(jí)語(yǔ)義編碼
由于語(yǔ)義符號(hào)為圖結(jié)構(gòu),在形象表達(dá)視頻信號(hào)中語(yǔ)義的同時(shí),還能極大減小信道傳輸?shù)臄?shù)據(jù)量.我們對(duì)時(shí)長(zhǎng)42 s、每秒25幀、分辨率512×512的原始視頻進(jìn)行了MPEG(Moving Picture Experts Group)編碼和層級(jí)語(yǔ)義編碼,其性能對(duì)比如表4所示.從表中對(duì)比結(jié)果可以看出,面向達(dá)意通信的語(yǔ)義編碼能夠顯著降低信道傳輸?shù)膲毫?,甚至可以? Kbps的帶寬下傳輸視頻語(yǔ)義.而傳統(tǒng)編碼使用如此低的碼率時(shí),完全無(wú)法分辨視頻中的語(yǔ)義.因此本文所提語(yǔ)義度量方法在視頻的達(dá)意通信中具有應(yīng)用意義.
表4 層級(jí)語(yǔ)義編碼和MPEG編碼的性能對(duì)比
本文從基于語(yǔ)義的新型信息處理與通信技術(shù)引入,針對(duì)目前缺乏語(yǔ)義刻畫(huà)和度量的數(shù)學(xué)描述這一問(wèn)題,依據(jù)信息科學(xué)和神經(jīng)科學(xué)相關(guān)結(jié)論,討論了語(yǔ)義的內(nèi)涵,并指出語(yǔ)義具有模塊化、多模態(tài)、層級(jí)化的特點(diǎn),由此提出了一種多模態(tài)信號(hào)的語(yǔ)義刻畫(huà)和度量的數(shù)學(xué)描述.為了驗(yàn)證所提信號(hào)語(yǔ)義的刻畫(huà)和度量方法的可行性和有效性,分別在MNIST手寫(xiě)數(shù)字識(shí)別和水聲目標(biāo)識(shí)別兩個(gè)應(yīng)用中進(jìn)行了實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明,基于語(yǔ)義的分類識(shí)別網(wǎng)絡(luò)能達(dá)到比傳統(tǒng)深度學(xué)習(xí)更好的效果.本文還將語(yǔ)義用于視頻編碼,實(shí)現(xiàn)了遠(yuǎn)超傳統(tǒng)方法的壓縮比,展現(xiàn)了語(yǔ)義在通信領(lǐng)域的實(shí)用價(jià)值.這為未來(lái)建立以語(yǔ)義為基礎(chǔ)的新型信息處理與通信技術(shù)奠定了理論和實(shí)踐基礎(chǔ).