亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        知識與數(shù)據(jù)聯(lián)合驅(qū)動建模技術(shù)綜述

        2023-12-06 07:50:38田晟兆胡迎茜陳端兵
        關(guān)鍵詞:語義深度人工智能

        田晟兆,胡迎茜,谷 成,陳端兵,4*

        (1.電子科技大學(xué)大數(shù)據(jù)研究中心 成都 611731;2.中國航天科工集團(tuán)公司第二研究院 北京 海淀區(qū) 100854;3.航天科工防御技術(shù)研究試驗(yàn)中心 北京 海淀區(qū) 100854;4.成都數(shù)之聯(lián)科技股份有限公司 成都 610041)

        近年來,深度學(xué)習(xí)在計(jì)算機(jī)視覺感知[1]、語音識別[2]、文本理解[3]等領(lǐng)域取得巨大成功,引起了研究者的極大關(guān)注。然而,當(dāng)前大部分深度學(xué)習(xí)方法需要海量的標(biāo)注樣本才能學(xué)習(xí)到泛化性較好的智能識別模型,單純依靠數(shù)據(jù)驅(qū)動的建模方式使得基于深度學(xué)習(xí)的目標(biāo)識別面臨新的挑戰(zhàn)。一方面,僅采用數(shù)據(jù)驅(qū)動方式難以解決標(biāo)注樣本較少的問題。對于很多實(shí)際問題,要么是很難采集到大量樣本,要么是標(biāo)注樣本的成本極高,僅依靠少量標(biāo)注數(shù)據(jù),使用數(shù)據(jù)驅(qū)動建模很難得到可靠的模型;另一方面,模型的不穩(wěn)定性和難解釋性一直是深度學(xué)習(xí)理論面臨的難點(diǎn)問題,伴隨海量標(biāo)注數(shù)據(jù)的大量噪聲導(dǎo)致深度學(xué)習(xí)不穩(wěn)定,深度學(xué)習(xí)模型提取的特征很難直觀地理解和解釋。這些問題和挑戰(zhàn)限制了深度學(xué)習(xí)解決更復(fù)雜、更抽象問題的可能性。

        導(dǎo)致這些問題和局限的根本原因在于當(dāng)前人工智能方法與人類智能存在較大差異,人類自身學(xué)習(xí)識別并不需要大量的標(biāo)注樣本,而是通過已有知識、經(jīng)驗(yàn),對照少量樣例歸納總結(jié)并進(jìn)行分析與判斷,實(shí)現(xiàn)目標(biāo)的穩(wěn)定識別??s小人工智能與人類智能的鴻溝,仍然是現(xiàn)代人工智能面臨的巨大挑戰(zhàn)。

        將外部可理解的語義空間知識引入識別建模過程,采用知識與數(shù)據(jù)聯(lián)合驅(qū)動的方式進(jìn)行智能模型構(gòu)建是解決上述問題的一條重要途徑。一方面知識與數(shù)據(jù)聯(lián)合驅(qū)動建模,需要統(tǒng)一先驗(yàn)知識和數(shù)據(jù)信息的表征形式,實(shí)現(xiàn)相互補(bǔ)充,一定程度上解耦深度學(xué)習(xí)模型訓(xùn)練對海量數(shù)據(jù)的強(qiáng)依賴性,緩解小樣本問題;另一方面,相比于數(shù)據(jù),知識的穩(wěn)定性和可靠性更高,基于知識與數(shù)據(jù)聯(lián)合驅(qū)動模型更符合真實(shí)的人類思維與思考習(xí)慣,有利于提高識別算法的穩(wěn)定性、可靠性與魯棒性,能夠進(jìn)一步提高識別效果,為后續(xù)更上層的智能化應(yīng)用(推理、決策等)提供基礎(chǔ)感知模型。知識與數(shù)據(jù)聯(lián)合驅(qū)動的識別建模能夠突破當(dāng)前基于深度學(xué)習(xí)的目標(biāo)識別建模的瓶頸,解決深度學(xué)習(xí)在小樣本、模型可解釋性問題上的局限性。

        如何擺脫深度學(xué)習(xí)模型對海量標(biāo)注樣本的依賴,突破人工智能在小樣本問題上的瓶頸,提高模型可解釋性,正逐漸成為重要的研究方向。本文首先以外部知識在智能識別模型構(gòu)建中的引入方式為區(qū)分準(zhǔn)則,提出一種模型構(gòu)建方法的分類標(biāo)準(zhǔn);然后對每類構(gòu)建方法在解決小樣本、模型可解釋性問題方面的探索進(jìn)行了綜述總結(jié);最后,提出了一種知識與數(shù)據(jù)聯(lián)合驅(qū)動建模方式,并基于此提出了需要進(jìn)一步研究的問題與未來的研究方向。

        1 建模方法分類

        外部認(rèn)知經(jīng)驗(yàn)與知識一直是智能識別建模的重要要素。根據(jù)外部認(rèn)知經(jīng)驗(yàn)與知識在智能識別模型構(gòu)建過程中的引入方式,可以將模型構(gòu)建方法分為3 類:基于顯式知識的建模方法、基于隱式知識的建模方法以及基于融合知識的建模方法。

        基于顯式知識的建模方法直接對顯式的目標(biāo)特征知識進(jìn)行建模。早期的專家系統(tǒng)就屬于這類方式。本質(zhì)上是將外部認(rèn)知經(jīng)驗(yàn)與知識總結(jié)建模為形式化的邏輯規(guī)則,然后將這些規(guī)則集成嵌入系統(tǒng)運(yùn)行流程中,如圖1 所示。

        圖1 基于顯式知識的建模

        基于隱式知識的建模方法是現(xiàn)階段較常用的建模方式,其特點(diǎn)在于外部的認(rèn)知經(jīng)驗(yàn)與知識通過樣本數(shù)據(jù)的標(biāo)簽信息引入建模過程中。這類方式不直接對認(rèn)知經(jīng)驗(yàn)知識進(jìn)行建模,需要在模型訓(xùn)練過程中通過有監(jiān)督方式歸納學(xué)習(xí)目標(biāo)特征,完成識別建模。典型的基于隱式知識的建模方式如圖2 所示。

        圖2 基于隱式知識的建模

        基于融合知識的建模方法同時結(jié)合了上述兩種建模方式,近年來得到廣泛研究的知識圖譜相關(guān)技術(shù)就是采用這種建模方法,如圖3 所示。外部認(rèn)知經(jīng)驗(yàn)與知識通過顯式和隱式兩種方式引入模型。如知識圖譜構(gòu)建過程中的本體模型就是典型的顯式知識引入方式,直接對目標(biāo)知識進(jìn)行建模;隱式知識引入通過樣本標(biāo)簽體現(xiàn),用于知識提取、消歧、融合等構(gòu)建過程。這類方式通常先從數(shù)據(jù)中挖掘提取知識,構(gòu)建形成知識庫,然后基于知識庫構(gòu)建各類識別應(yīng)用模型。

        圖3 基于融合知識的建模

        2 基于顯式知識的建模方法

        直接對經(jīng)驗(yàn)和認(rèn)知知識進(jìn)行建??梢宰匪莸?0 世紀(jì)[4-7]。當(dāng)時,符號主義主導(dǎo)著人工智能的發(fā)展,1955 年文獻(xiàn)[8]提出了基于知識與經(jīng)驗(yàn)的推理模型,然后逐漸演化為專家系統(tǒng)[9-10]。

        這類模型無需標(biāo)注訓(xùn)練樣本,通過追蹤模型運(yùn)行邏輯,模型輸出結(jié)果就能得到較好的解釋,較低的數(shù)值計(jì)算復(fù)雜度使得模型具有良好的穩(wěn)定性。

        然而,早期的專家系統(tǒng)將經(jīng)驗(yàn)知識建模為規(guī)則或邏輯程序,雖然便于計(jì)算機(jī)處理,但這類方式往往只能建模較為簡單的知識,表達(dá)復(fù)雜知識與邏輯的能力有限,很難刻畫復(fù)雜和不確定的知識。此外,由于缺乏自動化的知識獲取和表征方法,導(dǎo)致專家系統(tǒng)效率很低,可移植性和魯棒性差,逐漸被基于數(shù)據(jù)驅(qū)動的人工智能模型替代。

        3 基于隱式知識的建模方法

        基于隱式知識的建模方法應(yīng)用較為廣泛,傳統(tǒng)的機(jī)器學(xué)習(xí)方法(支持向量機(jī)、決策樹、隨機(jī)森林等)與深度學(xué)習(xí)方法(卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)、生成對抗網(wǎng)絡(luò)等)都屬于這種建模方法。不同的是傳統(tǒng)的機(jī)器學(xué)習(xí)方法是尋求建立人工設(shè)計(jì)的特征與數(shù)據(jù)標(biāo)簽之間的映射關(guān)系,而深度學(xué)習(xí)方法采用一種端到端的方式直接對數(shù)據(jù)本身進(jìn)行建模,通過深度神經(jīng)網(wǎng)絡(luò)自動學(xué)習(xí)提取特征并建立深度特征與數(shù)據(jù)標(biāo)簽之間的映射關(guān)系。

        近年來,為了能夠在監(jiān)督信息有限的情況下基于隱式知識進(jìn)行建模,彌合人工智能與人類智能之間的鴻溝,針對小樣本學(xué)習(xí)(few-shot learning, FSL)的研究應(yīng)運(yùn)而生。

        傳統(tǒng)的機(jī)器學(xué)習(xí)方法在面對小樣本問題時,通常采用特征工程相關(guān)方法進(jìn)行處理,如對有限的樣本進(jìn)行采樣,擴(kuò)充數(shù)據(jù)集或?qū)μ卣鬟M(jìn)行增強(qiáng),使得樣本特征分布更趨近于真實(shí)的特征分布。這類處理方法雖然一定程度上緩解了小樣本問題,但由于方法對特征選擇和提取的依賴性,導(dǎo)致傳統(tǒng)機(jī)器學(xué)習(xí)方法在處理復(fù)雜、高維的數(shù)據(jù)時具有一定的局限性。因此,在處理圖像、音視頻等數(shù)據(jù)方面逐漸被深度學(xué)習(xí)模型所替代。而在深度學(xué)習(xí)方面,對小樣本深度學(xué)習(xí)相關(guān)的研究已經(jīng)比較深入,也取得了一系列極有價值的研究成果。

        當(dāng)前的小樣本深度學(xué)習(xí)可以視為一種先驗(yàn)知識與數(shù)據(jù)的聯(lián)合,即尋求在海量基類數(shù)據(jù)上學(xué)習(xí)提煉先驗(yàn)知識(元學(xué)習(xí)),然后在只有少量樣本的測試類上應(yīng)用。但是,從度量學(xué)習(xí)訓(xùn)練模式不難發(fā)現(xiàn),現(xiàn)有的小樣本深度學(xué)習(xí)方法所使用的先驗(yàn)知識通常來自與測試類別類似或同質(zhì)且具有海量標(biāo)注數(shù)據(jù)的基類,本質(zhì)上并沒有解耦模型對海量樣本的強(qiáng)依賴性,只是轉(zhuǎn)移了海量數(shù)據(jù)的需求方向(從目標(biāo)類轉(zhuǎn)移到基類,從目標(biāo)知識的學(xué)習(xí)轉(zhuǎn)移到先驗(yàn)知識的學(xué)習(xí))。此外,元學(xué)習(xí)得到的類語義空間無法與真實(shí)語義符號空間關(guān)聯(lián),導(dǎo)致模型可解釋性不高,難以有效實(shí)現(xiàn)知識的持續(xù)積累和更新擴(kuò)展。目前,小樣本學(xué)習(xí)方法主要分為數(shù)據(jù)增強(qiáng)和度量學(xué)習(xí)(元學(xué)習(xí))兩類。

        3.1 數(shù)據(jù)增強(qiáng)

        數(shù)據(jù)增強(qiáng)是利用先驗(yàn)知識擴(kuò)充數(shù)據(jù)集。早期的FSL 從相似的類中學(xué)習(xí)幾何變換進(jìn)行數(shù)據(jù)擴(kuò)展[11],后續(xù)不少工作從特征和屬性的合成及遷移角度間接對數(shù)據(jù)進(jìn)行擴(kuò)展[12-18],其中,文獻(xiàn)[15]基于自編碼網(wǎng)絡(luò)結(jié)構(gòu),采用無監(jiān)督預(yù)訓(xùn)練的方式增強(qiáng)模型對數(shù)據(jù)特征的感知能力,利用少量標(biāo)注樣本實(shí)現(xiàn)了較好的識別效果。此外,還有不少工作[19-23]建立生成模型實(shí)現(xiàn)樣本的生成擴(kuò)展。近幾年,基于數(shù)據(jù)的分布[24-26]以及模型注意力分布[27]等統(tǒng)計(jì)信息的方法也引起了研究人員的關(guān)注并取得了較好的效果,如文獻(xiàn)[27]針對小樣本場景下的知識蒸餾提出了一種基于教師模型響應(yīng)的數(shù)據(jù)增強(qiáng)方法,有效地提升了小樣本知識蒸餾效果。

        此外,文獻(xiàn)[28-30]將數(shù)據(jù)增強(qiáng)融合到弱監(jiān)督對比學(xué)習(xí)框架中,如圖4 所示,在無標(biāo)注數(shù)據(jù)上使用不同的數(shù)據(jù)增強(qiáng)方法產(chǎn)生多個數(shù)據(jù)視圖,然后通過對比數(shù)據(jù)視圖使得模型學(xué)習(xí)到目標(biāo)特征,完成表征模型的預(yù)訓(xùn)練,然后利用下游識別任務(wù)對應(yīng)的少量標(biāo)注樣本,進(jìn)行有監(jiān)督微調(diào)訓(xùn)練,以降低模型對海量標(biāo)注樣本的依賴性。

        圖4 基于數(shù)據(jù)增強(qiáng)的弱監(jiān)督對比學(xué)習(xí)框架

        3.2 度量學(xué)習(xí)

        度量學(xué)習(xí)是一種元學(xué)習(xí)方法,其目標(biāo)是學(xué)習(xí)一種相似性度量,通常采用跨任務(wù)的N-way K-shot訓(xùn)練范式。在訓(xùn)練過程中,從基類數(shù)據(jù)集中隨機(jī)抽取N個類別,每個類別隨機(jī)選擇K個樣本作為支持集,再從這N個類的剩余樣本中隨機(jī)抽取部分樣本作為查詢集。這種學(xué)習(xí)方式如圖5 所示。

        圖5 度量學(xué)習(xí)框架

        度量學(xué)習(xí)的目的就是使模型學(xué)會識別查詢集。典型的度量學(xué)習(xí)工作包括:孿生神經(jīng)網(wǎng)絡(luò)[31]、三元組排序網(wǎng)絡(luò)[32]、原型網(wǎng)絡(luò)[33-34]、基于注意力自適應(yīng)模塊[35]、組合特征聚合模塊[36]、主特征網(wǎng)絡(luò)[37]、匹配網(wǎng)絡(luò)[38-41]、關(guān)系網(wǎng)絡(luò)[42]及其改進(jìn)網(wǎng)絡(luò)[43-44]以及協(xié)方差度量網(wǎng)絡(luò)[45-46]等。此外,文獻(xiàn)[47-51]對特征間的關(guān)系進(jìn)行建模以實(shí)現(xiàn)度量學(xué)習(xí)。其中,文獻(xiàn)[51]提出了基于多尺度的標(biāo)簽傳播網(wǎng)絡(luò),利用多尺度生成器生成多個尺度的圖像特征,并集成關(guān)系度量模塊獲得多個不同尺度特征下的樣本相似性得分。除了度量學(xué)習(xí)外,還有部分工作采用基于記憶的元學(xué)習(xí)方法將小樣本學(xué)習(xí)任務(wù)表示為序列學(xué)習(xí)任務(wù)[52-55]。最近,文獻(xiàn)[56]基于集成學(xué)習(xí)思想,提出了一種集成度量學(xué)習(xí)方法,綜合考慮圖像級和局部特征級子度量以及標(biāo)簽傳播度量,最后將多個子度量融合作為最終度量輸出。

        3.3 基于隱式知識構(gòu)建模型的可解釋性

        基于隱式知識的建模將所有的處理都放在向量空間進(jìn)行計(jì)算。這類模型將數(shù)據(jù)標(biāo)簽嵌入映射到一個標(biāo)簽向量空間(如one-hot 編碼),學(xué)習(xí)特征向量空間與標(biāo)簽向量空間之間的映射關(guān)系。當(dāng)前基于數(shù)據(jù)挖掘的知識驅(qū)動相關(guān)方法大多采用這一類模式。這種模式具有較好的數(shù)學(xué)特性,能充分利用算力開展大規(guī)模運(yùn)算。

        對于傳統(tǒng)機(jī)器學(xué)習(xí)方法,由于人工設(shè)計(jì)的特征本身具有較為明確的含義,因此,模型的可解釋性較好。如支持向量機(jī)中模型的決策結(jié)果來自于支持向量與目標(biāo)向量的距離,決策樹中模型的決策結(jié)果來自于節(jié)點(diǎn)的條件判斷。

        然而深度學(xué)習(xí)方法卻具有可解釋性不高、依賴海量數(shù)據(jù)以及魯棒性不強(qiáng)等局限性。因此,如何使得深度學(xué)習(xí)模型突破這些瓶頸,逐漸成為深度學(xué)習(xí)模型研究的重點(diǎn)。事實(shí)上,美國國防部高級研究計(jì)劃局(DARPA)在2016 年發(fā)布了“可解釋的人工智能”(explainable artificial intelligence, XAI)項(xiàng)目[57-59],其目標(biāo)就是建立一套新的機(jī)器學(xué)習(xí)技術(shù),生成可解釋的模型,結(jié)合有效的解釋技術(shù),使得最終用戶能夠理解、一定程度的信任并有效地管理未來的人工智能系統(tǒng)。2018 年,DARPA 啟動“下一代人工智能”(AI Next)項(xiàng)目,用于構(gòu)建能夠進(jìn)行類似人類交流和邏輯推理的人工智能工具。我國在2020 年度國家自然科學(xué)基金指南引導(dǎo)類原創(chuàng)探索——面向復(fù)雜對象的人工智能理論基礎(chǔ)研究項(xiàng)目中,計(jì)劃通過信息科學(xué)與數(shù)學(xué)、物理學(xué)、化學(xué)等基礎(chǔ)學(xué)科的深度交叉融合,從復(fù)雜性與多尺度視角探索人工智能基礎(chǔ)理論與方法,突破現(xiàn)有人工智能可解釋性瓶頸,推動動態(tài)、穩(wěn)健與可信的智能模型與方法體系的構(gòu)建。2022 年,國家自然科學(xué)基金委員會發(fā)布了“可解釋、可通用的下一代人工智能方法重大研究計(jì)劃”,旨在建立規(guī)則和學(xué)習(xí)的有效融合機(jī)制,打破現(xiàn)有深度學(xué)習(xí)“黑箱算法”的現(xiàn)狀,建立一套適用于不同領(lǐng)域、不同場景(語音、圖像、視頻等)的通用方法體系。

        近年來,相關(guān)方向也有不少研究工作[60-66],其中,文獻(xiàn)[62]利用有限狀態(tài)機(jī)探索循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的內(nèi)在機(jī)制,將RNN 的內(nèi)部流程表達(dá)為有物理意義的模型。文獻(xiàn)[66]提出基于心智理論(theory of mind, ToM)的可解釋性AI 模型,提高對深度學(xué)習(xí)模型輸出的信心。

        4 基于融合知識的建模方法

        基于融合知識的建模方法首先從數(shù)據(jù)中挖掘提取知識,構(gòu)建形成知識庫,然后應(yīng)用于各類場景。當(dāng)前得到廣泛研究的知識圖譜就是采用這類技術(shù)路線,大致包含4 個方向:知識建模、知識提取、知識表征以及知識應(yīng)用。

        當(dāng)前,基于融合知識的建模已經(jīng)有不少研究工作,如何從數(shù)據(jù)中建模、提取知識并進(jìn)行表征和應(yīng)用已得到廣泛關(guān)注?;谌诤现R的建模方法本質(zhì)上屬于一種雙空間模型,其中符號空間(語義空間)模擬認(rèn)知知識,亞符號空間(向量空間)模擬感知狀態(tài)。文獻(xiàn)[67-72]提出的模型尋求學(xué)習(xí)特征向量空間和語義符號空間的對應(yīng)關(guān)系,使兩個空間能夠直接相互映射以支撐應(yīng)用。這類模式對樣本的標(biāo)注要求很高,需要盡可能精確到每一個語義符號,模型才有可能學(xué)習(xí)得到映射關(guān)系。

        此外,當(dāng)前大多數(shù)知識的提取和表征方法都還是依賴于海量的標(biāo)注數(shù)據(jù),僅在知識應(yīng)用層考慮了小樣本,整體來看,并沒有從根本上解決深度學(xué)習(xí)模型對海量樣本的依賴問題。此外,由于知識圖譜最早是由語義任務(wù)推動發(fā)展的,因此大部分知識圖譜的設(shè)計(jì)能夠很好地描述事物間的邏輯關(guān)系,但在屬性特征表達(dá)方面偏弱,很難支撐圖像、語音等相關(guān)的任務(wù)。

        4.1 知識建模

        知識建模的核心是本體構(gòu)建,其目的是為了確定知識圖譜能描述的知識。本體被廣泛認(rèn)可的定義為“共享概念模型的明確形式化規(guī)范說明”[73]。本體構(gòu)建的主要方法有:IDEF5 法、骨架法、TOVE法、METHONLOGY 法、KACTUS 法、七步法和SENSUS 法等。此外,文獻(xiàn)[74]結(jié)合隱式狄利克雷分布和關(guān)聯(lián)規(guī)則算法,提出了一種半自動的領(lǐng)域本體構(gòu)建方法。文獻(xiàn)[75]在知識建模方面開展了深入的探索,研究了關(guān)聯(lián)圖譜的定義、架構(gòu)以及構(gòu)建的關(guān)鍵技術(shù),并深度分析了關(guān)聯(lián)圖譜分析與研究所面臨的若干挑戰(zhàn)問題。并圍繞裝備目標(biāo)及其關(guān)聯(lián)標(biāo)準(zhǔn)知識,研究了裝備-標(biāo)準(zhǔn)知識圖譜建模[76]、標(biāo)準(zhǔn)化管控建模[77]以及裝備標(biāo)準(zhǔn)關(guān)聯(lián)圖譜可視化應(yīng)用[78],在此基礎(chǔ)上,針對裝備目標(biāo)及其標(biāo)準(zhǔn)構(gòu)建了異構(gòu)信息關(guān)聯(lián)圖譜[79],并在此基礎(chǔ)上定義了通用化、系列化和模塊化等評價指標(biāo)[80]。

        4.2 知識提取

        知識提取的目的是從非結(jié)構(gòu)化的文本和其他結(jié)構(gòu)化或半結(jié)構(gòu)化的數(shù)據(jù)源中發(fā)現(xiàn)和識別實(shí)體和關(guān)系。知識提取的主要任務(wù)包括實(shí)體識別與對齊、關(guān)系提取以及知識圖譜補(bǔ)全。實(shí)體識別一直都是研究的熱點(diǎn)問題[81-83],特別是近幾年,預(yù)訓(xùn)練語言模型已應(yīng)用于實(shí)體識別并取得了很好的識別效果和性能[84-85]。關(guān)系提取方面,不少工作者采用圖卷積神經(jīng)網(wǎng)絡(luò)及其變體建模實(shí)現(xiàn)關(guān)系提取任務(wù)[86-89]。此外,相關(guān)的小樣本與元學(xué)習(xí)問題也有相應(yīng)的研究[90-93]。早期的信息抽取沒有考慮到實(shí)體抽取和關(guān)系抽取兩個任務(wù)之間的相關(guān)性,近年來,不少研究將兩個任務(wù)進(jìn)行聯(lián)合建模[94-97],如文獻(xiàn)[97]提出了一個基于跨度和圖模塊的混合模型KSBERT,引入領(lǐng)域字典、依存關(guān)系結(jié)構(gòu)等外部句法、語義知識,針對特定領(lǐng)域的實(shí)體和關(guān)系聯(lián)合抽取實(shí)現(xiàn)了較好的效果。知識圖譜補(bǔ)全方面,近年來,也有不少的研究工作注意到了小樣本問題,并提出了相應(yīng)的解決方案[98-103]。

        4.3 知識表征

        知識表征學(xué)習(xí),也稱為知識圖譜嵌入[104],是使用低維向量表示實(shí)體和關(guān)系信息的過程。當(dāng)前的知識表征方法根據(jù)嵌入的核心思想可分為幾何表征模型和神經(jīng)網(wǎng)絡(luò)表征模型。幾何表征模型將關(guān)系解釋為語義空間中的幾何變換,典型方法如基于莫比烏斯變換的嵌入方法[105]、KDCoE 模型[106]、ATTH模型[107]、DensE 模型[108]、BiQUE 模型[109]、ChronoR模型[110]以及對偶四元數(shù)知識圖嵌入方法[111]。神經(jīng)網(wǎng)絡(luò)表征模型方面,也取得了大量優(yōu)秀的研究成果[112-120],其中,文獻(xiàn)[119]提出了一種時序圖信息的嵌入方法,然后基于圖神經(jīng)網(wǎng)絡(luò),提出了一種結(jié)合圖的鄰接矩陣與卷積神經(jīng)網(wǎng)絡(luò)的關(guān)鍵節(jié)點(diǎn)挖掘算法[120],可以有效地將圖中節(jié)點(diǎn)的鄰域信息嵌入到矩陣中。

        4.4 知識應(yīng)用

        知識應(yīng)用方面,數(shù)據(jù)和知識聯(lián)合驅(qū)動的方法在越來越多的領(lǐng)域得到了應(yīng)用[121-136],這種結(jié)合已逐步成為理論指導(dǎo)數(shù)據(jù)科學(xué)的新模式。

        文獻(xiàn)[121]引入圖搜索神經(jīng)網(wǎng)絡(luò)(graph search neural network, GSNN)有效地將大量知識圖合并到視覺分類任務(wù)中,并使用這些結(jié)構(gòu)化先驗(yàn)知識提高圖像分類性能。文獻(xiàn)[123]使用一個視覺語義嵌入模型,從知識庫和文本中挖掘語義嵌入,并進(jìn)一步訓(xùn)練一個端到端CNN 框架,從而將圖像特征線性映射到豐富的語義嵌入空間。文獻(xiàn)[124]使用包含外部知識的顯式知識模塊和隱式知識模塊實(shí)現(xiàn)知識的學(xué)習(xí),融合知識整合模塊與目標(biāo)檢測網(wǎng)絡(luò),利用全局推理提高目標(biāo)檢測性能。文獻(xiàn)[125]在給定一個已學(xué)習(xí)的知識圖譜下,將每個節(jié)點(diǎn)(即視覺類別)的語義嵌入作為輸入,經(jīng)過一系列圖卷積,預(yù)測每個類別的視覺分類器。文獻(xiàn)[127]使用GCN訓(xùn)練知識圖譜,并將其用于小樣本甚至零樣本的動作識別任務(wù)。文獻(xiàn)[128]利用一幅圖像中所有對象對之間的視覺上下文關(guān)系和幾何關(guān)系(關(guān)系信息由關(guān)系知識圖譜定義),捕獲有用的信息來推斷不可見類別,并使用條件隨機(jī)場將該方法集成到傳統(tǒng)的零樣本學(xué)習(xí)方法中。文獻(xiàn)[129]以結(jié)構(gòu)化的知識圖譜形式表示語義關(guān)聯(lián),并將該圖譜集成到深度神經(jīng)網(wǎng)絡(luò)中,通過知識圖譜遷移網(wǎng)絡(luò)(knowledge graph transfer network, KGTN)實(shí)現(xiàn)小樣本學(xué)習(xí)。文獻(xiàn)[132]提出了知識傳輸網(wǎng)絡(luò)(knowledge transfer network,KTN)體系結(jié)構(gòu),提出的框架將視覺特征學(xué)習(xí)、知識推斷和分類器學(xué)習(xí)結(jié)合到一起。文獻(xiàn)[133]提出了一種稠密圖傳播(dense graph propagation, DGP)模塊,利用知識圖譜提供的類別語義描述及關(guān)系信息擴(kuò)展原有的圖像分類器,使之能夠適應(yīng)新類別。文獻(xiàn)[135]提出了一種圖的小樣本學(xué)習(xí)算法,融合了從輔助圖中學(xué)習(xí)的先驗(yàn)知識,同時在圖之間傳輸節(jié)點(diǎn)級和圖級結(jié)構(gòu)。文獻(xiàn)[136]通過語義嵌入,由語義之間的差距生成用于屬性傳播網(wǎng)絡(luò)的語義知識圖譜,隨后使用注意力機(jī)制進(jìn)行圖像分類。

        5 知識和數(shù)據(jù)聯(lián)合驅(qū)動建模

        早期的基于顯式知識的建模方法、當(dāng)前廣泛使用的基于隱式知識的建模方法,以及現(xiàn)階段基于融合知識的建模方法都存在各自的局限性。因此,文獻(xiàn)[137]提出發(fā)展“第三代人工智能”,即融合知識驅(qū)動和數(shù)據(jù)驅(qū)動的人工智能模型,利用知識、數(shù)據(jù)、算法和算力4 個要素,建立新的可解釋和魯棒的人工智能理論與方法。

        新一代的知識和數(shù)據(jù)聯(lián)合驅(qū)動建模方式本質(zhì)上屬于融合知識建模方式,但不再尋求語義符號空間和特征向量空間的相互映射,而是將其分別映射到同一個連續(xù)的高維空間并進(jìn)行融合,即將特征向量空間以及語言符號空間融合映射到同一個連續(xù)的類語義空間中,在此空間中完成語義符號和特征向量的關(guān)聯(lián)融合。一種知識和數(shù)據(jù)的聯(lián)合驅(qū)動建模方式如圖6 所示。

        圖6 一種知識和數(shù)據(jù)的聯(lián)合驅(qū)動建模方式

        認(rèn)知經(jīng)驗(yàn)知識和數(shù)據(jù)分別通過弱監(jiān)督或無監(jiān)督的方式進(jìn)行表征學(xué)習(xí),學(xué)習(xí)到的表征模型能夠?qū)⒅R或數(shù)據(jù)映射到各自的向量空間,然后通過表征融合模型,將兩個空間進(jìn)行融合嵌入,最后基于融合表征進(jìn)行建模。

        相比于顯式知識建模方法,知識將不再建模為具體的規(guī)則語句,而是建模為圖譜等形式。相比于規(guī)則化的語句,圖譜更容易映射、轉(zhuǎn)換為連續(xù)數(shù)值進(jìn)行計(jì)算,且能夠表達(dá)更為復(fù)雜的邏輯關(guān)系,并進(jìn)行一定程度的推理。此外,本文提出的建模方式解耦了認(rèn)知經(jīng)驗(yàn)知識的建模和數(shù)據(jù)表征的建模,根據(jù)實(shí)際情況可選擇聯(lián)合驅(qū)動建模,也可以選擇單一途徑(只有經(jīng)驗(yàn)知識或只有數(shù)據(jù))進(jìn)行建模,一定程度上兼容了基于顯式知識的建模方法和基于隱式知識的建模方法,同時也克服了顯式知識建模方法和隱式知識建模方法的局限性。

        采用知識和數(shù)據(jù)聯(lián)合驅(qū)動建模的工作還鮮有報(bào)道,其有效性還有待進(jìn)行更多的實(shí)踐驗(yàn)證。此外,如何根據(jù)模型的輸出,有效追溯到認(rèn)知知識,使得模型輸出和中間特征可解釋,也還有待進(jìn)一步研究與探索。

        6 結(jié) 束 語

        當(dāng)前,無論是小樣本深度學(xué)習(xí)還是基于數(shù)據(jù)挖掘的知識驅(qū)動技術(shù)都已經(jīng)引起了學(xué)術(shù)界的廣泛關(guān)注。這個方向的興起,既來源于學(xué)術(shù)界對人工智能接近人類智能的追求,又受到工業(yè)界對廉價機(jī)器學(xué)習(xí)的需求推動。在此背景下,本文提出了一種模型構(gòu)建方法的分類標(biāo)準(zhǔn);然后對每類構(gòu)建方法在解決小樣本、模型可解釋性問題方面的探索進(jìn)行了綜述總結(jié);最后,設(shè)想了一種知識與數(shù)據(jù)聯(lián)合驅(qū)動建模方式。

        目前,對知識與數(shù)據(jù)聯(lián)合驅(qū)動的識別技術(shù)研究已取得許多極具價值的成果,盡管如此,以下幾方面還需進(jìn)一步研究。

        1)現(xiàn)有的小樣本深度學(xué)習(xí)方法先驗(yàn)知識的來源途徑有限,本質(zhì)上仍然依賴與目標(biāo)類相似或同質(zhì)的海量樣本,僅轉(zhuǎn)移了海量數(shù)據(jù)的需求方向。

        2)元學(xué)習(xí)得到的類語義空間無法與真實(shí)語義符號空間關(guān)聯(lián),導(dǎo)致模型可解釋性不高,難以有效實(shí)現(xiàn)知識的持續(xù)積累和更新擴(kuò)展。

        3)當(dāng)前基于數(shù)據(jù)挖掘的知識驅(qū)動方法都還依賴于海量的標(biāo)注數(shù)據(jù),僅在知識的應(yīng)用層考慮了小樣本的情況,如何在小樣本或零樣本情況下生成知識還有待進(jìn)一步研究。

        4)雖然在知識圖譜領(lǐng)域,利用自然語言文本提取實(shí)體、關(guān)系與屬性構(gòu)建知識庫已有大量研究,但是這類知識庫往往是為了解決語義搜索和語義理解相關(guān)應(yīng)用而構(gòu)建的,而面向目標(biāo)識別應(yīng)用的知識庫還沒有得到很好的研究。

        5)在知識與數(shù)據(jù)聯(lián)合驅(qū)動模型中,知識的質(zhì)量如何度量,知識的質(zhì)量與數(shù)據(jù)的質(zhì)量如何影響模型,以及二者產(chǎn)生的交互效應(yīng),還缺乏定性和定量的研究。

        猜你喜歡
        語義深度人工智能
        深度理解一元一次方程
        語言與語義
        深度觀察
        深度觀察
        2019:人工智能
        商界(2019年12期)2019-01-03 06:59:05
        人工智能與就業(yè)
        深度觀察
        數(shù)讀人工智能
        小康(2017年16期)2017-06-07 09:00:59
        下一幕,人工智能!
        “上”與“下”語義的不對稱性及其認(rèn)知闡釋
        99RE6在线观看国产精品| 少妇太爽了在线观看免费视频| 久久精品无码免费不卡| 欧洲亚洲视频免费| 亚洲一区视频中文字幕| 99e99精选视频在线观看| 疯狂撞击丝袜人妻| 手机看片1024精品国产| 中文字幕一区二区va| 亚洲乱码av乱码国产精品| 狼人青草久久网伊人| 就去吻亚洲精品欧美日韩在线| 国内精品九九久久精品小草| 一区二区三区视频亚洲| 国产精品天堂avav在线| 人与嘼av免费| 二区三区亚洲精品国产| 日韩精品视频免费网站| 在熟睡夫面前侵犯我在线播放| 国产在线一区观看| 日本久久一级二级三级| 国产日产韩国av在线| 西西大胆午夜人体视频| 国产精品女视频一区二区| 久久综合老鸭窝色综合久久| 少妇人妻综合久久中文字幕| 性生交大片免费看淑女出招 | 在线亚洲精品一区二区三区| 亚洲av无码成人精品国产| 99精品国产高清一区二区麻豆| 精品国产性色av网站| 精品精品国产三级av在线| 寂寞少妇做spa按摩无码| 亚洲国产成人精品无码区在线观看 | 色噜噜狠狠色综合欧洲| 成av人片一区二区久久| 337p日本欧洲亚洲大胆精品| 欧美亚洲综合激情在线| 精品女同一区二区三区亚洲| 波多野结衣av一区二区全免费观看 | 麻豆精品国产专区在线观看|