亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于深度學習的圖片問答系統設計研究

        2018-12-13 09:07:48周遠俠
        計算機應用與軟件 2018年12期
        關鍵詞:次數向量樣本

        周遠俠 于 津

        (汕頭大學工學院計算機科學與技術系 廣東 汕頭 515000)

        0 引 言

        近年來,包括深度學習在內的機器學習理論有了巨大進展,人類見證了人工智能在眾多領域的研究及應用成果。2015年,學術界提出的自由形式和開放式視覺問答VQA任務[1],逐步成為人工智能研究的熱門方向。VQA系統將圖像與自由形式和開放式的自然語言表述問題作為輸入,產生的自然語言表述答案作為輸出。VQA任務需要具有精準識別、物體檢測、活動識別、知識庫推理和常識推理等功能的問答系統來完成,而這些功能所涉及的計算機視覺、自然語言處理和知識推理等領域在過去10年中取得了顯著的進步。

        圖片問答聊天機器人涉及的領域主要有視覺問答、文本問答和圖像處理。

        計算機視覺問答的研究始于2014年,一開始的研究,其設定和數據集都比較有限[2-3]。例如,文獻[2]只考慮答案來自16個基本顏色或894個對象類別的預先設計的閉合問題。文獻[3]考慮從對象、屬性、對象之間的關系來構建固定詞匯表的模板進而生成的問題。相比之下,文獻[1]在一年后提出的任務涉及人類的開放式,自由形式的問題和答案,增加了提供正確答案所需的知識的多樣性和推理的種類[1]。從數據集上看,后者[1]的數據集(問答對36萬,圖片12萬)比前兩者[2-3](分別為2 591和1 449圖像)大兩個數量級,這對在視覺問答這個更為困難和無約束的任務上取得成功很重要。視覺問答的問題是開放式的,然而,了解問題的類型和哪些類型的算法能更好地回答問題也很有必要。為此,后者[1]還分析所提問題的類型和提供的答案類型,通過幾種可視化展示了所提問題的驚人的多樣性,并探討問題的信息內容和答案與圖像說明的區(qū)別。他們設計出一個將處理問題的LSTM與處理圖像的卷積神經網絡相結合以產生答案的模型[1],并以幾種使用文本和最先進的視覺特征相結合的方法作為基準,對類似的模型進行了評估。除此以外,其他相關工作有:文獻[4]最早設計出一個將處理問題的LSTM(Long short-term memory)網絡與處理圖像的卷積神經網絡相結合以產生答案的模型。文獻[5]引入了10 k圖像的數據集,并提出了描述場景的特定方面的說明。百度的Gao等[6]收集了COCO圖像的中文問題和答案。文獻[7]使用微軟的COCO數據集說明自動生成對象、計數、顏色、位置四種類型的問題。

        從最新(2016年、2017年)發(fā)表的文獻上看,有些學者已經開始嘗試將“帶有注意力”的模型加入到現有的視覺問答研究中,例如,文獻[8-11]使用了基于視覺注意的模型,其中注意機制通常產生突出顯示與回答問題相關的圖像區(qū)域。這幾篇文獻都專注于識別“往哪里看”或“視覺注意區(qū)域”的問題。文獻[12]認為,除了建模“往哪里看”或“視覺注意區(qū)域”之外,同樣重要的是要模擬“聽問題的重點”或“提問注意”。因此他們提出了一個新穎的VQA的共同關注模式,同時關注問題和圖像的“重點區(qū)域”。主要通過新穎的一維卷積神經網絡(CNN)以分層方式進行改進。然而,在引入了“帶有注意力”的機制后,模型的復雜度會提高不少。

        基于文本的問答在自然語言處理和文本處理領域是一個很好的研究問題。文獻[13]中讓機器回答閱讀理解多項選擇問題,試圖解決開放域的機器理解問題;文獻[14]合成了文本描述和QA(問答)對。這些方法為視覺問答的研究提供了靈感。視覺問答的自然基礎是圖像,即需要理解文本(問題)和視覺(圖像)。由于關于圖片提出的問題是由人類產生的,因此常識知識和復雜推理也顯得很有必要。

        圖像處理的相關技術為視覺問答提供一定的支持和借鑒,比如圖像標記[15-16]與圖像說明[17-18]。和視覺問答相比,這些任務雖然需要視覺和語義知識,但是說明通常不具有針對性[18]。相比之下,視覺問答中的問題往往需要詳細的有針對性的圖像信息,所以和一般的圖像標記與圖像說明不一樣。

        我們在對數據集統計分析的基礎上提出數據預處理方法仿聚類法,建立合適的LcVMS模型,并以此設計出圖片問答系統。這個圖片問答系統需要精準識別、物體檢測、活動識別、知識庫推理和常識推理等多種AI功能,對人工智能的學術研究有積極意義;從工業(yè)角度上看,一個成熟的圖片問答系統,能協助視覺障礙用戶積極獲取視覺信息。因此,以VQA這個目標驅動型任務為導向,以深度學習為基礎,研究圖片問答聊天機器人的系統設計,既有理論研究意義,也有實際應用價值。

        1 框架設計

        1.1 任務描述

        最近幾年,計算機視覺CV(Computer Vision)、自然語言處理NLP(Natural Language Processing)和知識表示與推理KR(Knowledge Representation & Reasoning)快速發(fā)展,越來越多的學者投入到上述學科的交叉任務研究中。2015年,Aishwarya等提出了自由形式和開放式視覺問答VQA的任務:給定圖像和相應的以自然語言表述的自由形式的、開放式的問題,智能系統響應以自然語言表述的準確的問題答案。這里最需要強調的一點就是,問題和答案都是開放式的,不加任何限制,視覺問題可以選擇性地針對圖像的不同區(qū)域,包括背景細節(jié)等。因此,一個理想的系統通常需要具備比生成通用圖像標題的系統更詳細地理解圖像和進行復雜推理的能力。我們也是基于這樣的任務目標設計圖片問答系統。

        1.2 圖片特征提取模塊

        在2015年ICLR(International Conference on Learning Representations)會議上,Karen Simonyan和Andrew Zisserman提出了VGG16和VGG19兩個非常好的深層卷積神經網絡DCNN(Deep Convolutional Neural Network)[19]。我們模型的圖片特征提取模塊選擇的網絡是VGG16。網絡所有卷積層有相同的配置,卷積核大小均為3×3,步長為1,填充為1;共有5個最大池化(max pooling)層,大小都為2×2,步長為2;卷積層的通道數目,或者稱為寬度從64開始,每次經過一個最大池化層翻倍,一直到512為止;共有三個全連接層,前兩層都有4 096通道,第三層共1 000路及代表1 000個標簽類別;除了最后全連接的softmax層外,其他層都需要使用整流線性單元(ReLU)非線性激活函數。由于我們只用這個VGG網絡來提取圖片的特征,而不是做圖像分類任務,因此最后的softmax層就要刪除,這樣修改后的VGG網絡如圖1所示。

        圖1 修改后的VGG網絡

        VGG網絡在最后一個隱藏層加入L2正則化,修改后的VGG網絡輸入是一個圖片,輸出則是一個該圖片的“數字化表達形式”:為了與后邊模型銜接,其后再加一層平整化(flatten)得到一個包含4 096個元素的一維的數組,我們以后將這個數組稱之為卷積神經網絡提取的圖片特征,簡稱CNN Features。

        1.3 問題特征提取模塊

        由于文字不能直接作為神經網絡的輸入,這里需要選擇一種文字的數字化表達形式。我們選用的word2vec詞向量表示,是一種適合機器學習、特別是深度學習的輸入和表示空間的語言模型。這里可以簡單地把word2vec當成一種把詞語變成向量表示的方法,具體原理不做深入討論。

        對于問題的處理,我們嘗試兩種不同的方式:

        模型1:普通的詞袋模型(Continuous Bag of Words Model):首先利用自然語言處理NLP(Natural Language Processing)的word2vec技術,將問題中的每個單詞先轉化為一個300維的向量(vector),然后將所有詞語的向量相加。此處將獲得一個300維的向量作為Question的數字化表達。

        模型2:LSTM模型:首先利用word2vec技術,將問題中的每個單詞先轉化為一個300維的向量(vector),這一步和模型1一樣。然后按照句子中單詞排列的順序將每個單詞依次輸入帶有一個隱藏層的LSTM網絡,將網絡輸出的512維向量作為問句的數字化表達。

        模型1和模型2的主要區(qū)別在于:模型1直接將各詞的詞向量表示加和,作為整個問句的向量表示,是一種平均化的方法。這種方法完全不考慮詞在句子中出現的順序,類似于“把詞扔進一個袋子里”,所以叫詞袋模型。模型2用的LSTM模型是RNN的一種,詞語在問句中的順序會直接影響輸入的順序,進而影響問句的特征表達。

        1.4 訓練模塊結構

        神經網絡設計的一個關鍵是確定結構。結構(architecture),是指網絡作為一個整體,包含多少單元,以及這些單元之間是如何連接的。

        1989年,通用近似定理(universal approximation theorem)提出,一個前饋神經網絡如果具有線性輸出層和至少一層具有任何一種“擠壓”性質的激活函數的隱含層,只要給予網絡足夠數量的隱含單元,就可以任意的精度來近似任何從一個有限維空間到另一個有限維空間的Borel可測函數[20]。這里不展開討論這個定理的具體內容,只引用一個結論:通用近似定理表明,無論需要神經網絡學習什么函數,一個足夠大的多層感知機MLP(multilayer perceptron)一定能夠表示這個函數。

        結構設計除了考慮網絡的神經元數量以外,還需要考慮層與層之間如何連接。默認的神經網絡層會采用矩陣描述的線性變換,每個輸入單元連接到每個輸出單元,這就是所謂的全連接。也有某些網絡不使用全連接,通常,學術界無法對通用神經網絡的結構給出更具體的建議,需要具體問題具體分析。這里只簡單闡述模型1與模型2的結構,如圖2、圖3所示。

        圖2 模型1結構圖

        圖3 模型2的結構圖

        1.5 分類模塊

        輸出單元的選擇與損失函數的選擇緊密相關,通常損失函數使用數據分布和模型分布的交叉熵,而表示輸出的形式決定了交叉熵函數的形式。輸出層的作用是將隱藏層提供的特征進行變換以完成整個網絡的任務,模型的任務是,把“看到一個圖片回答開放式問題”轉化成“從K個最有可能的回答中,找到最符合圖片的答案”,這樣就把一個開放的AI問題,轉化成了multi-class的分類問題。softmax函數是一個用來表示一個具有多個可能取值的離散型隨機變量分布的函數,常用來作為分類器的輸出,因此這里選擇softmax作為分類器,以獲得出現頻率最高的K個答案的分布。整個模型最后會以交叉熵作為損失函數實現端對端學習。

        2 實驗分析

        2.1 數據集統計分析

        2.1.1 數據來源

        用于模型訓練和分析的數據,來自VQA(Visual Question Answering)組織公布的數據集,具體下載地址在http://www.visualqa.org/vqa_v1_download.html。我們使用V1版本的數據集,這個數據集包括:微軟的COCO(MSCOCO)數據集,123 287張圖片,其中訓練集圖片82 783張,測試集圖片40 504張;圖片對應的Question共369 861個,其中訓練集248 349個,測試集121 512個;每個Question對應的Answer有10個,經過數據預處理后[1],訓練集和測試集的數量與Question相同(一個Question可能對應多個Answer,這不會影響數據集個數),即訓練集248 349個,測試集121 512個。

        2.1.2 統計與分析

        1) Question部分的統計:

        (1) 設閾值word_count_threshold=1 000,出現次數超過1 000次的單詞,認為是高頻詞;其余為低頻詞。其中前20個高頻詞出現次數如表1所示。高低頻詞個數、個數比例、出現次數、出現次數占所有詞出現次數比例如表2所示。

        表1 前20個高頻詞出現次數

        表2 高低頻詞個數與詞頻統計

        (2) 對每個Question,在前k個詞出現的前提下第k+1個詞出現的比例進行統計,其中XXX為低頻詞標記;統計結果如表3所示。

        表3 Question前k個詞出現的前提下第k+1個詞出現的比例

        續(xù)表3

        續(xù)表3

        續(xù)表3

        2) Question部分的分析:

        (1) 由表1-表2可以看出,出現次數大于1 000次的高頻詞只有208個,所占比例非常小,只有1.44%,超過98%的單詞出現的次數不足1 000;高頻詞出現次數占所有詞出現次數的比例為82.75%,即出現頻率超過80%的單詞不到1.5%。

        (2) 由表3可以看出,Question的分布非常不均勻,比例非常小的一部分Question問的次數非常多,而大部分Question出現的頻率都比較低。

        3) Answer部分的統計:

        (1) 對Answer的詞頻進行統計,出現最多的前20個Answer及其次數如表4所示。

        表4 出現最多的前20個Answer及其次數

        (2) 選取出現次數最多的1 000個Answer,統計對應的Question數量,為320 029個,占Question總數量的320 029/369 861=86.53%。

        4) Answer部分的分析:

        出現次數前5個Answer占所有Answer出現次數的(86 619+54 664+11 941+6 991+6 756)/369 861=45.14%;出現次數最多的1 000個Answer占所有Answer出現次數的86.53%:可見Answer的分布是十分不均衡的,而且分布很像一個長尾分布,但是只需要1 000個Answer就可以覆蓋超過85%的Question。

        2.2 數據預處理

        通過前一章的數據分析,我們提出一個數據預處理方法:仿聚類法。

        首先統計Question里出現的單詞詞頻,得到“高頻詞”和“低頻詞”;然后模仿聚類和分類算法的思想,以詞頻為密度、以問句起始詞為類目對問句進行“聚類”和“分類”,在每個類里又使用相同的方式,以詞頻為密度、以問句第二個詞為類目再次進行歸類,以此類推,最后會將樣本從原空間映射到新空間,直接合并低頻樣本。

        例如:一個經過處理后的樣本,低頻詞匯被xxx替代,樣本會變成:question=[′why′,′does′,′the′,′player′,′have′,′one′,′xxx′,′xxx′,′up′,′?′],這是從改變樣本著手提高模型準確率的方法,簡稱為“仿聚類法”。

        2.3 模型搭建

        模型搭建如下:

        1) CcVMS模型:

        ? 圖像通道:VGGNet去除最后的softmax層,將輸出的4 096維矩陣展開成4 096維向量,簡稱CNN Features;VGGNet參數被固定為ImageNet分類而學習的參數,并且在圖像通道中不作調整。

        ? 問題通道:普通的詞袋模型:首先利用自然語言處理NLP(Natural Language Processing)的word2vec技術,將問題中的每個單詞先轉化為一個300維的向量,然后直接將各詞的詞向量表示加和,作為整個問句的向量表示。此處將獲得一個300維的向量作為問句的數字化表達。

        ? MLP層:將圖像通道的4 096維向量和問題通道的300維向量拼接得到4 396維向量,作為多層前饋神經網絡(MLP)的輸入。多層前饋神經網絡包括三個全連接層,每個全連接層包含一個全連接級、一個激活函數級和一個Dropout級,然后連接一個全連接級,將輸出的1 024維轉化為1 000維,最后作為softmax分類器的輸入。

        ? 輸出層:softmax分類器,輸出維度同樣是1 000。整個模型以交叉熵作為損失函數實現端對端學習。

        2) LcVMS模型:

        ? 圖像通道:VGGNet去除最后的softmax層,將輸出的4 096維矩陣展開成4 096維向量,簡稱CNN Features;VGGNet參數被固定為ImageNet分類而學習的參數,并且在圖像通道中不作調整。

        ? 問題通道:同樣使用word2vec技術,將問題中的每個單詞先轉化為一個300維的向量,然后按照句子中單詞排列的順序將每個單詞依次輸入帶有一個隱藏層的LSTM網絡,將網絡輸出的512維向量作為問句的數字化表達。

        ? MLP層:將問題通道的300維向量作為LSTM的輸入,得到512維向量的輸出,和圖片通道的4 096維向量拼接得到4 068維向量,作為多層前饋神經網絡的輸入。這里采取拼接而不是點乘或者其他融合,是為了能保持相對原始的信息。多層前饋神經網絡的結構設計和模型1相同,只是第一個全連接層的輸入維度不一樣。

        ? 輸出層:softmax分類器,輸出維度同樣是1 000。整個模型以交叉熵作為損失函數實現端對端學習。

        2.4 結果分析

        衡量不同模型性能的指標為準確率,表5為實驗對比結果。

        表5 不同模型仿聚類法處理前后準確率對比

        由于原始數據集的不同Answer數目超過10 000個,這里我們選取出現次數最多的K=1 000個作為最后分類輸出;大部分Answer的出現頻率極低,如果K太大,低頻樣本訓練不充分,不容易分對,而且可能對高頻樣本產生干擾,導致高頻樣本分錯;去除這部分低頻樣本,效果會更好。前邊數據集分析提到,Answer的分布是十分不均衡的,而且分布很像一個長尾分布,但是只需要1 000個Answer就可以覆蓋超過85%的Question,因此softmax的輸出設計為1 000維是合理的。

        仿聚類法在樣本端對低頻樣本的輸入進行改變,讓某些低頻樣本合并;仿聚類法可以認為是對樣本映射到另一個空間,高頻的樣本從原空間映射到新空間,基本保持不變,而低頻樣本會進行合并,多個低頻樣本會映射到新空間的同一個位置;映射到新空間同一個位置的這些低頻樣本的類標往往不一樣,它們的類標最后可能變成一個高頻樣本的類標,也有可能維持原狀;對于前者,這些低頻樣本會合并到新空間中相近的高頻樣本;后者則會直接被剔除。

        另外,在經過仿聚類法處理的LcVMS模型中,真正率TPR(True Positive Rate)或稱為靈敏度(sensitivity)為57.38%。

        如前文所述,出現次數最多的1 000個Answer占所有Answer出現次數的86.53%,準確率最高的模型選取了K=1 000,覆蓋了86.53%的問題答案,另外還有13.47%的問題是沒有答案的,也就是說,這些低頻問題的無論選擇1 000個答案里邊的哪一個,都不是正確的。

        真正率的計算公式是:

        (1)

        真正率計算的是,在屬于出現次數最多的K=1 000個Answer里邊的樣本中,分類正確的比例。

        3 圖片問答系統

        通過對數據集進行分析,搭建模型,我們訓練出了LcVMS模型,在測試集上準確率達到44.5%。這里將以模型LcVMS為系統應答邏輯構建了圖片問答系統。

        3.1 系統設計

        系統分為輸入端、應答邏輯、存儲器后端和輸出端四大模塊,這樣滿足功能模塊化,并且架構清晰,模塊之間解耦;每個模塊可以選擇不同的部件,這些部件都是可插拔的,可以隨時更換。具體如圖4所示。

        圖4 系統模塊設計

        輸入端:輸入端可以使用合適的API,比如網頁前端上傳圖片,或者語音API輸入Question;這里我們使用簡單的終端輸入,輸入包括圖片名在內的圖片文件本地存放路徑與人工提問的Question,系統會讀取圖片與Question。

        應答邏輯:應答邏輯功能同樣可以設計不同的部件來承擔。

        方案1使用字符串與圖片的模糊匹配:當輸入圖片時,使用修改的VGGNet提取CNN Features,并與數據集所有圖片提取出來的CNN Features作比較,用4 096維的向量距離計算匹配度;當輸入Question時,數據集的所有Question用編輯距離(Edit Distance)計算匹配度;圖片和Question計算出來的匹配度與設定的匹配度閾值作比較,大于閾值,使用最接近的圖片和Question對應的回答,小于匹配度,則返回一個“安全的回答”,比如“I don’t know”。

        方案2使用2.3節(jié)搭建的LcVMS模型,輸入的圖片使用修改的VGGNet提取CNN Features;輸入的Question由word2vec轉化為數字化表達,并通過LSTM提取序列特征;兩個特征拼接后通過MLP,最后由softmax返回Answer。

        方案1需要事先將所有數據集的圖片特征提取出來并保存,當輸入一個新圖片時,提取的新圖片特征必須與所有數據集的圖片特征進行一次匹配度計算,同時輸入的Question也必須與數據集的每個Question計算一次編輯距離,然后計算匹配度。數據集每個圖片與Question的匹配度相加后,還要找出最符合的那一個圖片和Question,返回相應的Answer。如果數據集每個圖片與Question的匹配度相加后都沒有超過閾值,那么應答邏輯返回一個“I don’t know”。很明顯,第一種方案的計算量非常大,返回Answer的速度非常慢。并且實驗表明,準確率比較低。這是因為高頻問題匹配度高的樣本,往往也是某一類Question對應Answer概率最大的樣本。比如,當Question是“How many”一類的問題時,由于數據集樣本中“2”這個Answer出現頻率大于其他數字,這就導致Answer為“2”的樣本匹配度高的概率最大,因此每次提問“How many”這類問題時應答邏輯都會回答“2”。對于低頻的問題,由于數據集中所有樣本的匹配度都小于閾值,這會使應答邏輯返回“I don’t know”這樣一個沒有任何意義的Answer。

        方案2,LcVMS模型提取輸入的圖片特征與Question序列特征后,只需要通過神經網絡的計算就可以返回Answer。由于LcVMS模型的全連接層少,結構也不復雜,因此應答邏輯的響應比較快,并且有較高的準確率。這里我們選用LcVMS作為應答邏輯的部件。當然,假如以后有更合適的模型,我們可以替換這個部件,不影響其他模塊。

        存儲器后端:存儲器后端也可以選用不同的部件。比如,當希望系統有學習能力時,我們可以選用數據庫模式,每次輸入圖片與Question,應答邏輯返回Answer后,我們人工給系統一個反饋,告訴系統Answer是否正確,如果不正確,人工輸入一個正確的Answer。數據庫模式可以把圖片、Question與正確的Answer一起記錄下來,擴展原來的數據集。當應答邏輯選用字符串與圖片模糊匹配的方式時,也需要數據庫模式來存儲數據集的樣本,才能計算匹配度。我們搭建的模型LcVMS是預先訓練好的,所以已經不需要數據集,因此我們這里只選用最簡單的只讀模式作為存儲器后端,即存儲器后端不做任何操作。

        輸出端:輸出端我們選用簡單的終端輸出,即把應答邏輯產生的Answer通過終端輸出;如果有合適的API,比如語音合成API等,以后也可以替換。

        這樣一個完整的圖片問答系統,就搭建完成了,具體模塊與選用部件如表6所示。

        表6 具體模塊與選用部件

        3.2 系統展示評述

        下面對圖片問答系統的智能程度進行展示與評估,輸入的圖片是隨機從互聯網下載的圖片。測試結果如圖5-圖9所示,“Ask a question”后的字體為人工輸入的提問,方括號內的字符是系統的輸出,詳細QA對正確與否如表7所示。

        圖5 一個穿紅衣白褲的男人在玩飛盤

        圖6 兩個男人在踢足球

        圖7 一張桌子上邊放著書和臺燈

        圖8 一個穿白背心的女人在打網球

        圖9 四個網球

        圖片QuestionAnswer是否正確圖5What is he doing?frisbee正確What color is his clothing?white大致正確Is he playing football?no正確圖6What are they doing?soccer正確How many men are there?2正確圖7Where is the lamp?on desk正確圖8What is she doing?tennis正確What color is her shirt?white正確圖9What is this?orange錯誤How many balls are there?4正確

        從以上5個簡單測試可以看出,圖片問答系統具有一定智能,在一定程度上達到了幼兒智商。首先,問答系統可以識別出應該回答什么:是回答“Yes”或者“No”,還是回答數量、顏色、位置;其次,問答系統回答的準確率看起來要高于44.45%,這是因為上邊人工提問的這些Question沒有特別古怪或者特別難的問題,只是詢問物體、數量、顏色或者位置,而數據集里邊的Question,會更多樣化一些,詳情可以參照2.1節(jié)的數據統計與分析。

        另外可以看出,系統的回答都很簡短,一般都是一個詞,少數會用到兩個詞,這是因為訓練集里邊的Answer非常簡短。對于圖片問答,Question一般都是具體詢問圖片的某一區(qū)域,而不是整個圖片的所有信息,因此Answer可以用簡短的1到3個詞回答出來。

        4 結 語

        我們在對VQA數據集進行統計分析的基礎上,提出仿聚類法的數據預處理方法,建立合適的LcVMS模型。LcVMS模型充分考慮模型訓練與響應的時間,盡可能提高模型的特征提取和分類速度,更適合作為后臺快速響應智能對話。與前人只考慮模型準確率相比,我們兼顧模型與系統,以LcVMS為應答邏輯設計了可應用的圖片問答系統。我們隨機從互聯網下載圖片,與人工提出的Question,一起作為圖片問答系統的輸入,獲取Answer,從應用實驗角度來評估圖片問答系統的智能程度。實驗結果表明,圖片問答系統能較好地分辨物體、數量、顏色和位置等信息,具有媲美幼兒的智商,具備一定的實用價值。

        猜你喜歡
        次數向量樣本
        向量的分解
        機場航站樓年雷擊次數計算
        2020年,我國汽車召回次數同比減少10.8%,召回數量同比增長3.9%
        商用汽車(2021年4期)2021-10-13 07:16:02
        用樣本估計總體復習點撥
        聚焦“向量與三角”創(chuàng)新題
        一類無界算子的二次數值域和譜
        推動醫(yī)改的“直銷樣本”
        依據“次數”求概率
        隨機微分方程的樣本Lyapunov二次型估計
        向量垂直在解析幾何中的應用
        色欲欲www成人网站| 国产内射视频在线观看| 日韩一本之道一区中文字幕| 激情内射亚洲一区二区三区| 中文人妻无码一区二区三区在线| 中文字幕在线久热精品| 亚洲天堂一二三四区在线| 免费观看国产短视频的方法| 无码人妻久久一区二区三区不卡| 精品少妇大屁股白浆无码| 亚洲中文字幕在线精品2021| 少妇被黑人整得嗷嗷叫视频| 欧美精品一区二区蜜臀亚洲| 国产91 对白在线播放九色| 淫秽在线中国国产视频| 无码熟妇人妻av在线网站| 一区二区三区国产亚洲网站| 青草蜜桃视频在线观看| 色噜噜亚洲精品中文字幕| 国产在线精品一区二区三区| 日本在线观看| 亚洲综合网一区二区三区| 嫩呦国产一区二区三区av| 97精品国产97久久久久久免费| 国产欧美成人| 亚洲国产黄色在线观看| 欧美性白人极品1819hd| 欧美日韩中文国产一区发布| 亚洲三级在线播放| 麻豆国产av在线观看| 99久久精品午夜一区二区| 99热这里只有精品3| 人妻少妇偷人精品久久人妻| 午夜无码一区二区三区在线观看| av天堂久久天堂av色综合| 国产三级视频在线观看视主播| 久久一区二区三区少妇人妻| 亚洲午夜福利在线视频| 国产精品亚洲午夜不卡| 成人水蜜桃视频在线观看| 日本19禁啪啪吃奶大尺度|