亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于子問題漸進式推理的3D視覺問答

        2023-01-01 00:00:00李長健楊昱威肖梟雷印杰
        計算機應用研究 2023年4期

        作者簡介:李長?。?997-),男,河南信陽人,碩士研究生,主要研究方向為計算機視覺;楊昱威(1999-),男,陜西漢中人,碩士研究生,主要研究方向為計算機視覺;肖梟(1998-),男,陜西西安人,碩士研究生,主要研究方向為計算機視覺;雷印杰(1983-),男(通信作者),四川成都人,教授,博導,博士,主要研究方向為人工智能與計算機視覺(yinjie@scu.edu.cn).

        摘 要:3D視覺問答可以幫助人們理解空間信息,在幼兒教育等方面具有廣闊的應用前景。3D場景信息復雜,現(xiàn)有方法大多直接進行回答,面對復雜問題時容易忽視上下文細節(jié),從而導致性能下降。針對該問題,提出了一種基于子問題漸進式推理的3D視覺問答方法,通過文本分析為復雜的原始問題構建多個簡單的子問題。模型在回答子問題的過程中學習上下文信息,幫助理解復雜問題的含義,最終利用積累的聯(lián)合信息得出原始問題的答案。子問題與原始問題呈現(xiàn)漸近式推理關系,使得模型具有明確的錯誤解釋性和可追溯性。在現(xiàn)有3D數(shù)據(jù)集ScanQA上進行的實驗表明,所提方法在EM@10和CIDEr兩個指標上分別達到了51.49%和61.68%,均超過了現(xiàn)有的其他3D視覺問答方法,證實了該方法的有效性。

        關鍵詞:3D視覺問答;原始問題;子問題;漸進式推理;上下文信息

        中圖分類號:TP391 文獻標志碼:A 文章編號:1001-3695(2023)04-004-0987-04doi: 10.19734/j.issn.1001-3695.2022.08.0432

        Abstract:3D visual question answering can help people understand spatial information, which has a broad application prospect in early childhood education. The 3D scene information is complex, and most of the existing methods answer directly. It is easy to ignore the context information in the scene when facing complex problems, which leads to the performance degradation. To address this problem, this paper proposed a 3D visual question answering method based on sub-question asymptotic reasoning, which constructed multiple simple sub-questions for complex original question through text analysis. The model learnt context information in the process of answering the sub-questions to help understand the meaning of the complex question, and finally used the accumulated joint information to derive the answers to the original question. The sub-questions pre-sented an asymptotic reasoning relationship with the original question, which made the model have explicit error interpretation and traceability. Experiments conducted on the ScanQA dataset show that, the proposed method achieves 51.49% and 6168% for the two evaluation metrics EM@10 and CIDEr, both exceeding other existing methods, confirming the effectiveness of the method.

        Key words:3D visual question answering; original question; sub-question; asymptotic reasoning; context information

        視覺問答(visual question answering,VQA)[1]旨在回答與給定視覺信息有關的自然語言問題,其具有廣泛的應有前景,如幫助盲人和幼兒教育。目前關于VQA的研究主要集中在2D圖像上,針對3D場景的研究較少,但是相較于2D-VQA,3D-VQA可以幫助人們獲取更多三維空間信息,具有更重要的意義。

        現(xiàn)有的3D-VQA方法[2,3]大多直接回答原始問題(original question,Ori-Q),但是在面對復雜問題的時候,模型性能有所下降。因為復雜問題往往涉及到三維場景的上下文關系,需要整體進行理解,相當具有挑戰(zhàn)性。針對該問題,本文提出了基于子問題(sub-questions,Sub-Q)漸進式推理的3D-VQA方法Sub-VQA,以對話的形式為Ori-Q構建一個或多個簡單的Sub-Q,讓模型在回答Sub-Q的過程中學習問題之間的關聯(lián)信息,從而增強對Ori-Q的理解并得出問題的答案。Sub-VQA有以下幾個顯著的優(yōu)勢:

        a)相比Ori-Q,Sub-Q更易理解,且與視覺信息直接相關,可以加強語言和視覺信息之間的語義聯(lián)系。

        b)多個Sub-Q和Ori-Q之間存在漸近式推理關系,可以幫助模型學習上下文信息。

        c)Sub-Q提供了清晰的推理路徑,因此具有明確的錯誤解釋性和可追溯性。

        d)不同的Ori-Q可能包含相同的Sub-Q,這些常見的Sub-Q有助于提高模型的泛化能力。

        1 相關工作

        按照視覺信息的不同維度,本文將VQA分為2D和3D兩類。

        1.1 2D視覺問答

        在2D-VQA[4]中,視覺信息為2D的圖像。現(xiàn)有2D-VQA方法一般分為圖像/文本特征提取、跨模態(tài)特征融合和答案解碼三個步驟。Anderson等人[5]為了提高模型的性能,沒有直接使用基于CNN的特征提取器提取圖像特征,而是采用Faster R-CNN來獲得候選區(qū)域特征。為了充分融合來自不同模態(tài)的信息,Nguyen等人[6]提出共同注意力模型,直接建立詞級和區(qū)域特征之間的聯(lián)系,吝博強等人[7]提出一種由兩層注意力機制堆疊組成的層次注意力機制,幫助模型定位圖片中與問題相關的信息。隨著Transformer[8]的提出,Gao等人[9]采用自注意力機制挖掘文本和圖像中包含的細粒度信息。可以看到,絕大部分2D-VQA方法聚焦于特征融合,而針對問題文本特征提取方面的努力較少。

        1.2 3D視覺問答

        相較于2D-VQA,3D-VQA[10]場景復雜很多,輸入的視覺信息為三維點云,具有非結構化和無序等特點。在3D-VQA中,為了有效回答問題,往往需要對出現(xiàn)的物體進行三維邊界框定位,這進一步增加了難度。

        目前關于3D-VQA的研究較少,Qiu等人[11]通過多視角圖像納入3D信息進行視覺問答,但這與真實的3D場景仍有很大區(qū)別。Azuma等人[12]構建了真實場景下的ScanQA3D點云數(shù)據(jù)集并提出ScanQA方法,從3D物體建議和文本編碼中學習融合表征,將文本特征與三維掃描的幾何特征聯(lián)系起來,促進三維邊界框的回歸,從而確定問題文本中的對象。Ye等人[13]于2021年提出了一個基于Transformer的3D-VQA方法,利用兩個編碼器分別提取3D點云中物體外觀信息和幾何信息,進而提高答案的準確率。3D-VQA視覺信息更豐富,問題也更復雜,而現(xiàn)有方法直接對問題進行回答,忽略了問題對象的上下文關系,所以在面對復雜問題時性能較差,本文的Sub-VQA正是針對此問題產(chǎn)生的。

        2 本文方法

        2.1 模型結構

        本文提出的Sub-VQA模型結構如圖1所示。提取3D點云特征時,選用了與文獻[12]相同的VoteNet[14],它是一個3D點云目標檢測網(wǎng)絡[15],使用PointNet++[16]作為骨干網(wǎng)絡對點云進行特征提取,然后對點云進行Hough voting[17],最后根據(jù)投票結果進行分類,以回歸對象的三維邊界框。

        在處理問題文本時,首先對Ori-Q進行解析以構造Sub-Q,具體構造方法見3.2節(jié)。然后使用預訓練GloVe[18]對問題詞進行編碼,再送入對上下文信息敏感的雙向長短時記憶網(wǎng)絡[19](bidirectional long short term-memory,Bi-LSTM)進行特征提取。

        為了對不同模態(tài)的特征進行融合,本文借鑒Lu等人[20]和Yu等人[21]在2DVQA上的思想,改進了共同注意力機制(common attention,co-attention),通過自適應學習3D點云特征與問題文本特征的內(nèi)在聯(lián)系,co-attention可以實現(xiàn)兩者的聯(lián)合表征,可有效提升模型性能。在目標定位模塊,聯(lián)合表征通過MLP以確定每個三位邊界框與問題相關的可能性;在對象分類模塊,聯(lián)合表征通過MLP對每個類別進行評分,然后將得分最高的一類作為結果;在答案分類模塊,聯(lián)合表征通過MLP預測與問題和場景對應的答案,并獲得多個置信度不同的可能結果。

        2.2 子問題構造

        為了使Sub-Q的構造過程規(guī)范化,本文首先借助NLTK[22]工具對Ori-Q進行解析,獲取其中的實體對象及其屬性信息,然后依據(jù)實體對象的數(shù)量和屬性信息將Ori-Q分為不同的階別。問題階別的劃分規(guī)則如表1所示,當Ori-Q中僅有單個對象時,為1階問題;若有多個對象或者單個對象及其屬性信息,則為2階問題;若為多個對象之間的比較關系,則為3階問題。

        對于1階Ori-Q,沒有相應的Sub-Q,對于2階Ori-Q可以構造出相應的1階Sub-Q,而3階Ori-Q則可以構造出多個相應的1階Sub-Q和2階Sub-Q。

        具體構造過程如圖2所示。NLTK對Ori-Q解析后,獲得其中的多個實體對象和屬性信息,認定其為3階問題,并且識別出對象和屬性之間的匹配關系。之后,根據(jù)模板,即可構造出圖中的三個Sub-Q。在ScanQA數(shù)據(jù)集中,每個場景中的所有對象均有標注信息(包括類別、顏色等),因此,所有Sub-Q的答案可直接通過解析標注信息獲取,而無須人工標注??梢钥闯觯瑯嬙斓腟ub-Q循序漸進,逐步引導模型理解3D點云視覺信息和Ori-Q,通過Sub-Q的回答,模型可以更準確地預測Ori-Q的答案。

        2.3 漸進式推理過程

        為了使模型能夠借助Sub-Q的信息理解復雜的Ori-Q,本文在進行問題回答時,先對Sub-Q進行回答,再對Ori-Q進行回答,其中的漸進式推理過程如圖3所示。

        圖中共有三個問題:一個Ori-Q和兩個Sub-Q,這三個問題使用相同的3D點云視覺信息。首先模型回答第一個子問題,很容易地檢測到3D點云包含的椅子數(shù)量和其所在位置的三維邊界框,從而得出第一個Sub-Q的答案。在回答第二個子問題時,網(wǎng)絡可根據(jù)文本加視覺的上下文信息推理其與第一個Sub-Q之間的關系,從而可以較為容易地判斷椅子三維邊界框上方是否存在物體。

        當所有的Sub-Q均得出正確的答案后,網(wǎng)絡已經(jīng)積累了很多上下文信息,降低了對Ori-Q的回答難度。在漸進式推理的過程中,靠后的問題回答的準確率依賴于前面的Sub-Q,若Sub-Q回答錯誤,Ori-Q也無法得出正確答案。因此,增加一致性約束損失函數(shù),強制使Sub-Q的回答概率高于Ori-Q的回答概率,有助于模型構建漸進式推理過程,詳見2.5節(jié)。

        2.4 特征融合模塊

        為了將3D點云特征與問題文本特征進行融合,本文基于文獻[20,21]中文本特征指導圖像特征的co-attention思想,設計了點云特征與文本特征雙向協(xié)同的co-attention。其主要作用為自適應學習3D點云特征與問題文本特征的內(nèi)在聯(lián)系,使得兩者相互影響,以提升答案準確率。co-attention的結構如圖4所示。

        3 實驗與結果分析

        3.1 實驗環(huán)境

        本文實驗在Ubuntu18.04系統(tǒng)下進行,采用PyTorch 1.6深度學習框架,硬件配置為NVIDIA GeForce GTX 1080 Ti,11 GB顯存,Intel Xeon CPU E5-1650 v4 @3.60 GHz×12,32 GB RAM。訓練過程中參數(shù)設置如下:采用SDG優(yōu)化器,初始學習率為0000 1,權重衰減系數(shù)為0000 01,訓練60個epoch,批量大小為16。

        3.2 實驗數(shù)據(jù)集

        ScanQA數(shù)據(jù)集是一個大型的開源數(shù)據(jù)集,它由Azuma等人基于ScanRefer數(shù)據(jù)集構建,其中包含ScanNet[24]數(shù)據(jù)集中的800個場景和11 046個對象的51 583個描述信息。Azuma使用問題生成模型生成問題—答案對,經(jīng)過無效問題過濾后,共收集了41 363個3D視覺問題—答案對。本文使用的訓練集和驗證集的問題—答案對數(shù)量分別為25 563和4 675。

        3.3 評價指標

        本文采用多個VQA指標來評價模型的性能,主要包括EM、BLEU[25]、ROUGE-L[26]、METOR[27]和CIDEr[28]。

        其中EM是問答系統(tǒng)中一種常見的評價指標,EM@k表示前k個預測答案與參考答案匹配的百分比;BLEUn是一種基于精確度的相似度量方法,用于分析預測答案中有多少n元詞組出現(xiàn)在參考答案中;ROUGE-L是基于最長共有子句共現(xiàn)性精度和召回率的衡量指標,主要考察預測答案的充分性和忠實性,無法評價預測答案的流暢度;METEOR利用WordNet擴充同義詞集,同時考慮單詞的詞性,在計算方式上利用準確率和召回率的調和平均值來作為評判標準;CIDEr則首先將n元詞組在參考答案中出現(xiàn)的頻率編碼進來,通過TF-IDF計算每個n元詞組的權重,將句子表示成向量,然后計算預測答案和參考答案之間TF-IDF向量的余弦距離,以此度量二者的相似性。

        3.4 實驗結果分析

        3.4.1 對比實驗

        為了驗證Sub-VQA方法的有效性,本文將其與其他3D-VQA方法進行對比實驗,結果如表2所示。對比方法共有三種,包括:

        a)3DQA-TR[13]。首先使用外觀編碼器和幾何編碼器提取對象的結構信息以及位置信息,以學習對象之間的空間關系,而后使用BERT[29]提取文本特征并聚合多模態(tài)信息,以進行最終答案預測。

        b)TransVQA3D[3]。TransVQA3D在提取文本特征時,同樣使用BERT,但在提取點云特征時,首先使用實例指示器生成實例點云,然后共享加強特征提取器提取實例特征,最后使用Transformer和場景圖感知注意來融合多模態(tài)特征,從而預測出問題的答案。

        c)ScanQA[12]。ScanQA分別使用VoteNet和Bi-LSTM提取3D點云和問題文本的特征,而后使用Transformer對兩種特征進行融合,最后將聯(lián)合表征輸入MLP預測答案。

        由表可知,Sub-VQA在EM、ROUGE-L、METEOR和CIDEr四個指標上均超過了其他三種方法,證實了該方法的有效性。但是在強調精確匹配的指標BLEU上,雖然Sub-VQA在BLEU1、BLEU2和BLEU3上超過了ScanQA,但BLEU4卻稍稍落后。這是因為在本文的一致性約束中,要求Sub-Q答案的預測概率高于Ori-Q的概率,而Sub-Q簡單且易于理解(Sub-Q答案詞數(shù)不超過4個,而5.7%的Ori-Q答案的單詞數(shù)超過了4個)。在更加科學的評價指標CIDEr上,Sub-VQA超過ScanQA 1.75%,表明了本文方法在問答上的優(yōu)勢。

        此外,本文將部分實驗結果可視化,以進一步分析模型性能,如圖5所示。所選三個問題均包含對多個物體之間關系的理解,對模型預測極具挑戰(zhàn)性。在場景1中,Sub-VQA回答Sub-Q的過程如圖6所示。通過回答Sub-Q,Sub-VQA獲取了場景中所有枕頭的位置信息和黃色枕頭的位置信息,從而判斷出黃色枕頭后的枕頭為黑色,而ScanQA因為缺乏上下文信息,將答案鎖定在了體積更大的白色枕頭上。在另外兩個場景中,ScanQA也是由于類似原因得出了錯誤的答案,由此可見Sub-VQA面對復雜問題時能夠充分捕獲上下文信息,從而得到更精確的答案。

        3.4.2 消融實驗

        為了進一步驗證Sub-VQA中各個模塊的有效性,本文針對Sub-Q、losscons和co-attention三個模塊,以CIDEr作為評價指標,在ScanQA數(shù)據(jù)集上進行了五組消融實驗,結果如表3所示。在co-attention中,1為改進前的文本特征指導點云特征的融合模塊,2為本文改進的雙向協(xié)同融合模塊。

        由1、2組實驗分析可知,Sub-Q模塊可以通過讓模型學習更多上下文信息而在回答復雜問題時取得更好的性能;由2、3組實驗和4、5組實驗分析可知,losscons通過要求Sub-Q答案的預測概率高于Ori-Q答案的預測概率,使模型完成漸進式推理過程,從而提升回答Ori-Q的準確率;由2、4組實驗和3、5組實驗分析可知,特征融合模塊對模型性能也有較大影響,在復雜場景下僅讓點云特征指導問題文本特征并不能取得很好的效果,而本文改進的co-attention通過自適應學習3D點云特征與問題文本特征的內(nèi)在聯(lián)系,可以實現(xiàn)兩者的聯(lián)合表征,以提高答案預測的準確率。

        4 結束語

        本文提出了一種基于子問題漸進式推理的3D-VQA方法Sub-VQA,以交互式對話的形式為復雜的Ori-Q構建一個或多個Sub-Q。相比Ori-Q,Sub-Q更易理解,且與Ori-Q呈漸近式推理關系。模型在回答Sub-Q的過程中學習上下文信息,幫助理解Ori-Q的含義,并利用積累的信息得出最終答案。為了證實Sub-VQA的有效性,本文在數(shù)據(jù)集ScanQA上進行對比實驗,實驗結果表明,Sub-VQA在EM@10和CIDEr兩個指標上分別達到了51.49%和61.68%,均超過了現(xiàn)有的其他3D-VQA方法,證實了Sub-VQA的有效性。

        目前Sub-Q的構造方法還不成熟,非常依賴于問題模板,而Sub-VQA的性能與Sub-Q直接相關。在未來的研究中,可以考慮豐富Sub-Q的模板,構造出更加多樣化的Sub-Q,以幫助模型充分理解Ori-Q的含義。

        參考文獻:

        [1]Manmadhan S,Kovoor B C. Visual question answering: a state-of-the-art review [J]. Artificial Intelligence Review,2020,53(8): 5705-5745.

        [2]Wijmans E,Datta S,Maksymets O,et al. Embodied question answe-ring in photorealistic environments with point cloud perception [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Re-cognition. Piscataway,NJ: IEEE Press,2019: 6652-6661.

        [3]Xu Yan,Yuan Zhihao,Du Yuhao,et al. CLEVR3D: compositional language and elementary visual reasoning for question answering in 3D real-world scenes[EB/OL]. (2021-12-31). http://doi.org/10.48550/arxiv.2112.11691.

        [4]Teney D,Anderson P,He Xiaodong,et al. Tips and tricks for visual question answering: learnings from the 2017 challenge [C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2018: 4223-4232.

        [5]Anderson P,He Xiaodong,Buehler C,et al. Bottom-up and top-down attention for image captioning and visual question answering [C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2018: 6077-6086.

        [6]Nguyen D K,Okatani T. Improved fusion of visual and language re-presentations by dense symmetric co-attention for visual question answering [C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2018: 6087-6096.

        [7]吝博強,田文洪. 基于層次注意力機制的高效視覺問答模型 [J]. 計算機應用研究,2021,38(2): 636-640. (Lin Boqiang,Tian Wenhong. Efficient image question answering model based on layered attention mechanism [J]. Application Research of Computers,2021,38(2): 636-640.)

        [8]Vaswani A,Shazeer N,Parmar N,et al. Attention is all you need[C]// Proc of the 31st International Conference on Neural Information Processing Systems. Red Hook,NY: Curran Associates Inc.,2017:6000-6010.

        [9]Gao Peng,Jiang Zhengkai,You Haoxuan,et al. Dynamic fusion with intra-and inter-modality attention flow for visual question answering [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2019: 6632-6641.

        [10]Etesam Y,Kochiev L,Chang A X. 3D-VQA: visual question answe-ring for 3D environments [C]// Proc of the 19th Conference on Robots and Vision. Piscataway,NJ: IEEE Press,2022: 233-240.

        [11]Qiu Yue,Satoh Y,Suzuki R,et al. Incorporating 3D information into visual question answering [C]// Proc of International Conference on 3D Vision. Piscataway,NJ: IEEE Press,2019: 756-765.

        [12]Azuma D,Miyanishi T,Kurita S,et al. ScanQA: 3D question answe-ring for spatial scene understanding [C]// Proc of IEEE/CVF Confe-rence on Computer Vision and Pattern Recognition.Piscataway,NJ: IEEE Press,2022: 19107-19117.

        [13]Ye Shuquan,Chen Dongdong,Han Songfang,et al. 3D question answering [EB/OL]. (2022-11-29). http://doi.org/10.48550/arxiv.2112.08359.

        [14]Qi C R,Litany O,He Kaiming,et al. Deep Hough voting for 3D object detection in point clouds [C]// Proc of IEEE/CVF International Conference on Computer Vision. Piscataway,NJ: IEEE Press,2019: 9276-9285.

        [15]郭毅鋒,吳帝浩,魏青民. 基于深度學習的點云三維目標檢測方法綜述 [J]. 計算機應用研究,2023,40(1): 20-27. (Guo Yifeng,Wu Dihao,Wei Qingmin. Overview of single-sensor and multi-sensor point cloud 3D target detection methods [J]. Application Research of Computers,2022,40(1): 20-27.)

        [16]Qi C R,Yi Li,Su Hao,et al. PointNet+: deep hierarchical feature learning on point sets in a metric space[C]// Proc of the 31st International Conference on Neural Information Processing Systems. Red Hook,NY: Curran Associates Inc.,2017:5105-5114.

        [17]Yan Ming,Li Zhongtong,Yu Xinyan,et al. An end-to-end deep learning network for 3D object detection from RGB-D data based on Hough voting [J]. IEEE Access,2020,8: 138810-138822.

        [18]Pennington J,Socher R,Manning C D. GloVe: global vectors for word representation [C]// Proc of Conference on Empirical Methods in Natural Language Processing. Stroudsburg,PA: Association for Computational Linguistics,2014: 1532-1543.

        [19]Yu Xiaomei,F(xiàn)eng Wenzhi,Wang Hong,et al. An attention mechanism and multi-granularity-based Bi-LSTM model for Chinese Qamp;A system [J]. Soft Computing,2020,24(8): 5831-5845.

        [20]Lu Jiashen,Yang Jianwei,Batra D,et al. Hierarchical question-image co-attention for visual question answering [C]// Proc of the 30th International Conference on Neural Information Processing Systems. Red Hook,NY: Curran Associates Inc.,2016:289-297.

        [21]Yu Zhou,Yu Jun,Cui Yuhao,et al. Deep modular co-attention networks for visual question answering [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2019: 6274-6283.

        [22]Yogish D,Manjunath T N,Hegadi R S. Review on natural language processing trends and techniques using NLTK [C]// Proc of International Conference on Recent Trends in Image Processing and Pattern Recognition. Berlin: Springer,2018: 589-606.

        [23]Chen D Z,Chang A X,Niener M. ScanRefer: 3D object localization in RGB-D scans using natural language [C]// Proc of European Conference on Computer Vision. Berlin: Springer,2020: 202-221.

        [24]Dai A,Chang A X,Savva M,et al. ScanNet: richly-annotated 3D reconstructions of indoor scenes [C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2017: 2432-2443.

        [25]Post M. A call for clarity in reporting BLEU scores [EB/OL]. (2018-09-12). http://doi.org/10.48550/arxiv.1804.08771.

        [26]Schluter N. The limits of automatic summarisation according to rouge [C]// Proc of the 15th Conference of the European Chapter of the Association for Computational Linguistics. Stroudsburg,PA: Association for Computational Linguistics,2017: 41-45.

        [27]Hadla L S,Hailat T M,Al-Kabi M N. Comparative study between METEOR and BLEU methods of MT: Arabic into English translation as a case study [J]. International Journal of Advanced Computer Science and Applications,2015,6(11): 215-223.

        [28]Santos G O,Colombini E L,Avila S. CIDEr-R: robust consensus-based image description evaluation [EB/OL]. (2021-09-28). http://doi.org/10.48550/arxiv.2109.13701.

        [29]Devlin J,Chang M W,Lee K,et al. BERT: pre-training of deep bidirectional transformers for language understanding[EB/OL]. (2019-05-24). http://doi.org/10.48550/arxiv.1810.04805.

        国产真实乱对白精彩久久老熟妇女| 一本一道波多野结衣av中文| 国产va在线播放| 中文字幕一区二区三区6| 精品国产免费一区二区久久| av网站免费线看精品| 国产成人无码一区二区在线播放 | 精品亚亚洲成av人片在线观看| 成人亚洲av网站在线看| 国产美女主播视频一二三区| 国产精品videossex国产高清| 亚洲精品中文字幕无码蜜桃 | 一区二区免费中文字幕| 国产成人精品一区二区20p| 中文字幕人妻无码一夲道| 成人伊人亚洲人综合网站222| 91国在线啪精品一区| 长腿丝袜在线观看国产| 欧美高清视频手机在在线| 黄色a级国产免费大片| 国产91对白在线观看| 中文字幕人妻久久一区二区三区| 无码熟妇人妻av在线网站| 成人性做爰aaa片免费看| 人妻av一区二区三区av免费| 清纯唯美亚洲经典中文字幕| 亚洲综合自拍偷拍一区| s级爆乳玩具酱国产vip皮裤| 日本无遮挡吸乳呻吟视频| 国产免费专区| 粗大挺进孕妇人妻在线| 国产女人精品视频国产灰线| 国产精品亚洲二区在线观看| 国产精品久久久一本精品| 日本av不卡一区二区三区| 精品国产av一区二区三区四区| 乌克兰少妇xxxx做受野外| av深夜福利在线| 亚洲高清一区二区精品| 久久97久久97精品免视看| 亚洲va中文字幕无码|