亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        構(gòu)建基于科技文獻(xiàn)知識(shí)的人工智能引擎

        2021-03-22 02:52:54張智雄于改紅
        關(guān)鍵詞:微調(diào)引擎語(yǔ)料

        張智雄,劉 歡,于改紅

        (1.中國(guó)科學(xué)院文獻(xiàn)情報(bào)中心,北京 100190;2.中國(guó)科學(xué)院大學(xué)經(jīng)濟(jì)與管理學(xué)院圖書(shū)情報(bào)與檔案管理系,北京 100190;3.中國(guó)科學(xué)院武漢文獻(xiàn)情報(bào)中心,武漢 430071;4.科技大數(shù)據(jù)湖北省重點(diǎn)實(shí)驗(yàn)室,武漢 430071)

        1 引言

        人工智能技術(shù)近年來(lái)取得飛速突破,尤其是在自然語(yǔ)言理解領(lǐng)域很多任務(wù)上都得到了廣泛應(yīng)用[1,2]。人工智能的基礎(chǔ)是機(jī)器學(xué)習(xí),機(jī)器學(xué)習(xí)解決問(wèn)題的模式是使用算法分析數(shù)據(jù),讓機(jī)器去學(xué)習(xí)知識(shí),機(jī)器自動(dòng)歸納總結(jié)成模型,最后再讓機(jī)器使用模型做出推斷或預(yù)測(cè)。作為人工智能的核心技術(shù),深度學(xué)習(xí)近年來(lái)取得飛速突破,真正發(fā)揮其優(yōu)越性,根本原因在于擁有了大量可計(jì)算的數(shù)據(jù)資源和擁有了支撐大規(guī)模計(jì)算的計(jì)算能力。科技文獻(xiàn)是科技知識(shí)的重要載體,蘊(yùn)含著豐富的知識(shí)內(nèi)容和知識(shí)關(guān)系,因此科技文獻(xiàn)庫(kù)(數(shù)字圖書(shū)館)是天然最好的人工智能(AI)語(yǔ)料庫(kù),這些隱藏于科技文獻(xiàn)中的知識(shí)是人工智能的基石。

        如何利用科技文獻(xiàn)中的知識(shí)對(duì)深度學(xué)習(xí)算法模型進(jìn)行訓(xùn)練改進(jìn),以獲取知識(shí)、發(fā)現(xiàn)知識(shí),是情報(bào)研究的重要課題。本文以文獻(xiàn)情報(bào)工作為出發(fā)點(diǎn),立足科技文獻(xiàn)是人類知識(shí)的最重要載體,圍繞如何充分挖掘和利用文獻(xiàn)情報(bào)知識(shí)價(jià)值和作用,創(chuàng)新性提出了文獻(xiàn)情報(bào)領(lǐng)域從“科技文獻(xiàn)庫(kù)”到“科技知識(shí)引擎”轉(zhuǎn)變的建設(shè)思路,論述了中國(guó)科學(xué)院文獻(xiàn)情報(bào)中心在構(gòu)建基于科技文獻(xiàn)知識(shí)的人工智能(AI)引擎的建設(shè)實(shí)踐,探討了利用深度學(xué)習(xí)技術(shù)挖掘知識(shí)以服務(wù)情報(bào)研究的方法,以期為同行提供參考。

        國(guó)內(nèi)外很多研究團(tuán)隊(duì)開(kāi)展了大量的基于科技文獻(xiàn)數(shù)據(jù)實(shí)現(xiàn)知識(shí)挖掘與知識(shí)發(fā)現(xiàn)的研究,為人工智能時(shí)代貢獻(xiàn)了力量。如AllenAI 提出的SciBERT[3]通過(guò)對(duì)來(lái)自Semantic Scholar 的生物醫(yī)學(xué)及計(jì)算機(jī)科學(xué)領(lǐng)域的科技文獻(xiàn)完成大規(guī)模的自監(jiān)督訓(xùn)練構(gòu)建了英文科技文獻(xiàn)預(yù)訓(xùn)練模型。清華大學(xué)發(fā)布的Aminer[4]學(xué)術(shù)搜索和挖掘系統(tǒng)通過(guò)對(duì)科技文獻(xiàn)中實(shí)體及關(guān)系的進(jìn)行建模構(gòu)建了復(fù)雜的學(xué)術(shù)關(guān)系網(wǎng)絡(luò)。但當(dāng)前就如何利用科技文獻(xiàn)中的知識(shí)對(duì)深度學(xué)習(xí)算法模型進(jìn)行訓(xùn)練及改進(jìn),以獲取知識(shí)、發(fā)現(xiàn)知識(shí)的研究仍處在初級(jí)階段。圍繞構(gòu)建基于科技文獻(xiàn)知識(shí)的人工智能(AI)引擎,本文第二部分論述了科技文獻(xiàn)是人類知識(shí)的最重要載體,對(duì)其開(kāi)發(fā)利用構(gòu)建科技知識(shí)引擎,在人工智能時(shí)代具有重要意義;第三部分重點(diǎn)介紹了作者構(gòu)建基于科技文獻(xiàn)知識(shí)的人工智能(AI)引擎建設(shè)思路;第四部分,詳細(xì)論述了中國(guó)科學(xué)院文獻(xiàn)情報(bào)中心在構(gòu)建基于科技文獻(xiàn)知識(shí)的人工智能(AI)引擎的建設(shè)實(shí)踐;最后簡(jiǎn)要進(jìn)行小結(jié)和未來(lái)工作展望介紹。

        2 相關(guān)研究分析

        隱藏于各種數(shù)據(jù)資源(語(yǔ)料)中的知識(shí)利用和開(kāi)發(fā)是人工智能飛速突破的本質(zhì)所在。而科技文獻(xiàn)作為人類知識(shí)的最重要載體,對(duì)其進(jìn)行充分的挖掘和利用可以實(shí)現(xiàn)從“科技文獻(xiàn)庫(kù)”到“科技知識(shí)引擎”的轉(zhuǎn)變,對(duì)于人工智能時(shí)代的發(fā)展具有重要意義。

        2.1 知識(shí)的開(kāi)發(fā)和利用是人工智能飛速突破的本質(zhì)所在

        機(jī)器學(xué)習(xí)的出現(xiàn)和發(fā)展歷史悠久,神經(jīng)網(wǎng)絡(luò)的概念早在1943 年就被提出[5],谷歌的GNMT 翻譯系統(tǒng)所使用LSTM 算法模型早在1997 年就由HOCHREITER等提出[6],1997 年SCHOLKOPF 等使用SVM 方法在美國(guó)數(shù)字郵政服務(wù)數(shù)據(jù)庫(kù)上進(jìn)行了測(cè)試,其識(shí)別錯(cuò)誤率低至3.2%,遠(yuǎn)遠(yuǎn)超越了同時(shí)期LECUN 等提出的卷積神經(jīng)網(wǎng)絡(luò)方法[7]。人工智能研究取得突破性進(jìn)展的背后,都是圍繞著計(jì)算機(jī)學(xué)習(xí)知識(shí)、開(kāi)發(fā)利用知識(shí)的模式改變。這些都明確告訴我們,對(duì)隱藏于各種數(shù)據(jù)資源(語(yǔ)料)中的知識(shí)利用和開(kāi)發(fā)是人工智能飛速突破的本質(zhì)所在,同時(shí)也體現(xiàn)了計(jì)算機(jī)解決問(wèn)題3個(gè)模式的改變。

        (1)改變之一:從傳統(tǒng)計(jì)算機(jī)程序到機(jī)器學(xué)習(xí)。傳統(tǒng)的計(jì)算機(jī)程序是人輸入知識(shí)讓機(jī)器完成任務(wù),而在機(jī)器學(xué)習(xí)技術(shù)中,它變成了讓機(jī)器學(xué)習(xí)知識(shí),再讓機(jī)器去完成任務(wù)。這一過(guò)程可以分為兩個(gè)階段:第一模型訓(xùn)練階段(Training),利用標(biāo)注好的數(shù)據(jù)語(yǔ)料來(lái)訓(xùn)練模型,形成解決問(wèn)題的知識(shí)。第二模型預(yù)測(cè)階段(Predication),解決問(wèn)題階段,利用訓(xùn)練好的模型(解決問(wèn)題的知識(shí)),來(lái)解決類似問(wèn)題。

        (2)改變之二:從小樣本機(jī)器學(xué)習(xí)到大規(guī)模深度學(xué)習(xí)。擁有大樣本訓(xùn)練語(yǔ)料和大規(guī)模計(jì)算能力,使得基于人工神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)的知識(shí)學(xué)習(xí)性能大幅提升。深度學(xué)習(xí)方法是一種特定類型的機(jī)器學(xué)習(xí)技術(shù),具有強(qiáng)大的能力和靈活性[8],它將機(jī)器學(xué)習(xí)技術(shù)提升到新的高度。如前文中提到的機(jī)器學(xué)習(xí)、深度學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)等概念和算法都是很早之前就出現(xiàn)過(guò),但直到近年來(lái),深度學(xué)習(xí)方法開(kāi)始真正發(fā)揮其優(yōu)越性。人工智能研究中取得重大突破,有兩個(gè)重要的原因:第一,擁有了大量可計(jì)算的數(shù)據(jù)資源。隨著互聯(lián)網(wǎng)的發(fā)展和大數(shù)據(jù)時(shí)代的到來(lái),數(shù)據(jù)更容易被收集管理,也更容易被整理成適合機(jī)器學(xué)習(xí)應(yīng)用的數(shù)據(jù)集。當(dāng)數(shù)據(jù)量增加到一定程度后,傳統(tǒng)的機(jī)器學(xué)習(xí)算法在性能提升上并不明顯,而深度學(xué)習(xí)算法由于具有大規(guī)模的參數(shù),可以表達(dá)復(fù)雜的特征,其性能會(huì)隨著數(shù)據(jù)規(guī)模增大而提高。谷歌的GNMT 翻譯系統(tǒng)所用的英文法文數(shù)據(jù)集WMT En-Fr 含有36 000 000個(gè)句子對(duì)[4],在大數(shù)據(jù)集下,深度學(xué)習(xí)的優(yōu)勢(shì)得以凸顯,其翻譯水平接近人類水平。第二,擁有了支撐大規(guī)模計(jì)算的計(jì)算能力。隨著訓(xùn)練樣本的增加和模型復(fù)雜度的提升,計(jì)算量急劇增加,傳統(tǒng)的計(jì)算架構(gòu)無(wú)法支撐深度學(xué)習(xí)的計(jì)算需求,需要有更高性能的硬件設(shè)施。與CPU 相比,GPU 由于其并行計(jì)算技術(shù)非常適合大規(guī)模的矩陣運(yùn)算,在速度上能帶來(lái)2~3個(gè)數(shù)量級(jí)甚至更多的提升[9]。谷歌專門(mén)為機(jī)器學(xué)習(xí)應(yīng)用開(kāi)發(fā)的TPU,速度能加快到最高100P Flops(每秒1 000 萬(wàn)億次浮點(diǎn)計(jì)算),華為公布的人工智能平臺(tái)Atlas 900,其總算力達(dá)到256P~1 024P Flops。硬件的快速發(fā)展帶來(lái)了計(jì)算能力的不斷提升,為深度學(xué)習(xí)的發(fā)展提供了保證。

        (3)改變之三:“預(yù)訓(xùn)練—微調(diào)”兩階段方法成為主流。近年來(lái),基于預(yù)訓(xùn)練語(yǔ)言模型的深度學(xué)習(xí)方法,重寫(xiě)了自然語(yǔ)言處理的方式。特別是自Google AI團(tuán)隊(duì)2018 年發(fā)布Bidirectional Encoder Representations from Transformers(BERT)模型[10]以來(lái),基于“預(yù)訓(xùn)練+微調(diào)”的兩階段模式,成為自然語(yǔ)言處理的主流。

        在預(yù)訓(xùn)練(Pre-Training)階段,通過(guò)對(duì)大規(guī)模無(wú)標(biāo)注語(yǔ)料(如Wikipedia、BookCorpus 等)的無(wú)監(jiān)督訓(xùn)練,有效學(xué)習(xí)文本的語(yǔ)言特征(如詞法特征、句法特征、語(yǔ)法特征、上下文特征等),實(shí)現(xiàn)在深層雙向神經(jīng)網(wǎng)絡(luò)中文本內(nèi)容的深層向量表示,建立起相關(guān)領(lǐng)域的預(yù)訓(xùn)練語(yǔ)言表示模型;在微調(diào)(Fine-Tuning)階段,在預(yù)訓(xùn)練語(yǔ)言模型的基礎(chǔ)上,針對(duì)具體的下游任務(wù)(如文本分類、信息抽取、命名實(shí)體識(shí)別、自動(dòng)問(wèn)答、閱讀理解等),以特定的經(jīng)過(guò)標(biāo)注的語(yǔ)料為輸入,在模型上再加入一個(gè)輸出層,在深度學(xué)習(xí)的基礎(chǔ)上,實(shí)現(xiàn)具體的下游任務(wù)。

        基于“預(yù)訓(xùn)練—微調(diào)”的兩階段模式顛覆了傳統(tǒng)的自然語(yǔ)言處理方法。包括Google AI、Allen AI、Open AI、Facebook AI 等在內(nèi)的多個(gè)人工智能研究機(jī)構(gòu)憑借其數(shù)據(jù)資源及計(jì)算能力優(yōu)勢(shì),都開(kāi)展了預(yù)訓(xùn)練語(yǔ)言表示模型的研究,發(fā)布了ELMo[11]、GPT[12]、BERT[10]、GPT-2[13]、XLNet[14]、RoBERTa[15]等通用的英文預(yù)訓(xùn)練語(yǔ)言表示模型。這些模型相繼刷新了通用語(yǔ)言理解評(píng)估基準(zhǔn)GLUE[16]榜單,推動(dòng)了自然語(yǔ)言處理的研究不斷接近甚至超越人類。在中文語(yǔ)言模型的研究方面,國(guó)內(nèi)多家機(jī)構(gòu)也結(jié)合中文語(yǔ)言的相關(guān)特點(diǎn),發(fā)布了中文的預(yù)訓(xùn)練語(yǔ)言模型。如百度發(fā)布的ERNIE1.0[17]和ERNIE2.0[18],哈爾濱工業(yè)大學(xué)與科大訊飛聯(lián)合實(shí)驗(yàn)室發(fā)布的Chinese-BERT-wwm[19]以及清華大學(xué)發(fā)布的OpenClap[20]等。這些模型通過(guò)加入特定語(yǔ)料或者改造預(yù)訓(xùn)練任務(wù)的方式,生成了適用于中文的預(yù)訓(xùn)練語(yǔ)言模型,從而在各種中文自然語(yǔ)言處理任務(wù)上取得了新的突破。

        2.2 科技文獻(xiàn)是人類知識(shí)的重要載體

        科技文獻(xiàn)蘊(yùn)含著豐富的科技知識(shí),對(duì)其進(jìn)行充分的挖掘利用可以實(shí)現(xiàn)從“科技文獻(xiàn)庫(kù)”到“科技知識(shí)引擎”的轉(zhuǎn)變。人工智能(AI)需要語(yǔ)料來(lái)對(duì)模型進(jìn)行訓(xùn)練,獲取解決問(wèn)題的知識(shí),而科技文獻(xiàn)中蘊(yùn)含著豐富相關(guān)性知識(shí)和豐富語(yǔ)義知識(shí),科技文獻(xiàn)庫(kù)就是很好的人工智能語(yǔ)料庫(kù)。

        而科技論文是科技知識(shí)的最重要載體,除了科技論文的研究主題和所屬領(lǐng)域分類,還有很多更有價(jià)值的深層知識(shí)內(nèi)容,如概念定義、研究背景、研究問(wèn)題、研究基礎(chǔ)、研究思路、論文中應(yīng)用到的理論工具和方法、論文所進(jìn)行的科學(xué)試驗(yàn)、得到的實(shí)驗(yàn)結(jié)果、形成的研究結(jié)論等豐富的知識(shí)內(nèi)容。因此可將科技文獻(xiàn)庫(kù)蘊(yùn)含的知識(shí)分為外部相關(guān)性知識(shí)和內(nèi)部豐富的語(yǔ)義知識(shí)進(jìn)行開(kāi)發(fā)和利用。

        (1)科技文獻(xiàn)中的相關(guān)性知識(shí)。一篇科技論文具有很多外部的特征,比如作者、作者機(jī)構(gòu)、期刊分類號(hào)、關(guān)鍵詞等,這其中就隱藏著重要的知識(shí)關(guān)系,若我們利用文獻(xiàn)內(nèi)容與外部特征之間一一對(duì)應(yīng)的結(jié)構(gòu)化信息,將這些外部特征作為文獻(xiàn)的標(biāo)簽,就可以形成較為成熟的人工智能訓(xùn)練學(xué)習(xí)語(yǔ)料。通過(guò)機(jī)器學(xué)習(xí)等技術(shù)手段建模,就可以實(shí)現(xiàn)面向新的文獻(xiàn)數(shù)據(jù)的自動(dòng)化應(yīng)用。如謝瑋等設(shè)計(jì)的基于TextRank 圖算法思想的論文推薦系統(tǒng),可實(shí)現(xiàn)自動(dòng)為論文分配審稿人[21];王冬暉等提出的基于內(nèi)容的科技論文推薦系統(tǒng),可達(dá)到自動(dòng)推薦期刊、會(huì)議的目的[22]。

        (2)科技文獻(xiàn)中的豐富語(yǔ)義知識(shí)。除了外部特征,一篇科技論文中還有很多更有價(jià)值的深層知識(shí)內(nèi)容,如論文中出現(xiàn)的概念定義、用到的工具方法等,我們稱之為豐富語(yǔ)義(Rich Semantics)知識(shí)。豐富語(yǔ)義相對(duì)于一般意義上的語(yǔ)義而言,它是由多類型語(yǔ)義元素有機(jī)組合在一起的復(fù)合體,具有結(jié)構(gòu)化、模型化的特征。

        許多國(guó)際知名學(xué)者和實(shí)驗(yàn)室正在嘗試將豐富語(yǔ)義知識(shí)從文獻(xiàn)中抽取和揭示出來(lái),對(duì)科技文獻(xiàn)的語(yǔ)篇元素建立了自動(dòng)標(biāo)注模型,我們開(kāi)展了深入的調(diào)研研究[23],如SciAnnotDoc 模型[24]、CoreSC 模型[25]、AZ 模型[26]和Multi-Layer Scientific Discourse 模型[27]等。這些模型雖然由不同的任務(wù)驅(qū)動(dòng),但它們不僅在類別上具有相似的名字,在具體的標(biāo)注范圍也存在著交叉覆蓋,基本上可以概括為研究目標(biāo)、研究背景、研究方法、研究發(fā)現(xiàn)、研究結(jié)論以及包含科技文獻(xiàn)中對(duì)關(guān)鍵術(shù)語(yǔ)的研究定義。

        當(dāng)前的預(yù)訓(xùn)練模型和應(yīng)用,主要是基于網(wǎng)頁(yè)新聞、維基百科等數(shù)據(jù)實(shí)現(xiàn)模型的預(yù)訓(xùn)練。由于科技文獻(xiàn)具有特定的結(jié)構(gòu)、格式、用語(yǔ)、用詞等特征,這些預(yù)訓(xùn)練模型在支持科技文獻(xiàn)的挖掘利用方面還存在不足,因此本文基于科技文獻(xiàn)開(kāi)展人工智能挖掘應(yīng)用具有重要意義。

        3 基于科技文獻(xiàn)知識(shí)的人工智能AI引擎建設(shè)思路

        為充分挖掘隱藏著豐富知識(shí)內(nèi)容的科技文獻(xiàn)資源,實(shí)現(xiàn)從“科技文獻(xiàn)庫(kù)”到“科技知識(shí)引擎”的轉(zhuǎn)變,本文提出構(gòu)建基于科技文獻(xiàn)知識(shí)的人工智能(AI)引擎的基本思路,如圖1 所示。從“預(yù)訓(xùn)練—微調(diào)”兩階段模式出發(fā),首先以大規(guī)模的科技文獻(xiàn)資源、科技信息文本等為基礎(chǔ),構(gòu)建中國(guó)科技論文預(yù)訓(xùn)練模型(CsciBERT)。然后在預(yù)訓(xùn)練模型的基礎(chǔ)之上,以“微調(diào)”的方式,結(jié)合科技文獻(xiàn)數(shù)據(jù)中豐富的標(biāo)記語(yǔ)料,構(gòu)建基于科技文獻(xiàn)知識(shí)的AI 引擎。

        圖1 基于科技文獻(xiàn)知識(shí)的人工智能AI 引擎建設(shè)思路Fig.1 Ideas for building the AI engine based on knowledge in scientific and technological literature

        3.1 中國(guó)科技論文預(yù)訓(xùn)練基礎(chǔ)語(yǔ)言模型(CsciBERT) 建設(shè)思路

        本文對(duì)基于BERT 的預(yù)訓(xùn)練模型整體結(jié)構(gòu)進(jìn)行研究,總結(jié)預(yù)訓(xùn)練模型主要包含4個(gè)層次:輸入層(Input)、嵌入層(Embedding)、網(wǎng)絡(luò)層(Transformer Encoder)和目標(biāo)層(Target)。針對(duì)每一個(gè)層次,開(kāi)展了優(yōu)化和改造研究,提出了中國(guó)科技論文預(yù)訓(xùn)練基礎(chǔ)語(yǔ)言模型(CsciBERT)建設(shè)思路,如圖2 所示。

        輸入層:主要對(duì)應(yīng)預(yù)訓(xùn)練語(yǔ)料庫(kù)的構(gòu)建工作,充分發(fā)揮文獻(xiàn)情報(bào)中心科技文獻(xiàn)原始數(shù)據(jù)優(yōu)勢(shì),豐富語(yǔ)料。BERT 原始中文模型BERT-base-Chinese 采用了中文維基百科語(yǔ)料,對(duì)于本文中文科技文獻(xiàn)預(yù)訓(xùn)練模型,收集整理的預(yù)訓(xùn)練數(shù)據(jù)語(yǔ)料包括:①CSCD 中文科技文獻(xiàn)摘要;②中文科技論文全文;③特定領(lǐng)域網(wǎng)絡(luò)科技信息文本;④特定領(lǐng)域相關(guān)圖書(shū)文本;⑤特定領(lǐng)域相關(guān)術(shù)語(yǔ)詞表、知識(shí)庫(kù)等。在此基礎(chǔ)上構(gòu)建研究全領(lǐng)域預(yù)訓(xùn)練語(yǔ)料庫(kù)及生物醫(yī)學(xué)、物理學(xué)、化學(xué)領(lǐng)域的預(yù)訓(xùn)練語(yǔ)料庫(kù)。

        嵌入層:主要用于原始語(yǔ)料的特征描述,在BERT 基礎(chǔ)上,通過(guò)加入領(lǐng)域詞表和POS 標(biāo)簽融合更多外部知識(shí)特征。

        網(wǎng)絡(luò)層:由復(fù)雜的Transformer 神經(jīng)網(wǎng)絡(luò)構(gòu)成,實(shí)現(xiàn)自動(dòng)學(xué)習(xí)。通過(guò)改進(jìn)Mask 矩陣完善Transformer 中的注意力學(xué)習(xí)機(jī)制,提升學(xué)習(xí)效果。

        目標(biāo)層:通過(guò)設(shè)計(jì)語(yǔ)言模型訓(xùn)練目標(biāo)完成模型訓(xùn)練,針對(duì)不同的語(yǔ)料特點(diǎn),設(shè)計(jì)多種訓(xùn)練目標(biāo),完成多任務(wù)學(xué)習(xí)。

        基于上述建設(shè)思路,可以利用不同的預(yù)訓(xùn)練語(yǔ)料,產(chǎn)出不同的模型輸出,構(gòu)建不同的預(yù)訓(xùn)練語(yǔ)言模型,如通用的科技論文預(yù)訓(xùn)練語(yǔ)言模型(CsciBERT)及生物醫(yī)學(xué)、物理學(xué)、化學(xué)等特定領(lǐng)域的預(yù)訓(xùn)練語(yǔ)言模型CMedBERT、CMedBERT、CPhyBERT、CChemBERT。

        圖2 中國(guó)科技論文預(yù)訓(xùn)練模型(CsciBERT)設(shè)計(jì)框架Fig.2 The design framework of Chinese sci-tech papers pre-training model(CsciBERT)

        3.2 基于科技文獻(xiàn)知識(shí)引擎建設(shè)思路

        通過(guò)“微調(diào)”的方式,針對(duì)知識(shí)服務(wù)工作的實(shí)際需求,將構(gòu)建好的預(yù)訓(xùn)練語(yǔ)言模型應(yīng)用于不同的下游任務(wù)中,如可以將文獻(xiàn)服務(wù)工作中的審稿人推薦、期刊投稿推薦、文獻(xiàn)自動(dòng)分類等應(yīng)用作為預(yù)訓(xùn)練模型的下游任務(wù),形成相應(yīng)的微調(diào)模型,進(jìn)一步形成基于科技文獻(xiàn)的知識(shí)引擎。

        如圖3 所示,科技文獻(xiàn)數(shù)據(jù)中豐富的科學(xué)知識(shí)很容易轉(zhuǎn)化為機(jī)器學(xué)習(xí)的標(biāo)記語(yǔ)料。通過(guò)構(gòu)建文獻(xiàn)—作者、文獻(xiàn)—期刊、文獻(xiàn)—機(jī)構(gòu)、文獻(xiàn)—分類號(hào)、文獻(xiàn)—關(guān)鍵詞、摘要—語(yǔ)步、語(yǔ)句—定義等對(duì)應(yīng)關(guān)系,可以形成深度學(xué)習(xí)的訓(xùn)練語(yǔ)料。以預(yù)訓(xùn)練語(yǔ)言模型為起點(diǎn),在模型上加入一個(gè)分類層,用“微調(diào)”的方式形成相應(yīng)的深度學(xué)習(xí)模型。采用微服務(wù)等架構(gòu),可以實(shí)現(xiàn)模型的快速調(diào)用。從而對(duì)于任意的科技文獻(xiàn),可以提供審稿人、分類號(hào)、期刊等實(shí)時(shí)推薦接口,從而建成面向?qū)嶋H應(yīng)用的科技文獻(xiàn)知識(shí)引擎。

        4 基于科技文獻(xiàn)知識(shí)的人工智能(AI)引擎建設(shè)實(shí)踐

        圍繞上述設(shè)計(jì)思路和設(shè)計(jì)方案,團(tuán)隊(duì)開(kāi)展了具體的項(xiàng)目實(shí)踐。如圖4 所示,分別在科技論文摘要語(yǔ)步識(shí)別、科技文獻(xiàn)自動(dòng)分類、科技論文命名實(shí)體識(shí)別、科技論文概念定義句識(shí)別、科技論文關(guān)鍵詞識(shí)別、科技文本標(biāo)簽自動(dòng)生成、科技論文投稿期刊自動(dòng)推薦、科技期刊審稿人自動(dòng)推薦等8 項(xiàng)任務(wù)應(yīng)用中開(kāi)展引擎建設(shè)實(shí)踐。針對(duì)每一項(xiàng)任務(wù)分別構(gòu)建了科技文獻(xiàn)知識(shí)引擎微調(diào)模型,并對(duì)微調(diào)模型完成封裝調(diào)用,初步建成基于科技文獻(xiàn)知識(shí)資源的AI 引擎服務(wù)平臺(tái),提供網(wǎng)頁(yè)客戶端和API 服務(wù)接口兩種對(duì)外服務(wù)模式。下邊分別介紹引擎微調(diào)模型實(shí)踐和AI 引擎服務(wù)平臺(tái)實(shí)踐。

        4.1 科技文獻(xiàn)知識(shí)引擎微調(diào)模型實(shí)踐

        4.1.1 科技論文摘要語(yǔ)步識(shí)別

        在研究型論文摘要中,通常需要指出文章的研究目的、方法、結(jié)果和結(jié)論,筆者將這些語(yǔ)言單元稱為科技論文摘要中的語(yǔ)步[28]。自動(dòng)識(shí)別科技文獻(xiàn)摘要中的語(yǔ)步信息,有助于讀者快速掌握文章的主要內(nèi)容,在科技文獻(xiàn)的檢索與發(fā)現(xiàn)系統(tǒng)中也具有重要應(yīng)用價(jià)值。

        我們提出Masked Sentence Model[29]來(lái)解決語(yǔ)步自動(dòng)識(shí)別問(wèn)題。通過(guò)改造BERT 輸入層,將摘要中句子的內(nèi)容特征與上下文特征有效結(jié)合,在語(yǔ)步識(shí)別實(shí)驗(yàn)中取得了較好的效果。使用PubMed 20K RCT[30]語(yǔ)料集,其中訓(xùn)練集包含20 000 篇摘要,驗(yàn)證集和測(cè)試集各包含2 500 篇摘要。按照Masked Sentence Model 的思想,將數(shù)據(jù)集構(gòu)造如表1 所示。

        圖3 基于科技文獻(xiàn)知識(shí)的AI 引擎設(shè)計(jì)框架Fig.3 The design framework of the AI engine based on knowledge in scientific and technological literature

        圖4 基于科技文獻(xiàn)知識(shí)的人工智能AI 引擎建設(shè)實(shí)踐內(nèi)容Fig.4 Content of AI engine construction based on knowledge in scientific and technological literature

        表1 Masked Sentence Model 語(yǔ)料示例[29]Table 1 Examples of Masked Sentence Model in our corpus[29]

        其中,對(duì)于摘要中每一個(gè)句子,將其本身作為內(nèi)容特征,將完整摘要中除目標(biāo)句之外的所有句子作為該句子的上下文。在上下文特征的表示中,將目標(biāo)句用統(tǒng)一的替換字符串“AAA”代替,然后將處理后的摘要內(nèi)容作為該句子的上下文特征輸入到模型。

        表2 為Masked Sentence Model 的實(shí)驗(yàn)結(jié)果。其中Step1 表示僅輸入句子內(nèi)容特征(與BERT Fine-Tuning分類的輸入一致),Step2 表示僅輸入句子上下文特征,Step3 表示合并兩種特征的輸入方式,即Masked Sentence Model。實(shí)驗(yàn)結(jié)果表明,Masked Sentence Model模型在PubMed 20K 數(shù)據(jù)集上取得了91.5 的F1 值,相比BERT fine-tune 方法,提升5.04,接近該數(shù)據(jù)集上的最好效果模型HSLN-RNN[31]。

        表2 Masked Sentence Model 實(shí)驗(yàn)結(jié)果Table 2 Experimental results of Masked Sentence Model

        4.1.2 科技文獻(xiàn)自動(dòng)分類

        基于中圖分類法構(gòu)建了中文科技文獻(xiàn)的多層級(jí)分類模型[32],如圖5 所示。通過(guò)兩層的分類模型實(shí)現(xiàn)醫(yī)學(xué)領(lǐng)域112個(gè)類別劃分:先構(gòu)建第一層大類分類模型(First Level),用于預(yù)測(cè)16個(gè)醫(yī)學(xué)二級(jí)類目(R1-R9)大類分類結(jié)果。然后對(duì)每個(gè)一級(jí)大類構(gòu)建第二層分類模型(Second Level),進(jìn)一步細(xì)分,預(yù)測(cè)醫(yī)學(xué)三級(jí)類目(R11-R99)。

        針對(duì)每一個(gè)分類模型,利用科技文獻(xiàn)摘要及分類號(hào)構(gòu)建映射關(guān)系,構(gòu)建用于模型微調(diào)的數(shù)據(jù)集。數(shù)據(jù)示例如表3 所示。

        在人工構(gòu)建的測(cè)試集上對(duì)兩層分類模型完成測(cè)試,同時(shí)對(duì)比了單層分類(訓(xùn)練一個(gè)模型,直接預(yù)測(cè)112個(gè)醫(yī)學(xué)三級(jí)類目)的實(shí)驗(yàn)結(jié)果,結(jié)果如表4 所示。實(shí)驗(yàn)結(jié)果表明,BERT 兩層分類模型相比單層分類方法,效果提升4.39%。

        4.1.3 科技命名實(shí)體識(shí)別

        通用領(lǐng)域的命名實(shí)體識(shí)別中實(shí)體類別一般包括人名、地名、機(jī)構(gòu)名等,在科技文獻(xiàn)中存在更豐富的實(shí)體類型值得挖掘利用,例如工具模型、方法理論等。針對(duì)物理學(xué)領(lǐng)域,構(gòu)建科技實(shí)體識(shí)別體系。利用物理學(xué)本體ScienceWISE 構(gòu)建了物理學(xué)領(lǐng)域?qū)嶓w的范疇體系,包括一級(jí)范疇4個(gè),二級(jí)范疇47個(gè)。一級(jí)范疇包括:計(jì)量、儀器和數(shù)據(jù)分析、現(xiàn)象和現(xiàn)象規(guī)律、模型、方法理論和數(shù)學(xué),二級(jí)范疇包括量子力學(xué)、核物理學(xué)、理論宇宙學(xué)等。利用該范疇體系,借助預(yù)訓(xùn)練模型微調(diào),實(shí)現(xiàn)了物理學(xué)領(lǐng)域細(xì)粒度的科技命名實(shí)體識(shí)別。

        表3 中圖法醫(yī)學(xué)層級(jí)分類數(shù)據(jù)示例Table 3 Medical record examples based on the Chinese Library Classification

        表4 醫(yī)學(xué)領(lǐng)域?qū)蛹?jí)分類實(shí)驗(yàn)結(jié)果Table 4 Classification experiment results of medical records

        研究將物理學(xué)領(lǐng)域科技文獻(xiàn)摘要及其ScienceWISE范疇構(gòu)建為BIO 格式標(biāo)注語(yǔ)料(對(duì)語(yǔ)料中的每個(gè)單詞進(jìn)行標(biāo)記,B 表示某實(shí)體開(kāi)頭的單詞,I 表示實(shí)體內(nèi)部的單詞,O 表示實(shí)體外部的單詞),作為模型微調(diào)的數(shù)據(jù)集。其中訓(xùn)練集90 000 條,測(cè)試集2 000 條。數(shù)據(jù)示例如表5 所示。

        研究對(duì)一級(jí)范疇和二級(jí)范疇的模型識(shí)別結(jié)果分別統(tǒng)計(jì),實(shí)驗(yàn)結(jié)果如表6 所示顯示,模型在一級(jí)和二級(jí)范疇的識(shí)別F1 值均達(dá)到90%以上。

        4.1.4 科技論文關(guān)鍵詞識(shí)別

        圖5 基于中圖分類法的多層分類模型Fig.5 Multi-layer classification model based on the Chinese Library Classification

        表5 科技文獻(xiàn)命名實(shí)體識(shí)別數(shù)據(jù)樣例Table 5 Samples of named entity recognition data in scientific and technological literature

        表6 命名實(shí)體實(shí)驗(yàn)結(jié)果Table 6 Experimental results of named entities

        關(guān)鍵詞抽取任務(wù)指從文本中抽取重要的主題短語(yǔ),是信息檢索、文本摘要、文本分類、意見(jiàn)挖掘和文檔索引的基礎(chǔ)。在科技文獻(xiàn)中,從摘要原文中自動(dòng)抽取幾個(gè)關(guān)鍵短語(yǔ),作為該文獻(xiàn)的關(guān)鍵詞。將其定義為字級(jí)別序列標(biāo)注問(wèn)題,利用BERT 模型微調(diào)構(gòu)建科技論文關(guān)鍵詞識(shí)別模型[33]。

        我們將科技文獻(xiàn)摘要與關(guān)鍵詞數(shù)據(jù)進(jìn)行整理,以BIO 方式構(gòu)建模型微調(diào)數(shù)據(jù)集。選擇100 000 條記錄作為訓(xùn)練數(shù)據(jù)集,6 000 條記錄作為評(píng)估集,3 094 條記錄作為測(cè)試集,數(shù)據(jù)示例如表7 所示。

        對(duì)比傳統(tǒng)無(wú)監(jiān)督的TF-IDF[34]方法以及基于深度學(xué)習(xí)序列標(biāo)注的BiLSTM-CRF[35]方法?;谧旨?jí)別序列標(biāo)注的微調(diào)模型取得最佳效果,結(jié)果如表8 所示。

        表7 關(guān)鍵詞識(shí)別模型數(shù)據(jù)集示例Table 7 Sample dataset of the keyword recognition model

        表8 關(guān)鍵詞識(shí)別模型微調(diào)實(shí)驗(yàn)結(jié)果Table 8 Experimental results of the fine-tuned model of keyword recognition

        4.1.5 科技論文概念定義句識(shí)別

        概念定義句識(shí)別任務(wù)為自動(dòng)識(shí)別科技文獻(xiàn)中表達(dá)概念定義的句子。將其作為一個(gè)二分類問(wèn)題,利用預(yù)訓(xùn)練模型微調(diào)的方式構(gòu)建概念定義句自動(dòng)識(shí)別模型。

        首先基于科技網(wǎng)站、維基百科等收集整理了8 000個(gè)概念數(shù)據(jù)和非概念句子,作為訓(xùn)練集,以BERT Fine-Tuning 方法構(gòu)建二分類模型,數(shù)據(jù)示例如表9 所示。

        表9 概念定義句識(shí)別數(shù)據(jù)示例Table 9 Sample sentences that contain a concept or a definition

        在結(jié)果測(cè)試時(shí),同時(shí)使用了統(tǒng)一WCL 定義句識(shí)別數(shù)據(jù)集[36]對(duì)我們的方法進(jìn)行測(cè)試,結(jié)果如圖表10 所示。結(jié)果表示,我們的方法在定義句識(shí)別任務(wù)中達(dá)到0.926 的F1 值,遠(yuǎn)遠(yuǎn)超越了WCL 原始測(cè)評(píng)方法的效果。

        表10 WCL 數(shù)據(jù)集測(cè)評(píng)結(jié)果Table 10 Test results of the WCL dataset

        4.1.6 科技文本標(biāo)簽自動(dòng)生成

        科技文本標(biāo)簽自動(dòng)生成旨在為科技文本內(nèi)容生成標(biāo)簽,以反映文本的主要內(nèi)容。在科技文獻(xiàn)中,利用摘要內(nèi)容,自動(dòng)生成一個(gè)新的短語(yǔ)概括文獻(xiàn)內(nèi)容,作為其文本標(biāo)簽。使用基于BERT 的生成式模型UniLM[37],以序列到序列(Seq-to-Seq)模式,進(jìn)行文本生成模型的微調(diào)實(shí)驗(yàn)。

        研究將科技文獻(xiàn)的標(biāo)題作為其摘要的文獻(xiàn)標(biāo)題,構(gòu)建文獻(xiàn)標(biāo)題生成的數(shù)據(jù)集,如表11 所示。提取全領(lǐng)域中文科技論文的摘要及標(biāo)題,共計(jì)50 萬(wàn)條來(lái)完成微調(diào)模型的訓(xùn)練。

        在結(jié)果測(cè)試時(shí),隨機(jī)抽取了部分科技文獻(xiàn)摘要完成測(cè)試。通過(guò)對(duì)比原論文題目(圖6)和模型生成的標(biāo)題(圖7),發(fā)現(xiàn)模型自動(dòng)生成的標(biāo)題能夠完成對(duì)論文原始摘要內(nèi)容的概括,與原文標(biāo)題也比較相似。

        4.1.7 科技論文投稿期刊自動(dòng)推薦

        科技期刊審稿人自動(dòng)推薦旨在根據(jù)科技論文摘要內(nèi)容,自動(dòng)推薦若干與該論文相關(guān)的領(lǐng)域?qū)<易鳛楹蜻x審稿人。這項(xiàng)任務(wù)可快速幫助期刊編輯部發(fā)現(xiàn)和找到合適的審稿專家,加快審稿速度,提升審稿質(zhì)量。

        同樣以文本分類模式,基于78 萬(wàn)篇科技文獻(xiàn)和4萬(wàn)多位作者構(gòu)建審稿人自動(dòng)推薦數(shù)據(jù)集,將標(biāo)題和摘要作為輸入文本,作者作為分類標(biāo)簽,語(yǔ)料示例如表12 所示。

        表11 科技文本標(biāo)簽自動(dòng)生成數(shù)據(jù)集示例Table 11 Sample dataset of automatically generated text labels

        表12 審稿人自動(dòng)推薦語(yǔ)料示例Table 12 Examples of automatic recommendation of reviewers based on a paper's abstract

        圖6 科技論文原始題錄信息示例Fig.6 An example of journal article metadata

        圖7 科技文本標(biāo)題生成實(shí)際效果展示Fig.7 Actual effect of the generation of a text title

        針對(duì)微調(diào)模型,筆者隨機(jī)抽取部分科技文獻(xiàn)摘要完成測(cè)試,結(jié)果示例如圖8 所示。我們發(fā)現(xiàn),對(duì)于大多數(shù)文獻(xiàn),模型都能推薦出相關(guān)性較高的審稿人。

        4.1.8 科技期刊審稿人自動(dòng)推薦

        科技論文投稿期刊自動(dòng)推薦旨在根據(jù)科技論文摘要內(nèi)容,自動(dòng)推薦若干與該論文相關(guān)的期刊作為候選投稿期刊,可幫助科研人員快速找到合適的期刊。

        圖8 審稿人自動(dòng)推薦實(shí)際效果展示Fig.8 Actual effect of automatic recommendation of reviewers

        以文本分類模式,基于科技文獻(xiàn)摘要及期刊信息構(gòu)建投稿期刊自動(dòng)推薦數(shù)據(jù)集,標(biāo)題和摘要作為輸入文本,期刊作為分類標(biāo)簽。語(yǔ)料示例如表13 所示。其中包含全領(lǐng)域的文獻(xiàn)摘要2 729 244 篇,候選投稿期刊類型共計(jì)1 585 種。

        針對(duì)微調(diào)模型,隨機(jī)抽取部分科技文獻(xiàn)摘要完成測(cè)試,結(jié)果示例如圖9 所示。我們發(fā)現(xiàn)對(duì)于大多數(shù)文獻(xiàn),模型都能夠推薦出相關(guān)性較高的期刊。

        4.2 科技文獻(xiàn)AI 引擎服務(wù)平臺(tái)實(shí)踐

        為推動(dòng)科技文獻(xiàn)知識(shí)引擎在文獻(xiàn)情報(bào)工作中的實(shí)際應(yīng)用,初步建成科技文獻(xiàn)AI 引擎服務(wù)平臺(tái)。如圖10所示,平臺(tái)架構(gòu)主要包含3個(gè)層次,模型封裝層:以BERT-AS-SERVICE 工具將微調(diào)模型封裝,形成底層模型微服務(wù);Web 響應(yīng)中間件層:基于Python 語(yǔ)言的FLask+Tornado+Nginx 架構(gòu)形成Web 響應(yīng)架構(gòu),實(shí)現(xiàn)反向代理、動(dòng)靜分離、負(fù)載均衡;引擎服務(wù)層:AI 引擎對(duì)外提供兩種形式服務(wù),包括網(wǎng)頁(yè)端在線標(biāo)注和API 接口服務(wù)。

        表13 投稿期刊自動(dòng)推薦語(yǔ)料示例Table 13 Examples of journal recommendation based on a paper's abstract

        圖9 科技論文投稿期刊自動(dòng)推薦實(shí)際效果展示Fig.9 An example of automatic journal recommendation

        圖10 科技文獻(xiàn)AI 引擎平臺(tái)架構(gòu)圖Fig.10 AI engine platform based on scientific and technological literature

        4.2.1 底層微調(diào)模型優(yōu)化調(diào)用實(shí)踐

        針對(duì)實(shí)際應(yīng)用,對(duì)知識(shí)引擎模型加載和調(diào)用過(guò)程進(jìn)行優(yōu)化。

        一方面,使用Freeze_Graph 工具完成微調(diào)模型的固化壓縮,將原有的1.22GB 的.ckpt 模型文件壓縮到為417MB 的.pb 文件,大大縮減了模型的空間占用。

        另一方面,參考Web 服務(wù)快速調(diào)用的模式,利用BERT-AS-SERVICE 工具,在應(yīng)用端和BERT 模型服務(wù)端之間構(gòu)建起中間件微服務(wù)端,實(shí)現(xiàn)模型的預(yù)加載,并通過(guò)實(shí)時(shí)服務(wù)端口提高調(diào)用效率。

        通過(guò)上述兩種優(yōu)化方式,對(duì)單篇摘要的標(biāo)注平均時(shí)間從原來(lái)的10 秒縮減為1 秒,明顯提升了系統(tǒng)響應(yīng)效率。

        4.2.2 網(wǎng)頁(yè)端在線標(biāo)注服務(wù)實(shí)踐

        提供上述所有應(yīng)用的在線標(biāo)注服務(wù)(http://sciengine.whlib.ac.cn/)。通過(guò)在網(wǎng)頁(yè)端輸入任意科技文本,系統(tǒng)將自動(dòng)調(diào)用相應(yīng)的微調(diào)模型,完成模型預(yù)測(cè),返回實(shí)時(shí)的標(biāo)注結(jié)果,如圖11 為其中一種應(yīng)用,語(yǔ)步識(shí)別在線標(biāo)注服務(wù)示意圖。

        4.2.3 API 接口服務(wù)實(shí)踐

        同時(shí)提供基于GET 和POST 兩種方式的API 接口服務(wù)。

        GET方式支持單篇文檔,如圖12所示,url 為http://sciengine.whlib.ac.cn/Move_GET,傳入英文摘要文本,以json 格式返回該摘要的語(yǔ)步標(biāo)注結(jié)果。

        POST 方式支持多篇文檔,如圖13 所示,url 為http://sciengine.whlib.ac.cn/Move_POST,將多個(gè)摘要文檔以list 類型上傳,以json 格式將多篇摘要標(biāo)注結(jié)果放在列表中返回,其中每篇摘要標(biāo)注結(jié)果格式與上述GET 方式一致。

        5 總結(jié)與展望

        圖11 語(yǔ)步識(shí)別在線標(biāo)注服務(wù)示意圖Fig.11 A diagram of move recognition in an abstract

        圖12 GET 方式訪問(wèn)示例Fig.12 An example of GET access

        圖13 POST 方式訪問(wèn)示例Fig.13 An example of POST access

        本文以文獻(xiàn)情報(bào)工作為出發(fā)點(diǎn),探究人工智能取得飛速突破的本質(zhì)所在,立足科技文獻(xiàn)是人類知識(shí)的重要載體,圍繞如何充分挖掘和利用文獻(xiàn)情報(bào)知識(shí)價(jià)值和作用,創(chuàng)新性提出了文獻(xiàn)情報(bào)領(lǐng)域從“科技文獻(xiàn)庫(kù)”到“科技知識(shí)引擎”轉(zhuǎn)變的建設(shè)思路,論述了中國(guó)科學(xué)院文獻(xiàn)情報(bào)中心在構(gòu)建基于科技文獻(xiàn)知識(shí)的人工智能(AI)引擎的建設(shè)實(shí)踐,初步取得了一定效果和成果,但仍存在很多問(wèn)題和挑戰(zhàn),在接下來(lái)的工作中將進(jìn)一步完善和改進(jìn)。首先,鑒于語(yǔ)料收集整理工作不充分,下一步會(huì)進(jìn)一步收集、整理預(yù)訓(xùn)練語(yǔ)料庫(kù),尤其是特定領(lǐng)域科技文獻(xiàn)全文、書(shū)籍、知識(shí)庫(kù)、術(shù)語(yǔ)詞表等。其次,應(yīng)用推廣工作待完善。進(jìn)一步完善基于科技文獻(xiàn)知識(shí)資源的AI 引擎平臺(tái)建設(shè),完善相關(guān)功能,提升平臺(tái)運(yùn)行效率,完善對(duì)外服務(wù)API 接口建設(shè),盡快正式發(fā)布基于科技文獻(xiàn)知識(shí)的人工智能(AI)引擎。最后,實(shí)際應(yīng)用效果待提升?;诳萍嘉墨I(xiàn)情報(bào)工作的實(shí)際應(yīng)用場(chǎng)景,進(jìn)一步實(shí)驗(yàn)、測(cè)試模型的應(yīng)用效果,根據(jù)實(shí)際情況調(diào)整相關(guān)研究的改進(jìn)方向,形成實(shí)際可用、有效的工具化的模型。

        猜你喜歡
        微調(diào)引擎語(yǔ)料
        一種新型微調(diào)擠塑模具的設(shè)計(jì)及應(yīng)用
        電線電纜(2018年2期)2018-05-19 02:03:44
        靈活易用,結(jié)合自動(dòng)和手動(dòng)微調(diào)達(dá)到好效果 StormAudio ISP 3D.16 ELITE/PA 16 ELITE
        藍(lán)谷: “涉藍(lán)”新引擎
        商周刊(2017年22期)2017-11-09 05:08:31
        基于語(yǔ)料調(diào)查的“連……都(也)……”出現(xiàn)的語(yǔ)義背景分析
        華語(yǔ)電影作為真實(shí)語(yǔ)料在翻譯教學(xué)中的應(yīng)用
        無(wú)形的引擎
        河南電力(2015年5期)2015-06-08 06:01:46
        基于Cocos2d引擎的PuzzleGame開(kāi)發(fā)
        《苗防備覽》中的湘西語(yǔ)料
        國(guó)內(nèi)外語(yǔ)用學(xué)實(shí)證研究比較:語(yǔ)料類型與收集方法
        全國(guó)大部省份結(jié)束2014高考 多地高考模式微調(diào)
        国产99久久久国产精品免费| 无码熟妇人妻av在线影片| 日韩黑人欧美在线视频观看| 国产高清一区在线观看| 亚洲自拍偷拍一区二区三区| 久久久久久久久毛片精品| 无码熟熟妇丰满人妻啪啪| 国产激情视频在线| 中文字幕一区二区人妻性色av| 国产成人精品2021| 成人免费视频在线观看| 精品人妻av区乱码| 日本人妻精品有码字幕| 人人妻人人狠人人爽| 亚洲最新精品一区二区| 少妇人妻字幕精品毛片专区| 777精品久无码人妻蜜桃| 久久综合网天天 | 国产精品玖玖资源站大全| 成人性生交大片免费5| 97日日碰曰曰摸日日澡| 中文字幕av在线一二三区| 精品中文字幕日本久久久| 国产av精品一区二区三区久久| 国产精品你懂的在线播放| 囯产精品无码一区二区三区| 青青视频在线播放免费的| 国产猛男猛女超爽免费视频| 日日躁夜夜躁狠狠躁超碰97 | 国产精品无码一本二本三本色| 在线人妻无码一区二区| 一区二区三区日本久久| 一边捏奶头一边高潮视频| 亚洲xxxx做受欧美| 韩国三级大全久久网站| 天天射综合网天天插天天干| 无码国产伦一区二区三区视频| 2021精品国产综合久久| 国产黄色一区二区三区,| 无码国产精品久久一区免费| 99国产精品99久久久久久|