亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于句式元學(xué)習(xí)的Twitter分類

        2019-01-29 05:49:00閆雷鳴嚴(yán)璐綺王超智賀嘉會吳宏煜
        關(guān)鍵詞:類別句式標(biāo)簽

        閆雷鳴 嚴(yán)璐綺 王超智 賀嘉會 吳宏煜

        南京信息工程大學(xué)計算機(jī)與軟件學(xué)院, 江蘇省網(wǎng)絡(luò)監(jiān)控工程中心, 南京 210044; ? E-mail: lmyan@nuist.edu.cn

        對微博和Twitter這類社交平臺的短文本評論信息來說, 在多分類問題上, 即便采用深度學(xué)習(xí)方法, 分類準(zhǔn)確率不高仍然是困擾業(yè)界的一個難題。社交平臺的文本評論信息字?jǐn)?shù)少、語法格式自由、大量使用縮略語和新詞語等, 隱喻、反諷和極性遷移等句型經(jīng)常出現(xiàn), 各類型樣本數(shù)量分布很不平衡,造成社交平臺短文本分類的困難。以 SemEval 2017的Twitter 分類比賽結(jié)果為例, 前三名系統(tǒng)雖然在二分類任務(wù)(正向、負(fù)向)上準(zhǔn)確率都超過 86%, 但是對于三分類問題(正向、負(fù)向和中性), 最好的系統(tǒng)準(zhǔn)確率僅為 65.8%, F1-score 為 68.5%[1]。有標(biāo)簽訓(xùn)練樣本不足是性能偏低的主要原因之一。隨著分類類別的增加, 樣本分布不平衡的情況進(jìn)一步加劇,總體需要的訓(xùn)練樣本進(jìn)一步增加。雖然遷移學(xué)習(xí)策略希望通過遷移到其他領(lǐng)域, 利用已有的領(lǐng)域知識來解決目標(biāo)領(lǐng)域中僅有少量有標(biāo)記樣本的問題[2],但由于社交媒體短文本長度短、形式自由以及常違背語法的特點(diǎn), 難以遷移其他源領(lǐng)域的知識。分類模型的泛化能力不足是另一個主要原因。由于句型的靈活多變, 詞語的組合形式難以窮盡, 訓(xùn)練樣本不可能覆蓋所有的語義形式, 即測試樣本中有大量形式?jīng)]有出現(xiàn)在訓(xùn)練樣本中, 因此模型無法正確識別。

        目前在社交媒體的短文本情感分析方面, 特別是多級情感分類方面的研究, 仍然面臨有標(biāo)簽樣本數(shù)量不足、分類模型泛化能力不足的挑戰(zhàn)。本文提出一種適合少樣本、多類別的 Twitter 分類框架, 該框架基于 few-short learning 策略, 利用 deep CNNs提取樣本的 meta-features, 用于識別訓(xùn)練樣本中未出現(xiàn)的類型, 從而提高分類模型的泛化(generalization)能力。

        1 相關(guān)研究

        詞向量被設(shè)計成詞的低維實(shí)數(shù)向量, 采用無監(jiān)督學(xué)習(xí)方法, 從海量的文本語料庫中訓(xùn)練獲得, 語法作用相似的詞向量之間的距離相對比較近[3], 這就讓基于詞向量設(shè)計的一些模型能夠自帶平滑功能, 為應(yīng)用于深層網(wǎng)絡(luò)帶來便利[4]。一些將詞向量與長短期記憶網(wǎng)絡(luò)(LSTM)相結(jié)合的研究都獲得明顯的性能改善[5-6]。Kim[7]設(shè)計的文本卷積神經(jīng)網(wǎng)絡(luò), 雖然只有一層卷積層, 但其分類性能顯著優(yōu)于普通的機(jī)器學(xué)習(xí)分類算法, 例如最大熵、樸素貝葉斯分類和支持向量機(jī)等。Tang 等[8]基于深度學(xué)習(xí),設(shè)計 Twitter 情感分析系統(tǒng) Cooolll, 將詞向量與反映 Twitter 文法特點(diǎn)的特征(例如是否大寫、情感圖標(biāo)、否定詞、標(biāo)點(diǎn)符號簇集等)進(jìn)行拼接, 以求輸入更多有效的特征, 在 SemEval 2104 國際語義評測競賽中獲得第 2 名。深度學(xué)習(xí)方法需要大量的訓(xùn)練樣本, 增加訓(xùn)練樣本是非常有效的提高分類準(zhǔn)確率的方法, 但是成本很高, 甚至在很多情況下難以實(shí)施, 制約了基于深度學(xué)習(xí)的文本分類方法的性能。

        Few-shot 學(xué)習(xí)[9-10]是近年興起的一種新型元學(xué)習(xí)技術(shù), 使用較少樣本訓(xùn)練深層網(wǎng)絡(luò)模型, 主要應(yīng)用于圖像識別領(lǐng)域, 目前只有非常少的研究將其用于文本分析。這種方法首先以zero-shot (零次)學(xué)習(xí)和 one-shot (一次)學(xué)習(xí)出現(xiàn), 逐步發(fā)展成 few-shot學(xué)習(xí)。此類方法的基本思想是, 將圖片特征和圖片注釋的語義特征非線性映射到一個嵌入空間, 學(xué)習(xí)其距離度量。當(dāng)輸入未知樣本或未出現(xiàn)在訓(xùn)練集中的新類別樣本時, 計算樣本與其他已知類別的距離,判斷其可能的類別標(biāo)簽。雖然有標(biāo)簽的訓(xùn)練樣本較少, 但此類方法仍然在圖像識別領(lǐng)域(特別是在圖片類別達(dá)到數(shù)百到 1000 的分類任務(wù)中)獲得成功。Zhang 等[11]研發(fā)了一種基于最大間隔的方法, 用于學(xué)習(xí)語義相似嵌入, 并結(jié)合語義相似, 用已知類別的樣本度量未知類別樣本間的相似性。Guo 等[12]設(shè)計了一種新穎的 zero-shot 方法, 引入可遷移的具有多樣性的樣本, 并打上偽標(biāo)簽, 結(jié)合這些遷移樣本訓(xùn)練 SVM, 實(shí)現(xiàn)對未知類別樣本的識別。Oriol 等[13]基于 metric learning 技術(shù)和深層網(wǎng)絡(luò)的注意力機(jī)制,提出一種 matching 網(wǎng)絡(luò)機(jī)制, 通過支持集學(xué)習(xí)訓(xùn)練CNN 網(wǎng)絡(luò)。Rezende 等[14]將貝葉斯推理與深層網(wǎng)絡(luò)的特征表示組合起來, 進(jìn)行 one-shot 學(xué)習(xí)。Koch 等[15]訓(xùn)練了兩個一模一樣的孿生網(wǎng)絡(luò)進(jìn)行圖像識別, 獲得良好的效果。一些學(xué)者基于“原型” (prototype)概念設(shè)計 few-shot 學(xué)習(xí)方法, 但是對原型的定義不一致。Snell 等[16]提出原型網(wǎng)絡(luò)概念, 將滿足k近鄰的數(shù)據(jù)對象非線性映射到一個嵌入空間, 該空間中的原型是同類標(biāo)簽樣本映射的平均值向量, 通過計算未知樣本與原型的距離來判別類標(biāo)簽。Blaes等[9]定義的全局原型是一種元分類器, 希望利用全局特征對圖像進(jìn)行分類。Hecht 等[17]的研究顯示, 基于原型的深度學(xué)習(xí)方法在訓(xùn)練事件和內(nèi)存開銷方面都比普通深度學(xué)習(xí)方法有優(yōu)勢。

        2 文本句式元學(xué)習(xí)

        受 meta-learning 和圖像 few-shot 學(xué)習(xí)的啟發(fā),本文提出一種文本句式元學(xué)習(xí)方法?;舅枷霝?將多種典型的語句變化視為新的類別和“句式”, 即將原本只有幾種類別標(biāo)簽的文本樣本集合, 改造為多種新的類別——“句式”style。劃分出更多的類別后, 強(qiáng)迫深層模型學(xué)習(xí)細(xì)粒度的語法和語義特征。本文方法包含 4 個基礎(chǔ)部分: 句式提取、訓(xùn)練片段episode 構(gòu)造、句式深層編碼以及分類模型 Finetunning。方法框架如圖1所示。

        2.1 提取句式

        首先, 將較少類別的文本分類問題轉(zhuǎn)化為較多類別的 few-shot 學(xué)習(xí)問題。本文根據(jù)距離相似度,用k均值聚類方法, 將訓(xùn)練樣本劃分為若干簇集,將每個簇集視為一種文本類型, 并進(jìn)一步劃分為句式。

        定義1句式: 設(shè)類標(biāo)簽有K種,L={1,2,...,K},聚類獲得的文本類型(句型)有M種,M?K,不同類型和不同類標(biāo)簽組合為一種新的類別, 稱為“句式”(style)。樣本集合由原來的K種樣本, 重新劃分為N=M×K種句式, 表示為 {sik|1 ≤i≤M,1≤k≤K},新的類別標(biāo)簽為L′={(i,k)|0 <i≤N,k∈L},k為樣本原始類標(biāo)簽, 如圖 2 所示。訓(xùn)練集中對應(yīng)新標(biāo)簽的樣本稱為該句式的支持樣本。

        圖1 句式元學(xué)習(xí)框架Fig.1 Sentence styles meta-learning framework

        圖2 句式標(biāo)簽劃分示意圖Fig.2 Example for sentence style labeling

        定義2元句式: 每種句式的支持樣本集合的中心樣本(即代表樣本)稱為元句式。元句式可以用樣本向量的平均值表示。

        新的句式數(shù)量大于原來的類別, 相應(yīng)地, 支持每種句式的有標(biāo)簽樣本減少了, 甚至可能有的句式只有一個樣本。對這類特殊的句式, 可以根據(jù)聚類發(fā)現(xiàn)的離群點(diǎn)進(jìn)行添加或刪除。我們需要為每種句式構(gòu)造訓(xùn)練集, 相同句式標(biāo)簽的樣本稱為該句式的“候選支持集”。將這些樣本輸入深層網(wǎng)絡(luò), 再進(jìn)行有監(jiān)督模型訓(xùn)練。需要注意的是, 劃分為多種句式后, 導(dǎo)致每種不同句式的支持樣本數(shù)大大減少。將原分類任務(wù)直接轉(zhuǎn)變?yōu)橹С謽颖据^少的多分類問題, 不利于提高分類性能。鑒于此, 本文方法借鑒圖像多分類問題的 few-shot 學(xué)習(xí)思想, 劃分多種句式的目的不是直接進(jìn)行多分類學(xué)習(xí), 而是用于發(fā)現(xiàn)多個具有代表意義的句型原型“prototype”, 通過比較未知類別樣本與句型 prototype 的距離, 提高分類準(zhǔn)確率。

        鑒于缺少有標(biāo)簽的句型樣本, 本文采用一種簡單直接的策略, 根據(jù)語句相似距離, 用k均值聚類方法提取句式。用距離相似發(fā)現(xiàn)句式是基于詞向量模型將語句轉(zhuǎn)化為向量。詞向量的優(yōu)點(diǎn)是可在一定程度上表達(dá)語義或語法作用相似, 向量疊加時仍然可以保持原有相似性。因此, 聚類方法不能明確發(fā)現(xiàn)否定句、感嘆句、隱喻和反諷等實(shí)際句型, 但是可以從向量相似的角度, 將語義和結(jié)構(gòu)上相似的樣本聚為一類。我們采用 Doc2Vec 模型, 將語句轉(zhuǎn)化為向量, 將不同長度的語句都轉(zhuǎn)化為相同長度的向量。實(shí)現(xiàn)過程如下。

        1)分詞, 訓(xùn)練一個 Doc2Vec 模型, 將每個樣本轉(zhuǎn)化為一個向量, 長度為300。

        2)設(shè)定k, 調(diào)用k均值算法, 對文本向量進(jìn)行聚類。

        3)為每個樣本分配新的類別編號=聚類編號×10+原類別編號; 每種新類別為一種“句式”。

        4)輸出聚類結(jié)果。

        2.2 訓(xùn)練片段(episode)的構(gòu)造

        在 few-shot 學(xué)習(xí)中, 模型訓(xùn)練過程由多個episode 構(gòu)成。k-shot 學(xué)習(xí)包含K個片段。通常, 對于N類“句式”, 每種句式的樣本都平均劃分為K份,每個 episode 應(yīng)該包含 1 份樣本作為訓(xùn)練集, 以及 1份樣本作為測試集。為了測試模型對新類別的識別能力, 選擇訓(xùn)練集中未出現(xiàn)的“句式”作為測試集樣本。

        2.3 元句式深層編碼

        元句式深層編碼即學(xué)習(xí)句式原型?;舅枷胧? 將N種文本句式的樣本向量, 經(jīng)深層網(wǎng)絡(luò)(例如CNN)映射到一個嵌入空間RD,在DR內(nèi)通過分類算法, 不斷調(diào)整網(wǎng)絡(luò)權(quán)值, 使得該深層網(wǎng)絡(luò)根據(jù)類別標(biāo)簽和距離, 學(xué)習(xí)可區(qū)分的不同句式的非線性編碼。句式原型經(jīng)深層編碼, 被映射到一個非線性空間, 如圖 3 所示, 每個區(qū)域?qū)?yīng)于一種句式原型,灰色圓點(diǎn)表示該句式的支持樣本, 黑色圓點(diǎn)為該句式的代表點(diǎn), 即元句式。圖 3 中空心圓圈表示一個未知標(biāo)簽的新樣本經(jīng)編碼進(jìn)入嵌入空間, 可以通過計算到各個原型代表點(diǎn)的距離來判斷類標(biāo)簽。

        用于編碼的深層模型, 采用 CNN 網(wǎng)絡(luò)構(gòu)造?;静呗詾? 首先用聚類后的、多樣化句式的數(shù)據(jù)有監(jiān)督地訓(xùn)練網(wǎng)絡(luò)學(xué)習(xí)多種句式, 然后使用原始數(shù)據(jù)優(yōu)化模型的分類性能, 在已有 CNN 權(quán)重的基礎(chǔ)上,訓(xùn)練一個新的 softmax 分類層, 對原始數(shù)據(jù)進(jìn)行分類。

        基于 softmax 函數(shù), 分類目標(biāo)函數(shù)可以定義為,對于未知樣本x*,其屬于任意類的概率:

        根據(jù)極大似然假設(shè), 基于交叉熵的損失函數(shù)為

        圖3 句式原型與映射空間Fig.3 Style prototypes and embedding space

        綜上所述, 本文所提方法屬于一種 few-shot 學(xué)習(xí)策略, 可將此類方法視為一種元特征學(xué)習(xí)方法,側(cè)重特征向量的學(xué)習(xí), 發(fā)現(xiàn)樣本的原型 prototype,其優(yōu)化函數(shù)通常不以距離為直接目標(biāo), 這與 metriclearning 方法有一定的區(qū)別。在實(shí)現(xiàn)上也與 metriclearning 有所不同, few-shot 學(xué)習(xí)需要基于深層網(wǎng)絡(luò)搭建模型。但是從最新的研究成果[9-10]來看, 由于few-shot 學(xué)習(xí)通常利用k近鄰思想進(jìn)行最后的分類,因此 metric-learning 方法對于 few-shot 有很強(qiáng)的借鑒意義, 二者的融合應(yīng)該是一種必然的趨勢。本文所提“元句式”的概念, 更類似于一種句子“prototype”, 基本思想是發(fā)現(xiàn)并深層編碼這些基本prototype, 計算樣本與 prototype 樣本的距離, 通過加權(quán)來判斷樣本類別。

        3 實(shí)驗(yàn)

        使用 3 個公開的 Twitter 數(shù)據(jù), 驗(yàn)證本文的方法,并對結(jié)果進(jìn)行分析。實(shí)驗(yàn)服務(wù)器配置為 12 核至強(qiáng)CPU, 256 GB 內(nèi)存, 8顆NVIDIA Tesla K20C GPU,操作系統(tǒng)為 Ubuntu 14.0。代碼基于 Tensor-flow 和Keras, 使用Python2.7實(shí)現(xiàn)。

        本文模型的基本結(jié)構(gòu)包括2層1維卷積層、過濾器 128 個, 過濾器尺寸為 5, 后接 Max-pooling 層和 Dropout 層, 再接一層全連接的神經(jīng)網(wǎng)絡(luò), 激活函數(shù)選擇 Relu, 最后是一個 softmax 分類層。參數(shù)優(yōu)化使用 Adam, 交叉熵作為損失函數(shù), batch size 取50。文本聚類時, 利用 gensim 中的 Doc2Vec 工具實(shí)現(xiàn)語句向量化。訓(xùn)練分類模型時, 首先使用聚類后的、增加了句式標(biāo)簽的數(shù)據(jù)進(jìn)行模型的預(yù)訓(xùn)練, 再使用原始的數(shù)據(jù)集, 用一個新的 softmax 分類層進(jìn)行fine-tunning。

        3.1 數(shù)據(jù)集

        1)MultiGames。該數(shù)據(jù)集為游戲主題的 Twitter數(shù)據(jù), 共 12780 條, 由人工進(jìn)行情感類型標(biāo)注, 包括正向 3952 條、負(fù)向 915 條和中性 7913 條游戲玩家評論。該數(shù)據(jù)集由加拿大 UNB 大學(xué) Yan 等[18]發(fā)布。該數(shù)據(jù)集中的評論多俚語、網(wǎng)絡(luò)用語以及部分反話。

        2)Semeval_b。該數(shù)據(jù)源自國際語義評測大會SemEval-2013 發(fā)布的比賽數(shù)據(jù)[19], 后經(jīng)不斷更新,所有數(shù)據(jù)由人工標(biāo)注為正向、負(fù)向和中性 3 種情感類別。由于部分 tweets 的鏈接失效, 我們共下載7967條數(shù)據(jù)。

        3)SS-Tweet。Sentiment Strength Twitter (SSTweet)數(shù)據(jù)集共包含 4242 條人工標(biāo)注的 tweets 評論。該數(shù)據(jù)最早由 Thelwall 等[20]發(fā)布, 用于評估基于SentiStrenth的情感分析方法。Saif 等[21]對該數(shù)據(jù)重新注釋為正向、負(fù)向和中性 3 種情感類別。本文實(shí)驗(yàn)所用數(shù)據(jù)包括 1252 條正向、1037 條負(fù)向和1953條中性評論。

        所有數(shù)據(jù)集均隨機(jī)劃分為 3 個部分, 驗(yàn)證集和測試集各占 15%, 其余作為訓(xùn)練集。

        3.2 實(shí)驗(yàn)結(jié)果與分析

        本文以代價敏感的線性支持向量機(jī)為基準(zhǔn)方法, 特征提取選擇過濾停止詞、詞性標(biāo)注(POS)、情感符號 Emoticon 和 Unigram。本文方法命名為Meta-CNN。用于對比的深度學(xué)習(xí)方法包括基于自動編碼器的 DSC[18]、文本 Kim-CNN[7]和一個兩層一維卷積層構(gòu)造的 CNN 模型 2CNN1D。DSC 方法仍然提取 POS 和 Emoticon特征, 并過濾停止詞, 然后輸入自動編碼器進(jìn)行重編碼。Kim-CNN 雖然僅包含一層卷積操作, 但在文本分類中常能獲得較好的準(zhǔn)確率。2CNN1D 的網(wǎng)絡(luò)結(jié)構(gòu)與本文用于預(yù)訓(xùn)練的 CNN 結(jié)構(gòu)相同, 與本文 Meta-CNN 方法進(jìn)行比較, 用于驗(yàn)證 Meta-CNN 是否能夠在雙層 CNN 網(wǎng)絡(luò)基礎(chǔ)上改善分類性能?;?CNN 的方法均不做停止詞過濾等預(yù)處理, 分詞后, 直接使用 Google 的預(yù)訓(xùn)練 word2vec 包 GoogleNews-vectors-negative300-SLIM, 轉(zhuǎn)換為詞向量構(gòu)成的語句矩陣, 詞向量長度為300。對所有語句樣本, 利用 Padding 操作將長度統(tǒng)一轉(zhuǎn)化為 150 個詞, 不足 150 個詞時補(bǔ) 0。各方法獲得的最佳準(zhǔn)確率如表1所示。

        由于數(shù)據(jù)分布不均衡, 不同類別樣本數(shù)量有較大差距, 特別是負(fù)向標(biāo)簽樣本, 通常比中性標(biāo)簽樣本少很多。數(shù)據(jù)分布的不均衡性對分類器的準(zhǔn)確率有較大的負(fù)面影響。為了更加客觀地進(jìn)行評價, 參照 SemEval 對多分類問題上的評價標(biāo)準(zhǔn), 我們使用正向(Positive)、負(fù)向(Negative)樣本的平均 F1 值()作為多分類任務(wù)的評價方法。指標(biāo)計算方法如下:

        樣本數(shù)量對模型的性能影響明顯。SS-Tweet數(shù)據(jù)的樣本較少, 從 DSC, Kim-CNN 和 2CNN1D的分類準(zhǔn)確率來看, 并未顯著優(yōu)于線性 SVM。但是,本文方法仍然獲得較好的分類性能。

        句式種類k的取值對本文方法的準(zhǔn)確率有較明顯的影響, 如圖 4 所示。對于數(shù)據(jù)集 MultiGames, 當(dāng)句式的聚類數(shù)k=10 時, 可以獲得 91.6%的準(zhǔn)確率。Semeval_b 和 SS-Tweet 數(shù)據(jù)在k=5 時獲得較優(yōu)的準(zhǔn)確率。隨著k值增大, 準(zhǔn)確率有所波動, 總趨勢下降。這是因?yàn)? 隨著k值增大, 分類的類別急劇增大, 預(yù)訓(xùn)練模型的分類準(zhǔn)確率下降, 從而影響 finetunning時的模型性能。

        表1 準(zhǔn)確率對比Table 1 Accuracy comparision

        表2 正負(fù)向樣本平均F1對比Table 2 comparision

        表2 正負(fù)向樣本平均F1對比Table 2 comparision

        ?

        圖4 句式數(shù)量k對分類性能的影響Fig.4 Relationship between style numberkand accuracy

        從實(shí)驗(yàn)結(jié)果來看, 在句式劃分基礎(chǔ)上實(shí)現(xiàn)的句式原型學(xué)習(xí), 在一定程度上改善了分類性能, 說明合理的句式劃分有助于提取句子結(jié)構(gòu)特征, 這些特征的引入改善了文本分類性能。但是, 一定程度的句式數(shù)量增加導(dǎo)致類別數(shù)量的增加, 顯然對分類性能有負(fù)面影響。本文基于聚類的句式劃分方法不能對句式進(jìn)行精確的劃分, 因此句式數(shù)量越多, 句型特征提取的誤差積累越大。合理的句式數(shù)量需要通過實(shí)驗(yàn)確定。增加訓(xùn)練樣本數(shù)量是實(shí)踐中一種有效提高分類性能的策略。但是, 對于文本分類任務(wù)來說, 多少樣本數(shù)量才是足夠的?對這一問題, 目前在理論上沒有明確的結(jié)論。從實(shí)踐和國際上一些 Twitter 分類競賽結(jié)果來看, 數(shù)萬條訓(xùn)練樣本還不足以保證獲得滿意的分類性能, 對于可視為多類別分類的Twitter 情感程度劃分任務(wù), 準(zhǔn)確率往往只能達(dá)到65%左右。如果成本在可承受的范圍內(nèi), 不能通過數(shù)百萬條訓(xùn)練樣本來訓(xùn)練分類樣本, 那么設(shè)計少樣本學(xué)習(xí)策略來提升分類器性能, 就成為值得研究的方向。本文就是針對少樣本的文本分類研究的一種嘗試。

        4 結(jié)語

        本文基于元學(xué)習(xí)和 few-shot 學(xué)習(xí)策略, 提出一種文本元學(xué)習(xí)框架, 通過學(xué)習(xí)不同的句式特征, 提取更為細(xì)粒度的文本語句特征, 以期改善文本分類性能。多個數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果證實(shí)了本文所提方法的有效性, 對于有標(biāo)記樣本較少情況下的多類別文本分類問題, 使用元學(xué)習(xí)策略, 可以改善多類別文本分類的性能。同時, 本文對“句式”的定義仍舊比較粗糙, 實(shí)驗(yàn)結(jié)果顯示過多的句式數(shù)量, 不利于提高分類性能。后續(xù)研究方向包括: 改造其他 metalearning 方法, 使之適用于文本分類任務(wù); 在與本文方法多角度的比較中, 改進(jìn)本文所提方法; 提出更加精細(xì)的句式劃分策略, 以便準(zhǔn)確地提取更多的有益語句特征。

        猜你喜歡
        類別句式標(biāo)簽
        無懼標(biāo)簽 Alfa Romeo Giulia 200HP
        車迷(2018年11期)2018-08-30 03:20:32
        不害怕撕掉標(biāo)簽的人,都活出了真正的漂亮
        海峽姐妹(2018年3期)2018-05-09 08:21:02
        基本句式走秀場
        例析wh-ever句式中的常見考點(diǎn)
        標(biāo)簽化傷害了誰
        服務(wù)類別
        新校長(2016年8期)2016-01-10 06:43:59
        基于多進(jìn)制查詢樹的多標(biāo)簽識別方法
        特殊句式
        論類別股東會
        商事法論集(2014年1期)2014-06-27 01:20:42
        中醫(yī)類別全科醫(yī)師培養(yǎng)模式的探討
        妺妺窝人体色777777| 国产免费资源| 最新国产福利在线观看精品| 在教室伦流澡到高潮hgl视频| 色综合久久无码中文字幕app| 少妇特殊按摩高潮不断| 精品人妻69一区二区三区蜜桃| 天天爽夜夜爽人人爽| 久久久久久免费毛片精品| 免费 无码 国产在线观看不卡| 中文字幕日本韩国精品免费观看| 激情视频在线观看好大| 久久精品国产亚洲av麻豆长发| 人禽伦免费交视频播放| 天天草夜夜草| 在线亚洲精品一区二区三区| 精品一区二区三区在线视频| 毛片24种姿势无遮无拦| 精品少妇人妻成人一区二区| 国产精品国产三级国产an不卡| 人妻少妇精品视频一区二区三区l| 国产av旡码专区亚洲av苍井空| 在线播放a欧美专区一区| 日本在线播放不卡免费一区二区| 亚洲精品国产av成人精品| 国产亚洲精品成人aa片新蒲金| 婷婷综合缴情亚洲| 亚洲乱精品中文字字幕| 开心久久综合婷婷九月| 国产农村妇女毛片精品久久| 亚洲一区sm无码| 久久精品伊人久久精品伊人| 亚洲色欲久久久综合网东京热| 人妻无码人妻有码中文字幕| 99久久无色码中文字幕鲁信| 一区二区三区字幕中文| 一本一道av无码中文字幕| 制服无码在线第一页| 国产传媒精品成人自拍| 无码中文字幕免费一区二区三区 | 91青青草手机在线视频|