彭 軍, 韋照川
(桂林電子科技大學(xué) 信息與通信學(xué)院,廣西 桂林 541004)
目標(biāo)屬性抽取是目標(biāo)屬性情感分析的一個重要的子方向,它能夠給出目標(biāo)文本中的情感實體或者情感對象,為后續(xù)的情感分類提供判別目標(biāo)[1-2]。例如給定句子“The price is reasonable although the service is poor.”,目標(biāo)屬性抽取模型能夠處理該句子,得到目標(biāo)屬性集合{price, service}。
從冰箱取出一支保存的黑曲霉試管斜面,在超凈工作臺中加入無菌水,使無菌水剛好沒過斜面上的全部黑曲霉,然后用接種環(huán)把黑曲霉從斜面上輕輕刮下來,制成黑曲霉孢子懸液。
目標(biāo)屬性抽取的研究大致可以分為基于規(guī)則、基于特征工程和基于深度學(xué)習(xí)的方法[3]。根據(jù)語法和依存關(guān)系創(chuàng)建規(guī)則或者特征工程都需要大量的人工勞動和長時間的經(jīng)驗積累,這大大限制了模型的發(fā)展。深度學(xué)習(xí)技術(shù)能夠從標(biāo)注數(shù)據(jù)集自動提取特征進行訓(xùn)練,大幅度地減少復(fù)雜的特征工程,目前已經(jīng)成為目標(biāo)屬性抽取領(lǐng)域研究的熱點。深度網(wǎng)絡(luò)模型的探索工作包括Poria等[4]提出的7層的CNN模型,Jebbara等[5]提出的字符向量和詞向量聯(lián)合的擴展模型,He等[6]提出的無監(jiān)督模型等。
隨著對目標(biāo)屬性抽取模型的不斷探索,科研人員發(fā)現(xiàn)利用目標(biāo)屬性和觀點項的一種“共現(xiàn)”現(xiàn)象,能夠有效地改進網(wǎng)絡(luò)的表現(xiàn)。這種“共現(xiàn)”現(xiàn)象是指,在評論性文本中目標(biāo)屬性的出現(xiàn)往往伴隨著觀點項,例如在上面的例子中,目標(biāo)屬性“price”和觀點項“reasonable”一同出現(xiàn),目標(biāo)屬性“service”和觀點項“poor”相伴而生。目前,性能優(yōu)越的目標(biāo)屬性抽取網(wǎng)絡(luò)模型大都考慮了這種“共現(xiàn)”現(xiàn)象,這方面的代表性工作有Wang等[3,7]提出的RNCRF模型、耦合多層注意力模型以及Li等[8]提出的結(jié)合局部歷史信息和選擇轉(zhuǎn)換網(wǎng)絡(luò)的模型。
目標(biāo)屬性抽取通常被看作序列標(biāo)注任務(wù),但是當(dāng)前的網(wǎng)絡(luò)模型大多未充分考慮前后標(biāo)記之間的關(guān)聯(lián)信息。這種關(guān)聯(lián)信息可分為上下文語義特征之間的關(guān)聯(lián)和預(yù)測值概率分布之間的關(guān)聯(lián)2個部分。文獻[8]引入了一種局部的歷史信息注意力模塊,該模塊能夠利用局部的歷史語義信息增強模型的特征提取能力,但這種模塊在一定程度上忽略了全局特征的歷史信息和預(yù)測標(biāo)簽之間的約束關(guān)系。通常來說,目標(biāo)屬性提取網(wǎng)絡(luò)使用{O,B,I}標(biāo)記,其中B表示目標(biāo)屬性的起始單詞,I代表目標(biāo)屬性的內(nèi)部單詞,O表示非目標(biāo)屬性單詞。在時刻t,若一個單詞被標(biāo)記為O,則它下一個單詞的標(biāo)記就不可能是I,即前后單詞預(yù)測標(biāo)記的概率分布是有關(guān)聯(lián)的。為獲得全局的語義關(guān)聯(lián)和加強前后標(biāo)記之間的語義依賴關(guān)系,結(jié)合文獻[8],提出了一種結(jié)合歷史信息的目標(biāo)屬性抽取網(wǎng)絡(luò),該網(wǎng)絡(luò)將歷史的局部語義信息融入當(dāng)前的特征向量,并通過建模目標(biāo)屬性和觀點項之間的關(guān)聯(lián)實現(xiàn)觀點項提取任務(wù),再通過一個注意力機制得到句子的全局信息,然后用全局的歷史信息注意力模塊進一步抽取歷史信息和標(biāo)記詞語之間的約束關(guān)系,最后將得到的特征向量通過softmax函數(shù)得到當(dāng)前詞語的標(biāo)記值。
聲音又響起了:“我們決定給這位先生最后一次機會,請如實回答以下這個問題,如果您誠實回答,我們還可以讓您順利退出,如果您不回答或者是撒謊,那么就將受到懲罰?!?/p>
圖1 結(jié)合歷史信息的目標(biāo)屬性抽取網(wǎng)絡(luò)模型架構(gòu)
項目負(fù)責(zé)人王家臣對項目研究背景、研究目標(biāo)、技術(shù)路線、研究內(nèi)容、項目實施計劃、創(chuàng)新點、考核指標(biāo)、保障措施、質(zhì)量計劃案等內(nèi)容進行了匯報,課題負(fù)責(zé)人分別匯報了各課題實施方案。項目咨詢專家組就技術(shù)路線、關(guān)鍵節(jié)點控制以及研究方案等提出了具體意見。張興凱院長介紹了該院在金屬礦山開采安全技術(shù)與裝備研發(fā)方面的工作情況,承諾落實法人責(zé)任,保障項目順利實施。會前,項目牽頭單位組織開展了財務(wù)政策培訓(xùn)會。
進一步地,將L個歷史信息融入當(dāng)前的隱向量,
本模型采用文獻[8]提出的局部歷史信息注意力模塊提取標(biāo)注詞語的局部特征向量。局部歷史注意力模塊的內(nèi)部架構(gòu)如圖2所示。
圖2 局部歷史注意力模塊內(nèi)部架構(gòu)
(1)
(2)
其中,W4∈R2do×2do、W5∈R2do×2da、W6∈R2do×2da為權(quán)值矩陣。進一步地,使用雙線性變換求得關(guān)聯(lián)向量的權(quán)重:
目標(biāo)屬性抽取可以看作一個序列標(biāo)記任務(wù),當(dāng)對某個單詞標(biāo)注時,該單詞的標(biāo)記往往只與相近的幾個單詞有關(guān),與較遠(yuǎn)距離的單詞關(guān)聯(lián)性較小[8]。因此,本模型假設(shè)標(biāo)注單詞與前L個單詞的關(guān)聯(lián)程度較高,同時為保留句子的整體信息,使用圖1中(b)的Bi-LSTM網(wǎng)絡(luò)提取句子的整體語義信息。通過建模目標(biāo)屬性和觀點項的關(guān)聯(lián),能夠提高目標(biāo)屬性抽取的準(zhǔn)確性[3,7-8]。因此,本模型在第2個Bi-LSTM上同時建模觀點項標(biāo)注任務(wù),并使用注意力模塊將局部特征向量與文本整體的語義信息結(jié)合。
練習(xí)的設(shè)計盡量避免題海戰(zhàn)術(shù),做到輕負(fù)高效。為了達(dá)到這個目的,老師首先要跳入題海,精煉題型,突出重點,提高實效,將學(xué)生從繁重的課業(yè)中解放出來。
(3)
結(jié)合歷史信息的目標(biāo)屬性抽取網(wǎng)絡(luò)模型架構(gòu)如圖1所示。該模型主要由局部歷史信息注意力模塊(圖1中(a))、目標(biāo)屬性和觀點項依賴信息注意力模塊(圖1中(b))、全局歷史信息注意力模塊(圖1中(c))3個注意力模塊組成。
圖3 目標(biāo)屬性和觀點項關(guān)聯(lián)向量網(wǎng)絡(luò)架構(gòu)
如圖1所示,局部歷史信息注意力模塊的輸入為第1個Bi-LSTM網(wǎng)絡(luò)的隱向量和前L個時刻該模塊的輸出值,輸出為當(dāng)前的局部特征向量。目標(biāo)屬性和觀點項依賴信息注意力模塊的輸入為第2個Bi-LSTM網(wǎng)絡(luò)的隱向量和局部特征向量,輸出為蘊含全局信息的關(guān)聯(lián)特征向量。全局歷史信息注意力模塊的輸入為局部特征向量與關(guān)聯(lián)特征向量的聯(lián)接值和前N個時刻該模塊的輸出值,輸出為分類特征向量。
(4)
在融媒體時代下,主持人不但要具備電視制作的能力,而且還必須要適應(yīng)全媒體環(huán)境的要求,并能夠熟練運用各種信息技術(shù)手段,比如說文字、圖像、視頻、網(wǎng)絡(luò)以及遠(yuǎn)程交互等方面的應(yīng)用,并通過不同的方式將電視節(jié)目內(nèi)容的即時性以及視覺沖擊力和感染力進行強化并提高到一個新的層次,同時還要加大各類信息資訊的表現(xiàn)力。除此之外,電視節(jié)目主持人還必須擅長通過新媒體積累人氣以此提高節(jié)目的影響力與號召力,強化節(jié)目的黏合度。
(5)
(6)
(7)
(8)
4.人工魚巢的建造 在水庫淺灘區(qū),種植挺水植物(如蘆葦),并設(shè)置人工魚巢,可利用石塊、廢棄汽車輪胎、瓦礫等作材料。營造良好的水生生態(tài)環(huán)境,目的是利于鱉的棲息,以及吸引小魚蝦在此覓食、棲息,便于鱉捕捉到小魚蝦作食物。提高仿野生養(yǎng)殖的效果。
(9)
(10)
(11)
將分類向量通過softmax層,得到標(biāo)記詞語的概率分布:
(12)
其中:WA∈Rc×(2da+2do)為輸出權(quán)重矩陣,c為類別數(shù);bA為相應(yīng)的偏移項。
為驗證模型的有效性,選擇SemEvil-2014數(shù)據(jù)集(Laptop數(shù)據(jù)集DT1和Restaurant數(shù)據(jù)集DT2)和SemEvil-2016數(shù)據(jù)集(Restaurant數(shù)據(jù)集DT3)進行實驗。
數(shù)據(jù)集統(tǒng)計信息如表1所示。
初中學(xué)生英語成績主要受自身智力因素以及外在因素的影響,外在因素則包括英語老師教學(xué)方法、英語學(xué)習(xí)環(huán)境等等,是學(xué)生英語成績以及英語表達(dá)能力發(fā)生變化的主要原因。許多初中英語老師已經(jīng)認(rèn)識到學(xué)生學(xué)習(xí)能力的差異性以及因材施教的重要性,采用并推廣了一些符合個性化教學(xué)基本要求的教學(xué)方法和手段,比如分層教學(xué)法。
表1 實驗數(shù)據(jù)集統(tǒng)計信息
國際語義組織提供的SemEvil-2014和SemEvil-2016標(biāo)準(zhǔn)數(shù)據(jù)集標(biāo)注了目標(biāo)屬性的起始和結(jié)束的位置。為了將標(biāo)點符號納入網(wǎng)絡(luò),采用spacy進行英文分詞,同時將所有的標(biāo)點符號標(biāo)記為“PUNAT”,通過將“PUNAT”標(biāo)記映射為向量,可以將標(biāo)點符號信息輸入網(wǎng)絡(luò)計算。本模型采用300維的GloVe初始化詞向量[14],使用dropout策略抑制過擬合現(xiàn)象[15],dropout比率設(shè)置為0.5。本模型程序使用Dynet深度學(xué)習(xí)框架搭建。
本模型的所有模塊都是可微的,可以使用梯度下降法[16]實現(xiàn)端到端的訓(xùn)練。使用交叉熵?fù)p失作為模型的損失函數(shù):
(13)
(14)
L=ζLA+τLO。
(15)
使用較小的區(qū)域來搜索局部最大值,以得到GT角點的最大數(shù)量。圖6表明了許多GT角點被SUSAN算法的最后一步剔除,只保留了局部最大值并去除了其他不重要的角點。在圖像處理過程中,物體之間的大小和距離都很小,因此,這個步驟對在過程結(jié)束時保存的地面真實角點數(shù)量具有重要的影響。然而,這些SUSAN算法變種的誤報率比Noble算法要高得多。因此,必須找到其他方法來規(guī)避相關(guān)角點的誤檢,降低誤報率。
為衡量模型的性能,采用F1值作為判別標(biāo)準(zhǔn),F(xiàn)1值定義為
(16)
(17)
(18)
其中:P為精確率;R為召回率;PT、PF、NF分別為真正例、假正例、假反例。
F1值的實驗結(jié)果如表2所示。其中,THA+STN為局部歷史注意力模型[8],RNCRF為循環(huán)神經(jīng)網(wǎng)絡(luò)和條件隨機場結(jié)合的模型[7],LSTM為僅使用長短時記憶網(wǎng)絡(luò)實現(xiàn)的標(biāo)注模型[8],CRF-1為基于特征模板的條件隨機場模型[8],CRF-2為同時使用特征模板和詞嵌入的條件隨機場模型[8]。
印刷的厚度與網(wǎng)板厚度有密切關(guān)系,除此之外,與焊膏特性、機器參數(shù)設(shè)定相關(guān)。印刷過程中經(jīng)常需要調(diào)整刮刀的速度和壓力,依此實現(xiàn)印刷的厚度微調(diào)。
表2 F1值的實驗結(jié)果 %
從表2可看出,在DT3數(shù)據(jù)集上,本模型取得了最優(yōu)的結(jié)果,與LSTM相比,F(xiàn)1值增加了3.49%,與RNCRF相比,F(xiàn)1值增加了4.12%;在DT1、DT2數(shù)據(jù)集上,本模型與LSTM相比,F(xiàn)1增加了1.4%、1.34%,這表明本模型通過融合歷史信息和目標(biāo)屬性及觀點項之間的依賴關(guān)系,能夠有效提高目標(biāo)屬性抽取的性能;與THA+STN相比,本模型通過增加全局的注意力模塊和改進目標(biāo)屬性與觀點項的依賴模塊,在測試數(shù)據(jù)集上的F1值均有所增加,這表明預(yù)測標(biāo)記之間的約束關(guān)系,目標(biāo)屬性和觀點項的依賴信息以及全局特征之間的語義關(guān)系能夠幫助模型達(dá)到更優(yōu)的結(jié)果;與CRF-1、CRF-2相比,LSTM、RNCRF、THA+STN和OURS模型能夠取得更好的結(jié)果,這表明深度學(xué)習(xí)方法在目標(biāo)屬性抽取網(wǎng)絡(luò)中具有優(yōu)越性。
從表2還可看出,在DT2和DT1數(shù)據(jù)集上,RNCRF的表現(xiàn)比THA+STN和本模型更好,這可能是由于在捕捉預(yù)測標(biāo)簽之間約束關(guān)系方面,條件隨機場更具有優(yōu)勢。通過增加歷史信息和目標(biāo)屬性與觀點項的依賴信息,在3個數(shù)據(jù)集上本模型均優(yōu)于LSTM,這對后續(xù)的研究具有一定的參考價值。
第一,新型的服務(wù)體系。該體系是順應(yīng)市場需求而誕生的,比如代耕、托管、訂單等服務(wù)方式都有很大的需求,這也是發(fā)展現(xiàn)代農(nóng)業(yè)的必然路徑。一些合作型服務(wù)組織、服務(wù)型農(nóng)業(yè)企業(yè)和專業(yè)化服務(wù)組織這幾類經(jīng)營性服務(wù)主體會享受到更多的政策扶持,會有很好的發(fā)展。
提出了一種結(jié)合歷史信息的目標(biāo)屬性抽取網(wǎng)絡(luò)模型。該模型在LSTM的隱向量輸出端和分類特征向量的輸出端使用注意力機制融合歷史的語義信息和預(yù)測標(biāo)簽的約束關(guān)系,使得網(wǎng)絡(luò)能夠較好的捕捉前后標(biāo)記詞語的關(guān)聯(lián)。實驗結(jié)果表明,本模型能夠提高目標(biāo)屬性抽取網(wǎng)絡(luò)的性能。下一步將繼續(xù)研究目標(biāo)屬性提取算法,尤其是嘗試在提取淺層語義信息時添加詞語的依存語法關(guān)系約束或者輸出端使用條件隨機場,從而進一步提高方面抽取網(wǎng)絡(luò)的性能。