李昊澤 云南師范大學(xué)
命名實(shí)體識(shí)別的是從非結(jié)構(gòu)化或半結(jié)構(gòu)化等文本中提取出來的所需要的內(nèi)容使其變成為有用的文本內(nèi)容。在現(xiàn)在這個(gè)大數(shù)據(jù)以及云計(jì)算的時(shí)代,主要面對(duì)的用戶的群體是各式各樣的普通用戶,對(duì)于不同的群體所需要從文本內(nèi)容中提取的信息野不盡相同。所以,如何高效的從幾何級(jí)數(shù)的互聯(lián)網(wǎng)看似雜亂無章的數(shù)據(jù)中抽取出來對(duì)各類用戶有用的文本信息顯得非常的重要。命名實(shí)體識(shí)別技術(shù)為了解決上述提出的主要問題提供了一種新的思路。中文命名實(shí)體識(shí)別技術(shù)是自然語言處理的基礎(chǔ)并且也是主要的任務(wù)?,F(xiàn)在的自然語言處理任務(wù)都需要先運(yùn)用到命名實(shí)體識(shí)別等基礎(chǔ)的任務(wù)。如海量文本的情感分析、語義的標(biāo)注任務(wù)以及機(jī)器翻譯等領(lǐng)域中都非常普遍用到命名實(shí)體識(shí)別技術(shù),所以,對(duì)于命名實(shí)體識(shí)別的研究對(duì)于自然語言處理領(lǐng)域來說是具有非常重要的意義。
長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)就是為了解決循環(huán)神經(jīng)網(wǎng)絡(luò)因?yàn)樘荻认?huì)使得無法利用距離過遠(yuǎn)的信息這個(gè)問題。一般來說循環(huán)神經(jīng)網(wǎng)絡(luò)在6 層以后記憶的能力已經(jīng)接近為零了。長(zhǎng)短期記憶網(wǎng)絡(luò)模型解決了循環(huán)神經(jīng)網(wǎng)絡(luò)存在梯度消失會(huì)使得無法利用距離過遠(yuǎn)的信息這個(gè)問題,提出短期和長(zhǎng)期記憶單元的引入,其主要目的是將信息存儲(chǔ)在內(nèi)存單元,更新,和衰減記憶單元和輸入/輸出將由多個(gè)門控制對(duì)應(yīng)的記憶單元,學(xué)會(huì)控制的參數(shù)對(duì)應(yīng)的記憶單元門決定信息的記憶單元存儲(chǔ)或遺忘。在長(zhǎng)短期記憶網(wǎng)絡(luò)模型里,設(shè)長(zhǎng)短期記憶網(wǎng)絡(luò)在t 時(shí)刻的輸入是i_t,t-1 時(shí)刻的隱藏層和記憶單元分別為h_(t-1)、c_(t-1),輸出t 時(shí)刻的隱藏層h_t和記憶單元c_t。
(1)門信息公式:
(2)記憶單元值的公式:
(3)t 時(shí)刻隱藏層值的公式:
其中W 和b 均表示參數(shù),σ一般取sigmod 函數(shù) 。
從以上的門信息、記憶單元值以及t 時(shí)刻的隱藏層值的計(jì)算公式我們可以看出來,不添加門的時(shí)候記憶單元值與輸入門來乘得到的數(shù)值放到記憶單元值里,這樣就可以把信息放到里面,而對(duì)于門信息里的遺忘門與t-1 時(shí)刻的隱藏層的值乘起來,這樣得到的數(shù)值,把數(shù)值放到放到記憶單元里,主要會(huì)使得記憶單元的衰減,將t 時(shí)刻的記憶單元與輸出門相乘,使記憶單元中的信息輸出到隱藏層,從而影響t+1 時(shí)刻各個(gè)門的輸出。有了控制信息的記憶單元,網(wǎng)絡(luò)就可以存儲(chǔ)對(duì)任務(wù)最有用的信息??梢钥闯觯琇STM 基本解決了循環(huán)神經(jīng)網(wǎng)絡(luò)中梯度消失的缺陷。
長(zhǎng)短期記憶網(wǎng)絡(luò)模型雖然理論上解決了解決解決循環(huán)神經(jīng)網(wǎng)絡(luò)因?yàn)榇嬖谔荻认?huì)使得無法利用距離過遠(yuǎn)的信息這個(gè)問題,但是在實(shí)際實(shí)驗(yàn)過程中,我們還是會(huì)發(fā)現(xiàn)長(zhǎng)期記憶和短期記憶的網(wǎng)絡(luò)模型只能利用以前的歷史信息,而沒有考慮到后面文本對(duì)前面文本的影響,這也是非常重要的。此外,對(duì)于整個(gè)序列標(biāo)注任務(wù),如果沒有充分利用上下文信息進(jìn)行預(yù)測(cè)是不準(zhǔn)確的。對(duì)于長(zhǎng)短期記憶網(wǎng)絡(luò)模型所存在的問題,又有學(xué)者提出了雙向長(zhǎng)短期記憶網(wǎng)絡(luò)(Bi LSTM)模型,雙向長(zhǎng)短期記憶網(wǎng)絡(luò)模型可以使得其同時(shí)使用整個(gè)序列的信息,也就是可以考慮到上下文的信息。雙向長(zhǎng)短期記憶網(wǎng)絡(luò)模型是由反向LSTM 網(wǎng)絡(luò)和正向LSTM 網(wǎng)絡(luò)組成,在雙向計(jì)算輸入序列時(shí),可以充分考慮輸入序列上下文信息的使用。并且長(zhǎng)短期記憶網(wǎng)絡(luò)模型不僅可以捕捉到對(duì)于時(shí)序的動(dòng)態(tài)信息,而且也可以利用到當(dāng)前詞的前后文信息,使得最后獲得較好的依賴關(guān)系。
對(duì)于以上所闡述的的命名實(shí)體識(shí)別模型LSTM 以及BiLSTM,我們可以發(fā)現(xiàn)在做實(shí)體識(shí)別的任務(wù)時(shí),長(zhǎng)短期記憶網(wǎng)絡(luò)模型不僅可以捕捉到對(duì)于時(shí)序的動(dòng)態(tài)信息,而且也可以利用到當(dāng)前詞的前后文信息,使得最后獲得較好的依賴關(guān)系,使得命名實(shí)體識(shí)別的效果顯著提升,并且結(jié)合中文語言的結(jié)構(gòu)特點(diǎn),可以做到充分挖掘文本序列中的潛在信息,從而更好的識(shí)別實(shí)體.