朱國進(jìn) 沈盼宇
摘 要:隨著互聯(lián)網(wǎng)技術(shù)的快速發(fā)展,人類已經(jīng)習(xí)慣于從網(wǎng)絡(luò)上獲取知識(shí),然而伴隨著網(wǎng)絡(luò)資源爆炸式增長,網(wǎng)絡(luò)資源內(nèi)容多樣,人們使用瀏覽器獲取知識(shí)的方法卻停滯不前,因此需要一種工具來幫助人們從網(wǎng)絡(luò)中高效的獲取和發(fā)現(xiàn)新知識(shí)。由于網(wǎng)絡(luò)資源文本并不是完全結(jié)構(gòu)化的數(shù)據(jù),還包括一些自由文本等復(fù)雜的無結(jié)構(gòu)數(shù)據(jù),這種文本信息雖然方便人們自由表達(dá)概念以及事件等,但是同時(shí)也為機(jī)器搜索、統(tǒng)計(jì)分析等制造了障礙。因此,為了在文本上更方便地進(jìn)行知識(shí)分析和挖掘,本文提出一種基于深度學(xué)習(xí)的算法知識(shí)實(shí)體識(shí)別與發(fā)現(xiàn)的方法,應(yīng)用于算法知識(shí)領(lǐng)域來解決上述問題。通過創(chuàng)建算法知識(shí)專家?guī)靃1],訓(xùn)練詞向量,建立深度神經(jīng)網(wǎng)絡(luò)模型,從算法知識(shí)文本中識(shí)別和發(fā)現(xiàn)算法知識(shí)名稱。實(shí)驗(yàn)結(jié)果表明,該深度神經(jīng)網(wǎng)絡(luò)模型識(shí)別算法知識(shí)的準(zhǔn)確率高達(dá)98%,并有效發(fā)現(xiàn)了專家?guī)煲酝獾男轮R(shí)點(diǎn),實(shí)現(xiàn)了預(yù)期實(shí)驗(yàn)需求。
關(guān)鍵詞:知識(shí)實(shí)體;命名實(shí)體識(shí)別;深度學(xué)習(xí);知識(shí)發(fā)現(xiàn)
中圖分類號(hào):TP391 文獻(xiàn)標(biāo)識(shí)碼:A