劉麗娟
國家計(jì)算機(jī)網(wǎng)絡(luò)應(yīng)急協(xié)調(diào)處理中心上海分中心 上海 201315
隨著網(wǎng)絡(luò)迅猛發(fā)展,大量負(fù)面網(wǎng)絡(luò)信息井噴式爆發(fā)。如何從大量網(wǎng)絡(luò)文本中進(jìn)行信息的有效識別是一個(gè)復(fù)雜的課題。眾多方法中,多標(biāo)簽分類法[1]容易遺漏關(guān)鍵信息,Simrank法[2]僅考慮節(jié)點(diǎn)與邊的連接數(shù),忽略不同的邊將造成不同權(quán)重值,且耗時(shí)長,導(dǎo)致準(zhǔn)確率計(jì)算不準(zhǔn)的問題。
針對上述識別率低等問題,本文提出基于用戶興趣和多特征融合的信息抽取方法。在用戶興趣分析中,根據(jù)用戶行為習(xí)慣,利用本體理論建立符合用戶行為習(xí)慣的用戶興趣子樹,充分挖掘用戶的查詢興趣,為精準(zhǔn)抽取文本結(jié)果做基礎(chǔ);在多特征融合分析中,首先對文本進(jìn)行降維,提取特征,其次,將所有特征向量作為模型框架輸入,最后,運(yùn)用CNN(Convolutional Neural Networks,卷積神經(jīng)網(wǎng)絡(luò))深度學(xué)習(xí)模型訓(xùn)練,輸出文本信息篩選結(jié)果。創(chuàng)新點(diǎn)在于①網(wǎng)頁綜合本體和位置兩種方式進(jìn)行分析,提升分析的全面性和豐富性;②結(jié)合用戶行為搜索日志,將用戶興趣拆分,利用本體理論形成用戶興趣子樹進(jìn)行分析,使理解主題信息的角度更為全面;③挖掘多特征,綜合考慮實(shí)際需求挖掘需要的特征,融合分析文本信息。實(shí)驗(yàn)結(jié)果表明,本文基于用戶興趣和多特征融合的信息抽取方法不僅在相關(guān)主題的信息抽取文本返回結(jié)果中數(shù)量較高,更在主題識別的準(zhǔn)確率F值度量上取得一定程度的提升,能夠更準(zhǔn)確地反映出網(wǎng)頁信息,抽取文本信息。
信息抽取是按照特定需求從信息文本中進(jìn)行抽取,本文研究的是針對Web信息抽取。目前針對Web信息抽取主要有兩種方式:①基于本體的信息抽取,將網(wǎng)頁信息用本體體征維度進(jìn)行標(biāo)識,對網(wǎng)頁內(nèi)容進(jìn)行分析;②基于位置的信息抽取,依賴網(wǎng)頁結(jié)構(gòu),可準(zhǔn)確定位位置,在位置不變下準(zhǔn)確度較高。本文綜合本體和位置進(jìn)行分析,提升分析效果。
針對信息抽取的分析需求,借助本體構(gòu)建用戶興趣子樹,以供擴(kuò)展查詢。
本體是特定領(lǐng)域中存在的對象類型或概念及其屬性和相互關(guān)系[3],具備結(jié)構(gòu)化特點(diǎn)。運(yùn)用本體,能全面清晰描述用戶興趣的主體關(guān)系和關(guān)聯(lián)關(guān)系,體現(xiàn)用戶最直接最關(guān)心的需求。
構(gòu)建興趣生成樹[4]方法,提出基于領(lǐng)域本體三階段用戶興趣子樹。具體步驟是分析用戶提交的查詢,包括但不限于查詢關(guān)鍵詞等用戶行為日志,并映射為本體中的概念,選取用戶興趣子樹的基本節(jié)點(diǎn)﹑非基本節(jié)點(diǎn)和根節(jié)點(diǎn),構(gòu)建候選用戶興趣子樹,并消除歧義,如圖1。
圖1 用戶興趣樹構(gòu)造
用戶行為日志能夠反映用戶興趣。例如,第一次查詢“新東方”,用戶僅點(diǎn)擊2次新東方廚師培訓(xùn)的網(wǎng)頁,點(diǎn)擊5次新東方英語培訓(xùn)的網(wǎng)頁;第二次查詢“新東方”,用戶點(diǎn)擊5次新東方英語培訓(xùn)的詳情介紹網(wǎng)頁;第三次查詢“新東方”,用戶點(diǎn)擊8次新東方英語培訓(xùn)的上課鏈接網(wǎng)頁。
通過這三次用戶日志,可知用戶興趣是查找新東方英語培訓(xùn)的相關(guān)信息,而不是新東方廚師培訓(xùn)機(jī)構(gòu)的信息。將用戶行為依次構(gòu)建到用戶興趣子樹中,能針對關(guān)鍵詞挖掘用戶查詢的精準(zhǔn)興趣,為后續(xù)信息準(zhǔn)確抽取提供基礎(chǔ)。
網(wǎng)頁信息抽取由爬蟲實(shí)現(xiàn),服務(wù)節(jié)點(diǎn)包括已訪問﹑未訪問﹑待訪問的網(wǎng)址﹑地址庫以及隊(duì)列。主要運(yùn)行過程如下[5-6]:①用戶向服務(wù)器發(fā)送檢索URL的請求;②服務(wù)器發(fā)送該請求到客戶端;③客戶端收到待檢索的URL列表后,下載并保存,提取新的URL;④將已訪問檢索的URL列表和新發(fā)現(xiàn)的URL列表發(fā)送至服務(wù)器;⑤服務(wù)器從庫中提取待訪問檢索URL列表,循環(huán)直到待訪問檢索URL列表為空停止。
網(wǎng)絡(luò)信息抽取需要分析頁面結(jié)構(gòu),利用網(wǎng)絡(luò)爬蟲執(zhí)行,工作原理是依照網(wǎng)頁層次化結(jié)構(gòu)進(jìn)行分析,如元素標(biāo)記,可通過A元素﹑href元素標(biāo)簽等數(shù)量,對網(wǎng)頁的結(jié)構(gòu)進(jìn)行定量分析,甄別待抽取的主題文本網(wǎng)頁與普通非主題網(wǎng)頁的差別,歸納特征。
多特征融合是特征選擇提取的基礎(chǔ)上,融合多個(gè)特征。
特征選擇提取進(jìn)行預(yù)處理,具體是從原始文本數(shù)據(jù)集中,通過分詞處理﹑去停用詞﹑統(tǒng)計(jì)詞頻等,得到低維向量,進(jìn)而提取特征,如圖2。
圖2 特征選擇提取流程
融合特征即將所有特征向量放在一起,用數(shù)學(xué)方法變換為全新的特征表達(dá)方式。
可建立1﹑2﹑3﹑4…等多個(gè)特征,例如1代表是否包含關(guān)鍵詞a,2代表是否包含關(guān)鍵詞b,3代表網(wǎng)頁是否跳轉(zhuǎn),4代表網(wǎng)頁是否包含特殊標(biāo)記……根據(jù)實(shí)際抽取需求建立多個(gè)特征,形成特征向量,作為后期深度學(xué)習(xí)的輸入。
在上述構(gòu)建用戶興趣子樹和特征提取的基礎(chǔ)上,進(jìn)行初步知識表示﹑標(biāo)準(zhǔn)知識表示。已有知識來自原始數(shù)據(jù),即結(jié)構(gòu)化數(shù)據(jù)﹑半結(jié)構(gòu)化數(shù)據(jù)﹑非結(jié)構(gòu)化數(shù)據(jù),經(jīng)過實(shí)體抽取﹑關(guān)系抽取等理解用戶興趣,融合多特征,輸入深度學(xué)習(xí)框架進(jìn)行訓(xùn)練。經(jīng)分析得到標(biāo)準(zhǔn)知識表示,從而經(jīng)過挖掘抽取文本信息。
深度學(xué)習(xí)框架采用CNN深度學(xué)習(xí)模型。分為輸入層﹑卷積層﹑池化層﹑激活函數(shù)層﹑全連接層,主要如下。
輸入層:將特征進(jìn)行標(biāo)準(zhǔn)處理﹑完成輸入的層。
卷積層:是用以特征提取的層。
池化層:進(jìn)行特征壓縮,降低維度。
激活函數(shù)層:運(yùn)用上述模型進(jìn)行分類達(dá)到抽取主題文本信息的目的。
用對比實(shí)驗(yàn)比較不同方法的效果。實(shí)驗(yàn)一針對“流浪地球”主題,分析關(guān)鍵詞法﹑用戶興趣法﹑基于用戶興趣和多特征融合抽取方法的結(jié)果。橫坐標(biāo)表示返回結(jié)果的PR值(PageRank)前N個(gè)網(wǎng)頁,縱坐標(biāo)表示前N個(gè)網(wǎng)頁中符合要求的網(wǎng)頁數(shù)量。圖3整體反映返回前N個(gè)網(wǎng)頁滿足要求的網(wǎng)頁數(shù)量情況。隨著返回結(jié)果的頁面數(shù)量增加,基于用戶興趣和多特征融合抽取的方法符合要求的網(wǎng)頁數(shù)比其他二者方法高。
實(shí)驗(yàn)二對比不同主題的準(zhǔn)確率,結(jié)果表明,基于用戶興趣和多特征融合的方法比用戶興趣法的F值提高了11%以上,驗(yàn)證了該方法的有效性;本文法比關(guān)鍵詞法F值提升了16%,如圖4??梢娫摲椒ㄔ谒惴尚行院托Ч暇鶅?yōu)于其他方法。
圖4 不同方法的F值對比
針對現(xiàn)階段文本分析大多存在不準(zhǔn)不全的問題,本文提出基于用戶興趣子樹和多特征融合的信息抽取方法,依據(jù)用戶興趣子樹獲得知識,并融合多種特征,輸入深度學(xué)習(xí)模型進(jìn)行訓(xùn)練。通過實(shí)例闡述說明該方法的實(shí)施過程。對比關(guān)鍵詞法和用戶興趣法,實(shí)驗(yàn)表明本文提出的方法在信息抽取的返回結(jié)果數(shù)量和F值方面明顯提高。究其原因是本文的方法充分刻畫用戶在信息獲取全過程的興趣(行為習(xí)慣),對語義進(jìn)行關(guān)聯(lián)擴(kuò)展,并通過網(wǎng)頁的特征進(jìn)行本體和位置多維度的分析,能夠全面動態(tài)地反映抽取全過程。未來針對文本語義分析信息抽取這一領(lǐng)域,將考慮整合優(yōu)化訓(xùn)練模型,豐富應(yīng)用場景和適用領(lǐng)域,形成更為量化立體的抽取評價(jià)體系,以進(jìn)一步提升實(shí)際識別效果。