亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于用戶興趣和多特征融合的信息抽取

2023-11-16 08:51:02劉麗娟

科學(xué)與信息化 2023年21期

劉麗娟

國家計(jì)算機(jī)網(wǎng)絡(luò)應(yīng)急協(xié)調(diào)處理中心上海分中心上海 201315

引言

隨著網(wǎng)絡(luò)迅猛發(fā)展，大量負(fù)面網(wǎng)絡(luò)信息井噴式爆發(fā)。如何從大量網(wǎng)絡(luò)文本中進(jìn)行信息的有效識別是一個(gè)復(fù)雜的課題。眾多方法中，多標(biāo)簽分類法[1]容易遺漏關(guān)鍵信息，Simrank法[2]僅考慮節(jié)點(diǎn)與邊的連接數(shù)，忽略不同的邊將造成不同權(quán)重值，且耗時(shí)長，導(dǎo)致準(zhǔn)確率計(jì)算不準(zhǔn)的問題。

針對上述識別率低等問題，本文提出基于用戶興趣和多特征融合的信息抽取方法。在用戶興趣分析中，根據(jù)用戶行為習(xí)慣，利用本體理論建立符合用戶行為習(xí)慣的用戶興趣子樹，充分挖掘用戶的查詢興趣，為精準(zhǔn)抽取文本結(jié)果做基礎(chǔ)；在多特征融合分析中，首先對文本進(jìn)行降維，提取特征，其次，將所有特征向量作為模型框架輸入，最后，運(yùn)用CNN（Convolutional Neural Networks，卷積神經(jīng)網(wǎng)絡(luò)）深度學(xué)習(xí)模型訓(xùn)練，輸出文本信息篩選結(jié)果。創(chuàng)新點(diǎn)在于①網(wǎng)頁綜合本體和位置兩種方式進(jìn)行分析，提升分析的全面性和豐富性；②結(jié)合用戶行為搜索日志，將用戶興趣拆分，利用本體理論形成用戶興趣子樹進(jìn)行分析，使理解主題信息的角度更為全面；③挖掘多特征，綜合考慮實(shí)際需求挖掘需要的特征，融合分析文本信息。實(shí)驗(yàn)結(jié)果表明，本文基于用戶興趣和多特征融合的信息抽取方法不僅在相關(guān)主題的信息抽取文本返回結(jié)果中數(shù)量較高，更在主題識別的準(zhǔn)確率F值度量上取得一定程度的提升，能夠更準(zhǔn)確地反映出網(wǎng)頁信息，抽取文本信息。

1 信息抽取

信息抽取是按照特定需求從信息文本中進(jìn)行抽取，本文研究的是針對Web信息抽取。目前針對Web信息抽取主要有兩種方式：①基于本體的信息抽取，將網(wǎng)頁信息用本體體征維度進(jìn)行標(biāo)識，對網(wǎng)頁內(nèi)容進(jìn)行分析；②基于位置的信息抽取，依賴網(wǎng)頁結(jié)構(gòu)，可準(zhǔn)確定位位置，在位置不變下準(zhǔn)確度較高。本文綜合本體和位置進(jìn)行分析，提升分析效果。

2 基于用戶興趣的分析方法

針對信息抽取的分析需求，借助本體構(gòu)建用戶興趣子樹，以供擴(kuò)展查詢。

2.1 用戶興趣子樹

本體是特定領(lǐng)域中存在的對象類型或概念及其屬性和相互關(guān)系[3]，具備結(jié)構(gòu)化特點(diǎn)。運(yùn)用本體，能全面清晰描述用戶興趣的主體關(guān)系和關(guān)聯(lián)關(guān)系，體現(xiàn)用戶最直接最關(guān)心的需求。

構(gòu)建興趣生成樹[4]方法，提出基于領(lǐng)域本體三階段用戶興趣子樹。具體步驟是分析用戶提交的查詢，包括但不限于查詢關(guān)鍵詞等用戶行為日志，并映射為本體中的概念，選取用戶興趣子樹的基本節(jié)點(diǎn)﹑非基本節(jié)點(diǎn)和根節(jié)點(diǎn)，構(gòu)建候選用戶興趣子樹，并消除歧義，如圖1。

圖1 用戶興趣樹構(gòu)造

用戶行為日志能夠反映用戶興趣。例如，第一次查詢“新東方”，用戶僅點(diǎn)擊2次新東方廚師培訓(xùn)的網(wǎng)頁，點(diǎn)擊5次新東方英語培訓(xùn)的網(wǎng)頁；第二次查詢“新東方”，用戶點(diǎn)擊5次新東方英語培訓(xùn)的詳情介紹網(wǎng)頁；第三次查詢“新東方”，用戶點(diǎn)擊8次新東方英語培訓(xùn)的上課鏈接網(wǎng)頁。

通過這三次用戶日志，可知用戶興趣是查找新東方英語培訓(xùn)的相關(guān)信息，而不是新東方廚師培訓(xùn)機(jī)構(gòu)的信息。將用戶行為依次構(gòu)建到用戶興趣子樹中，能針對關(guān)鍵詞挖掘用戶查詢的精準(zhǔn)興趣，為后續(xù)信息準(zhǔn)確抽取提供基礎(chǔ)。

3 多特征融合的分析

3.1 爬蟲工作原理

網(wǎng)頁信息抽取由爬蟲實(shí)現(xiàn)，服務(wù)節(jié)點(diǎn)包括已訪問﹑未訪問﹑待訪問的網(wǎng)址﹑地址庫以及隊(duì)列。主要運(yùn)行過程如下[5-6]：①用戶向服務(wù)器發(fā)送檢索URL的請求；②服務(wù)器發(fā)送該請求到客戶端；③客戶端收到待檢索的URL列表后，下載并保存，提取新的URL；④將已訪問檢索的URL列表和新發(fā)現(xiàn)的URL列表發(fā)送至服務(wù)器；⑤服務(wù)器從庫中提取待訪問檢索URL列表，循環(huán)直到待訪問檢索URL列表為空停止。

3.2 基于位置的分析

網(wǎng)絡(luò)信息抽取需要分析頁面結(jié)構(gòu)，利用網(wǎng)絡(luò)爬蟲執(zhí)行，工作原理是依照網(wǎng)頁層次化結(jié)構(gòu)進(jìn)行分析，如元素標(biāo)記，可通過A元素﹑href元素標(biāo)簽等數(shù)量，對網(wǎng)頁的結(jié)構(gòu)進(jìn)行定量分析，甄別待抽取的主題文本網(wǎng)頁與普通非主題網(wǎng)頁的差別，歸納特征。

3.3 多特征融合

多特征融合是特征選擇提取的基礎(chǔ)上，融合多個(gè)特征。

特征選擇提取進(jìn)行預(yù)處理，具體是從原始文本數(shù)據(jù)集中，通過分詞處理﹑去停用詞﹑統(tǒng)計(jì)詞頻等，得到低維向量，進(jìn)而提取特征，如圖2。

圖2 特征選擇提取流程

融合特征即將所有特征向量放在一起，用數(shù)學(xué)方法變換為全新的特征表達(dá)方式。

可建立1﹑2﹑3﹑4…等多個(gè)特征，例如1代表是否包含關(guān)鍵詞a，2代表是否包含關(guān)鍵詞b，3代表網(wǎng)頁是否跳轉(zhuǎn)，4代表網(wǎng)頁是否包含特殊標(biāo)記……根據(jù)實(shí)際抽取需求建立多個(gè)特征，形成特征向量，作為后期深度學(xué)習(xí)的輸入。

3.4 基本框架

在上述構(gòu)建用戶興趣子樹和特征提取的基礎(chǔ)上，進(jìn)行初步知識表示﹑標(biāo)準(zhǔn)知識表示。已有知識來自原始數(shù)據(jù)，即結(jié)構(gòu)化數(shù)據(jù)﹑半結(jié)構(gòu)化數(shù)據(jù)﹑非結(jié)構(gòu)化數(shù)據(jù)，經(jīng)過實(shí)體抽取﹑關(guān)系抽取等理解用戶興趣，融合多特征，輸入深度學(xué)習(xí)框架進(jìn)行訓(xùn)練。經(jīng)分析得到標(biāo)準(zhǔn)知識表示，從而經(jīng)過挖掘抽取文本信息。

深度學(xué)習(xí)框架采用CNN深度學(xué)習(xí)模型。分為輸入層﹑卷積層﹑池化層﹑激活函數(shù)層﹑全連接層，主要如下。

輸入層：將特征進(jìn)行標(biāo)準(zhǔn)處理﹑完成輸入的層。

卷積層：是用以特征提取的層。

池化層：進(jìn)行特征壓縮，降低維度。

激活函數(shù)層：運(yùn)用上述模型進(jìn)行分類達(dá)到抽取主題文本信息的目的。

4 實(shí)驗(yàn)分析

用對比實(shí)驗(yàn)比較不同方法的效果。實(shí)驗(yàn)一針對“流浪地球”主題，分析關(guān)鍵詞法﹑用戶興趣法﹑基于用戶興趣和多特征融合抽取方法的結(jié)果。橫坐標(biāo)表示返回結(jié)果的PR值（PageRank）前N個(gè)網(wǎng)頁，縱坐標(biāo)表示前N個(gè)網(wǎng)頁中符合要求的網(wǎng)頁數(shù)量。圖3整體反映返回前N個(gè)網(wǎng)頁滿足要求的網(wǎng)頁數(shù)量情況。隨著返回結(jié)果的頁面數(shù)量增加，基于用戶興趣和多特征融合抽取的方法符合要求的網(wǎng)頁數(shù)比其他二者方法高。

實(shí)驗(yàn)二對比不同主題的準(zhǔn)確率，結(jié)果表明，基于用戶興趣和多特征融合的方法比用戶興趣法的F值提高了11%以上，驗(yàn)證了該方法的有效性；本文法比關(guān)鍵詞法F值提升了16%，如圖4?？梢娫摲椒ㄔ谒惴尚行院托Ч暇鶅?yōu)于其他方法。

圖4 不同方法的F值對比

5 結(jié)束語

針對現(xiàn)階段文本分析大多存在不準(zhǔn)不全的問題，本文提出基于用戶興趣子樹和多特征融合的信息抽取方法，依據(jù)用戶興趣子樹獲得知識，并融合多種特征，輸入深度學(xué)習(xí)模型進(jìn)行訓(xùn)練。通過實(shí)例闡述說明該方法的實(shí)施過程。對比關(guān)鍵詞法和用戶興趣法，實(shí)驗(yàn)表明本文提出的方法在信息抽取的返回結(jié)果數(shù)量和F值方面明顯提高。究其原因是本文的方法充分刻畫用戶在信息獲取全過程的興趣（行為習(xí)慣），對語義進(jìn)行關(guān)聯(lián)擴(kuò)展，并通過網(wǎng)頁的特征進(jìn)行本體和位置多維度的分析，能夠全面動態(tài)地反映抽取全過程。未來針對文本語義分析信息抽取這一領(lǐng)域，將考慮整合優(yōu)化訓(xùn)練模型，豐富應(yīng)用場景和適用領(lǐng)域，形成更為量化立體的抽取評價(jià)體系，以進(jìn)一步提升實(shí)際識別效果。