亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于用戶興趣和多特征融合的信息抽取

        2023-11-16 08:51:02劉麗娟
        科學(xué)與信息化 2023年21期
        關(guān)鍵詞:特征文本融合

        劉麗娟

        國家計(jì)算機(jī)網(wǎng)絡(luò)應(yīng)急協(xié)調(diào)處理中心上海分中心 上海 201315

        引言

        隨著網(wǎng)絡(luò)迅猛發(fā)展,大量負(fù)面網(wǎng)絡(luò)信息井噴式爆發(fā)。如何從大量網(wǎng)絡(luò)文本中進(jìn)行信息的有效識別是一個(gè)復(fù)雜的課題。眾多方法中,多標(biāo)簽分類法[1]容易遺漏關(guān)鍵信息,Simrank法[2]僅考慮節(jié)點(diǎn)與邊的連接數(shù),忽略不同的邊將造成不同權(quán)重值,且耗時(shí)長,導(dǎo)致準(zhǔn)確率計(jì)算不準(zhǔn)的問題。

        針對上述識別率低等問題,本文提出基于用戶興趣和多特征融合的信息抽取方法。在用戶興趣分析中,根據(jù)用戶行為習(xí)慣,利用本體理論建立符合用戶行為習(xí)慣的用戶興趣子樹,充分挖掘用戶的查詢興趣,為精準(zhǔn)抽取文本結(jié)果做基礎(chǔ);在多特征融合分析中,首先對文本進(jìn)行降維,提取特征,其次,將所有特征向量作為模型框架輸入,最后,運(yùn)用CNN(Convolutional Neural Networks,卷積神經(jīng)網(wǎng)絡(luò))深度學(xué)習(xí)模型訓(xùn)練,輸出文本信息篩選結(jié)果。創(chuàng)新點(diǎn)在于①網(wǎng)頁綜合本體和位置兩種方式進(jìn)行分析,提升分析的全面性和豐富性;②結(jié)合用戶行為搜索日志,將用戶興趣拆分,利用本體理論形成用戶興趣子樹進(jìn)行分析,使理解主題信息的角度更為全面;③挖掘多特征,綜合考慮實(shí)際需求挖掘需要的特征,融合分析文本信息。實(shí)驗(yàn)結(jié)果表明,本文基于用戶興趣和多特征融合的信息抽取方法不僅在相關(guān)主題的信息抽取文本返回結(jié)果中數(shù)量較高,更在主題識別的準(zhǔn)確率F值度量上取得一定程度的提升,能夠更準(zhǔn)確地反映出網(wǎng)頁信息,抽取文本信息。

        1 信息抽取

        信息抽取是按照特定需求從信息文本中進(jìn)行抽取,本文研究的是針對Web信息抽取。目前針對Web信息抽取主要有兩種方式:①基于本體的信息抽取,將網(wǎng)頁信息用本體體征維度進(jìn)行標(biāo)識,對網(wǎng)頁內(nèi)容進(jìn)行分析;②基于位置的信息抽取,依賴網(wǎng)頁結(jié)構(gòu),可準(zhǔn)確定位位置,在位置不變下準(zhǔn)確度較高。本文綜合本體和位置進(jìn)行分析,提升分析效果。

        2 基于用戶興趣的分析方法

        針對信息抽取的分析需求,借助本體構(gòu)建用戶興趣子樹,以供擴(kuò)展查詢。

        2.1 用戶興趣子樹

        本體是特定領(lǐng)域中存在的對象類型或概念及其屬性和相互關(guān)系[3],具備結(jié)構(gòu)化特點(diǎn)。運(yùn)用本體,能全面清晰描述用戶興趣的主體關(guān)系和關(guān)聯(lián)關(guān)系,體現(xiàn)用戶最直接最關(guān)心的需求。

        構(gòu)建興趣生成樹[4]方法,提出基于領(lǐng)域本體三階段用戶興趣子樹。具體步驟是分析用戶提交的查詢,包括但不限于查詢關(guān)鍵詞等用戶行為日志,并映射為本體中的概念,選取用戶興趣子樹的基本節(jié)點(diǎn)﹑非基本節(jié)點(diǎn)和根節(jié)點(diǎn),構(gòu)建候選用戶興趣子樹,并消除歧義,如圖1。

        圖1 用戶興趣樹構(gòu)造

        用戶行為日志能夠反映用戶興趣。例如,第一次查詢“新東方”,用戶僅點(diǎn)擊2次新東方廚師培訓(xùn)的網(wǎng)頁,點(diǎn)擊5次新東方英語培訓(xùn)的網(wǎng)頁;第二次查詢“新東方”,用戶點(diǎn)擊5次新東方英語培訓(xùn)的詳情介紹網(wǎng)頁;第三次查詢“新東方”,用戶點(diǎn)擊8次新東方英語培訓(xùn)的上課鏈接網(wǎng)頁。

        通過這三次用戶日志,可知用戶興趣是查找新東方英語培訓(xùn)的相關(guān)信息,而不是新東方廚師培訓(xùn)機(jī)構(gòu)的信息。將用戶行為依次構(gòu)建到用戶興趣子樹中,能針對關(guān)鍵詞挖掘用戶查詢的精準(zhǔn)興趣,為后續(xù)信息準(zhǔn)確抽取提供基礎(chǔ)。

        3 多特征融合的分析

        3.1 爬蟲工作原理

        網(wǎng)頁信息抽取由爬蟲實(shí)現(xiàn),服務(wù)節(jié)點(diǎn)包括已訪問﹑未訪問﹑待訪問的網(wǎng)址﹑地址庫以及隊(duì)列。主要運(yùn)行過程如下[5-6]:①用戶向服務(wù)器發(fā)送檢索URL的請求;②服務(wù)器發(fā)送該請求到客戶端;③客戶端收到待檢索的URL列表后,下載并保存,提取新的URL;④將已訪問檢索的URL列表和新發(fā)現(xiàn)的URL列表發(fā)送至服務(wù)器;⑤服務(wù)器從庫中提取待訪問檢索URL列表,循環(huán)直到待訪問檢索URL列表為空停止。

        3.2 基于位置的分析

        網(wǎng)絡(luò)信息抽取需要分析頁面結(jié)構(gòu),利用網(wǎng)絡(luò)爬蟲執(zhí)行,工作原理是依照網(wǎng)頁層次化結(jié)構(gòu)進(jìn)行分析,如元素標(biāo)記,可通過A元素﹑href元素標(biāo)簽等數(shù)量,對網(wǎng)頁的結(jié)構(gòu)進(jìn)行定量分析,甄別待抽取的主題文本網(wǎng)頁與普通非主題網(wǎng)頁的差別,歸納特征。

        3.3 多特征融合

        多特征融合是特征選擇提取的基礎(chǔ)上,融合多個(gè)特征。

        特征選擇提取進(jìn)行預(yù)處理,具體是從原始文本數(shù)據(jù)集中,通過分詞處理﹑去停用詞﹑統(tǒng)計(jì)詞頻等,得到低維向量,進(jìn)而提取特征,如圖2。

        圖2 特征選擇提取流程

        融合特征即將所有特征向量放在一起,用數(shù)學(xué)方法變換為全新的特征表達(dá)方式。

        可建立1﹑2﹑3﹑4…等多個(gè)特征,例如1代表是否包含關(guān)鍵詞a,2代表是否包含關(guān)鍵詞b,3代表網(wǎng)頁是否跳轉(zhuǎn),4代表網(wǎng)頁是否包含特殊標(biāo)記……根據(jù)實(shí)際抽取需求建立多個(gè)特征,形成特征向量,作為后期深度學(xué)習(xí)的輸入。

        3.4 基本框架

        在上述構(gòu)建用戶興趣子樹和特征提取的基礎(chǔ)上,進(jìn)行初步知識表示﹑標(biāo)準(zhǔn)知識表示。已有知識來自原始數(shù)據(jù),即結(jié)構(gòu)化數(shù)據(jù)﹑半結(jié)構(gòu)化數(shù)據(jù)﹑非結(jié)構(gòu)化數(shù)據(jù),經(jīng)過實(shí)體抽取﹑關(guān)系抽取等理解用戶興趣,融合多特征,輸入深度學(xué)習(xí)框架進(jìn)行訓(xùn)練。經(jīng)分析得到標(biāo)準(zhǔn)知識表示,從而經(jīng)過挖掘抽取文本信息。

        深度學(xué)習(xí)框架采用CNN深度學(xué)習(xí)模型。分為輸入層﹑卷積層﹑池化層﹑激活函數(shù)層﹑全連接層,主要如下。

        輸入層:將特征進(jìn)行標(biāo)準(zhǔn)處理﹑完成輸入的層。

        卷積層:是用以特征提取的層。

        池化層:進(jìn)行特征壓縮,降低維度。

        激活函數(shù)層:運(yùn)用上述模型進(jìn)行分類達(dá)到抽取主題文本信息的目的。

        4 實(shí)驗(yàn)分析

        用對比實(shí)驗(yàn)比較不同方法的效果。實(shí)驗(yàn)一針對“流浪地球”主題,分析關(guān)鍵詞法﹑用戶興趣法﹑基于用戶興趣和多特征融合抽取方法的結(jié)果。橫坐標(biāo)表示返回結(jié)果的PR值(PageRank)前N個(gè)網(wǎng)頁,縱坐標(biāo)表示前N個(gè)網(wǎng)頁中符合要求的網(wǎng)頁數(shù)量。圖3整體反映返回前N個(gè)網(wǎng)頁滿足要求的網(wǎng)頁數(shù)量情況。隨著返回結(jié)果的頁面數(shù)量增加,基于用戶興趣和多特征融合抽取的方法符合要求的網(wǎng)頁數(shù)比其他二者方法高。

        實(shí)驗(yàn)二對比不同主題的準(zhǔn)確率,結(jié)果表明,基于用戶興趣和多特征融合的方法比用戶興趣法的F值提高了11%以上,驗(yàn)證了該方法的有效性;本文法比關(guān)鍵詞法F值提升了16%,如圖4??梢娫摲椒ㄔ谒惴尚行院托Ч暇鶅?yōu)于其他方法。

        圖4 不同方法的F值對比

        5 結(jié)束語

        針對現(xiàn)階段文本分析大多存在不準(zhǔn)不全的問題,本文提出基于用戶興趣子樹和多特征融合的信息抽取方法,依據(jù)用戶興趣子樹獲得知識,并融合多種特征,輸入深度學(xué)習(xí)模型進(jìn)行訓(xùn)練。通過實(shí)例闡述說明該方法的實(shí)施過程。對比關(guān)鍵詞法和用戶興趣法,實(shí)驗(yàn)表明本文提出的方法在信息抽取的返回結(jié)果數(shù)量和F值方面明顯提高。究其原因是本文的方法充分刻畫用戶在信息獲取全過程的興趣(行為習(xí)慣),對語義進(jìn)行關(guān)聯(lián)擴(kuò)展,并通過網(wǎng)頁的特征進(jìn)行本體和位置多維度的分析,能夠全面動態(tài)地反映抽取全過程。未來針對文本語義分析信息抽取這一領(lǐng)域,將考慮整合優(yōu)化訓(xùn)練模型,豐富應(yīng)用場景和適用領(lǐng)域,形成更為量化立體的抽取評價(jià)體系,以進(jìn)一步提升實(shí)際識別效果。

        猜你喜歡
        特征文本融合
        村企黨建聯(lián)建融合共贏
        融合菜
        從創(chuàng)新出發(fā),與高考數(shù)列相遇、融合
        《融合》
        如何表達(dá)“特征”
        在808DA上文本顯示的改善
        不忠誠的四個(gè)特征
        基于doc2vec和TF-IDF的相似文本識別
        電子制作(2018年18期)2018-11-14 01:48:06
        抓住特征巧觀察
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        精品偷拍被偷拍在线观看| 91国内偷拍一区二区三区| 在线观看在线观看一区二区三区| 亚洲av色欲色欲www| 日本成本人三级在线观看| 久草午夜视频| 黑丝国产精品一区二区| 成人av在线久色播放| 熟妇激情内射com| 日本VA欧美VA精品发布| 日本女优一区二区在线免费观看| 亚洲一区二区三区精品视频 | 国产一区二区在线观看av| 凌辱人妻中文字幕一区| 狠狠噜天天噜日日噜视频麻豆| 亚洲av日韩av天堂久久| 麻豆国产成人av高清在线观看| 一区二区三区国产高潮| 国产自拍91精品视频| 亚洲 中文 欧美 日韩 在线| 中文字幕亚洲欧美日韩在线不卡| 久久精品有码中文字幕1| 国产三级黄色大片在线免费看| 香港三级日本三级a视频| 亚洲免费黄色| 丝袜美腿av免费在线观看| 国产小视频在线看不卡| 国产精品久久久久av福利动漫| 国产熟女精品一区二区三区| 蜜桃成熟时日本一区二区| 乱中年女人伦| 亚洲av国产av综合av| 日本熟妇高潮爽视频在线观看| 久久久精品国产性黑人| 午夜亚洲av日韩av无码大全| 国模无码人体一区二区| av在线免费观看你懂的| 精品国产三级a在线观看不卡| 被黑人猛躁10次高潮视频| 亚洲欧洲久久久精品| 中文字幕日韩精品人妻久久久|