亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于文本語義的SA-LDA增量爬取圖書選擇與推介

        2020-07-21 03:31:24
        惠州學院學報 2020年3期
        關(guān)鍵詞:主題詞增量網(wǎng)頁

        藍 燕

        (惠州學院 圖書館,廣東 惠州 516007)

        隨著本體的應(yīng)用不斷深入,人工智能、知識工程和圖書情報領(lǐng)域的研究大都集中于知識概念表示和知識組織體系方面的研究[1].然而,在圖書情報領(lǐng)域,本體通常關(guān)聯(lián)的是有關(guān)某一學科或某一領(lǐng)域的術(shù)語詞表,并描述術(shù)語之間關(guān)系的規(guī)范和說明,這為領(lǐng)域本體構(gòu)建行業(yè)知識庫提供了保證.

        傳統(tǒng)的網(wǎng)絡(luò)爬蟲較少從主題相關(guān)度與時間等去采集頁面,從而導(dǎo)致計算資源和網(wǎng)絡(luò)帶寬的能耗.主題網(wǎng)絡(luò)爬蟲則更加關(guān)注爬取與預(yù)先定義主題相關(guān)度較高的網(wǎng)頁,不但能節(jié)省網(wǎng)絡(luò)資源且能進一步提高整個數(shù)據(jù)爬取的效率[2].為快速而精準地響應(yīng)圖書采購前推介服務(wù)的請求,全面提升計算效率,基于文本語義的增量爬取是關(guān)鍵[3].然而,實現(xiàn)語義Web的前提是透過本體語言O(shè)WL(Web Ontology Language)來描述特定領(lǐng)域中的概念及其關(guān)系與公理,通過對這些概念和關(guān)系交互與推理,更好地為實現(xiàn)語義信息搜索提供可靠的服務(wù).因此探討一種能進行語義搜索與推理的知識庫就顯得非常關(guān)鍵,而本體層在提供語義級的Web共享與實現(xiàn)至關(guān)重要.到目前為止,關(guān)于語義Web相關(guān)的研究很多.有以識別網(wǎng)絡(luò)論壇中的敏感話題為目標,根據(jù)網(wǎng)絡(luò)敏感話題具有先驗知識和態(tài)度傾向性等特點,提出了基于傾向性詞典的特征提取方法,用于提高網(wǎng)絡(luò)敏感話題的識別;也有提出基于語義學習對象組合的框架和算法,涉及到本體的元數(shù)據(jù)且能更加易于計算的方式動態(tài)組合描述邏輯中的推理服務(wù);還有提出了支持多媒體應(yīng)用、上下文感知的個性化搜索的架構(gòu),用于內(nèi)容推薦[4].然而,針對當前語義檢索建立在已有本體的基礎(chǔ)之上,缺乏與當今不斷涌現(xiàn)的網(wǎng)絡(luò)資源自適應(yīng)動態(tài)變化的過程,因此必須探討增量爬取的問題,研究如何在現(xiàn)有互聯(lián)網(wǎng)資源中針對行業(yè)領(lǐng)域術(shù)語爬取構(gòu)建本體庫的問題.一般地,可通過定量地計算主題詞間的相關(guān)值確定它們的類屬關(guān)系,并能確保同一類中的各項指標盡可能相似,從而達到合理分類的目的[5].

        目前圖書館的采購活動通常是依賴書商推介最新出版書目,缺乏對當前新技術(shù)、新領(lǐng)域的引導(dǎo).隨著互聯(lián)網(wǎng)技術(shù)的進一步應(yīng)用,以網(wǎng)絡(luò)大數(shù)據(jù)為基礎(chǔ),透過主題關(guān)鍵詞的語義增量爬取進而實現(xiàn)書目的推介,構(gòu)建領(lǐng)域?qū)I(yè)技術(shù)語義庫,通過已有書目進行相似度、相關(guān)度的定量計算,最終實現(xiàn)多目標決策算法選擇差異性大且出版日期新的圖書.

        1 文本語義增量學習模型

        針對互聯(lián)網(wǎng)上實時動態(tài)變化的大數(shù)據(jù),增量爬取與更新當前語義庫數(shù)據(jù)就顯得非常重要.當前,研究人員相繼提出了多種增量式大數(shù)據(jù)特征學習模型.其中,在線學習的方式獲得了學術(shù)界的巨大關(guān)注[6].這類模型每學習一個實例便更新一次學習網(wǎng)絡(luò)的參數(shù),能不斷獲取新數(shù)據(jù)的特征.隨著網(wǎng)絡(luò)規(guī)模的擴大,學習模型必須考量訓練速度、學習能力和泛化能力幾大因素.因此必須選擇一種基于文本語義的增量學習模型,來改進文本語義歸屬的識別模型,通過收集用戶反饋數(shù)據(jù),提取其中有價值的信息來更新領(lǐng)域語義庫.由此,文本語義相似度計算就顯得至關(guān)重要.

        通常,基于語法的相似度計算是建立在詞形比較的基礎(chǔ)上,實現(xiàn)的匹配較為淺顯,不能區(qū)分概念的實際語義,因此論文以自然語言本體為橋梁,通過對本體概念的語義解釋,實現(xiàn)基于語義的本體概念的相似度計算[4].

        1.1 傳統(tǒng)TF-IDF方法

        基于文本的檢索方法通常指的是查詢關(guān)鍵詞與文本之間的相關(guān)性.根據(jù)向量空間模型(vector space model),關(guān)鍵詞在web文檔中的重要性用該單詞的TFIDF值來度量.假設(shè)單詞w來自第i個web文檔di中,單詞w的TF-IDF值tfIdf(w)計算公式為[7]:

        其中,freq(w,di)是單詞 w 在文檔 di中的詞頻,N是文檔的總數(shù),num(w)是web文檔中含有單詞w的總數(shù).由于TF-IDF方法來源于文本處理領(lǐng)域,tfIdf(w)并不能直接地度量單詞和主題之間的相關(guān)性.因此,需要進一步挖掘單詞和主題之間語義聯(lián)系.

        1.2 自適應(yīng)最優(yōu)LDA模型

        近年來,統(tǒng)計主題模型在文本分類與信息檢索等領(lǐng)域獲得了廣泛的應(yīng)用,主要是針對文本集合通過參數(shù)估計提取一個低維的多項式分布,從而計算詞的相關(guān)性 .Self-AdaptationLatent Dirichlet Allocation(SALDA)從Dirichlet分布中抽樣產(chǎn)生一個文本特定的主題多項式分布,然后對這些主題反復(fù)抽樣產(chǎn)生文本中的每個詞.通過采用圖的形式模擬LDA中主題的產(chǎn)生過程,發(fā)現(xiàn)新的主題通常由造成主題之間相關(guān)性的詞(主題分布的重疊區(qū)域)產(chǎn)生[8-10].然而,文中提及的行業(yè)術(shù)語正是構(gòu)建主題的相關(guān)詞匯,因此完全可以借鑒基于HDP(Hierarchical Dirichlet Process)的最優(yōu)LDA模型選擇算法,統(tǒng)計主題詞的概率,選擇相關(guān)的詞實現(xiàn)增量爬取的過程.

        LDA認為主題是固定詞表上的一個多項式分布,作為一種產(chǎn)生式模型,可用LDA提取隱含的語義結(jié)構(gòu)和文檔表示.然而,在LDA中,主題服從Dirichlet分布,假定該分布建立在主題無關(guān)的基礎(chǔ)上,很多主題之間實際上是有關(guān)聯(lián)的.因此,這種假設(shè)與真實數(shù)據(jù)存在一定的距離,LDA將隨著主題數(shù)目K的改變較為靈敏,導(dǎo)致不能很好預(yù)測與其它主題相關(guān)的詞.Y.Teh運用HDP的非參數(shù)特性來解決LDA中主題數(shù)目的選?。?0].

        設(shè) di, dj為兩個文本,領(lǐng)域關(guān)鍵詞集合為{ k1, k2, k3,…wjk≤k≤n分別為di和dj的第 k個領(lǐng)域關(guān)鍵詞特征項的權(quán)重,則文本di和dj的領(lǐng)域關(guān)鍵詞的相似度為,

        通常,主題詞相似度越小,模型最優(yōu).假定β矩陣中存在V維主題詞空間,用p( wvZi)表示主題向量,主題向量之間的相關(guān)性采用余弦距離計算,

        1.3 主題增量爬取

        伴隨著URL頁面數(shù)量不斷地增加,通過分類結(jié)構(gòu)記錄關(guān)于某一主題的上下文與外鏈接網(wǎng)頁的數(shù)量.文章采用該方法不斷合并與產(chǎn)生新的類別,僅需增加一個可以采用URL分類的方法實現(xiàn)增量爬取的算法,能夠識別新的網(wǎng)頁與經(jīng)常變更的網(wǎng)頁的算法,并更新已保存在本地數(shù)據(jù)庫中的網(wǎng)頁,便于減少爬取的次數(shù),從而實現(xiàn)多行業(yè)主題次類別的學習,避免在龐大網(wǎng)絡(luò)中重復(fù)主題類別的學習,其結(jié)構(gòu)圖如圖1所示.因此設(shè)計一個六元組:

        {URL-type,URL,Topic,Status,crawl-time}

        在指定爬取時間crawl-time,確定當前URL的狀態(tài)Status;且依據(jù)URL-type類型記錄搜索相關(guān)主題Topic的URL類型機器網(wǎng)址URL.

        圖1 URL增量爬取網(wǎng)頁結(jié)構(gòu)圖

        增量爬算法根據(jù)URL類別爬取Web網(wǎng)頁,如果URL類型為葉子URL,而且Status是新網(wǎng)頁的,那么這個頁面就會被爬取,還會記錄這個爬取的時間.同時,計算剛被爬取下來的頁面和已經(jīng)被爬取下來存儲到當?shù)財?shù)據(jù)庫中的屬于同類型頁面的爬取時間間隔.因此增量爬取的關(guān)鍵針對葉子頁面的就是關(guān)于主題詞頁面選取過程,具體見前一節(jié)的文本語義相似度計算.

        2 基于Entropy領(lǐng)域本體主題類的選擇與推介

        眾所都知,組成行業(yè)領(lǐng)域本體的主題詞很多.針對每一個主題,為避免大量的相似度距離計算,可以將其映射成為一類節(jié)點分布,通過計算主題的Entropy值實現(xiàn)層次聚類[9].

        定義2.1(本體信息熵)針對包含有W1,W2,…,Wn共n個詞匯的領(lǐng)域本體數(shù)據(jù)集S,設(shè)某詞匯V具有i個相互獨立的特征值{ v1, v2,… ,vi},主題詞vi在數(shù)據(jù)集S中出現(xiàn)的次數(shù)記為|vi|,屬于第 j類的實例個數(shù)記為|vij|,則本體詞匯vi的信息熵為:

        其中,pij= | vij||vi|是指在某詞匯V上具有本體特征值vi的樣本屬于類Ci的概率比重.當|vi|=|vij|時,S( vi) = 0 .

        定義2.2(平均相似度距離)設(shè)si,sj為任意兩個節(jié)點X,Y的領(lǐng)域本體集,si與sj具有n個獨立的特征值v1,v2,…,vn,則si與sj的相似度距離計算公式為:

        d( Y, X ) 為任意兩個主題詞間相同主題間的平均信息熵,采用兩節(jié)點間相同主題間的信息熵來衡量其相似程度.

        定義2.3(類屬可信度)假定Ci表示主題類別,R為需要識別的節(jié)點,在N個近鄰節(jié)點總數(shù)中,Xi屬于Ci類的節(jié)點,Ni為屬于Ci類的近鄰節(jié)點個數(shù).則 T ( Ci, R)為R對Ci的類屬可信度,計算公式為:

        參考文獻[3],基于Entrop信息熵的領(lǐng)域本體聚類算法包含如下步驟:

        (3)設(shè)定閾值范圍,合并距離范圍內(nèi)的主題節(jié)點為新的類別,新類屬子集為Cs={Ci∪ Ci+1};

        (4)循環(huán)計算新生成的類屬與其他各類屬間的距離;

        (5)通過聚類,確定各類屬節(jié)點為候選節(jié)點集.

        現(xiàn)有4類不同主題詞的節(jié)點,圖2(a)所示中黑色方塊為類屬請求主題節(jié)點,針對主題詞計算其信息熵,并為各主題詞聚類做準備,圖2(c-f)為屬性聚類后的中間結(jié)果,紅色圓圈標示的主題節(jié)點為各屬性的可選項,最后生成的圖2(b)所示的4類不同屬性節(jié)點候選集進行推介.

        圖2 主題詞聚類過程示例

        3 實例驗證與結(jié)論

        實驗過程從網(wǎng)頁爬取的角度出發(fā),通過計算指定的主題詞相關(guān)性,構(gòu)建關(guān)于主題詞的領(lǐng)域本體集合.然后通過領(lǐng)域本體和主題詞基于Entropy進行聚類,確定類屬關(guān)系,形成候選集從而實現(xiàn)推介.

        從Web上爬取與主題相關(guān)的數(shù)據(jù)資源,主要關(guān)注的是爬蟲獲取的主題資源的覆蓋率和主題資源的準確度[11].然而,考慮到預(yù)先無法預(yù)知各主題的分布情況,要準確計算關(guān)于主題搜索的覆蓋半徑存在一定的困難.因此,針對主題爬取實驗[12],可以把通過計算爬準率作為評價指標.

        現(xiàn)從搜狗網(wǎng)實驗室[13]提供的網(wǎng)頁數(shù)據(jù)中抽取了5425個正文內(nèi)容來驗證前面提出的理論和算法,其中包括大數(shù)據(jù)主題的正文內(nèi)容數(shù)3625個,其它主題的文本數(shù)目一共有1800個.選取主題詞并計算相應(yīng)的權(quán)值,對各網(wǎng)頁數(shù)據(jù)表示成向量空間;然后經(jīng)過以上領(lǐng)域主題的獲取方式,使用向量余弦距離度量大數(shù)據(jù)主題文本的相似度、向量間的相關(guān)性.以圖書采購的學科分類為例,針對學科類別,以各二級學科進行類屬劃分,與網(wǎng)頁數(shù)據(jù)中抽取主題詞進行比較,構(gòu)建學科本體庫.將傳統(tǒng)TF-IDF與該文采用的AS-LDA主題提取方法進行比較,在提取的主題數(shù)為5時,各類屬主題頁面提取的準確度如表1所示,相對應(yīng)的主題爬取精度隨著頁面數(shù)量的變化趨勢如圖3所示.

        表1 學科類別相關(guān)主題類屬主題數(shù)為5的準確度

        (續(xù)表1)

        圖3 主題提取算法爬取精度比較

        以語料庫為基礎(chǔ)的LDA文本建模,可以透過學科本體解析文本的主題,提取頁面主題.理論上LDA應(yīng)該具有其他模型所具有的建模速度,但是要提高主題詞提取的效率,必須輔以主題詞聚類的方法.因此,在采購圖書時,指定主題詞關(guān)鍵字后,可對主題應(yīng)該對學科類屬計算指定主題詞相似度、相關(guān)度從而進行聚類.通常,相似度計算主要反映的是關(guān)于主題關(guān)鍵字和樣本集中其他文本的相似程度,在設(shè)定的閾值范圍根據(jù)相似度實現(xiàn)類屬聚類,再通過Precision、Recall驗證計算方法的準確性.最后,將實驗結(jié)果按照召回率10%,20%,…,100%這十個點進行精確性統(tǒng)計,結(jié)果如表2所示.

        表2 三種相似度計算的召回率和精確率

        為更加直觀地描述相似度計算的關(guān)系,對上述數(shù)據(jù)進行分析,繪制了三種文本相似度計算的對比圖,如圖4所示.

        圖4 三種文本相似度計算的對比

        針對以上關(guān)于領(lǐng)域文本相似度計算的實驗,基于學科領(lǐng)域本體采用的AS-LDA算法相似度計算與傳統(tǒng)TF-IDF的主題詞的相似度計算在相同的召回率情況下,在文本相似度計算方面的準確率要高些.其主要是因為領(lǐng)域本體關(guān)鍵詞的向量空間模型和傳統(tǒng)的關(guān)鍵詞空間模型相比,更能表示領(lǐng)域文本的主題特征,可以降低特征向量的維數(shù),增加領(lǐng)域關(guān)鍵詞的權(quán)值;同時對領(lǐng)域關(guān)鍵詞向量進行上位概念的關(guān)鍵詞語義擴充,可縮小含有相同主題的文本的特征向量的距離,提高文本間的相似度.

        猜你喜歡
        主題詞增量網(wǎng)頁
        提質(zhì)和增量之間的“辯證”
        當代陜西(2022年6期)2022-04-19 12:12:22
        “價增量減”型應(yīng)用題點撥
        基于CSS的網(wǎng)頁導(dǎo)航欄的設(shè)計
        電子制作(2018年10期)2018-08-04 03:24:38
        基于URL和網(wǎng)頁類型的網(wǎng)頁信息采集研究
        電子制作(2017年2期)2017-05-17 03:54:56
        基于均衡增量近鄰查詢的位置隱私保護方法
        電信科學(2016年9期)2016-06-15 20:27:25
        網(wǎng)頁制作在英語教學中的應(yīng)用
        電子測試(2015年18期)2016-01-14 01:22:58
        德州儀器(TI)發(fā)布了一對32位增量-累加模數(shù)轉(zhuǎn)換器(ADC):ADS1262和ADS126
        我校學報第32卷第5期(2014年10月)平均每篇有3.04個21世紀的Ei主題詞
        我校學報第32卷第6期(2014年12月)平均每篇有3.00個21世紀的Ei主題詞
        2014年第16卷第1~4期主題詞索引
        免费视频无打码一区二区三区| 欧美疯狂做受xxxxx高潮| 熟妇无码AV| 亚洲va中文字幕欧美不卡| 免费蜜桃视频在线观看| 国产午夜视频在线观看.| 丰满少妇a级毛片| 久久老子午夜精品无码怎么打| 久久这里只精品国产2| 国产乱老熟视频乱老熟女1| 免费国产一区二区视频| 亚洲成av人片天堂网无码| 狠狠做深爱婷婷久久综合一区| AV无码中文字幕不卡一二三区| 亚洲一区二区女优av| 国产在线av一区二区| 成人免费a级毛片无码片2022| 日本亚洲色大成网站www久久| 国产成人亚洲精品77| 中文字幕久久熟女人妻av免费| 青青草小视频在线观看| 国产精品毛片无遮挡| 一本大道色婷婷在线| 制服丝袜人妻中出第一页| 麻豆精品国产免费av影片| 免费a级毛片在线播放| 色偷偷av男人的天堂| 国产精品亚洲片夜色在线| 麻豆激情视频在线观看| 一本大道道久久综合av| 亚洲春色在线视频| 国产aⅴ夜夜欢一区二区三区| 亚洲国产精品一区亚洲国产| 亚洲av网站在线观看一页| 免费成人在线电影| 含羞草亚洲AV无码久久精品| 在线看不卡的国产视频| 丝袜美腿亚洲第一免费| 日本亚洲欧美色视频在线播放| 亚洲AV毛片无码成人区httP| 超短裙老师在线观看一区二区|