亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        多特征融合的教育資源標簽生成算法

        2020-09-15 02:10:52文勇軍唐立軍
        計算機與現(xiàn)代化 2020年9期
        關(guān)鍵詞:分值語料庫網(wǎng)頁

        李 雯,文勇軍,唐立軍

        (1.長沙理工大學(xué)物理與電子科學(xué)學(xué)院,湖南 長沙 410114;2.長沙理工大學(xué)近地空間電磁環(huán)境監(jiān)測與建模湖南省普通高校重點實驗室,湖南 長沙 410114)

        0 引 言

        隨著互聯(lián)網(wǎng)+教育的快速發(fā)展和“三通兩平臺工程”的實施,網(wǎng)絡(luò)教育資源越來越豐富,社會對網(wǎng)絡(luò)教育資源的依賴越來越大,如何對資源進行高效、合理地分類并幫助用戶快速獲取教育資源,是網(wǎng)絡(luò)教育的研究熱點。各種教育資源推薦算法為用戶獲取資源創(chuàng)造了有力的條件[1-3],準確地對資源本身進行概括和描述,將影響推薦效果以及資源的管理和利用。

        目前國內(nèi)外應(yīng)用于標簽生成的主要算法有3種[4-5]:基于TF-IDF的統(tǒng)計方法、基于TextRank的詞圖模型和基于主題模型的標簽生成算法。TF-IDF通過詞頻與逆文檔頻率來生成標簽,簡單快捷,但單憑詞頻來生成標簽,忽略了詞語位置及詞之間的相互關(guān)系,不夠全面[6]。TextRank通過構(gòu)建關(guān)鍵詞圖,迭代計算節(jié)點分值,排序得到最終的標簽[7]。該方法僅憑單篇文檔就能生成標簽,但只考慮詞語節(jié)點之間的關(guān)系,忽略了詞語的語料庫信息、位置信息、情感信息等影響因素。基于主題模型的標簽生成算法以LDA[8](隱含狄利克雷分布)為主,LDA借用詞袋的思想生成標簽,能生成原文不存在的新詞,但它對語料庫質(zhì)量的要求較高,成本較大。近年來學(xué)者從不同方面對標簽生成算法的融合和改進做了許多研究[9-14],例如將新詞影響加入TF-DIF算法計算中[9]、對標題和上下文進行情感分析以改進TextRank算法[10]、融合K-means算法和TextRank以提高自動生成摘要的質(zhì)量[11]等。近幾年也有研究者將神經(jīng)網(wǎng)絡(luò)、深度學(xué)習(xí)等技術(shù)用于標簽生成[15-18],但計算復(fù)雜度和時間復(fù)雜度較高。這些研究使得標簽質(zhì)量有一定提高,但標簽生成與詞頻、語料庫、位置信息、詞語之間的相互關(guān)系、情感信息等特征皆有關(guān)系,大部分的研究特征描述不全面。因此,本文使用TextRank算法挖掘詞語之間的潛在關(guān)系,利用TF-IDF算法計算詞語在語料庫中的權(quán)重,并加入位置信息權(quán)重考慮詞語在不同位置對文檔主題的貢獻不同,形成多特征融合的標簽生成方法。

        1 多特征融合的標簽生成算法

        TextRank算法作為常用標簽生成算法之一,在迭代計算過程中考慮了詞語之間的潛在關(guān)系,但僅憑單篇文檔生成標簽,未考慮語料庫信息。而在TF-IDF算法中,詞語的重要性取決于其在文檔和在語料庫中的出現(xiàn)頻率,TF-IDF權(quán)重隨前者成正比增長,隨后者成反比下降。因此加入TF-IDF權(quán)重影響因子,能排除無意義的高頻詞,加入詞語在語料庫中的信息,改進標簽生成質(zhì)量。但是,位置信息對詞語權(quán)重也有一定的影響,通常文檔首尾段落及段落首尾具有介紹和總結(jié)作用,這些位置出現(xiàn)的詞語應(yīng)賦予更高的權(quán)重,不同位置的詞語其位置權(quán)重應(yīng)有差別。因此,本文在TextRank算法的基礎(chǔ)上,融合位置信息權(quán)重和語料庫信息,形成多特征融合的標簽生成算法。

        1.1 TextRank算法

        TextRank算法是自然語言處理領(lǐng)域一種比較常見的標簽生成算法,可用于生成標簽、關(guān)鍵短語和摘要等。TextRank算法的基本原理來自于Google的PageRank算法。

        PageRank算法[19]是一種網(wǎng)頁排名方法,通過構(gòu)建有向圖計算網(wǎng)頁重要性。首先賦予每個網(wǎng)頁一個初始權(quán)重,通過投票的方式迭代計算最終權(quán)重,指向某個網(wǎng)頁的鏈接數(shù)量越多或其權(quán)重越大,則該網(wǎng)頁的權(quán)重越大,排名越高,決定其排名的高低主要包含鏈接數(shù)量和鏈接質(zhì)量2個因素。

        圖1 PageRank算法示意圖

        如圖1中的網(wǎng)頁C與其他網(wǎng)頁交互最多,分值最高;網(wǎng)頁D雖與其他網(wǎng)頁交互多,但大多是本身分值不高的網(wǎng)頁,導(dǎo)致D分數(shù)較低;與網(wǎng)頁E交互的網(wǎng)頁只有C,但C本身的分值高,因而網(wǎng)頁E的分值也高。

        在TextRank算法計算中,沿用PageRank思想,其主要思想有2點:1)某單詞與很多詞語一起出現(xiàn),說明它比較重要;2)與重要的詞語一起出現(xiàn),說明它可能也重要。將PageRank中的節(jié)點由網(wǎng)頁換成詞語進行分析和迭代計算,每個詞為一個節(jié)點,每個節(jié)點都有指向自己的邊,也有指向其他節(jié)點的邊,構(gòu)成一個無向有權(quán)圖,通過計算指向自己邊的分值權(quán)重得到該頂點的分值。

        通過上述方法將詞語之間的潛在關(guān)系納入計算中,并提取到部分重要的低頻詞。TextRank在計算過程中還添加了權(quán)值wij,表示詞語節(jié)點Vi和Vj之間邊的權(quán)重,采用詞與詞之間的共現(xiàn)次數(shù)[17]作為邊權(quán)值加入TextRank的計算當中,設(shè)置初始權(quán)重為1,若2個詞共現(xiàn),則對應(yīng)的邊權(quán)值加1,得到權(quán)值轉(zhuǎn)移矩陣如下:

        (1)

        TextRank是一個圖排序模型,構(gòu)建以候選關(guān)鍵詞為節(jié)點的無向圖,通過詞之間的共現(xiàn)關(guān)系[20]獲得邊權(quán)值,進而計算每個詞語節(jié)點的分數(shù),節(jié)點Vi的分值計算公式如下:

        (2)

        其中,Vi為節(jié)點,In(Vi)為指向它的節(jié)點集合,Out(Vj)為點Vi指向的點集,wij表示Vi和Vj之間邊的權(quán)重,∑Vk∈Out(Vj)wjk則表示所有指向Vi節(jié)點的權(quán)重之和。依據(jù)公式(2)進行迭代計算,直至收斂得到TextRank初始分值S(Vi)。d是一個阻尼因素,一般取值為0.85。

        TextRank算法通過待處理文檔中詞語之間的共現(xiàn)關(guān)系作為邊權(quán)值構(gòu)建權(quán)值矩陣Q,利用公式(2)迭代計算節(jié)點分值,簡潔有效且考慮了詞語之間的潛在關(guān)系,但計算過程中忽略了詞語位置信息和其在整體語料庫中的影響。

        1.2 TF-IDF權(quán)重

        TF-IDF主要用于評估在整個語料庫中某一單詞對某一篇文檔的重要程度,它是一種統(tǒng)計方法,通過計算詞頻和逆文檔頻率來衡量詞語重要性。即某詞在該文檔中出現(xiàn)得次數(shù)越多,在整個語料庫中出現(xiàn)得少,說明該詞具有很好的類別區(qū)分能力[21],可用作標簽的可能性更大。TF-IDF常作為加權(quán)因子,用于信息檢索和文本挖掘,計算的單詞權(quán)重包含了語料庫信息。計算公式如下:

        WT=tfi,j×idfi

        (3)

        其中,WT指單詞i在文檔j中的重要性,即單詞權(quán)重。tfi,j,即詞頻,表示詞語i在文檔j中的出現(xiàn)次數(shù)占比,其計算公式如下:

        (4)

        其中,ni,j是指詞語i在文檔j中出現(xiàn)的次數(shù),∑knk,j是指文檔j中所有詞語出現(xiàn)次數(shù)的總和。

        式(3)中的idfi即詞語i的逆文檔頻率,反映詞語在整體語料庫中出現(xiàn)頻率,計算公式如下:

        (5)

        其中,|D|為語料庫中的總文檔數(shù),|Di|為包含詞語i的文檔數(shù)目,分母加一是為了防止因語料庫中沒有的新詞而導(dǎo)致分母為0的情況出現(xiàn),采用拉普拉斯平滑以增強算法的健壯性。

        1.3 位置信息權(quán)重

        1.3.1 教育資源

        通過調(diào)研發(fā)現(xiàn),網(wǎng)絡(luò)教育資源主要包含參考書、論文、音視頻、課件、教育發(fā)展動向等多種表現(xiàn)形式,其中文本類資源占資源總數(shù)的80%以上,且其他類也大多可轉(zhuǎn)化為文本資源。因此,利用自然語言處理技術(shù)對文本類資源標簽生成研究有利于更好地利用和管理教育資源。

        不管是論文還是課件或是其他的教育資源,按照通用寫作原則和教學(xué)原則,為了讓學(xué)習(xí)者更好地學(xué)習(xí)和理解知識點,教育資源都有以下特點,首段點明主題,闡述文章的中心思想,而尾段常做總結(jié)性陳述,深化主題。因此對于教育資源文本,首尾段的詞語所蘊含的信息應(yīng)高于中間段落。

        1.3.2 位置信息權(quán)重計算

        然而,常用的TextRank算法和TF-IDF算法計算過程中都認為在文檔的任意位置其重要性并無差別。但位置信息是影響文檔標簽生成的重要特征之一[7],詞語位于文檔的不同位置,對體現(xiàn)文檔主題的作用是不一樣的。

        本文結(jié)合文本類教育資源特點,加入位置信息權(quán)重,即考慮詞語在文檔的不同位置其影響力不同的問題,對文檔中前、中、后不同位置的詞語加入不同的權(quán)重信息,進而提高算法生成標簽的質(zhì)量。

        基于以上原則,對文檔中靠近首尾的詞語給予較大的權(quán)重,根據(jù)詞語的位置設(shè)置不同的位置信息權(quán)重。首先對文檔分段,假設(shè)文檔總段數(shù)為a,單詞i所在段落為b段,則b段所有單詞的權(quán)重為:

        (6)

        公式(6)中,越靠近首尾的位置信息權(quán)重越大大,反之,越中間段落的權(quán)重越小,且都在(0,1)區(qū)間內(nèi),后續(xù)再進行歸一化處理,合理計算位置信息權(quán)重。

        在一篇文檔內(nèi),每一段落內(nèi)的位置信息也有所不同,首尾句有承上啟下的作用。教育資源的音視頻簡介,可能只有一段。因此,段內(nèi)不同位置也應(yīng)賦予不同的權(quán)重,首尾句的權(quán)重大,中間句子所含單詞權(quán)重小。設(shè)經(jīng)過分詞、去停用詞等預(yù)處理后的段內(nèi)所有候選詞有d個,單詞i所在位置為c,則單詞i在段落b內(nèi)的權(quán)重為:

        (7)

        則單詞i在文檔中的最終位置信息權(quán)重為:

        Wp,i=Wp1×Wp2

        (8)

        (9)

        其中,n為經(jīng)過預(yù)處理后留下的詞語個數(shù)。

        1.4 多特征融合的標簽生成方法

        TextRank算法通過共現(xiàn)的方式計算詞語之間潛在關(guān)系進而生成標簽;TF-IDF(詞頻-逆文檔頻率方法)利用統(tǒng)計詞頻和逆文檔頻率將詞語的重要性與整個語料庫中信息結(jié)合起來生成標簽,各有優(yōu)勢,但這些方法都忽略了詞語在文檔中的位置對其重要性的影響。本文將詞語基于單篇文檔的重要性通過TextRank和位置信息來體現(xiàn),TextRank算法計算單篇文檔詞語之間潛在關(guān)系,位置信息權(quán)重體現(xiàn)位置對于詞語重要性的影響,并且通過TF-IDF方法計算詞語基于語料庫的重要性。融合這3個對文檔主題影響較大的特征構(gòu)成新的標簽生成方法。

        (10)

        其中,α1+α2+α3=1,α1、α2、α3均大于0,分別為TextRank分值、TF-IDF權(quán)重和位置信息權(quán)重所占比例的大小。

        2 多特征融合的標簽生成算法實現(xiàn)

        圖2 多特征融合的標簽生成算法流程圖

        本文提出的多特征融合的標簽生成算法為提高標簽生成質(zhì)量,首先對待處理文檔進行必要、準確的文本預(yù)處理,形成候選標簽。然后進行權(quán)重計算,分別計算TextRank分值、TF-IDF權(quán)重和位置信息權(quán)重。最后融合多個特征計算詞語最終分值,進行降序排列,生成文檔標簽。具體實現(xiàn)流程如圖2所示。

        2.1 文檔預(yù)處理

        由于中文文本的復(fù)雜性和語言規(guī)則的不確定性[22],為方便計算機進行識別和處理,需對中文文檔進行過濾、分詞、去停用詞等預(yù)處理后再進行下一步的處理。首先過濾掉圖片、網(wǎng)頁等干擾元素,中文分詞采用開源的結(jié)合基于字符串匹配和基于統(tǒng)計2種分詞方法的jieba分詞技術(shù),在保證分詞準確率的基礎(chǔ)上,對新詞和歧義詞有較好的識別。去停用詞采用哈工大停用詞表去除“的、了、啊”等無意義的停用詞并加入自己統(tǒng)計的停用詞,留下最有可能代表整篇文檔中心思想的名詞和動詞作為候選標簽,以便下一步處理。

        2.2 權(quán)重計算

        計算TF-IDF權(quán)重時,通過統(tǒng)計詞頻的方法計算tf和idf值,按公式(4)和公式(5)計算tf和idf值,利用Python中的cmp排序函數(shù)將tf-idf值前100名的詞和對應(yīng)的tf-idf值提取出來,并以字典的數(shù)據(jù)類型存儲。

        計算TextRank權(quán)重,構(gòu)建圖模型,將待處理的原始文檔按句子分割存于list列表中,進行兩兩配對,當2個詞出現(xiàn)在同一句話,即共現(xiàn)時,對應(yīng)邊權(quán)值+1,即得到權(quán)重轉(zhuǎn)移矩陣Q。PageRank函數(shù)以圖結(jié)構(gòu)為基礎(chǔ),通過迭代收斂方法計算分值,設(shè)置阻尼系數(shù)d=0.85,迭代終止誤差限制tol=1.0e-6。利用排序函數(shù)將最終分值排名前100的詞及對應(yīng)分值以字典形式存儲。

        2.3 多特征融合的標簽生成

        1)對原始文檔進行過濾、分詞、去停用詞等預(yù)處理得到Wi=[W1,W2,W3,…,Wk]。

        3)對預(yù)處理后的詞語列表進行詞頻統(tǒng)計,計算tf和idf值,進而得到TF-IDF權(quán)重WT。

        4)將原始文檔按照句子分割得到T=[C1,C2,C3,…,Cm],并對每個句子進行分詞去停用詞等預(yù)處理,得到Ci=[ti,1,ti,2,ti,3,…,ti,k]。

        5)構(gòu)建關(guān)鍵詞圖,利用共現(xiàn)關(guān)系構(gòu)造2點之間的邊,共現(xiàn)次數(shù)作為邊權(quán)值。得到權(quán)值矩陣Q,如公式(1)所示。

        6)根據(jù)公式(2)進行迭代計算,得到節(jié)點分值S(Vi)。

        7)根據(jù)公式(10)融合TextRank、TF-IDF以及位置信息特征,得到修正后的詞語分值S′(Vi)。

        8)將結(jié)果按降序排列,選取前N個詞作為標簽。

        3 測試與結(jié)果分析

        3.1 實驗方案

        本文選取實驗環(huán)境為Windows7 x64操作系統(tǒng)、Intel Core i5處理器和4 GB內(nèi)存,代碼使用開源、擴展性、移植性較好的Python語言實現(xiàn)。選取學(xué)位論文、期刊論文、音頻視頻簡介等長短不同的教育資源100篇作為測試文檔,為測試和評估算法,將本文融合算法與常用的TF-IDF算法、TextRank算法、LDA算法進行對比實驗。

        實驗采取常用于文檔分類算法評價的準確率(Precision)、召回率(Recall)和F值(F-Measure)作為評價指標[23]。準確率用于評價標簽對原文檔主體信息的準確度,召回率用于評價標簽對原文檔主題信息的覆蓋程度,F(xiàn)值是準確率和召回率的調(diào)和平均值,用以權(quán)衡準確率和召回率,F(xiàn)值越高,說明算法標簽生成效果越好,其計算公式如下:

        (11)

        (12)

        (13)

        其中,X為生成準確的標簽數(shù)目,TA表示數(shù)據(jù)集本身提供的標簽,TB表示通過算法生成的標簽數(shù)目,在本文算法實現(xiàn)中,TB=10,即通過不同算法對一篇文檔皆生成10個標簽。

        3.2 實驗結(jié)果及分析

        采用本文算法和TF-IDF算法、TextRank算法、LDA對100篇文檔生成TB個標簽,每10篇文章為一組,統(tǒng)計每一組文章的標簽生成算法的P、R、F的平均值,實驗結(jié)果如圖3~圖5所示(下文中的mTextRank代表本文算法,簡稱本文算法)。

        圖3 準確率(Precision)對比圖

        圖4 召回率(Recall)對比圖

        圖5 F值(F-Measure)對比圖

        由圖3~圖5可得,本文算法相較于常用的3種標簽生成算法,在準確率、召回率和F值上相對較高。由實驗數(shù)據(jù)可得,TF-IDF、TextRank、LDA算法和本文算法的F值分別為0.279、0.292、0.206、0.34,本文算法F值基本維持在0.3以上,標簽質(zhì)量有明顯提高。

        每組數(shù)據(jù)的F值方差如表1所示,方差可反映數(shù)據(jù)的波動程度。由表1可得,每組數(shù)據(jù)的方差都較小且變化不大。因此,本文算法整體波動較小,即受文檔本身的變化影響較小,驗證了本文算法的有效性和穩(wěn)定性。

        表1 每組數(shù)據(jù)的F值方差

        綜合以上實驗數(shù)據(jù)和分析,本文算法優(yōu)于傳統(tǒng)的TF-IDF、TextRank、LDA等常用標簽生成算法且波動較小,在一定程度上提高了標簽生成的質(zhì)量。

        4 結(jié)束語

        本文針對生成標簽的常用TextRank算法進行分析和改進,提出了一種多特征融合的標簽生成算法,該算法在TextRank的基礎(chǔ)上加入了TF-IDF權(quán)重和位置信息權(quán)重,修正TextRank算法生成標簽的排序,使得改進算法生成的標簽既與詞語本身的特征有關(guān)又與詞語在文章中的位置和出現(xiàn)頻率相關(guān)。實驗結(jié)果表明,相對于常用的TF-IDF、TextRank、LDA等算法,本文提出的融合算法有較高的準確性和穩(wěn)定性,在一定程度上提高了標簽生成的質(zhì)量,提高了教育資源的利用效率。

        猜你喜歡
        分值語料庫網(wǎng)頁
        一起來看看交通違法記分分值有什么變化
        工會博覽(2022年8期)2022-06-30 12:19:30
        《語料庫翻譯文體學(xué)》評介
        基于CSS的網(wǎng)頁導(dǎo)航欄的設(shè)計
        電子制作(2018年10期)2018-08-04 03:24:38
        基于URL和網(wǎng)頁類型的網(wǎng)頁信息采集研究
        電子制作(2017年2期)2017-05-17 03:54:56
        把課文的優(yōu)美表達存進語料庫
        網(wǎng)頁制作在英語教學(xué)中的應(yīng)用
        電子測試(2015年18期)2016-01-14 01:22:58
        基于JAVAEE的維吾爾中介語語料庫開發(fā)與實現(xiàn)
        語言與翻譯(2015年4期)2015-07-18 11:07:45
        10個必知的網(wǎng)頁設(shè)計術(shù)語
        宿遷城鎮(zhèn)居民醫(yī)保按病種分值結(jié)算初探
        病種分值結(jié)算模式下的醫(yī)療監(jiān)管之實踐與啟示
        精品色老头老太国产精品| 99re热这里只有精品最新| 免费的一级毛片| 久久无码高潮喷水| 国产老妇伦国产熟女老妇高清| 我的极品小姨在线观看| 欧洲美女黑人粗性暴交视频| 男男性恋免费视频网站| 亚洲AV永久天堂在线观看| 亚洲国产精品成人一区二区三区| 日韩a级精品一区二区| 色屁屁www影院免费观看入口| 深夜国产成人福利在线观看女同 | 国产码欧美日韩高清综合一区 | 中文字幕第一页人妻丝袜| 亚洲成a人无码| 最新国产乱视频伦在线| 亚洲人妖女同在线播放| 亚洲美女av一区二区在线| 黑人巨大跨种族video| 亚洲熟妇乱子伦在线| 少妇性l交大片免费1一少| 无码中文字幕人妻在线一区| 国产熟女高潮视频| 中文字幕无码免费久久9| 深夜一区二区三区视频在线观看| 亚洲小说图区综合在线| 国产精品黄网站免费观看| 精品女同一区二区三区在线播放器 | 中文无码制服丝袜人妻AV| 91偷拍与自偷拍亚洲精品86| 亚洲中文字幕在线第二页| 久久综合精品国产丝袜长腿| АⅤ天堂中文在线网| 国产激情自拍在线视频| 亚洲人成人网站在线观看| 国产艳妇av在线出轨| 亚洲精品美女中文字幕久久| 国产专区一线二线三线码| 色综合自拍| 日本高清色一区二区三区|