賀曉琳
(河南工業(yè)和信息化職業(yè)學院,河南 焦作 454000)
廣播電視節(jié)目的分類工作對于任何一種數(shù)字化的廣播電視內(nèi)容管理系統(tǒng)而言都是一項必備的功能。而在實際的廣播電視節(jié)目分類操作中,系統(tǒng)往往是通過廣播電視節(jié)目的文本內(nèi)容介紹進行類別的劃分。隨著廣播電視節(jié)目朝著多樣化的方向發(fā)展,針對廣播電視節(jié)目的介紹也逐漸變得復(fù)雜化和多維化。這使得采用傳統(tǒng)廣播電視分類模型的系統(tǒng)往往會出現(xiàn)對廣播電視內(nèi)容介紹特征提取單一進而導(dǎo)致廣播電視內(nèi)容分類精確度不理想等問題。
因此,本文針對傳統(tǒng)廣播電視自動分類系統(tǒng)存在的內(nèi)容特征提取單一、內(nèi)容分類精確度不理想的問題,提出了一種基于文本語義的混合多層分類模型。該改進的模型以廣播電視節(jié)目介紹的文本內(nèi)容為分類依據(jù),通過引入TextRank算法來完成對廣播電視文本介紹內(nèi)容的關(guān)鍵語義特征詞提取,進而通過BM25算法對冗余的特征語義詞進行降維,最終通過FastText模型處理,完成對廣播電視節(jié)目的自動化分類工作。
TextRank算法是一種基于圖的用于文本語義關(guān)鍵詞提取和排序的算法[1]。該算法由Google公司通過對PageRank算法進行優(yōu)化而來。算法的核心是通過利用目標文檔中不同詞組間的語義信息來完成對關(guān)鍵詞的提取工作,因此該算法可以對目標文本內(nèi)容進行語義關(guān)鍵詞按照重要程度排序,進而完成對關(guān)鍵語義短語的抽取工作。
TextRank算法的設(shè)計思想在于將目標文檔解析為擁有大量詞的網(wǎng)絡(luò)結(jié)構(gòu)[2],而詞與詞之間的語義聯(lián)系通過網(wǎng)絡(luò)中的鏈接方式進行表示。該算法的計算方式如式(1)所示:
式中:S(Vi)表示目標文檔中句子Vi的權(quán)重值,d代表阻尼系數(shù),其默認值大小為0.85,Wji表示不同的兩個目標短語Vi與Vj的相似度,S(Vi)代表上次迭代出句子Vj的權(quán)重值,In(Vi)表示句子Vi的前驅(qū)集合,而Out(Vi)表示句子Vj的后繼節(jié)點集合,右側(cè)中的求和表示每個相鄰句子對目標句子的貢獻程度。
BM25算法是一種用于計算關(guān)鍵查詢詞相對于目標文檔或者文件相關(guān)性評分的算法,最早用于計算機信息檢索領(lǐng)域,其主要思想是對給定查詢的關(guān)鍵詞進行語素解析,進而生成相對應(yīng)的語素詞,之后對于每個給定的目標文檔,計算不同語素詞與文檔之間的相關(guān)性的大小,最后通過將關(guān)鍵詞相對于目標文檔的相關(guān)性評分按照權(quán)重進行求和,從而獲得查詢關(guān)鍵詞與文檔的相關(guān)性得分[3]。通過對不同關(guān)鍵詞同文檔之間的相關(guān)性評分進行排序,進而獲得較為精確的、能夠代表當前文檔類型的核心語義詞。該算法的一般性公式如式(2)所示。
式中:Q表示查詢的語義關(guān)鍵詞,qi表示對Q進行解析之后所獲取到的一個語素,d表示目標的文檔集,Wi表示語素qi的權(quán)重值,R(qi,d)表示語素qi與文檔d的相關(guān)性評分值。
FastText是有美國FaceBook公司開發(fā)的一種詞向量與文本分類的工具[4]。由于該模型在表征學習和文本分類方面具備極強的高效性,因此在帶有監(jiān)督的文本分類的問題場景下有著廣泛的應(yīng)用。FastText的模型架構(gòu)如圖1所示。從模型圖中可以看出,F(xiàn)astText主要由輸入層、隱含層和輸出層構(gòu)成,其中輸入量為經(jīng)向量表示的多個單詞,輸出的結(jié)果為一個特定的目標類別,而隱含層則是對多個詞向量的疊加平局值。
圖1 FastText模型架構(gòu)
從模型圖可以看出,從輸入層到輸出層,主要是通過將目標文檔標識為一個由詞構(gòu)成的集合網(wǎng)絡(luò),進而疊加構(gòu)成目標文檔中所有詞的向量,對疊加的值求平均值,來獲得表征文檔類型的向量,而在隱藏層輸出類型到輸出層過程中使用softmax線性分類器,用以提升分類的整體效率。
由于廣播電視分類的主要方式是通過對廣播電視內(nèi)容的文本介紹進行關(guān)鍵詞提取進而以關(guān)鍵詞為基礎(chǔ)來對廣播電視的類型進行類別劃分,而傳統(tǒng)的分類方式往往只是通過提取內(nèi)容介紹文本的關(guān)鍵詞來對廣播電視內(nèi)容類型進行直接劃分,而未對這些關(guān)鍵詞所代表的文檔語義關(guān)聯(lián)性進行判定,因此傳統(tǒng)廣播電視在內(nèi)容介紹的特征關(guān)鍵詞提取上顯得過于單一,進而影響廣播電視最終的分類準確性[5]。對此,本文通過借助FastText模型在文本分類上的快速準確的優(yōu)勢,以TextRank算法作為語義特征關(guān)鍵詞的提取與排序的基礎(chǔ),通過BM25算法進行語義特征降維,來去除冗余無用的特征向量,提升最終分類效果的準確性。本文提出的基于文本語義分類的廣播電視內(nèi)容自動分類模型架構(gòu)如圖2所示。
圖2 基于文本語義分類的廣播電視內(nèi)容自動分類模型架構(gòu)
由于廣播電視節(jié)目的分類依據(jù)是對內(nèi)容文本的關(guān)鍵詞類別判定,因此準確的關(guān)鍵詞提取是類別判定正確與否的關(guān)鍵性因素。而針對關(guān)鍵詞的判定僅僅從其自身所表達的表層信息上很難對文本內(nèi)容做出準確判定,因此就需要深入挖掘關(guān)鍵詞所表達的深入語義信息與目標文本之間的相關(guān)性大小。
在確定目標分類文本的前提下,使用TextRank算法對目標文本的關(guān)鍵子句進行提取。由于該算法主要應(yīng)用于無監(jiān)督學習狀態(tài),因此在提取關(guān)鍵詞過程中不需要進行過多的額外訓練。通過將目標文本內(nèi)容看成詞的網(wǎng)絡(luò)集合并且通過不斷地迭代,來計算核心關(guān)鍵字的權(quán)重值,對關(guān)鍵子句排序,最后將分值排序靠前的子句或者關(guān)鍵詞抽取出來,作為語義特征關(guān)鍵字冗余處理的輸入值進行保存。
考慮到針對廣播電視內(nèi)容文本語義關(guān)鍵詞的初步提取往往會出現(xiàn)相關(guān)性不強的冗余特征值,因此本文通過BM25算法對輸入的關(guān)鍵詞從語義層面計算其與目標文檔的相關(guān)性,并將排序后相關(guān)性較低的關(guān)鍵詞進行去除,以提升語義特征關(guān)鍵詞的準確性[6]。
最終的分類過程使用已經(jīng)提前訓練好的TextFast模型進行。通過該模型處理最終獲得語義關(guān)鍵詞所對應(yīng)類型的概率,最后選擇概率最大的值所對應(yīng)的類型,作為廣播電視所對應(yīng)的類別,完成最終的分類工作。
本文搭建的實驗環(huán)境硬件配置為:Intel Core i5-10300H的CPU,1 TB硬盤,32 GB RAM,運行的系統(tǒng)環(huán)境為Windows 10 X64專業(yè)版,使用Python3.8版本作為編程語言進行實驗環(huán)境架構(gòu)的構(gòu)建。
由于本文針對廣播電視分類系統(tǒng)的改進主要是在分類準確性上進行的改善,因此本次實驗將采用分類準確率作為核心數(shù)據(jù)進行比較,分類準確率ACC的計算方式如式(3)所示:
式中:TP表示實際為正且被準確分類的樣本數(shù)量,TN表示實際為負且被正確分類的樣本數(shù)量,F(xiàn)P表示實際為負而被錯誤分類的樣本數(shù)量,F(xiàn)N表示實際為正而被錯誤分類的樣本數(shù)量。
本文采用的數(shù)據(jù)為廣播迷網(wǎng)站的多媒體數(shù)據(jù)集。該數(shù)據(jù)集包含了25 480條廣播電視內(nèi)容介紹信息,平均每個條目的內(nèi)容介紹為328個字符。數(shù)據(jù)測試的方式采用單純FastText的傳統(tǒng)廣播電視分類模型和改進后的混合多層分類模型,來對數(shù)據(jù)分類的準確性進行對比實驗,結(jié)果如圖3所示。從實驗結(jié)果可以看出,隨著測試數(shù)據(jù)條目的不斷增加,改進后的廣播電視分類的準確率在不斷提升,而同量級的測試數(shù)據(jù)下,改進后方式的分類準確率較改進前平均提升7.2%左右。
圖3 實驗結(jié)果
本文針對傳統(tǒng)廣播電視分類系統(tǒng)由于內(nèi)容特征提取單一所導(dǎo)致分類準確率不理想的問題,提出構(gòu)建基于文本語義分類的廣播電視分類模型,通過借助FastText模型在文本分類上的快速準確的優(yōu)勢,以TextRank算法提取的語義關(guān)鍵字為基礎(chǔ),結(jié)合BM25算法進行文檔語義相關(guān)性計算,最后通過實驗對提出的基于文本語義分類模型進行仿真。實驗結(jié)果表明,改進后的方式能夠有效提升廣播電視分類系統(tǒng)的分類準確性。