李一平
摘要:目的:以信息計(jì)量學(xué)為基礎(chǔ)的學(xué)科研究熱點(diǎn)提取多以作者自行定義的關(guān)鍵詞為研究對(duì)象,關(guān)鍵詞個(gè)數(shù)較隨意且?guī)в姓撐淖髡叩闹饔^猜想。故提出一種基于TF-IDF矩陣結(jié)合高權(quán)重詞出現(xiàn)頻率的方法,提取學(xué)科研究熱點(diǎn)。方法:釆集2017年度《現(xiàn)代情報(bào)》的載文內(nèi)容,對(duì)每篇文章進(jìn)行全文分詞,生成詞向量空間,創(chuàng)建TF-IDF權(quán)重矩陣。統(tǒng)計(jì)高權(quán)重詞的出現(xiàn)頻率提取研究熱點(diǎn)。結(jié)論:通過(guò)與用信息計(jì)量學(xué)方法得到的結(jié)果進(jìn)行對(duì)比,證明該方法有效且客觀。
關(guān)鍵詞:研究熱點(diǎn);TF-IDF矩陣;全文分詞
中圖分類號(hào):G250文獻(xiàn)標(biāo)志碼:A
0引言
研究熱點(diǎn)是反映某一學(xué)科發(fā)展規(guī)律和特征的重要指標(biāo),有助于把握該學(xué)科領(lǐng)域發(fā)展的軌跡和趨勢(shì)。情報(bào)學(xué)是研究信息、知識(shí)和情報(bào)的產(chǎn)生、傳遞、利用規(guī)律,運(yùn)用現(xiàn)代科學(xué)技術(shù)有效地管理和利用信息、知識(shí)和情報(bào)的_門交叉學(xué)科E。對(duì)情報(bào)學(xué)研究熱點(diǎn)及其變化過(guò)程的分析將有助于從整體上把握情報(bào)學(xué)發(fā)展動(dòng)向,促進(jìn)情報(bào)學(xué)與其他學(xué)科的融合發(fā)展。
目前,國(guó)內(nèi)學(xué)者對(duì)情報(bào)學(xué)研究熱點(diǎn)的探究主要從不同類型的論文入手,比如分析期刊論文、學(xué)位論文、會(huì)議論文,從不同的角度對(duì)情報(bào)學(xué)熱點(diǎn)進(jìn)行剖析⑵。研究?jī)?nèi)容隨著新興技術(shù)的更新而不斷完善和發(fā)展,開始關(guān)注知識(shí)層面的數(shù)據(jù)管理和挖掘,更注重知識(shí)本身的潛在價(jià)值,同時(shí)也開始關(guān)注科技文獻(xiàn)、科技數(shù)據(jù)等的內(nèi)容發(fā)現(xiàn),以及情報(bào)學(xué)教育的探索。研究方法也是多種多樣,具體來(lái)說(shuō),多是將定性與定量相結(jié)合,還包括很多工具和手段,諸如知識(shí)圖譜、聚類工具、高被引分析和機(jī)器學(xué)習(xí)方法等。
在定量的研究方法中,通過(guò)關(guān)鍵詞進(jìn)而揭示研究目的是眾多研究學(xué)者青睞的研究方式。一方面關(guān)鍵詞是表達(dá)文獻(xiàn)主題概念的自然語(yǔ)言詞匯'氣其能夠高度概括文章的核心主旨和作者的主觀思想。關(guān)鍵詞詞頻的變化波動(dòng)和社會(huì)現(xiàn)象、學(xué)科發(fā)展存在著密不可分的聯(lián)系。通過(guò)分析文獻(xiàn)中存在的大量關(guān)鍵詞,可在一定程度上揭示學(xué)科發(fā)展的總體特征和內(nèi)容特點(diǎn),了解學(xué)術(shù)研究的發(fā)展脈絡(luò)及發(fā)展動(dòng)向,關(guān)鍵詞的變化也是前沿?zé)狳c(diǎn)的另_種表現(xiàn)形式。但現(xiàn)有研究中仍然存在不足之處,一是關(guān)鍵詞無(wú)法準(zhǔn)確概括文本核心內(nèi)容,二是關(guān)鍵詞的數(shù)量也會(huì)對(duì)分析文章起到重要作用,簡(jiǎn)單地將某個(gè)階段文獻(xiàn)中某個(gè)關(guān)鍵詞的頻次累加或進(jìn)行共現(xiàn)分析,顯然對(duì)于研究結(jié)果的結(jié)論會(huì)造成不同程度的影響,具有一定的局限性'氣
基于此,本論述著眼于期刊全文內(nèi)容,不依賴題錄信息進(jìn)行關(guān)鍵詞特征提取。首先對(duì)文章全文進(jìn)行分詞,去除無(wú)意義的停用詞,構(gòu)建所有數(shù)據(jù)樣本的詞袋模型。然后計(jì)算每篇文章詞語(yǔ)的TF-IDF權(quán)重,生成TF- IDF矩陣。最后提取高TF-IDF權(quán)重詞匯并結(jié)合出現(xiàn)頻率,得到研究熱點(diǎn)語(yǔ)詞。
1相關(guān)理論與技術(shù)
1.1中文分詞
中文分詞是指將連續(xù)的中文字符串按照一定的規(guī)范分割成詞序列的過(guò)程'可。不同于拉丁語(yǔ)系用天然的空格來(lái)分隔每一個(gè)單詞,漢語(yǔ)的“詞”和“詞組”界限很模糊,中文語(yǔ)言的特殊性無(wú)疑為分詞的技術(shù)增加了難度。例如,目前關(guān)于字或詞還沒有一個(gè)公認(rèn)的、權(quán)威的標(biāo)準(zhǔn);歧義詞的切分也需要考慮不同語(yǔ)境;未登錄詞更是加大了識(shí)別、分詞的難度。因此在進(jìn)行中文文本處理的過(guò)程中,首先需要把中文文本切分成一個(gè)一個(gè)的詞或者詞組,這樣的技術(shù)成為中文分詞技術(shù)面。中文分詞是中文文本的自然語(yǔ)言處理任務(wù)的基礎(chǔ),分詞結(jié)果直接影響到自然語(yǔ)言處理任務(wù)的好壞5。
目前常見的中文分詞方法主要有基于規(guī)則和詞表的方法與基于統(tǒng)計(jì)模型的中文分詞方法,現(xiàn)階段深受學(xué)者青睞的分詞Python庫(kù)主要有:jieba、SnowNLP、TH- ULAC、NLPIR,NLTK和LTP等。上述幾種庫(kù)各有優(yōu)缺點(diǎn),本文將采用jieba進(jìn)行分詞處理分析。其核心算法主要有:(1)基于前綴詞典實(shí)現(xiàn)高效的詞圖掃描,生成句子中漢字所有可能成詞情況所構(gòu)成的有向無(wú)環(huán)圖;(2)采用了動(dòng)態(tài)規(guī)劃查找最大概率路徑,找出基于詞頻的最大切分組合;(3)對(duì)于未登錄詞,采用了基于漢字成詞能力的HMM模型,使用了 Viterbi算法。
此外.jieba庫(kù)還有如下特點(diǎn):(1)支持三種分詞模式:精確模式,試圖將句子最精確的切開,適合文本分析;全模式,把句子中所有的可以成詞的詞語(yǔ)都掃描出來(lái),速度非???,但是不能解決歧義;搜索引擎模式,在精確模式的基礎(chǔ)上,對(duì)長(zhǎng)詞再次切分,提高召回率,適合用戶搜索引擎分詞;(2)支持繁體分詞;(3)支持自定義詞典;用戶可以指定自己自定義的領(lǐng)域詞典,以便包含jieba詞庫(kù)里沒有的詞。雖然jieba有新詞識(shí)別能力,但是自行添加的新詞可以保證更高的正確率。同時(shí),自定義的字典還支持詞頻和詞性的設(shè)置。
1.2詞頻率變換矩陣(TF-IDF)
TF-IDF對(duì)于數(shù)據(jù)分析師和大部分程序員來(lái)說(shuō)應(yīng)該都不陌生,它是一種用于資訊檢索與文本挖掘的常用加權(quán)技術(shù),它加權(quán)的各種形式通常會(huì)被各大搜索引擎所應(yīng)用,作為文件與用戶利用之間相關(guān)程度的衡量或評(píng)級(jí),比較常用的就是計(jì)算查詢關(guān)鍵詞所對(duì)應(yīng)的向量和文檔所對(duì)應(yīng)的向量之間的相關(guān)度。TF-IDF實(shí)際上是TF與IDF的乘積[12]。
特征項(xiàng)頻率TF,也稱短期頻率,是指某個(gè)詞在某個(gè)文檔中出現(xiàn)的總次數(shù)與該文檔的詞總數(shù)的商,用于衡量該詞在該文檔中的出現(xiàn)頻率。因?yàn)槊總€(gè)文檔總詞數(shù)差距較大,因此一個(gè)詞在某個(gè)文檔中出現(xiàn)的次數(shù)可能遠(yuǎn)大于另一個(gè)文檔,所以詞頻通常就是一個(gè)詞出現(xiàn)的次數(shù)除以文檔的總長(zhǎng)度,相當(dāng)于做了一次歸一化。TF 的特點(diǎn)在于,要想有效地反映某個(gè)字或詞在文檔中的頻率,就必須讓它在該文檔中出現(xiàn)的次數(shù)足夠多且在其他文檔中出現(xiàn)頻率小。但是,如果只使用TF可能會(huì)產(chǎn)生以下問(wèn)題:第一,有些字或詞在文檔中可能會(huì)很自然地反復(fù)出現(xiàn),比如連詞、語(yǔ)氣詞、指示代詞等,這些詞大多起著連接語(yǔ)句的作用,是保持語(yǔ)言連貫不可或缺的部分,甚至許多關(guān)鍵詞中都有包含,會(huì)出現(xiàn)在許多文檔中,這時(shí)TF就難以幫助我們區(qū)分文檔的相關(guān)度;第二,若搜索一個(gè)關(guān)鍵詞,它在所有文本中的TF值都高,那么該關(guān)鍵詞也就不利于進(jìn)行文本分類。因此,為了解決上述問(wèn)題,業(yè)界經(jīng)常將特征項(xiàng)頻率TF與反文檔頻率IDF結(jié)合起來(lái)使用糾
IDF背后的隱含假設(shè)是:查詢關(guān)鍵詞中的字或詞應(yīng)該相對(duì)于其他字或詞更加重要,而文檔的重要程度,也就是相關(guān)度,與字或詞在文檔中出現(xiàn)的字?jǐn)?shù)成正比。例如,“圖書館”一詞在文檔A中出現(xiàn)了5次,而在文檔B里出現(xiàn)了20次,那么TF計(jì)算就認(rèn)為文檔B可能更相關(guān)。
1.3 Scikit-Learn
Scikit-Leam是基于Python的機(jī)器學(xué)習(xí)模塊,是高級(jí)數(shù)據(jù)分析中非常重要的工具包,同時(shí)也是一款簡(jiǎn)單有效的數(shù)據(jù)挖掘和數(shù)據(jù)分析工具。一方面,它具有種類豐富的成熟算法和案例,機(jī)器學(xué)習(xí)模型包括支持向量機(jī)、決策樹、樸素貝葉斯、K近鄰等,可分為監(jiān)督學(xué)習(xí)和非監(jiān)督學(xué)習(xí)。它的基本功能主要被分為6個(gè)部分:分類、回歸、聚類、數(shù)據(jù)降維、模型選擇、數(shù)據(jù)預(yù)處理。另一方面,Scikit-Leam能夠以問(wèn)題為導(dǎo)向,選擇合適的模型進(jìn)行分析,比如分類,即可以訓(xùn)練電腦識(shí)別不同的圖片;線性回歸可以用來(lái)預(yù)測(cè)某一事物的趨勢(shì)走向,非監(jiān)督學(xué)習(xí)則是讓計(jì)算機(jī)自己“思考”數(shù)據(jù)的不同,從而形成分類標(biāo)準(zhǔn)。本論述主要應(yīng)用Scikit-Leam來(lái)生成TF- IDF矩陣。
2數(shù)據(jù)來(lái)源與分析模型
2.1數(shù)據(jù)來(lái)源
本論述選取《現(xiàn)代情報(bào)》2017年度的載文作為數(shù)據(jù)來(lái)源,通過(guò)自己編寫的Python腳本和瀏覽器測(cè)試框架 Selenium工具從中國(guó)知網(wǎng)上爬取上述文獻(xiàn)。同時(shí)為了提高精度,爬取過(guò)程中過(guò)濾文章大小標(biāo)題、中英文摘要、作者簡(jiǎn)介、頁(yè)眉頁(yè)腳標(biāo)注以及參考文獻(xiàn)等內(nèi)容,只保留文章的正文段落內(nèi)容,然后將爬取到的內(nèi)容以 TXT格式文本存儲(chǔ),具體形式如圖1所示。最后剔除通知、簡(jiǎn)訊、評(píng)論等不相關(guān)的非學(xué)術(shù)文獻(xiàn),共計(jì)得到268篇情報(bào)學(xué)研究相關(guān)文獻(xiàn)。
2.2分析模型
本論述的分析模型與一般的文本分析框架無(wú)異,主要是:(1)文本預(yù)處理,先將文章進(jìn)行分詞,然后去除停用詞,生成每篇文章的核心詞組;(2)特征提取,匯總每篇文章的核心詞,構(gòu)建整個(gè)分析數(shù)據(jù)的詞袋,計(jì)算每個(gè)詞的TF-IDF權(quán)重值;(3)構(gòu)建TF-IDF矩陣,根據(jù)TF- IDF權(quán)重值和詞向量的頻率進(jìn)行分析,得出研究熱點(diǎn)。實(shí)驗(yàn)流程如圖2所示。
3分析過(guò)程與分析結(jié)果
3.1文本預(yù)處理
用Python的jieba工具將上述采集的268篇文章進(jìn)行分詞,在去除一些常見詞、無(wú)意義的語(yǔ)詞的同時(shí),還引入了情報(bào)學(xué)領(lǐng)域的專有名詞,并設(shè)置了較高的權(quán)重,防止分詞時(shí)將其分割。其中某一篇文章的部分處理結(jié)果如圖3所示。
3.2構(gòu)建TF-IDF矩陣
統(tǒng)計(jì)268篇文章的核心詞匯,得到整個(gè)數(shù)據(jù)集的詞袋共計(jì)21717個(gè)。利用skleam工具計(jì)算出每個(gè)文檔在詞袋中的TF-IDF權(quán)重值。匯總每篇文章的TF-IDF構(gòu)造整個(gè)數(shù)據(jù)集的TF-IDF矩陣,得到一個(gè)268x21717大小的稀疏矩陣。該矩陣中每一行表示一篇文章,每一列表示詞袋中的一個(gè)詞語(yǔ)。生成的TF-IDF矩陣如圖4所示。
3.3分析TF-IDF矩陣
在TF-IDF矩陣的基礎(chǔ)上,先獲取前1000位權(quán)重值較大的數(shù)據(jù)。這些權(quán)重大的數(shù)據(jù)意味著對(duì)應(yīng)的特征詞對(duì)所屬文章、整個(gè)詞向量空間都很重要。截取前20位見表1所列。
權(quán)重大的特征詞不一定會(huì)成為研究熱點(diǎn),而在多篇文章都出現(xiàn)權(quán)重值較大的同一特征詞時(shí)則可以說(shuō)明該詞語(yǔ)是眾多研究學(xué)者關(guān)注的熱點(diǎn)。所以,遍歷這1 000個(gè)權(quán)重值較大的特征詞,得出結(jié)果見表2所列。
3.4實(shí)驗(yàn)對(duì)比與解釋
為了驗(yàn)證本文方法的有效性,本論述用信息計(jì)量學(xué)軟件BICOMB對(duì)相同的數(shù)據(jù)進(jìn)行關(guān)鍵詞提取,對(duì)比試驗(yàn)只需要獲取2017年《現(xiàn)代情報(bào)》載文的題錄信息,統(tǒng)計(jì)由作者自行標(biāo)注的關(guān)鍵詞,截取前20位見表3所列。
對(duì)比表2和表3,可以發(fā)現(xiàn):由全文分詞得出的特征詞基本和作者自行提供的關(guān)鍵詞相契合。但由全文分詞后得到的特征詞更具有客觀性,所以更能體現(xiàn)出當(dāng)前學(xué)科的研究熱點(diǎn)。不過(guò)需要指出的是,特征詞的最終成型不僅僅取決于該詞的權(quán)重大小,還與文章分詞的粒度相關(guān),因?yàn)楸菊撌鲈诜衷~過(guò)程中沒有添加任何干預(yù),所以分詞的粒度都比較小,詞語(yǔ)粒度過(guò)小將導(dǎo)致所形成的詞語(yǔ)因被切割而權(quán)重降低。比如“知識(shí)圖譜”在Jieba分詞后被分成“知識(shí)”和“圖譜”兩個(gè)詞語(yǔ),“圖譜”一詞在TF-IDF的計(jì)算中數(shù)值較小,因此無(wú)法得出其是核心關(guān)鍵詞的結(jié)論。同時(shí),也會(huì)存在全文分詞得到的關(guān)鍵詞在語(yǔ)義層面高度囊括作者提出的關(guān)鍵詞,比如表2中的“數(shù)據(jù)”和表3中的“大數(shù)據(jù)”,甚至也可以解釋為不同的語(yǔ)義層面范疇。
4結(jié)論
本論述通過(guò)對(duì)2017年《現(xiàn)代情報(bào)》的載文進(jìn)行全文分詞,利用TF-IDF權(quán)重和高權(quán)重詞的出現(xiàn)頻率得出學(xué)科研究熱點(diǎn)。實(shí)驗(yàn)結(jié)果與用信息計(jì)量學(xué)研究方法得出的結(jié)果大體一致。受中文分詞粒度的影響,研究熱點(diǎn)的語(yǔ)義范疇比信息計(jì)量學(xué)得到的熱點(diǎn)范疇更高。所以本文的下一步工作將對(duì)中文分詞的過(guò)程進(jìn)行干預(yù),引入圖情領(lǐng)域的專有詞匯,保證專有詞匯的成詞率,屆時(shí)再和信息計(jì)量學(xué)方法進(jìn)行對(duì)比。
綜上,基于TF-IDF權(quán)重和高權(quán)重詞的出現(xiàn)頻率得出的研究熱點(diǎn)擺脫了論文作者的主觀臆想,更客觀的得出當(dāng)前學(xué)科的研究熱點(diǎn)。
參考文獻(xiàn):
[1]中國(guó)科學(xué)技術(shù)信息研究所.情報(bào)學(xué)[EB/OL], [2018-11- lS].http ://www.istic.ac.cn/t-abid/304/default.aspx.
[2]黃曉斌,羅海媛.從會(huì)議征文看近五年我國(guó)情報(bào)學(xué)研究熱點(diǎn)的發(fā)展[J].情報(bào)理論與實(shí)踐,2018,41⑼:31-36.
[3]李文蘭,楊祖國(guó).中國(guó)情報(bào)學(xué)期刊論文關(guān)鍵詞詞頻分析[J].情報(bào)科學(xué),2005(1):68-70,143.
[4]劉小慧,李長(zhǎng)玲,馮志剛.基于改進(jìn)的TF*IDF方法分析學(xué)科研究熱點(diǎn)一以情報(bào)學(xué)為例[J].情報(bào)科學(xué),2017, 35(7):82-87.
[5]金宸,李維華,姬晨,等.基于雙向LSTM神經(jīng)網(wǎng)絡(luò)模型的中文分詞[J].中文信息學(xué)報(bào),2018,32⑵:29-37.
[6]徐戈,王厚峰.自然語(yǔ)言處理中主題模型的發(fā)展[J].計(jì)算機(jī)學(xué)報(bào),2011,34(8):1423-1436.
[7]余凱,賈磊,陳雨強(qiáng),等.深度學(xué)習(xí)的昨天、今天和明天[J].計(jì)算機(jī)研究與發(fā)展,2013,50(9):1799-1804.
[8]Jie C, Cai C, Yi L. Optimized TF- IDF Algorithm with the Adaptive Weight of Position of Word [C]//. Science and Engi?neering Research Center.Proceedings of 20162nd Internation?al Conference on Artificial Intelligence and Industrial Engi?neering(AIIE2016),2016:4.
[9]武永亮,趙書良,李長(zhǎng)鏡,等.基于TF-IDF和余弦相似度的文本分類方法[J].中文信息學(xué)報(bào),2017,31⑸:138-145.