鄭建靈 張艷玲 田俊雄 黃子豪 梁茵
摘要:為從高校各種網(wǎng)絡(luò)平臺上的海量言論中提取和分析校園輿情熱點問題,使用爬蟲獲取高校貼吧文本,對獲得的文本數(shù)據(jù)進行分詞、清洗;然后使用tensorfloW hub中的神經(jīng)網(wǎng)絡(luò)語言模型(NNIM)進行遷移訓(xùn)練得到文本向量,對文本向量使用基于劃分的K-means聚類,得到多個文本簇團;對簇團使用詞頻一逆文檔頻率算法(TF-IDF),得到每個簇團的關(guān)鍵信息并進行人工分析。實驗結(jié)果表明,貼吧上的熱點問題主要是考研類和入學(xué)類話題。根據(jù)分析得出的話題可為高校管理決策提供依據(jù)。
關(guān)鍵詞:校園輿情;遷移訓(xùn)練;詞表征;詞頻一逆文檔頻率;K-means聚類
DOI: 10. 11907/rjdk.191649
開放科學(xué)(資源服務(wù))標識碼(OSID):
中圖分類號:TP301
文獻標識碼:A
文章編號:1672-7800( 2020)004-0061-06
O 引言
隨著互聯(lián)網(wǎng)技術(shù)的普及,社交網(wǎng)絡(luò)成為大學(xué)生活至關(guān)重要的一部分。新媒體潮流促進了信息流動和傳播,也帶來了海量的媒體內(nèi)容與用戶數(shù)據(jù)。大學(xué)生平常關(guān)注的熱點問題,對高校管理有重要的指導(dǎo)意義。
自然語言文本信息的聚類需要將文本信息轉(zhuǎn)換成數(shù)字信息,這一過程叫做文本表征,高強[1]較為完整地闡述了如何將文本信息轉(zhuǎn)換成數(shù)字信息以應(yīng)用于聚類的過程與技術(shù)細節(jié)。傳統(tǒng)的文本表征是使用詞頻信息表達文本。文嶠[2]分別使用詞頻、TF-IDF、卡方檢驗、互信息表征文本得到使用各類表征方式的分類準確率與特征維度的關(guān)系。但是,單從本文中提取詞頻特征,會忽視詞項語義,無法充分提取文本包含的語義信息,且得到的文本表征存在高維、稀疏等問題;張雪松[3]使用頻繁詞集表示文本以降低文本維度;Mikolov[4]在2013提出Word2vector,使獲取詞項的上下文語義信息成為可能;周順先[5]等使用詞向量聚類質(zhì)心頻率模型,將得到的特征化文本放入神經(jīng)網(wǎng)絡(luò)語言模型進行分類實驗,得到比單純基于詞頻統(tǒng)計的TF-IDF更好的分類效果;賀益侗[6]分別使用TF-IDF與DOC2VEC表征文本,得到兩個模型,然后使用模型融合得到最后結(jié)果。但TF-IDF的表征僅包含詞頻信息,而DOC2VEC能夠反映詞項語義信息卻沒有包含詞頻信息,使用模型融合也沒有真正將詞頻和詞項語義信息結(jié)合在一起;黃承慧"、高明霞等[8]提出使用詞頻與詞項語義相結(jié)合的方法度量文本相似度,這類方法在各白的實驗中都取得了比單獨使用詞頻信息或詞項語義更好的實驗結(jié)果;汪靜[9]在結(jié)合詞頻與語義的基礎(chǔ)上,在計算詞頻上加入了詞性的貢獻因子,對文本信息的提取更加深入;鄒艷春[10]使用DBSCAN聚類方法對文本進行聚類;李春青[11]介紹了文本聚類的4種聚類方法;徐維林[12]結(jié)合LDA和SVM模型,利用K-means聚類對長文本進行聚類,獲得較好的聚類質(zhì)量和穩(wěn)定性;熊祖濤[13]探究了幾種文本表征和聚類方法對短文本進行聚類;周海晨[14]使用TF-IDF作為文本表征,對文章標題進行文本挖掘,建議在不同時期給學(xué)生推送內(nèi)容;劉家成[15]基于TF-IDF和K-means聚類方法研究了價格波動與買家評論的相關(guān)性。
直接使用TF-IDF表征文本向量,在應(yīng)用到大量文本數(shù)據(jù)進行表征時,不僅存在數(shù)據(jù)矩陣極其稀疏、運算時間極長等問題,而且該種表征僅體現(xiàn)了詞頻信息,沒有詞義信息。若使用WORD2VEC與TF-IDF相結(jié)合的表征方法,在提取詞向量與作為權(quán)重的TF-IDF相乘時,同樣耗時過長,難以得到訓(xùn)練結(jié)果。本文直接使用tensorflow一hub中的NNLM模型進行遷移訓(xùn)練得到文本向量。這種表示方法可以直接指定數(shù)據(jù)矩陣維度,解決數(shù)據(jù)矩陣密度稀疏問題,且在運行速度上也有較大提高。
本文首先利用python爬蟲工具,收集高校貼吧中學(xué)生發(fā)布的言論;再使用python中的jieba分詞將文本切割成一個個詞匯,使用NNLM模型得到關(guān)于文本的詞匯及進行遷移訓(xùn)練,得到每個文本的文本向量;接著使用K-means算法對文本進行聚類,對聚類結(jié)果使用TF-IDF算法計算,得到每個簇的關(guān)鍵信息,以此分析大學(xué)生關(guān)注的熱點問題。
1 文本數(shù)據(jù)預(yù)處理
本文所探討的校園輿情內(nèi)容來自百度貼吧。使用Pv-thon爬蟲技術(shù),在全國各個高校貼吧主頁爬取學(xué)生討論內(nèi)容。本次研究一共爬取全國784所高校共4605942個帖。
1.1 文本分詞
常見的分詞T具有jieha分詞、ltp分詞、thulac等分詞-具。僅從分詞上看,jieba分詞具有精確、搜索引擎、新詞識別等模式,加入字典的詞將直接匹配,安裝使用方便;ltp分詞粒度較大.詞性類型較少,安裝稍復(fù)雜;thulac分詞具有世界上最大的人工分詞和詞性標注中文語料庫,分詞速度快。
針對貼吧文本分別使用jieba、ltp分工具,得到如圖l所示結(jié)果。
可以看到,ltp分詞中,“新生加群”、“師姐會”、“新生學(xué)弟”等沒有被分開,相應(yīng)在jieba分詞中均被分開。總的來說,ltp分詞粒度相對較大,即文本會被分割成更長的詞串,而jieha分詞粒度相對較小,就分詞效果而言,分詞粒度小更適合本實驗;此外,為了保證分詞效果,加人人工白定義詞典。ltp分詞將所定義的詞典以特征的方式加入機器學(xué)習(xí)算法,無法保證輸入的詞能完整切分,而jieha分詞可以匹配白定義詞典中詞及其詞性,故最后選擇jieha分詞作為分詞工具。
1.2文本清洗
首先對單一文本進行清洗,分別加入停用詞,用戶白定義詞典以及對詞性篩選,得到將要用于表征的文本。實驗所采用的停用詞分為兩個部分:①從網(wǎng)上找到的停用詞表,即一些普遍沒有意義的詞及標點符號;②通過人T篩選得到的對于研究沒有意義的詞語。在用戶白定義詞典方面,需要通過人工檢查分詞結(jié)果,手動將被錯誤切分的詞合并并定義詞性,然后加入用戶白定義詞典,這樣能夠修正被錯誤分詞的詞語.獲得更多有意義的詞語。篩選掉的部分詞語如表1所示。
從表1可以看出,第一類主要是稱呼用語,第二類是一些單個字,難以表達一個準確意思的動詞,第三類是一些數(shù)量詞、序數(shù)詞,以及其它對研究主題沒有意義的詞語。在詞性篩選方面,利用jieba分詞的詞性標注功能給每個詞語定義詞性,然后篩選必要的名詞、形容詞、動詞等對實驗較有意義的詞性并保留。
經(jīng)過單一文本清洗后會對每一篇文本進行詞數(shù)檢查,如果詞的個數(shù)不足10個,則說明該貼的關(guān)注度不高,將舍棄該文本。經(jīng)過必要清洗篩選后選取其中920351個帖進行研究。
2文本表征
將文本信息轉(zhuǎn)化成向量信息,文本向量表征的好壞決定最后聚類理論上能否達到最好的結(jié)果。特征選擇函數(shù)種類繁多,對訓(xùn)練集和分類算法依賴性也很大,不同研究針對不同的分類應(yīng)用,采用不同的訓(xùn)練過程和分類算法,對各評價函數(shù)的性能評價結(jié)果差異也較大[16]。最常用的文本向量表征方法是TF-IDF模型,屬于基于詞頻的表征方法。但在大量文本下,實驗分詞后詞庫高達382 326個詞。即便通過篩選,也仍有10萬數(shù)量級詞量,導(dǎo)致最后的向量空間維度過高,難以直接運行出結(jié)果。而使用WORD2VEC模型能夠得到詞的低維度向量空間表示,但利用詞向量有效表示短文本是一個研究難點。常見的方法有以文本所有詞向量的均值表示文本,也有利用TF-IDF值表達每個詞的權(quán)重,從而利用權(quán)重得到表示文本的向量[8]。但由于使用WORD2VEC模型與TF-IDF權(quán)重計算時耗時過長,難以得出運算結(jié)果。
遷移學(xué)習(xí)是利用先驗知識從一個領(lǐng)域和任務(wù)類比到另一個領(lǐng)域和任務(wù),本文使用Tensorflow huh中的NNLM中文模型進行遷移訓(xùn)練獲取文本表征。
神經(jīng)網(wǎng)絡(luò)語言模型( Nerual Network Language Model,NNLM)由Bengio等[17]于2003年提出。NNLM利用前n-l個詞預(yù)測第n個詞同時為最大化目標詞語的概率。NNLM在中間層將句子編碼壓縮成一條稠密特征,解決了表征向量稀疏化問題。同時,由于分類模型作用,該特征能很好地表達句子含義,也具備傳統(tǒng)統(tǒng)計學(xué)模型不具備的上下義信息,解決了Word2vec難以表達句子的問題。Tensorflowhub中NNLM模型使用大語料庫進行訓(xùn)練,能較好地涵蓋各種中文語料庫。使用NNLM遷移訓(xùn)練貼吧數(shù)據(jù),對得到的文本表征將有更好的泛化能力。
文獻[9]提出使用詞性作為影響因子進行權(quán)重計算的方法。據(jù)此,本實驗采取更簡便的方法,將除名詞、動詞、形容詞等詞性以外的詞全部舍棄,只留下對探究主題有用的詞語,但這樣做的弊端是存在許多離群點。
3文本聚類
文本聚類指白動地將文本集合分組為不同的類別。同一類別中的文本非常相似,而不同類別之間的文本則不相似”1?;痉诸惙椒ㄓ袆澐址椒?、層次方法、基于密度的方法、基于網(wǎng)格的方法等[19]。
3.1 K-means聚類
本文使用K-means聚類。K-means聚類是一種基于劃分的聚類方法。通過初始化k個簇心點計算每個點與簇心點的距離,將每個點劃分到距離該點最近的簇心中,然后利用簇中的每個點到簇心的距離計算均值,得到新的簇中心;重復(fù)計算點與簇心的距離,更新簇中心,如此迭代一定次數(shù),或者前后兩次每個點到簇中心距離的總和(簇內(nèi)變差)不超過設(shè)定的閾值則停止迭代,輸出聚類結(jié)果。
3.2實現(xiàn)思路
根據(jù)義本向量表征將每篇文檔向量看成M維空間的一個點,共N個點。本文進行分組對照實驗,將N個點劃分成4個組分別進行文本聚類,聚類思路如下:①在M維空間中,隨機選取10個點作為初始簇中心點;②計算每個點分別到10個簇中心點的歐式距離,將每個點劃分至與其歐式距離最近的質(zhì)心點簇中;③計算新的簇內(nèi)變差,即每個點到其所在的簇中心歐式距離的總和,并記錄,設(shè)定舊的簇內(nèi)變差為一1;④根據(jù)簇的每個點坐標,將簇內(nèi)所有點維度相同的值相加,再求每個維度的平均值,得到新的簇中心點;⑤計算新舊簇內(nèi)變差的差值,若差值小于1或者進行100次迭代計算,然后退出,否則重復(fù)步驟②一⑤;⑥重復(fù)步驟①一⑤若干次,取多次K-means聚類中得到的最小簇內(nèi)變差,并以此作為聚類結(jié)果。
3.3聚類實驗結(jié)果處理
對所有文檔聚類之后,計算每篇文檔所有詞的TF-IDF值,然后根據(jù)每個簇中詞的TF-IDF值總和進行排序,篩選得到每個簇的關(guān)鍵信息。
3.3.1 詞頻一逆文檔頻率(Tenn Frequency-Inverse Docu-ment Frequency, TF-IDF)
TF-IDF方法對于提取文本庫中某一篇文檔的特征較為有效。通過計算每個詞在當(dāng)前文檔的頻率,突出該詞在本文中的重要程度,但有可能是沒有意義的高頻詞;再計算詞的逆文檔頻率,與詞頻率相乘,可以降低沒意義的高頻詞TF-IDF值,得到較好表征文本的詞語,但此過程沒有考慮詞義。
根據(jù)TF-IDF= TF*IDF計算得出每篇文檔所有詞的TF-IDF值。
設(shè)文本庫共有IDI篇文檔,將所有文檔中的不同詞語構(gòu)成一個詞庫M,詞數(shù)為IMI,則每篇文檔對應(yīng)一個M維向量,文檔向量中每個維度的值為TF-IDF值或0。整個文本庫可以構(gòu)成一個IDlxIMI矩陣,得到文本向量表征。
3.3.2簇關(guān)鍵信息提取
聚類后得到的每個文檔向量歸屬于一個類中。提取聚類結(jié)果思路如下:①對每個類建立一個關(guān)于詞庫的IMI維向量K,且初始值均為0;②將類內(nèi)每個文檔向量中維度上的數(shù)值與K向量上相應(yīng)維度的數(shù)值相加;③對詞庫向量K進行排序,得到TF-IDF值最高的前7個詞,查找詞庫,得到相應(yīng)的詞語,作為該類關(guān)鍵詞。
4 熱點問題分析
首先,使用Pvthon中jieha分詞對貼吧評論進行分詞并統(tǒng)計詞頻,得到詞頻最高的前20個詞,如圖2所示。
從得到的前20個詞頻上看,學(xué)生輿論涉及的話題主要圍繞“學(xué)?!?、“專業(yè)”、“考研”、“宿舍”、“工作”、“錄取”等關(guān)鍵詞展開。
然后,使用TF-IDF算法提取每組每個簇的簇關(guān)鍵詞信息,得到每組10個簇的關(guān)鍵詞信息,如圖3所示。
(1)每個分組得到最大帖數(shù)的簇分別是圖3(a)6、圖3(b)5、圖3(c)7、圖3(d)9,都具有“學(xué)校”、“一本”、“專業(yè)”、“新生群”、“同學(xué)”和“微信”等關(guān)鍵信息。從關(guān)鍵信息可以看到,這些簇主要是關(guān)于準大學(xué)生對將要踏人大學(xué)校園的提問,主要有學(xué)校、填報志愿、專業(yè)、加入各種新生討論群等,其中較有意思的是“微信”這個關(guān)鍵詞,一般新生討論群都在QQ建立,微信這個詞出現(xiàn)主要是由于許多大學(xué)都開設(shè)有公眾號,學(xué)生會通過大學(xué)公眾號查詢白已是否過線,以及一些專業(yè)錄取情況等。將這個簇所包含的信息定義為“入學(xué)類”,表2包含了與該簇相關(guān)的簇類信息。
從相關(guān)簇類關(guān)鍵信息可進一步了解到準大學(xué)生會在貼吧上咨詢每年的文、理、綜排名情況,每年各學(xué)校的錄取情況等。準大學(xué)生通過這些方式確認白己的分數(shù)是否能考上心儀的大學(xué),以及能否選到理想的專業(yè)。
(2)每組第二大帖數(shù)的簇分別是圖3(a)9、圖3(b)8、圖3 (c)10、圖3(d)4,都具有“考研”這個關(guān)鍵信息。這個簇類主要是關(guān)于大學(xué)生繼續(xù)深造的問題,將簇包含信息定義為“考研類”,表3包含了相關(guān)的簇類信息。
結(jié)合相關(guān)簇類信息可知,每個分組都擁有的關(guān)鍵信息增加了“專業(yè)”、“資料”、“學(xué)院”,其中有3個分組都包含“調(diào)劑”、“研究生”等關(guān)鍵信息。由此可知,準備考研的大學(xué)生關(guān)注學(xué)校專業(yè)方面的問題,此外,大學(xué)生報考相應(yīng)院校還因?qū)I(yè)試題不同,會在貼吧上尋求相應(yīng)幫助,獲取備考資料、詢問相關(guān)調(diào)劑信息等等,也不乏一些T作方面的討論。
(3)對每個簇進行定義,分為“入學(xué)類”、“考研類”、“情感類”、“宿舍類”、“社團類”、“電子產(chǎn)品類”,得到分類表如表4所示。
其中,情感類主要信息有“喜歡”、“愛”、“感覺”、“女朋友”等,主要是關(guān)于大學(xué)生戀愛問題;宿舍類主要信息有“宿舍”、“空調(diào)”、“租”、“人間”等,主要是探討學(xué)校宿舍環(huán)境、住宿人數(shù)等,也有不少討論在校外租房的情況;社團類主要關(guān)注社團管理等問題,該簇類是所有簇中最小的簇,可以看到分組c甚至沒有凝聚出該類;電子產(chǎn)品類主要是大學(xué)生討論關(guān)于購買電腦、手機等問題,也有關(guān)于使用手機卡、學(xué)校網(wǎng)絡(luò)的討論。對每個類別統(tǒng)計其總帖子數(shù),如表5所示。
從表5可以看出考研類帖數(shù)最多,是大學(xué)生討論最為廣泛的一個話題,其次是入學(xué)類帖子。此外,情感類、宿舍類、電子產(chǎn)品類等帖子數(shù)量也在30000上下,也是大學(xué)生討論的主要問題之一,而社團類帖子數(shù)量較少,討論也不多。
通過定義平均回復(fù)數(shù)評測哪個話題更容易引起學(xué)生的強烈反應(yīng)。
平均回復(fù)數(shù)=簇類總回復(fù)數(shù)量/簇類帖子數(shù)量
通過計算得到圖4。
從圖4可知,從單項上看,圖4(a)、圖4(c)回復(fù)數(shù)量最大的是考研類信息,圖4(b)、圖4(d)回復(fù)數(shù)量最大的是社團類信息,且回復(fù)數(shù)量第二的也是考研類信息。從帖子基數(shù)上看,考研信息一直是貼吧中較為活躍的話題,而社團類信息雖然帖數(shù)不多,但一經(jīng)發(fā)布就會有較高人次的討論。計算每類信息的平均回復(fù)數(shù)量,得到表6。
從表6分析可以得到,考研類、情感類、社團類信息是最為活躍的幾個話題,參與人次位列前三。然后是宿舍類、入學(xué)類、電子產(chǎn)品類問題。
最后,將所有貼吧信息全部進行聚類并提取關(guān)鍵信息,得到圖5。
由圖5可以得到表7。
其中,帖數(shù)最高的類別是考研類,總帖數(shù)達267482;其次是入學(xué)類,總帖數(shù)達232 055;情感類、宿舍類、電子產(chǎn)品類帖數(shù)也相差數(shù)萬,而社團類帖數(shù)相對較少。所得結(jié)果與分組結(jié)果相近。
5 結(jié)語
本文以百度貼吧中高校貼吧作為數(shù)據(jù),對相應(yīng)的學(xué)生輿論內(nèi)容進行數(shù)據(jù)挖掘,對文本數(shù)據(jù)使用jieha分詞處理,篩選掉無關(guān)詞語;使用tensorflow huh模型進行遷移訓(xùn)練,將文本信息轉(zhuǎn)換為數(shù)字信息;再利用K-means聚類算法聚類,對得到的聚類結(jié)果使用TF-IDF提取每個簇中的關(guān)鍵詞,以此挖掘貼吧文本中的焦點問題。
從結(jié)果上看,貼吧學(xué)生用戶主要有3大群體。
(1)高中畢業(yè)的準大學(xué)生。主要在高校貼吧咨詢錄取分數(shù)線、分數(shù)排名以及填報志愿和加入新生群等問題;另外關(guān)注學(xué)校校舍問題,經(jīng)常問詢諸如校舍幾人間、是否有空調(diào)、外出租房等問題。根據(jù)帖數(shù)計算這類群體所提問題出現(xiàn)比例約為36.26%。
(2)考研生。他們更多在白己心儀的學(xué)校貼吧尋找咨詢通道,也有向?qū)W校詢問報考信息、面試情況、尋求復(fù)習(xí)資料等。其中不乏對不同學(xué)校專業(yè)的討論,包括是否過線及調(diào)劑等問題。根據(jù)帖數(shù)計算,所占比例約為29.0%。
(3)在校大學(xué)生。主要是作為“過來人”給準大學(xué)生提供一些咨詢渠道,如新生咨詢?nèi)航獯鹦律谫N吧中提出的各類問題等。此外,有關(guān)社團類問題也應(yīng)是在讀大學(xué)生所發(fā)布,但所占規(guī)模僅為0.45%。
因此,高??稍谫N吧上設(shè)置更為全面詳細的本科生、研究生招生信息,以拓寬宣傳渠道。對于本科生,可以提供相關(guān)年份的錄取分數(shù)線,包括各個專業(yè)的分數(shù)線以及相關(guān)專業(yè)介紹,解答準大學(xué)生的各種疑慮,讓準大學(xué)生找準適合自己的專業(yè),實現(xiàn)人生價值。同時,學(xué)校宿舍也是學(xué)生關(guān)注的重點問題??梢愿鶕?jù)校舍情況在貼吧設(shè)立專門模塊,展示校舍的各種優(yōu)勢,以吸引更多優(yōu)質(zhì)生源。對準備考研的學(xué)生,可提供學(xué)習(xí)教材目錄,介紹研究生考試群等等,滿足考研學(xué)生需要。此外,電子產(chǎn)品也是學(xué)生關(guān)注的問題之一,生產(chǎn)商可通過了解學(xué)生需求,把握商機,制造更加吸引學(xué)生的電子產(chǎn)品;學(xué)??膳c相關(guān)公司合作,提供宣傳機會,增加廣告收入。關(guān)于學(xué)生情感問題,可設(shè)立相應(yīng)的情感輔導(dǎo)老師,在貼吧上進行相應(yīng)的心理輔導(dǎo),引導(dǎo)學(xué)生積極面對大學(xué)生活。
后續(xù)主題研究中,可將相似的簇合并并進行重聚類,以得到更多聚類主題。在方法上,可以構(gòu)建專屬于學(xué)生輿論的模型進行遷移訓(xùn)練。在數(shù)據(jù)上要獲取更多平臺上的學(xué)生輿論,以獲取更多學(xué)生關(guān)注的問題。
參考文獻:
[1]高強.基于向量空間的文本聚類算法[J].電子世界,2017(20):61-62
[2]文嶠.基于文本特征提取方法的文本分類研究[J]電腦知識與技術(shù),2018 .14( 18): 188-189.192.
[3]張雪松,賈彩燕一種基于頻繁詞集表示的新文本聚類方法[J].計算機研究與發(fā)展,2018,55(1):102-112
[4]MIKOLOV T. SUTSKEVER I, CHEN K, et al. Distributed representa-tions of words and phrases and their compositionalitv[J] Advances inNeural Information Processing Systems, 2013, 10(26): 3111-3119.
[5]周順先,蔣勵,林霜巧,等.基于Word2vector的文本特征化表示方法[J].重慶郵電大學(xué)學(xué)報(自然科學(xué)版),2018,30(2):272-279.
[6]賀益侗,基于doc2vec和TF-IDF的相似文本識別[J].電子制作,2018(18):37-39
[7]黃承慧,印鑒,侯昉.一種結(jié)合詞項語義信息和TF-IDF方法的文本相似度量方法[J]計算機學(xué)報,2011,34(5):856-864.
[8]高明霞,李經(jīng)緯.基于word2vec詞模型的中文短文本分類方法[J]山東大學(xué)學(xué)報(工學(xué)版),2018,11(2):159-163
[9]汪靜,羅浪,王德強.基于Word2vec的中文短文本分類問題研究[J]計算機系統(tǒng)應(yīng)用,2018,27(5):209-215.
[10]鄒艷春.基于DBSCAN算法的文本聚類研究[J]軟件導(dǎo)刊,2016,15(8):36-38.
[11]李春青文本聚類算法研究[J].軟件導(dǎo)刊,2015,14(1):74-76.
[12]徐維林,朱宗,高麗,等,基于主題模型的網(wǎng)絡(luò)微博輿情分析[J]. 軟件導(dǎo)刊,2016,15(5):153-154.
[13]熊祖濤.基于稀疏特征的中文微博短文本聚類方法研究[J].軟件導(dǎo)刊,2014,13(1):133-135.
[14]周海晨.基于爬蟲與文本挖掘的“985”高校圖書館微信公眾號的調(diào)研[D].合肥:安徽大學(xué),2017
[15]劉家成,王藝憬,孫燕紅基于TF-IDF算法和K-means聚類的商品評論與價格波動相關(guān)性研究——以ThinkPad電腦為例[J].科技創(chuàng)業(yè)月刊,2018,31(7):45-49
[16]單麗莉,劉秉權(quán),孫承杰.文本分類中特征選擇方法的比較與改進[J].哈爾濱工業(yè)大學(xué)學(xué)報,2011,43( S1):319-324
[17]YOSHUA BENGIO, REJEAN DUCHARME, PASCAL VINCENT,et al.A neural prohahilistic language modelEJl. Journal of MachineLearning Research. 2003(3):1137-1155.
[18]nCyc.lopedia of Data Warehousing&Mining Second Edi-tion. 2005(2):197-203.
[19]韓家煒,裴建等.數(shù)據(jù)挖掘:概念與技術(shù)[M]北京:機械工業(yè)出版 社.2012.
[20]11 D 0, MEI H H. SHEN Y. et al. ECharts:a declarative frame-work for rapid construction of weh-basedVisualization[J] Visual In-formatics. 2018(6):561-567.
(責(zé)任編輯:杜能鋼)
作者簡介:鄭建靈(1995-),男,廣州大學(xué)計算機科學(xué)與網(wǎng)絡(luò)工程學(xué)院學(xué)生,研究方向為文本分析;張艷玲(1970-),女,博士,廣州大學(xué)計算機科學(xué)與網(wǎng)絡(luò)工程學(xué)院副教授、碩士生導(dǎo)師,研究方向為人工智能及其應(yīng)用。本文通訊作者:張艷玲。