亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

改進(jìn)K-means算法在高校輿情中的應(yīng)用

2019-10-11 11:24:36徐建國韓琮師

軟件導(dǎo)刊 2019年7期

徐建國韓琮師

摘要：互聯(lián)網(wǎng)時(shí)代，網(wǎng)絡(luò)焦點(diǎn)話題討論對(duì)當(dāng)代高校學(xué)生的思想有很大影響，因此對(duì)高校輿情進(jìn)行監(jiān)測具有十分重要的意義。通過改進(jìn)的K-means算法對(duì)高校輿情進(jìn)行聚類，獲取輿情熱點(diǎn)。通過聚類算法獲取熱點(diǎn)話題，進(jìn)而對(duì)熱點(diǎn)輿情話題進(jìn)行引導(dǎo)，對(duì)改進(jìn)高校學(xué)生思想政治工作作用顯著。對(duì)改進(jìn)算法進(jìn)行實(shí)驗(yàn)，結(jié)果表明該算法準(zhǔn)確率達(dá)到75%，比傳統(tǒng)算法高出8%，改善了傳統(tǒng)算法的聚類效果。

關(guān)鍵詞：高校輿情;聚類;K-means算法

DOI：10. 11907/rjdk. 191734 開放科學(xué)（資源服務(wù)）標(biāo)識(shí)碼（OSID）：

中圖分類號(hào)：TP319文獻(xiàn)標(biāo)識(shí)碼：A 文章編號(hào)：1672-7800（2019）007-0142-03

Application of Improved K-means Algorithm in University Public Opinion

XU Jian-guo， HAN Cong-shi

（ College of Computer Science and Engineering，Shandong University of Science and Technology，Qingdao 266590，China）

Abstract： In the Internet age， the discussion of network focus topics has a great influence on the thinking of contemporary college students. Therefore， it is of great significance to monitor public opinion in colleges and universities. Through the improved K-means algorithm， the college public opinion clusters， the hotspots and the hot topics of the current colleges and universities are obtained through the clustering algorithm， which can guide the hot topic of the hot topics and play an important role in the development of college students' thoughts. Experiments on the improved algorithm show that the accuracy of the algorithm reaches 75%， which is 8% higher than the traditional algorithm， which improves the clustering effect of the traditional algorithm.

Key Words： university public opinion; clustering; K-means algorithm

基金項(xiàng)目：國家重點(diǎn)研發(fā)計(jì)劃項(xiàng)目（2017YFC0804406）

作者簡介：徐建國（1964-），男，山東科技大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院副教授、碩士生導(dǎo)師，研究方向?yàn)橹悄苄畔⑻幚?、網(wǎng)絡(luò)輿情分析、商務(wù)智能;韓琮師（1993-），女，山東科技大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院碩士研究生，研究方向?yàn)榇髷?shù)據(jù)分析、圖書情報(bào)與數(shù)字圖書館、智能信息處理。

0 引言

提高大學(xué)生思想水平，正確引導(dǎo)培養(yǎng)其價(jià)值觀，是我國教育界的重要任務(wù)。隨著科技進(jìn)步，網(wǎng)絡(luò)成為信息傳播的主要渠道[1]。據(jù)統(tǒng)計(jì)，網(wǎng)絡(luò)傳播了90%以上的虛假詐騙信息、消極負(fù)面信息等，思想尚未完全成熟的高校學(xué)生極易受到網(wǎng)絡(luò)信息沖擊，從而產(chǎn)生消極思想，可能做出危害社會(huì)的行為。

K-means算法應(yīng)用廣泛，文獻(xiàn)[2]提出將K-means算法用在網(wǎng)絡(luò)輿情分析中;文獻(xiàn)[3]將K-means算法應(yīng)用在微博熱點(diǎn)話題分析中，對(duì)實(shí)時(shí)微博話題進(jìn)行聚類分析;文獻(xiàn)[4]將K-means算法用于大學(xué)生消費(fèi)水平統(tǒng)計(jì)，獲取大學(xué)生消費(fèi)水平層次;文獻(xiàn)[5]通過K-means算法對(duì)航空旅客出行目的進(jìn)行聚類分析，從而有效地推送產(chǎn)品。K-means算法的不足主要表現(xiàn)在選取聚類中心時(shí)決策的隨機(jī)性，這種隨機(jī)性使得聚類結(jié)果浮動(dòng)性較大。此外在更新聚類中心時(shí)，通過樣本點(diǎn)的均值求取新的聚類中心容易受孤立點(diǎn)影響。本文借鑒此算法在其它領(lǐng)域的應(yīng)用情況，提出改進(jìn)算法并將其應(yīng)用在高校輿情分析中。

1 改進(jìn)算法

1.1 K-means聚類算法

K-means算法是基于劃分的聚類算法[6-9]，其基本思想是對(duì)給定的數(shù)據(jù)集隨機(jī)選取K個(gè)初始聚類中心，將其余數(shù)據(jù)進(jìn)行相似性度量，將相似性度量大的數(shù)據(jù)樣本劃分到同一類中;然后在每個(gè)類中重新計(jì)算聚類中心，循環(huán)迭代，直到滿足終止條件。在K-means算法中，初始聚類中心的選擇直接影響聚類結(jié)果，而隨機(jī)選取初始聚類中心具有隨機(jī)性[10-13]，聚類效果差且很不穩(wěn)定。因此，本文對(duì)聚類中心選擇進(jìn)行改進(jìn)。

對(duì)于一個(gè)給定的樣本集[D={Xi，Xi？Xn}]，將其劃分為K個(gè)簇[C={C1，C2？Ck}]，簇內(nèi)的聚類中心點(diǎn)分別為[ci（i=1，2，？k）]，方式如下：

首先，通過式（1）計(jì)算樣本間的距離。

[dist（Xi，Xj）=（Xi-Xj）T（Xi-Xj）]? ? （1）

其中[Xi]為樣本點(diǎn)。

然后，隨機(jī)選取一個(gè)樣本點(diǎn)作為初始聚類中心[c1]。如果樣本點(diǎn)[Xi]滿足式（2），則將樣本點(diǎn)[Xi]作為初始聚類中心[c2]，如果樣本點(diǎn)[Xj≠ck（k=1，2，3？）]且和前面所選取的聚類中心點(diǎn)也滿足式（2），則將其作為下一個(gè)聚類中心。重復(fù)進(jìn)行直到找到第k個(gè)聚類中心[ck]。

[θ=σni≠jndist（Xi，Xj）]? ? ? ?（2）

其中[σ]為調(diào)節(jié)聚類中心間距離參數(shù)。通過相似性原則將每個(gè)樣本點(diǎn)歸類，通過下式更新每一個(gè)類的聚類中心[ck]。

[c'k=1nkXi∈CkXi]? ? ? （3）

[ck={Xi|minXi∈Ckdist（Xi，c'k）}]? ? ?（4）

其中，[nk]為第K個(gè)聚類中心所包含的樣本個(gè)數(shù)，[ck]為第K個(gè)聚類中心。

通過對(duì)初始聚類中心調(diào)整，減小了隨機(jī)選取聚類中心的影響，增大了各類之間的距離，提高了聚類準(zhǔn)確性;在更新聚類中心時(shí)，本文通過選取類中的樣本點(diǎn)作為新的聚類中心，降低了孤立點(diǎn)[14-18]帶來的影響。

1.2 改進(jìn)算法流程

改進(jìn)的算法流程如圖1所示。

圖1 算法流程

輸入：樣本集合[D={Xi，Xi...Xn}]，聚類數(shù)目K。

輸出：聚類后形成的簇[C={C1，C2…Ck}]。

算法流程如下：①輸入樣本集合D，聚類數(shù)目K;②選擇初始聚類中心c1，計(jì)算各樣本間的距離[dist（Xi，Xj）]，并根據(jù)公式（2）挑選出全部聚類中心;③根據(jù)公式（1）計(jì)算各樣本[Xi（i=1，2，？，N）]到各聚類中心[ck（k=1，2？k）]的相似性，并將樣本歸入K個(gè)類中;④根據(jù)公式（3）、公式（4）更新聚類中心。如果聚類中心不變，輸出聚類后的簇C，否則返回步驟③。

2 實(shí)驗(yàn)與分析

2.1 數(shù)據(jù)處理與試驗(yàn)指標(biāo)

本文通過對(duì)比實(shí)驗(yàn)驗(yàn)證改進(jìn)算法的有效性。在數(shù)據(jù)獲取上，首先構(gòu)建一個(gè)抓取文本的API工具[19-21]，通過此工具對(duì)貼吧、微博和論壇等高校學(xué)生喜歡瀏覽并參與的網(wǎng)站進(jìn)行數(shù)據(jù)抓取，并通過ICTCLAS分詞系統(tǒng)[22-23]對(duì)爬取到的數(shù)據(jù)進(jìn)行過濾，得到最終所需數(shù)據(jù)集。

使用傳統(tǒng)TDT[24-26]評(píng)價(jià)標(biāo)準(zhǔn)作為實(shí)驗(yàn)評(píng)價(jià)指標(biāo)，評(píng)價(jià)指標(biāo)分別為：準(zhǔn)確率acr，指正確分類的樣本數(shù)量所占比重;召回率rec，指特定話題樣本集在所有相關(guān)信息中所占比重;漏報(bào)率mir，指未獲取的樣本集在所有相關(guān)樣本集中所占比重;誤報(bào)率fpr，指錯(cuò)誤判斷的話題信息集在其應(yīng)該存在的集合中所占比重。公式分別如下：

[acr=A/（A+B）]? ? ? ? ? （5）

[rec=A/（A+C）]? ? ?（6）

[mir=C/（A+C）]? ?（7）

[fpr=B/（B+D）]? ? ? ? ? （8）

其中，A為分類正確的樣本數(shù)目，B為錯(cuò)誤歸類的樣本數(shù)目，C為未檢索到的樣本數(shù)量，D為不相關(guān)樣本數(shù)量。

2.2 實(shí)驗(yàn)結(jié)果對(duì)比

對(duì)得到的數(shù)據(jù)集進(jìn)行仿真實(shí)驗(yàn)，將傳統(tǒng)K-means算法作為對(duì)比實(shí)驗(yàn)，實(shí)驗(yàn)結(jié)果如表1所示，算法平均指標(biāo)如表2所示。

表1 實(shí)驗(yàn)結(jié)果對(duì)比

從實(shí)驗(yàn)結(jié)果可以看出，傳統(tǒng)的K-means算法平均準(zhǔn)確率為0.671 375，通過改進(jìn)算法進(jìn)行聚類得到的準(zhǔn)確率為0.750 25，提高了8%。在召回率rec上，本文提出的改進(jìn)算法比傳統(tǒng)算法高出10%，體現(xiàn)了本文算法的聚類準(zhǔn)確性。在漏報(bào)率mir及誤報(bào)率fpr上，本文算法均低于傳統(tǒng)的K-means聚類算法。

表2 實(shí)驗(yàn)結(jié)果的平均指標(biāo)值

通過進(jìn)一步實(shí)驗(yàn)分析，得出高校學(xué)生所關(guān)注的焦點(diǎn)主要集中在游戲、晨跑打卡、周邊游、掙錢、晚自習(xí)、曠課、網(wǎng)吧、美食、戀愛等項(xiàng)目中。除了對(duì)晚自習(xí)進(jìn)行討論外，對(duì)學(xué)習(xí)關(guān)心很少，需要對(duì)學(xué)生的學(xué)習(xí)態(tài)度進(jìn)行引導(dǎo);此外在戀愛涉及的話題中，很多高校學(xué)生對(duì)戀愛不知所措，也需要對(duì)其進(jìn)行積極引導(dǎo)。

在高校輿情處理中，本文所提算法提高了聚類準(zhǔn)確性。通過改進(jìn)算法對(duì)高校輿情進(jìn)行分析，能更準(zhǔn)確地獲取高校輿情熱點(diǎn)，進(jìn)而對(duì)學(xué)生的思想態(tài)度進(jìn)行引導(dǎo)。

3 結(jié)語

本文對(duì)傳統(tǒng)的K-means算法進(jìn)行改進(jìn)，通過閾值逐步選取初始聚類中心，避免了隨機(jī)挑選聚類中心帶來的弊端。在聚類中心更新上，通過樣本間距離指標(biāo)選取樣本點(diǎn)作為新的聚類中心，有效降低了孤立點(diǎn)對(duì)樣本聚類的影響。實(shí)驗(yàn)表明，改進(jìn)算法在性能上得到提升，在很大程度上提高了聚類準(zhǔn)確性。通過改進(jìn)算法對(duì)高校輿情進(jìn)行聚類分析，可有效獲取高校學(xué)生所關(guān)注的話題焦點(diǎn)，從而對(duì)其思想狀態(tài)進(jìn)行積極引導(dǎo)。

參考文獻(xiàn)：

[1] 章永來，周耀鑒. 聚類算法綜述[J]. 計(jì)算機(jī)應(yīng)用，2019（5）：1-14.

[2] 徐建國，韓青君，李青. K-means聚類算法及其在網(wǎng)絡(luò)輿情中的應(yīng)用[J]. 軟件導(dǎo)刊，2018，17（11）：65-67.

[3] 劉榮凱，孫忠林. PCA-KDKM算法及其在微博輿情中的應(yīng)用[J]. 山東科技大學(xué)學(xué)報(bào)：自然科學(xué)版，2018，37（6）：84-92.

[4] 馬幸飛，李引. 基于改進(jìn)的K-means算法在高校學(xué)生消費(fèi)數(shù)據(jù)中的應(yīng)用[J]. 無錫商業(yè)職業(yè)技術(shù)學(xué)院學(xué)報(bào)，2016，16（6）：82-85.

[5] 龔婷，普慧潔，張嘉偉，等. 基于K-means的航空旅客聚類研究[J]. 價(jià)值工程，2018，37（35）：52-54.

[6] 東方.? 改進(jìn)的聚類算法在電子商務(wù)中的應(yīng)用[D]. 南昌：南昌大學(xué)，2019.

[7] 鄧林培. 經(jīng)典聚類算法研究綜述[J]. 科技傳播，2019，11（5）：108-110.

[8] 李鵬浩，朱立敬，石秀君. 基于K-means算法微博熱點(diǎn)話題預(yù)測分析[J]. 數(shù)字通信世界，2019（3）：84-122.

[9] 馮彩英，劉玉. K-means初始聚類中心優(yōu)化研究[J]. 計(jì)算機(jī)產(chǎn)品與流通，2019（2）：152-153.

[10] 徐建國，藺珍，張鵬，等. 網(wǎng)絡(luò)輿情熱點(diǎn)獲取與分析算法研究[J]. 軟件導(dǎo)刊，2019，18（1）：1-5.

[11] 馬廷博，劉太安，徐建國，等. 基于改進(jìn)的K-means聚類算法的汽車市場競爭情報(bào)分析[J]. 山東科技大學(xué)學(xué)報(bào)：自然科學(xué)版，2019，38（1）：74-84.

[12] 劉葉，吳晟，周海河，等. 基于K-means聚類算法優(yōu)化方法的研究[J]. 信息技術(shù)，2019，43（1）：66-70.

[13] 楊丹，朱世玲，卞正宇. 基于改進(jìn)的K-means算法在文本挖掘中的應(yīng)用[J]. 計(jì)算機(jī)技術(shù)與發(fā)展，2019，29（4）：68-71.

[14] 陳艷紅，向軍，劉嵩. 高校網(wǎng)絡(luò)輿情分析的K-means算法優(yōu)化研究[J]. 湖北民族學(xué)院學(xué)報(bào)：自然科學(xué)版，2018，36（4）：442-447.

[15] 楊莉云，顏遠(yuǎn)海. 基于孤立點(diǎn)自適應(yīng)的K-means算法[J]. 河南科學(xué)，2019，37（4）：507-513.

[16] 賀艷芳，梁書田. 優(yōu)化加權(quán)多視角K-means聚類算法[J]. 計(jì)算機(jī)技術(shù)與發(fā)展，2019，29（3）：81-84.

[17] 黃靈，王云鋒，陳光武. 基于密度標(biāo)準(zhǔn)差優(yōu)化初始聚類中心的K-means改進(jìn)算法[J]. 電腦知識(shí)與技術(shù)，2019，15（6）：147-151.

[18] 王輝，趙瑋，祁薇. 基于用戶特征的K-means聚類算法應(yīng)用與改進(jìn)研究[J]. 電腦知識(shí)與技術(shù)，2018，14（35）：17-19.

[19] 杜佳穎，段隆振，段文影，等. 基于Spark的改進(jìn)K-means算法的并行實(shí)現(xiàn)[J]. 計(jì)算機(jī)應(yīng)用研究：2018（7）：1-5.

[20] 徐思，孫仁誠. 結(jié)合聚類的半監(jiān)督分類方法[J]. 青島大學(xué)學(xué)報(bào)：自然科學(xué)版，2018，31（4）：49-53.

[21] 楊濤. 中文信息處理中的自動(dòng)分詞方法研究[J]. 現(xiàn)代交際，2019（7）：93-95.

[22] 劉燕. 基于抽樣和最大最小距離法的并行K-means聚類算法[J]. 智能計(jì)算機(jī)與應(yīng)用，2018，8（6）：37-39，43.

[23] 唐海波，林煜明，李優(yōu). 一種基于K-Means的平衡約束聚類算法[J]. 華東師范大學(xué)學(xué)報(bào)：自然科學(xué)版，2018（5）：164-171.

[24] 劉榮凱，孫忠林. 針對(duì)K-means初始聚類中心優(yōu)化的PCA-TDKM算法[J]. 軟件導(dǎo)刊，2018，17（9）：85-87，91.

[25] 許強(qiáng). 基于Spark的話題檢測與跟蹤技術(shù)研究[D]. 成都：電子科技大學(xué)，2018.

[26] 張尚韜. 網(wǎng)絡(luò)輿情話題檢測技術(shù)研究[J]. 廣東石油化工學(xué)院學(xué)報(bào)，2017，27（3）：41-45.

（責(zé)任編輯：杜能鋼）