亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于文本挖掘的高校環(huán)境在線評論研究

        2021-10-08 10:21:36邱均平孫月瑞杭州電子科技大學(xué)中國科教評價研究院管理學(xué)院
        圖書館理論與實踐 2021年5期
        關(guān)鍵詞:分類情感評價

        邱均平,孫月瑞,b(杭州電子科技大學(xué).中國科教評價研究院,b.管理學(xué)院)

        自20世紀(jì)90年代我國逐步引進國際科技期刊的評價體系以來,我國科研能力迎來了巨大的提升,作為培養(yǎng)優(yōu)秀高等人才的高等院校,科研素養(yǎng)和學(xué)術(shù)成果成為評價一所大學(xué)的核心標(biāo)準(zhǔn)。但近些年一些部門對該標(biāo)準(zhǔn)的過度依賴,大學(xué)評價在實踐應(yīng)用中逐漸趨向單一化。

        大數(shù)據(jù)時代的來臨促使數(shù)據(jù)挖掘技術(shù)日益成熟,合理利用機器學(xué)習(xí)等手段能夠較為準(zhǔn)確、快速地發(fā)現(xiàn)知識、總結(jié)規(guī)律。其中,文本挖掘作為數(shù)據(jù)挖掘的一個重要分支,近些年來獲得了巨大發(fā)展。目前,對網(wǎng)絡(luò)評論的文本挖掘研究主要集中于商品評論、網(wǎng)絡(luò)輿情這兩個方向,而對學(xué)校環(huán)境的在線評論研究關(guān)注不足。微博、知乎等社交媒體已經(jīng)成為大學(xué)生了解信息、相互討論、表達訴求的主要渠道[1],本研究以浙江工業(yè)大學(xué)、杭州電子科技大學(xué)和浙江師范大學(xué)為例,通過收集評價大學(xué)的在線評論數(shù)據(jù),利用文本挖掘技術(shù)對評論進行文本拆分,對生成的各評論語句集進行情感分類,探尋產(chǎn)生消極評論的主要問題,并對教學(xué)的非消極評論進行詞頻統(tǒng)計,所獲得的實驗結(jié)果可以洞悉大學(xué)生對所在學(xué)校的生活服務(wù)、學(xué)習(xí)體驗的集中情感,把握學(xué)校的熱門專業(yè)和學(xué)科特色。

        1 相關(guān)研究

        目前,我國對于高校的評價以學(xué)術(shù)評價為主。占侃[2]對我國高校主要評價體系做了對比分析,發(fā)現(xiàn)各機構(gòu)單位都重點考量高校的創(chuàng)新能力,但由于評價的實體指標(biāo)各有側(cè)重,高校評價結(jié)果往往并不相同。大數(shù)據(jù)時代,很多學(xué)者提出了對大學(xué)評價體系的質(zhì)疑和改進措施,如湯建民等對高??蒲袠I(yè)績評價是否科學(xué)、如何改進提出了意見[3],唐曉波等[4]構(gòu)建了依托大數(shù)據(jù)技術(shù)的信息云平臺和智能服務(wù)框架。在學(xué)校的內(nèi)部評價中,很多研究工作轉(zhuǎn)向于學(xué)生教學(xué)評價文本,如范宇辰等[5]利用詞典匹配法與情感詞庫統(tǒng)計中文教評文本的情感得分,劉毓等[6]結(jié)合Word2Vec與支持向量機方法實現(xiàn)對科教短文本數(shù)據(jù)的情感分類。

        隨著互聯(lián)網(wǎng)的高速發(fā)展,人們能夠在虛擬的網(wǎng)絡(luò)中暢所欲言,將凝聚個人情感的評價信息發(fā)布于網(wǎng)絡(luò),形成了許多以某一對象為中心的海量的、富有內(nèi)涵的評論集,如何從中挖掘出有價值的知識成為學(xué)者研究的熱點問題。陸泉等[7]利用樸素貝葉斯分類和“密度—距離”快速搜索聚類實現(xiàn)了專業(yè)領(lǐng)域稀疏環(huán)境下微博評論的熱點主題挖掘;李金海等[8]從百度貼吧中收集本校的言辭信息,探索高校輿情形成的原因和影響;楊單等[9]從兩所高校的網(wǎng)絡(luò)輿情熱點出發(fā),利用Rost、Gooseeker等工具進行情感分析,合理地判斷了網(wǎng)絡(luò)輿情的走勢。但是,除了上述研究方向外,對于網(wǎng)絡(luò)用戶(特別是正在就讀或曾就讀過的學(xué)生)對大學(xué)環(huán)境的在線評論的研究卻少有開展。

        2 數(shù)據(jù)收集

        本研究從各網(wǎng)站中收集網(wǎng)絡(luò)用戶對浙江工業(yè)大學(xué)、杭州電子科技大學(xué)、浙江師范大學(xué)這三所院校的在線評論,主要以“某某大學(xué)怎么樣”的提問方式收集評論,獲取信息的主要平臺有百度知道、中國教育在線、知乎和職朋校友圈,發(fā)表評論的時間跨度定為2016年1月1日至2021年1月1日。通過剔除重復(fù)評論,最終獲得5,889條評論,其中浙江工業(yè)大學(xué)1,771條、杭州電子科技大學(xué)2,441條、浙江師范大學(xué)1,677條。所獲得的評論樣例見表1。

        表1 學(xué)校評論樣例

        3 文本拆分

        本研究最初收集到的評論大都是對院校的綜合評價,為了更合理地對評論文本進行分類分析,筆者對評論進行拆分。在細(xì)粒度文本抽取上,康月等[10]利用句法特征對評論的實體、屬性、情感進行標(biāo)注,形成訓(xùn)練集后對BERT詞嵌入的BILSTM-CRF注意力機制模型進行訓(xùn)練,取得了良好的效果。周清清等利用評論中高頻名詞作為候選屬性詞,利用word2vec模型詞向量表示并進行AP聚類,通過降噪等處理,較好地實現(xiàn)了細(xì)粒度屬性抽?。?1]。

        本研究獲得的大部分在線評論的內(nèi)容跨度非常大。通過觀察,筆者發(fā)現(xiàn)這些評論主要圍繞吃、住、景、學(xué)習(xí)這四個主題展開。為了解決評論內(nèi)部細(xì)分問題,筆者利用StanfordNLP工具對其進行詞性標(biāo)注,提取評論中的名詞,再結(jié)合word2vec模型,形成名詞的詞向量形式,通過AP聚類形成初始類簇,達到詞語詞義相近則相聚的效果。接下來,筆者對分類的各詞集進行評論語句重現(xiàn),將其作為輔助參考,對形成的各個類簇進行人工分類,最終構(gòu)成以“飲食”“景色”“教學(xué)”“住宿”“其他”為類別的評論語句集。

        3.1 名詞提取和表示

        對三所院校的評論數(shù)據(jù)進行變換。具體地,對各院校的評論進行切分,以逗號、句號、問號等有句間停頓意義的符號作為分割點,形成新的評論語句集,再利用StanfordNLP工具對評論集進行詞性標(biāo)注,抽取名詞(帶有“NN”和“NR”標(biāo)注的詞語)并刪除代詞后,生成關(guān)鍵詞,最終得到6,779個關(guān)鍵詞。

        本研究借助word2vec模型對關(guān)鍵詞進行詞向量表示。word2vec是Mikolov等提出的,這種詞向量表示方式名為“Distributed Representation”,能有效避免“One-hot Representation”維度高、詞間相似難以比較等問題[12-13]。利用語料庫對word2vec進行訓(xùn)練,可以表示詞語的詞向量,并且意思越相近的詞語在向量空間上的位置越接近。word2vec有兩個訓(xùn)練模式,分別為Skip-Gram和CBOW,前者以輸入詞來預(yù)測上下文,后者是以輸入上下文來預(yù)測當(dāng)前詞。本研究采用的訓(xùn)練模式為Skip-Gram,該模式的模型是一個三層神經(jīng)網(wǎng)絡(luò),選擇5作為上下文窗口參數(shù),250作為詞向量維度。筆者以維基百科、微信公眾號文章的海量文本集作為語料庫,對word2vec模型進行訓(xùn)練,在訓(xùn)練好的word2vec模型中輸入去重后的關(guān)鍵詞,表示出關(guān)鍵詞的詞向量形式。

        3.2 名詞聚類

        聚類指將許多實在或者抽象的對象按自身某些屬性或動作之間的相似情況進行劃分,形成不同類別的集合。本文對關(guān)鍵性名詞的詞向量進行AP聚類。AP(Affinity Propagation)聚類算法由Frey[14]等提出,該算法將所有樣本當(dāng)作潛在的聚類中心看待,定義樣本對每一個其他樣本具有兩個屬性,分別為吸引值(responsibility)和歸屬值(availability)。在聚類過程中,不斷更新樣本對每一個其他樣本的屬性值,直至兩值(吸引值和歸屬值)穩(wěn)定或達到最大迭代次數(shù),兩值相加后得到最大的、相對應(yīng)的樣本對象作為該樣本的聚類中心。AP聚類無須設(shè)置初始聚類數(shù)目,聚類過程依托于樣本之間的相似度,適合多維度的數(shù)據(jù)集。相似度量方法有余弦系數(shù)、曼哈頓距離、負(fù)歐式距離等多種,本研究采用負(fù)歐氏距離和余弦系數(shù)進行聚類并對結(jié)果進行對比。負(fù)歐氏距離公式和余弦系數(shù)公式分別如公式(1)和公式(2)所示。

        其中,x與y分別代表兩個樣本,xi與yi分別代表這兩個樣本在i維特征的數(shù)值,m代表詞向量的總維數(shù),dxy和cos(x,y)代表兩個樣本間的相似度。

        筆者以距離中值為參考度,阻尼系數(shù)為0.5,對關(guān)鍵詞分別進行聚類,得出的部分聚類結(jié)果見表2。

        表2 部分聚類結(jié)果樣例

        通過對比分析,以負(fù)歐氏距離為相似度量的方法表現(xiàn)更優(yōu),更有利于接下來的人工分類。因此,本研究使用負(fù)歐氏距離作為聚類的距離計算方式,聚類最終形成439個簇。筆者對含有聚類詞語的原有評論語句進行還原、重現(xiàn),重點參考每個聚類的聚類中心,以簇為單位進行人工區(qū)分,以“飲食”“景色”“教學(xué)”“住宿”“其他”進行分類。由三位經(jīng)過培訓(xùn)的志愿者進行分類,對分類結(jié)果進行一致性檢驗,Cohen's kappa系數(shù)[15]分別為0.826(標(biāo)準(zhǔn)誤差為0.025)、0.843(標(biāo)準(zhǔn)誤差為0.024)、0.97(標(biāo)準(zhǔn)誤差為0.11),P小于0.001,可見上述三人的分類結(jié)果具有較強的一致性,分類效果具有高信度。按分類結(jié)果對各評論進行不同地標(biāo)號,同時附上學(xué)校代號,得到五類評論語句集(見表3)。

        表3 五類詞語集和評論語句集樣例

        4 情感分析

        為了解網(wǎng)絡(luò)用戶對不同院校的情感傾向,本研究對分類后新的評論語句集進行情感判斷。在情感分析上,朱軍等[16]通過判斷評論是否含情感詞,如果有則利用情感詞典和樸素貝葉斯分類進行情感判斷,沒有則利用支持向量機進行判斷,在酒店評論集上取得了良好效果。陳玉嬋等[17]利用情感詞典和SnowNLP工具相結(jié)合的方法對學(xué)生的評教文本進行情感分析,在測試集上取得了不錯的分類效果。近年來,典型的深度學(xué)習(xí)方法如循環(huán)神經(jīng)網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)等在文本分類上取得了良好效果,其中預(yù)訓(xùn)練語言模型的方法效果十分出色。BERT模型[18]是Google提供的預(yù)訓(xùn)練語言模型,它利用雙向Transformer網(wǎng)絡(luò)結(jié)構(gòu)來獲取文本語義信息,它具有遷移學(xué)習(xí)的能力,針對文本分類、實體識別、語言翻譯等不同下游處理任務(wù)時,在外接輸出層下利用該預(yù)訓(xùn)練模型進行參數(shù)微調(diào)訓(xùn)練,就可滿足任務(wù)需要。ERNIE模型是BERT的中文改進增強模型,由百度提供,在掩碼語言模型訓(xùn)練階段上,增加了短語級與實體級掩碼,即將掩碼層次從字提升到了詞。

        本研究利用ERNIE預(yù)訓(xùn)練模型外接線性分類器的方式進行情感分類,直接使用已經(jīng)發(fā)布的ERNIE預(yù)訓(xùn)練模型,進行參數(shù)微調(diào)訓(xùn)練。從SnowNLP工具包中獲取帶有情感標(biāo)注的訓(xùn)練集,將它作為ERNIE模型微調(diào)所需的主要訓(xùn)練語料。同時將許多事實性語句,如學(xué)校簡介、景點介紹、食品說明等,標(biāo)為非消極類別,歸入到訓(xùn)練集中。

        4.1 效果驗證

        為了考察該情感分類方法是否對本次評論語句集有效、是否能準(zhǔn)確識別出消極評論,筆者從評論語句集中隨機抽取200個評論進行人工標(biāo)注。由于其中消極評論較少,所以從網(wǎng)絡(luò)中搜索了90份酒店消極評論和90份教學(xué)消極評價進行補充,形成測試集。

        SnowNLP的情感分類器是基于貝葉斯模型生成的,來源于Python的第三方庫。筆者將情感詞典和SnowNLP相結(jié)合的情感分類方法作為本次驗證效果的對照組方法,總體流程見圖1,其中SnowNLP分類器以本次訓(xùn)練集進行過二次訓(xùn)練。

        圖1 基本流程

        本研究使用精確率(precision)、召回率(recall)與F1值(F1 measure)進行效果驗證(見表4)。精確率指正確預(yù)測某一類別數(shù)目跟全部預(yù)測為該類別數(shù)目之間的比,召回率指正確預(yù)測某一類別數(shù)目跟實際上是這一類別的全部數(shù)目之間的比,F(xiàn)1值指精確率與召回率的調(diào)和平均數(shù)。需要注意的是,在情感詞典和SnowNLP相結(jié)合的方法中,分詞使用了Jieba工具,停用詞參考了百度資料,情感詞典大部分來自知網(wǎng)中文情感詞典和大連理工大學(xué)的中文情感詞匯本體庫[19];在利用ERNIE模型的方法進行訓(xùn)練時,Learning rate為1e-5,epoch為3。

        表4 評估指標(biāo)得分

        可見,在精準(zhǔn)率、召回率、F1值這三個指標(biāo)上,不論是消極類別還是非消極類別,基于ERNIE模型的情感分類方法都能很好地實現(xiàn)分類效果,且效果優(yōu)于通過情感詞典和SnowNLP相結(jié)合的方法。

        4.2 情感分類

        筆者對以“飲食”“景色”“教學(xué)”“住宿”為類別的四種新評論語句集進行情感分類,得出不同類別下不同院校的情感分布(見圖2)。

        圖2 不同類別下不同院校的情感分布

        由圖2可得:縱向比較上,三所院校在飲食、景色、教學(xué)、住宿上均以非消極評價居多;橫向比較上,三所院校在各類別上的消極程度各有差異,但并不明顯。為了探究學(xué)校在各類別上產(chǎn)生消極評論的主要原因,本研究對消極評論做來源統(tǒng)計分析,使用公式(3)得出圖3,使用公式(4)得出圖4。

        圖3 消極評論來源分布

        圖4 消極評論在來源評論中的占比

        由圖3、圖4可知,在所有類別評論語句集中,來源于知乎的消極評論占比最高且在來源于知乎的評論中發(fā)現(xiàn)消極評論的可能性最高,因此本次重點分析各類別中來源于知乎的消極評論。這也表明,知乎作為互聯(lián)網(wǎng)問答社區(qū),可以作為學(xué)??疾熳陨砉芾硎欠翊嬖诓蛔愕挠行緩?。

        考慮到消極評論的真實性和可信度,筆者分別統(tǒng)計知乎各類別消極評論中所反映各個問題的次數(shù)(以所來源的評論用戶為統(tǒng)計單位),并主要統(tǒng)計2019年后的評論內(nèi)容(見表5)。

        表5 多類別問題

        通過評論細(xì)分、情感分類和來源分析可以較好地洞悉網(wǎng)絡(luò)用戶對院校各方面的評價及院校管理服務(wù)上的遺漏,對學(xué)校改善學(xué)校服務(wù)水平具有極大的現(xiàn)實意義。

        4.3 詞頻分析

        為了深入分析三所院校在教學(xué)特色方面的差異,尋找出能使社會公眾(特別是學(xué)生家長、企業(yè)招聘單位、外部評價機構(gòu))了解院校教育優(yōu)勢所在的方法,本研究對非消極的教學(xué)評論語句集進行了詞頻分析。

        具體地,對三所院校的非消極教學(xué)評論語句集以評論用戶為單位進行合并,在對新的評論集進行去除表情符號、學(xué)校的名稱與俗稱、數(shù)字、字母與標(biāo)點符號等處理后,再對其進行分詞、去停用詞和去重,構(gòu)造出每個評論對應(yīng)的詞語集合,然后以每個詞語集合所對應(yīng)的院校進行分類,分別匯集成有關(guān)Y、Z、F三所院校的詞語列表,并對詞語進行頻率統(tǒng)計,將每個列表最靠前的五個專業(yè)視為熱門專業(yè)(見表6)。

        表6 高頻專業(yè)

        由于詞語列表中有關(guān)三所院校的相同高頻詞語(如大學(xué)、學(xué)校、浙江省等)較多,使一些真正有價值的詞語不容易察覺。為了解決這一問題,筆者將Y、Z、F院校所涉及的詞匯視為元素,分別組成Y、Z、F集合,制作韋恩圖(見圖5)。其中,DG、EG、FG區(qū)域分別表示Y集合與Z集合的詞匯交集、Y集合與F集合的詞匯交集、F集合與Z集合的詞匯交集(這里的交集指多個集合中相同的詞語并且該詞語在原有列表中的頻率相除不超過2且不低于0.5),G區(qū)域表示Y、Z、F三者集合的詞匯交集,A、B、C區(qū)域分別表示Y、F、Z集合中除了上述交集詞匯外的特有詞匯。將韋恩圖中的詞匯繼續(xù)繪制成詞云圖(見圖6),詞語頻數(shù)參考原有詞語列表中的頻率,交集區(qū)域中的詞語頻率為該詞語在含有該詞語的多個詞語列表中的頻率平均值。

        圖5 集合樣式

        圖6 三所院校的集合詞云

        由表6及圖6可知,有關(guān)這三所院校的非消極教學(xué)評價各有側(cè)重點,三所院校在學(xué)科特色方面具有較大差異。在涉及Y院校的高頻專業(yè)名稱中,化工、機械、制藥、化學(xué)被高頻提及,結(jié)合圖6表明Y院校在工科教學(xué)方面的能力較為突出;在涉及Z院校的高頻專業(yè)名稱中,計算機、電子信息、通信工程、自動化這些學(xué)科被高頻提及,結(jié)合圖6表明Z院校在信息處理領(lǐng)域的教學(xué)能力較為突出,同時會計作為經(jīng)濟管理類專業(yè)也出現(xiàn)在了表格上,表明該專業(yè)受到網(wǎng)絡(luò)用戶的重點推薦;在涉及F院校的高頻專業(yè)名稱中,漢語言、英語、體育、數(shù)學(xué)被高頻提及,結(jié)合圖6表明F院校在教育相關(guān)專業(yè)的教學(xué)能力較為突出,受到了評論用戶的普遍認(rèn)可。同時,計算機專業(yè)均出現(xiàn)在這三所院校的高頻專業(yè)里,說明三者有關(guān)計算機的專業(yè)實力得到了網(wǎng)絡(luò)用戶的普遍認(rèn)可。

        總體上,該研究結(jié)果有利于學(xué)校加強自身管理,達到改善學(xué)生體驗的效果,同時,本研究所涉及的評論研究方法有利于外部評價機構(gòu)更加多方位評價一所院校,給出合適結(jié)論。當(dāng)然,該研究過程中還存在不足:如在評論拆分上,是通過句間停頓進行句子切分,在極少部分評論中,后句是前句的補充,并且不含名詞,可能會被遺棄而丟失重要的評價信息;在情感分類上,精確率和召回率雖然分值很高,但在消極評論上仍存在誤判,在情感分類的效果上還有較大的提升空間。

        猜你喜歡
        分類情感評價
        SBR改性瀝青的穩(wěn)定性評價
        石油瀝青(2021年4期)2021-10-14 08:50:44
        分類算一算
        如何在情感中自我成長,保持獨立
        失落的情感
        北極光(2019年12期)2020-01-18 06:22:10
        情感
        分類討論求坐標(biāo)
        如何在情感中自我成長,保持獨立
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        基于Moodle的學(xué)習(xí)評價
        日本午夜理伦三级好看| 中文字幕一区二区三区乱码| 亚洲av成人精品日韩一区| 中文字幕一区二区三区人妻精品| 日韩精品成人一区二区三区| 亚洲天堂一区av在线| 欧美极品jizzhd欧美| 99re这里只有热视频| 成人综合亚洲国产成人| 国产亚洲精品久久情侣| 国产成人精品久久综合| 久青草国产在线观看| 伊人亚洲综合影院首页| 天天射综合网天天插天天干| 国产精品自在拍在线拍| 国产精品综合日韩精品第一页| 中文字幕精品亚洲一区二区三区| 久久久精品国产亚洲av网深田| 中文字幕乱码熟女人妻水蜜桃| 国产一区二区三区小说| 国产精品亚洲在钱视频| 强开小婷嫩苞又嫩又紧视频| 天堂影院一区二区三区四区| 最新欧美一级视频| 日本师生三片在线观看| 亚洲日韩欧美一区、二区| 99国产精品99久久久久久| 日本中出熟女一区二区| 久久精品国产亚洲av麻豆瑜伽| 国产美女自慰在线观看| 成人在线免费视频亚洲| 午夜影院免费观看小视频| 国内精品伊人久久久久网站| 欧美一欧美一区二三区性| 日本高清无卡一区二区三区| 国产一区二区精品久久岳| 97精品伊人久久大香线蕉| 区一区一日本高清视频在线观看| 亚洲伦理第一页中文字幕| 自拍偷自拍亚洲精品情侣| 国产成人综合久久精品推荐免费 |