朱穎
(南京林業(yè)大學(xué) 江蘇省南京市 210037)
隨著中國(guó)國(guó)力的不斷增強(qiáng)和社會(huì)地位不斷提高,社會(huì)對(duì)學(xué)校教育的重視也在逐年加強(qiáng)。學(xué)校作為當(dāng)代社會(huì)知識(shí)青年的主要生源地,在招生方面的吸引力除去在教學(xué)方面以外,當(dāng)中有很大一部分吸引力依賴于其硬件設(shè)施。近年來,研究表明,排名越靠前的學(xué)校越發(fā)注重學(xué)生的學(xué)習(xí)環(huán)境建設(shè),尤其是外部設(shè)施的建設(shè)。一個(gè)好的學(xué)校不光依賴于優(yōu)質(zhì)的教學(xué),宿舍、圖書館、交通等設(shè)施的提高和改善也能提升在校學(xué)生的學(xué)習(xí)質(zhì)量,從而增強(qiáng)學(xué)校的吸引力。因此,知道自己需要在哪些硬件設(shè)施方面進(jìn)行改善對(duì)一個(gè)學(xué)校聲望的提升有著關(guān)鍵性影響。當(dāng)前,對(duì)于學(xué)校建議獲取主要有兩大措施,一是基于問卷調(diào)查的傳統(tǒng)評(píng)價(jià)模式,二是基于網(wǎng)絡(luò)輿論數(shù)據(jù)的評(píng)價(jià)模式。而目前國(guó)內(nèi)外社會(huì)調(diào)查中較為廣泛使用的一種方法還是問卷調(diào)查,這可從各項(xiàng)研究中看出。該調(diào)查方法在實(shí)施過程中容易受到時(shí)間和空間限制,需要大量的數(shù)據(jù)輸入與統(tǒng)計(jì)工作,且該評(píng)價(jià)體系難以在時(shí)間上對(duì)比公眾需求,所以并不具有未來可持續(xù)性。而現(xiàn)代互聯(lián)網(wǎng)作為一種新興媒體成為公眾發(fā)表意見最常用的平臺(tái),其中包括:QQ、貼吧、微信、論壇、微博等各種方式,從而在社會(huì)信息傳播中占有主導(dǎo)地位。公眾通過這些網(wǎng)絡(luò)工具對(duì)學(xué)校的一些問題或看法則在短時(shí)間內(nèi)就可以形成,信息量大,范圍廣,方便獲取的同時(shí)也有著代表性意見。因此,通過網(wǎng)絡(luò)平臺(tái)獲取學(xué)校意見相比于過去的問卷調(diào)查有著更加方便快捷的好處,其中微博又以其短小、隨時(shí)隨地、全平臺(tái)共享的特點(diǎn)從各個(gè)網(wǎng)絡(luò)工具中脫穎而出,迅速擁有了一大批學(xué)生、社會(huì)人士受眾。同時(shí)作為學(xué)校面向的主要人群,他們的意見尤為重要。
人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network,簡(jiǎn)稱ANN),是一種通過調(diào)準(zhǔn)內(nèi)部大量節(jié)點(diǎn)之間相互連接的關(guān)系和權(quán)重,從而達(dá)到處理信息的目的的信息處理的數(shù)學(xué)模型[1]。本文針對(duì)目前微博上廣大群眾對(duì)于學(xué)校設(shè)施的需求,總結(jié)了宿舍、教室、食堂、交通、圖書館這五大學(xué)校主要設(shè)施,利用文本分類思想并結(jié)合人工神經(jīng)網(wǎng)絡(luò),獲取微博里關(guān)于每一個(gè)設(shè)施的特征值,高效地、精確地對(duì)該條微博進(jìn)行分類,從而為大數(shù)據(jù)時(shí)代下的關(guān)于學(xué)校建議的獲取提供一種新思路。
本文研究的對(duì)象是新浪微博用戶發(fā)表的微博,首先要獲取符合要求的微博內(nèi)容。本文使用的數(shù)據(jù)集是借用GooSeeker(https://www.gooseeker.com/)下的微博采集工具箱內(nèi)所提取的微博數(shù)據(jù)作為訓(xùn)練用的數(shù)據(jù)集。GooSeeker 是通過新浪微博API 進(jìn)行實(shí)時(shí)微博數(shù)據(jù)爬取,從而獲取大量微博數(shù)據(jù)的平臺(tái)[2]。
圖1:神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖
圖2:神經(jīng)網(wǎng)絡(luò)的誤差線狀圖
圖3:平均相對(duì)誤差MRE
通過爬取 2020年 6月至 2020年 9月有涉及到學(xué)校各種關(guān)鍵設(shè)施的12387 條微博數(shù)據(jù),由于這些原始微博數(shù)據(jù)里面往往含有大量無關(guān)信息,如時(shí)間、微博粉絲數(shù)、登錄方式、用戶名等,反而會(huì)影響后續(xù)關(guān)鍵文本提取,所以,需要對(duì)微博數(shù)據(jù)進(jìn)行進(jìn)一步的篩選、過濾,選出合適的、可搭建模型的微博文本。但提取數(shù)據(jù)時(shí)考慮到處理效率問題,而所獲取的樣本數(shù)據(jù)量過大,信息處理起來過于繁瑣,不適合全作為訓(xùn)練數(shù)據(jù),因此,從數(shù)據(jù)樣本中隨機(jī)選取3000條相關(guān)微博,其中關(guān)于宿舍725 條,教室433 條,食堂421 條,交通692 條,圖書館729 條。
1.2.1 去冗余信息
模型主要是以文本作為信息輸入,旨在挖掘出文本中的隱含特征,獲取微博文本的向量表達(dá)。由于從微博爬取的文本無法直接輸入人工神經(jīng)網(wǎng)絡(luò)模型,且這些沒有經(jīng)過處理的文本數(shù)據(jù)中有很多冗余信息,會(huì)影響分類效果和效率。所以要進(jìn)行中文文本的預(yù)處理,如中文分詞、停用詞過濾、詞語向量化等[3]。為了節(jié)約人工處理數(shù)據(jù)時(shí)間,同時(shí)加快信息處理能力,本文使用Python 程序?qū)ξ谋緮?shù)據(jù)進(jìn)行進(jìn)一步處理,jieba 作為目前最好的 Python 中文分詞組件,它的精確模式可以在進(jìn)行中文分詞后還可以進(jìn)行去標(biāo)點(diǎn)、去空格、去停用詞等處理,最終使得文本串變成一系列有效詞語的集合[4]。
表1:訓(xùn)練、驗(yàn)證、測(cè)試結(jié)果(括號(hào)中的百分比為準(zhǔn)確率)
1.2.2 數(shù)據(jù)的特征值提取
分別總結(jié)關(guān)于宿舍、教室、食堂、交通、圖書館五個(gè)設(shè)施地點(diǎn)的名詞庫(kù),其中每個(gè)名詞庫(kù)包括地點(diǎn)名詞、代表性行為詞和相關(guān)形容詞。然后將完成jieba 分詞處理后每一條微博的有效詞語集合與各個(gè)詞庫(kù)中關(guān)鍵詞進(jìn)行匹配,每出現(xiàn)該庫(kù)中一個(gè)關(guān)鍵詞則將該庫(kù)value 值計(jì)數(shù)加一,統(tǒng)計(jì)出每一個(gè)詞庫(kù)對(duì)應(yīng)的關(guān)鍵詞出現(xiàn)頻率總數(shù),通過xlwt 寫入Excel 表格,最終得到一個(gè)五維的輸入向量。
人工神經(jīng)網(wǎng)絡(luò)具有自學(xué)習(xí)和自適應(yīng)的能力,它可以通過預(yù)先提供的一批相應(yīng)的輸入輸出數(shù)據(jù)來分析和掌握二者之間的潛在規(guī)律并且根據(jù)這些規(guī)律,用新的輸入數(shù)據(jù)計(jì)算輸出結(jié)果[5]。人工神經(jīng)網(wǎng)絡(luò)由不同層次的神經(jīng)元組成,這些具有非線性功能的神經(jīng)元通過突觸權(quán)重相互連接。在訓(xùn)練過程中,通過權(quán)重的變化,從而使輸出更接近神經(jīng)網(wǎng)絡(luò)的目標(biāo)。對(duì)于大部分具有類別可分性的條件的問題,神經(jīng)網(wǎng)絡(luò)系統(tǒng)能夠?qū)斎胂蛄窟M(jìn)行定向分析從而得出該輸入所屬的數(shù)據(jù)屬于哪一類的結(jié)果[6]。而該學(xué)校建議系統(tǒng)分類的最關(guān)鍵問題是對(duì)建議類別的分辨和確認(rèn),神經(jīng)網(wǎng)絡(luò)系統(tǒng)通過對(duì)輸入特征向量的分析,得出一個(gè)輸出向量,通過與收集到樣本的輸出值進(jìn)行差值計(jì)算,得到絕對(duì)值最小的,也就是最相近的分類,因此神經(jīng)網(wǎng)絡(luò)作為該系統(tǒng)的分類器是非常適合的。
首先,將經(jīng)過特征值提取處理后的五維向量作為第1 層的輸入向量。其次,建立神經(jīng)網(wǎng)絡(luò)模型,該網(wǎng)絡(luò)模型有輸入層,3 個(gè)隱層神經(jīng)元和輸出層,輸入層的神經(jīng)元數(shù)量與輸入?yún)?shù)的數(shù)量相同。輸入層是學(xué)校建議分析系統(tǒng)的五種設(shè)施的特征值,輸出層為每種設(shè)施代表的數(shù)字標(biāo)簽,其結(jié)構(gòu)如圖1所示。
然后進(jìn)行網(wǎng)絡(luò)訓(xùn)練,從全部樣本中隨機(jī)抽取 2100 例(宿舍507條,教室303 條,食堂295 條,交通484 條,圖書館510 條)作為訓(xùn)練組,450 例作為驗(yàn)證組(宿舍109 條,教室65 條,食堂63 條,交通104 條,圖書館110 條),450 例為測(cè)試組(宿舍109 條,教室65 條,食堂63 條,交通104 條,圖書館109 條),分別占總數(shù)據(jù)的70%,15%,15%。通過 MATLAB 2020a 對(duì)上述數(shù)據(jù)編程,將數(shù)據(jù)輸入構(gòu)建好的ANN 模型進(jìn)行訓(xùn)練,最后進(jìn)行模型的比較和驗(yàn)證[7]。
模型采用計(jì)算平均相對(duì)誤差MRE(Mean Relative Estimation Error)、誤差總值re_sum,進(jìn)行精度和可靠性評(píng)價(jià),其中MRE、re_sum 定義為:
re_sum = re_sum + re;
MRE = re_sum/N;
圖4:神經(jīng)網(wǎng)絡(luò)回歸分析結(jié)果
其中,樣本個(gè)數(shù)用N 表示,網(wǎng)絡(luò)模型預(yù)測(cè)值采用y_cal 表示,y_real 為實(shí)驗(yàn)實(shí)際值,re 是預(yù)測(cè)值和實(shí)際值差的絕對(duì)值與實(shí)際值的單個(gè)比值。
使用處理好的訓(xùn)練集數(shù)據(jù)用于神經(jīng)網(wǎng)絡(luò)訓(xùn)練,從圖2 可以很明顯看出,當(dāng)訓(xùn)練次數(shù)達(dá)到34 次時(shí),訓(xùn)練、驗(yàn)證和測(cè)試誤差同時(shí)達(dá)到最小,其中測(cè)試誤差稍大一點(diǎn),但也只有0.084016,誤差小于9%,在可接受的范圍以內(nèi)。同時(shí),從圖3 看出,平均相對(duì)誤差MRE 通過MATLAB 計(jì)算得出為0.0632。
接著考慮ANN 神經(jīng)網(wǎng)絡(luò)的收斂性,于是對(duì)訓(xùn)練、驗(yàn)證和測(cè)試結(jié)果進(jìn)行回歸分析,可以從圖4 看到分析效果。
從圖4 可以看出,訓(xùn)練、驗(yàn)證和測(cè)試結(jié)果的R 值分別為 0.98128,0.97847,0.97265,三者的總R 值和為0.97964,回歸效果較好,這說明神經(jīng)網(wǎng)絡(luò)系統(tǒng)的仿真試驗(yàn)的誤差較小,基本上可以進(jìn)行仿真試驗(yàn)。為了能看出分類的效果,本文把訓(xùn)練組、驗(yàn)證組和測(cè)試組的測(cè)試結(jié)果進(jìn)行對(duì)照,如表1所示。
從表1 中可以看出,人工神經(jīng)網(wǎng)絡(luò)具有較好的識(shí)別能力,每組準(zhǔn)確率達(dá)到97.0%,可以應(yīng)用于學(xué)校建議分類。
由于該建議分析模型的輸出是一個(gè)一維向量,為了直觀地展示給學(xué)校分析人員,本文在五維輸入向量中取其累積數(shù)量最大的設(shè)施代表值作為最終預(yù)測(cè)結(jié)果(詞庫(kù)中關(guān)于該設(shè)施的關(guān)鍵詞數(shù)量累積的值越大表示越有可能是該設(shè)施對(duì)應(yīng)的分類),再通過詞庫(kù)和分類的映射關(guān)系得到最終的分類結(jié)果的圖形化表示。利用python 中的pyplot 模塊生成一個(gè)餅圖,反映當(dāng)前數(shù)據(jù)集各個(gè)分類的占比,通過這個(gè)占比可以很明顯看出微博內(nèi)對(duì)學(xué)校設(shè)施評(píng)論的傾向,分析人員從而可以作出正確的改善或者認(rèn)知定位等相關(guān)工作。圖五顯示的關(guān)于學(xué)校建議分析系統(tǒng)情況圖形化表示。經(jīng)檢驗(yàn),每一部分均占比與數(shù)據(jù)表中一致,所以也可以表明系統(tǒng)最終分類結(jié)果較為可靠。
如果學(xué)校分析人員在微博收集數(shù)據(jù)時(shí)加上該學(xué)校的關(guān)鍵字,且將每次獲取的信息分類結(jié)果按收集時(shí)間命名并保存,則可以在某一特定時(shí)間段內(nèi)將各類數(shù)據(jù)與最近一次分析結(jié)果對(duì)比,若某些分類占值波動(dòng)較大,則表明微博內(nèi)對(duì)該學(xué)校該類設(shè)施需求較大,學(xué)校需要對(duì)這些方面給予更多關(guān)注,起到了定點(diǎn)分析的作用。
本文提出了一種基于人工神經(jīng)網(wǎng)絡(luò)的學(xué)校建議分析系統(tǒng)。首先通過新浪微博API 收集原始樣本數(shù)據(jù),然后篩選、過濾后選擇合適的數(shù)據(jù)構(gòu)成訓(xùn)練用的數(shù)據(jù)集。在對(duì)樣本庫(kù)進(jìn)行深入分析后,建立了用于特征提取的關(guān)鍵詞庫(kù)并提取了5 個(gè)硬件設(shè)施所代表的特征值,通過累積計(jì)數(shù)得到從微博文本到實(shí)數(shù)向量空間的映射,最終利用神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)分類。將人工神經(jīng)網(wǎng)絡(luò)與信息處理結(jié)合是一種很好的方法。結(jié)果表明,ANN 可以成功地應(yīng)用于對(duì)學(xué)校建議的分類,對(duì)于學(xué)校提高管理水平和滿足受眾需求有著重大的現(xiàn)實(shí)意義和參考價(jià)值,為大數(shù)據(jù)時(shí)代下的關(guān)于學(xué)校建議的獲取提供一種新思路。
但這種方法在應(yīng)用時(shí)也有諸多技術(shù)限制,例如,通過jieba 對(duì)微博進(jìn)行分詞后的關(guān)鍵詞與構(gòu)造關(guān)鍵詞庫(kù)時(shí)用的單個(gè)關(guān)鍵詞有所偏差以及各類關(guān)鍵詞指標(biāo)的設(shè)立與檢驗(yàn)、隱含層個(gè)數(shù)的設(shè)立、文本內(nèi)容的長(zhǎng)度,從而對(duì)人工神經(jīng)網(wǎng)絡(luò)判別的準(zhǔn)確性有一定影響。
隨著對(duì)人工神經(jīng)網(wǎng)絡(luò)的不斷深入研究,未來高??梢圆捎酶映墒斓南到y(tǒng)來完成信息獲取工作,不光是通過微博,還可以通過各種網(wǎng)絡(luò)平臺(tái),如論壇、QQ、貼吧等,實(shí)時(shí)獲取最新需求,通過系統(tǒng)自動(dòng)深入分析,幫助學(xué)校及時(shí)、全面、準(zhǔn)確地掌握需求,了解自身的不足之處,并及時(shí)得到改善??傊?,隨著大數(shù)據(jù)時(shí)代下的人工智能的不斷發(fā)展,一定能在復(fù)雜的教育領(lǐng)域發(fā)揮其巨大潛力。