亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于ANN的學(xué)校建議分析系統(tǒng)

2020-02-02 07:41:34朱穎

電子技術(shù)與軟件工程 2020年18期

朱穎

（南京林業(yè)大學(xué) 江蘇省南京市 210037）

隨著中國(guó)國(guó)力的不斷增強(qiáng)和社會(huì)地位不斷提高，社會(huì)對(duì)學(xué)校教育的重視也在逐年加強(qiáng)。學(xué)校作為當(dāng)代社會(huì)知識(shí)青年的主要生源地，在招生方面的吸引力除去在教學(xué)方面以外，當(dāng)中有很大一部分吸引力依賴于其硬件設(shè)施。近年來，研究表明，排名越靠前的學(xué)校越發(fā)注重學(xué)生的學(xué)習(xí)環(huán)境建設(shè)，尤其是外部設(shè)施的建設(shè)。一個(gè)好的學(xué)校不光依賴于優(yōu)質(zhì)的教學(xué)，宿舍、圖書館、交通等設(shè)施的提高和改善也能提升在校學(xué)生的學(xué)習(xí)質(zhì)量，從而增強(qiáng)學(xué)校的吸引力。因此，知道自己需要在哪些硬件設(shè)施方面進(jìn)行改善對(duì)一個(gè)學(xué)校聲望的提升有著關(guān)鍵性影響。當(dāng)前，對(duì)于學(xué)校建議獲取主要有兩大措施，一是基于問卷調(diào)查的傳統(tǒng)評(píng)價(jià)模式，二是基于網(wǎng)絡(luò)輿論數(shù)據(jù)的評(píng)價(jià)模式。而目前國(guó)內(nèi)外社會(huì)調(diào)查中較為廣泛使用的一種方法還是問卷調(diào)查，這可從各項(xiàng)研究中看出。該調(diào)查方法在實(shí)施過程中容易受到時(shí)間和空間限制，需要大量的數(shù)據(jù)輸入與統(tǒng)計(jì)工作,且該評(píng)價(jià)體系難以在時(shí)間上對(duì)比公眾需求，所以并不具有未來可持續(xù)性。而現(xiàn)代互聯(lián)網(wǎng)作為一種新興媒體成為公眾發(fā)表意見最常用的平臺(tái)，其中包括：QQ、貼吧、微信、論壇、微博等各種方式，從而在社會(huì)信息傳播中占有主導(dǎo)地位。公眾通過這些網(wǎng)絡(luò)工具對(duì)學(xué)校的一些問題或看法則在短時(shí)間內(nèi)就可以形成，信息量大，范圍廣，方便獲取的同時(shí)也有著代表性意見。因此，通過網(wǎng)絡(luò)平臺(tái)獲取學(xué)校意見相比于過去的問卷調(diào)查有著更加方便快捷的好處，其中微博又以其短小、隨時(shí)隨地、全平臺(tái)共享的特點(diǎn)從各個(gè)網(wǎng)絡(luò)工具中脫穎而出，迅速擁有了一大批學(xué)生、社會(huì)人士受眾。同時(shí)作為學(xué)校面向的主要人群，他們的意見尤為重要。

人工神經(jīng)網(wǎng)絡(luò)（Artificial Neural Network，簡(jiǎn)稱ANN），是一種通過調(diào)準(zhǔn)內(nèi)部大量節(jié)點(diǎn)之間相互連接的關(guān)系和權(quán)重，從而達(dá)到處理信息的目的的信息處理的數(shù)學(xué)模型[1]。本文針對(duì)目前微博上廣大群眾對(duì)于學(xué)校設(shè)施的需求，總結(jié)了宿舍、教室、食堂、交通、圖書館這五大學(xué)校主要設(shè)施，利用文本分類思想并結(jié)合人工神經(jīng)網(wǎng)絡(luò)，獲取微博里關(guān)于每一個(gè)設(shè)施的特征值，高效地、精確地對(duì)該條微博進(jìn)行分類，從而為大數(shù)據(jù)時(shí)代下的關(guān)于學(xué)校建議的獲取提供一種新思路。

1 數(shù)據(jù)獲取與處理

1.1 數(shù)據(jù)獲取

本文研究的對(duì)象是新浪微博用戶發(fā)表的微博，首先要獲取符合要求的微博內(nèi)容。本文使用的數(shù)據(jù)集是借用GooSeeker（https://www.gooseeker.com/）下的微博采集工具箱內(nèi)所提取的微博數(shù)據(jù)作為訓(xùn)練用的數(shù)據(jù)集。GooSeeker 是通過新浪微博API 進(jìn)行實(shí)時(shí)微博數(shù)據(jù)爬取，從而獲取大量微博數(shù)據(jù)的平臺(tái)[2]。

圖1：神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖

圖2：神經(jīng)網(wǎng)絡(luò)的誤差線狀圖

圖3：平均相對(duì)誤差MRE

通過爬取 2020年 6月至 2020年 9月有涉及到學(xué)校各種關(guān)鍵設(shè)施的12387 條微博數(shù)據(jù)，由于這些原始微博數(shù)據(jù)里面往往含有大量無關(guān)信息，如時(shí)間、微博粉絲數(shù)、登錄方式、用戶名等，反而會(huì)影響后續(xù)關(guān)鍵文本提取，所以，需要對(duì)微博數(shù)據(jù)進(jìn)行進(jìn)一步的篩選、過濾，選出合適的、可搭建模型的微博文本。但提取數(shù)據(jù)時(shí)考慮到處理效率問題，而所獲取的樣本數(shù)據(jù)量過大，信息處理起來過于繁瑣，不適合全作為訓(xùn)練數(shù)據(jù)，因此，從數(shù)據(jù)樣本中隨機(jī)選取3000條相關(guān)微博，其中關(guān)于宿舍725 條，教室433 條，食堂421 條，交通692 條，圖書館729 條。

1.2 數(shù)據(jù)處理

1.2.1 去冗余信息

模型主要是以文本作為信息輸入,旨在挖掘出文本中的隱含特征,獲取微博文本的向量表達(dá)。由于從微博爬取的文本無法直接輸入人工神經(jīng)網(wǎng)絡(luò)模型，且這些沒有經(jīng)過處理的文本數(shù)據(jù)中有很多冗余信息，會(huì)影響分類效果和效率。所以要進(jìn)行中文文本的預(yù)處理，如中文分詞、停用詞過濾、詞語向量化等[3]。為了節(jié)約人工處理數(shù)據(jù)時(shí)間，同時(shí)加快信息處理能力，本文使用Python 程序?qū)ξ谋緮?shù)據(jù)進(jìn)行進(jìn)一步處理，jieba 作為目前最好的 Python 中文分詞組件，它的精確模式可以在進(jìn)行中文分詞后還可以進(jìn)行去標(biāo)點(diǎn)、去空格、去停用詞等處理，最終使得文本串變成一系列有效詞語的集合[4]。

表1：訓(xùn)練、驗(yàn)證、測(cè)試結(jié)果（括號(hào)中的百分比為準(zhǔn)確率）

1.2.2 數(shù)據(jù)的特征值提取

分別總結(jié)關(guān)于宿舍、教室、食堂、交通、圖書館五個(gè)設(shè)施地點(diǎn)的名詞庫(kù)，其中每個(gè)名詞庫(kù)包括地點(diǎn)名詞、代表性行為詞和相關(guān)形容詞。然后將完成jieba 分詞處理后每一條微博的有效詞語集合與各個(gè)詞庫(kù)中關(guān)鍵詞進(jìn)行匹配，每出現(xiàn)該庫(kù)中一個(gè)關(guān)鍵詞則將該庫(kù)value 值計(jì)數(shù)加一，統(tǒng)計(jì)出每一個(gè)詞庫(kù)對(duì)應(yīng)的關(guān)鍵詞出現(xiàn)頻率總數(shù)，通過xlwt 寫入Excel 表格，最終得到一個(gè)五維的輸入向量。

2 建立模型

人工神經(jīng)網(wǎng)絡(luò)具有自學(xué)習(xí)和自適應(yīng)的能力，它可以通過預(yù)先提供的一批相應(yīng)的輸入輸出數(shù)據(jù)來分析和掌握二者之間的潛在規(guī)律并且根據(jù)這些規(guī)律，用新的輸入數(shù)據(jù)計(jì)算輸出結(jié)果[5]。人工神經(jīng)網(wǎng)絡(luò)由不同層次的神經(jīng)元組成，這些具有非線性功能的神經(jīng)元通過突觸權(quán)重相互連接。在訓(xùn)練過程中，通過權(quán)重的變化，從而使輸出更接近神經(jīng)網(wǎng)絡(luò)的目標(biāo)。對(duì)于大部分具有類別可分性的條件的問題，神經(jīng)網(wǎng)絡(luò)系統(tǒng)能夠?qū)斎胂蛄窟M(jìn)行定向分析從而得出該輸入所屬的數(shù)據(jù)屬于哪一類的結(jié)果[6]。而該學(xué)校建議系統(tǒng)分類的最關(guān)鍵問題是對(duì)建議類別的分辨和確認(rèn)，神經(jīng)網(wǎng)絡(luò)系統(tǒng)通過對(duì)輸入特征向量的分析，得出一個(gè)輸出向量，通過與收集到樣本的輸出值進(jìn)行差值計(jì)算，得到絕對(duì)值最小的，也就是最相近的分類，因此神經(jīng)網(wǎng)絡(luò)作為該系統(tǒng)的分類器是非常適合的。

首先，將經(jīng)過特征值提取處理后的五維向量作為第1 層的輸入向量。其次，建立神經(jīng)網(wǎng)絡(luò)模型，該網(wǎng)絡(luò)模型有輸入層，3 個(gè)隱層神經(jīng)元和輸出層，輸入層的神經(jīng)元數(shù)量與輸入?yún)?shù)的數(shù)量相同。輸入層是學(xué)校建議分析系統(tǒng)的五種設(shè)施的特征值，輸出層為每種設(shè)施代表的數(shù)字標(biāo)簽，其結(jié)構(gòu)如圖1所示。

然后進(jìn)行網(wǎng)絡(luò)訓(xùn)練，從全部樣本中隨機(jī)抽取 2100 例（宿舍507條，教室303 條，食堂295 條，交通484 條，圖書館510 條）作為訓(xùn)練組，450 例作為驗(yàn)證組（宿舍109 條，教室65 條，食堂63 條，交通104 條，圖書館110 條），450 例為測(cè)試組（宿舍109 條，教室65 條，食堂63 條，交通104 條，圖書館109 條），分別占總數(shù)據(jù)的70%，15%，15%。通過 MATLAB 2020a 對(duì)上述數(shù)據(jù)編程，將數(shù)據(jù)輸入構(gòu)建好的ANN 模型進(jìn)行訓(xùn)練，最后進(jìn)行模型的比較和驗(yàn)證[7]。

模型采用計(jì)算平均相對(duì)誤差MRE（Mean Relative Estimation Error）、誤差總值re_sum，進(jìn)行精度和可靠性評(píng)價(jià)，其中MRE、re_sum 定義為：

re_sum = re_sum + re;

MRE = re_sum/N;

圖4：神經(jīng)網(wǎng)絡(luò)回歸分析結(jié)果

其中，樣本個(gè)數(shù)用N 表示，網(wǎng)絡(luò)模型預(yù)測(cè)值采用y_cal 表示，y_real 為實(shí)驗(yàn)實(shí)際值，re 是預(yù)測(cè)值和實(shí)際值差的絕對(duì)值與實(shí)際值的單個(gè)比值。

3 實(shí)驗(yàn)結(jié)果

使用處理好的訓(xùn)練集數(shù)據(jù)用于神經(jīng)網(wǎng)絡(luò)訓(xùn)練，從圖2 可以很明顯看出，當(dāng)訓(xùn)練次數(shù)達(dá)到34 次時(shí)，訓(xùn)練、驗(yàn)證和測(cè)試誤差同時(shí)達(dá)到最小，其中測(cè)試誤差稍大一點(diǎn)，但也只有0.084016，誤差小于9%，在可接受的范圍以內(nèi)。同時(shí)，從圖3 看出，平均相對(duì)誤差MRE 通過MATLAB 計(jì)算得出為0.0632。

接著考慮ANN 神經(jīng)網(wǎng)絡(luò)的收斂性，于是對(duì)訓(xùn)練、驗(yàn)證和測(cè)試結(jié)果進(jìn)行回歸分析，可以從圖4 看到分析效果。

從圖4 可以看出，訓(xùn)練、驗(yàn)證和測(cè)試結(jié)果的R 值分別為 0.98128，0.97847，0.97265，三者的總R 值和為0.97964，回歸效果較好，這說明神經(jīng)網(wǎng)絡(luò)系統(tǒng)的仿真試驗(yàn)的誤差較小，基本上可以進(jìn)行仿真試驗(yàn)。為了能看出分類的效果，本文把訓(xùn)練組、驗(yàn)證組和測(cè)試組的測(cè)試結(jié)果進(jìn)行對(duì)照，如表1所示。

從表1 中可以看出，人工神經(jīng)網(wǎng)絡(luò)具有較好的識(shí)別能力，每組準(zhǔn)確率達(dá)到97.0%，可以應(yīng)用于學(xué)校建議分類。

4 圖形化表示

由于該建議分析模型的輸出是一個(gè)一維向量，為了直觀地展示給學(xué)校分析人員，本文在五維輸入向量中取其累積數(shù)量最大的設(shè)施代表值作為最終預(yù)測(cè)結(jié)果（詞庫(kù)中關(guān)于該設(shè)施的關(guān)鍵詞數(shù)量累積的值越大表示越有可能是該設(shè)施對(duì)應(yīng)的分類），再通過詞庫(kù)和分類的映射關(guān)系得到最終的分類結(jié)果的圖形化表示。利用python 中的pyplot 模塊生成一個(gè)餅圖，反映當(dāng)前數(shù)據(jù)集各個(gè)分類的占比，通過這個(gè)占比可以很明顯看出微博內(nèi)對(duì)學(xué)校設(shè)施評(píng)論的傾向，分析人員從而可以作出正確的改善或者認(rèn)知定位等相關(guān)工作。圖五顯示的關(guān)于學(xué)校建議分析系統(tǒng)情況圖形化表示。經(jīng)檢驗(yàn)，每一部分均占比與數(shù)據(jù)表中一致，所以也可以表明系統(tǒng)最終分類結(jié)果較為可靠。

如果學(xué)校分析人員在微博收集數(shù)據(jù)時(shí)加上該學(xué)校的關(guān)鍵字，且將每次獲取的信息分類結(jié)果按收集時(shí)間命名并保存，則可以在某一特定時(shí)間段內(nèi)將各類數(shù)據(jù)與最近一次分析結(jié)果對(duì)比，若某些分類占值波動(dòng)較大，則表明微博內(nèi)對(duì)該學(xué)校該類設(shè)施需求較大，學(xué)校需要對(duì)這些方面給予更多關(guān)注，起到了定點(diǎn)分析的作用。

5 討論

本文提出了一種基于人工神經(jīng)網(wǎng)絡(luò)的學(xué)校建議分析系統(tǒng)。首先通過新浪微博API 收集原始樣本數(shù)據(jù)，然后篩選、過濾后選擇合適的數(shù)據(jù)構(gòu)成訓(xùn)練用的數(shù)據(jù)集。在對(duì)樣本庫(kù)進(jìn)行深入分析后，建立了用于特征提取的關(guān)鍵詞庫(kù)并提取了5 個(gè)硬件設(shè)施所代表的特征值，通過累積計(jì)數(shù)得到從微博文本到實(shí)數(shù)向量空間的映射，最終利用神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)分類。將人工神經(jīng)網(wǎng)絡(luò)與信息處理結(jié)合是一種很好的方法。結(jié)果表明，ANN 可以成功地應(yīng)用于對(duì)學(xué)校建議的分類，對(duì)于學(xué)校提高管理水平和滿足受眾需求有著重大的現(xiàn)實(shí)意義和參考價(jià)值，為大數(shù)據(jù)時(shí)代下的關(guān)于學(xué)校建議的獲取提供一種新思路。

但這種方法在應(yīng)用時(shí)也有諸多技術(shù)限制，例如，通過jieba 對(duì)微博進(jìn)行分詞后的關(guān)鍵詞與構(gòu)造關(guān)鍵詞庫(kù)時(shí)用的單個(gè)關(guān)鍵詞有所偏差以及各類關(guān)鍵詞指標(biāo)的設(shè)立與檢驗(yàn)、隱含層個(gè)數(shù)的設(shè)立、文本內(nèi)容的長(zhǎng)度，從而對(duì)人工神經(jīng)網(wǎng)絡(luò)判別的準(zhǔn)確性有一定影響。

隨著對(duì)人工神經(jīng)網(wǎng)絡(luò)的不斷深入研究，未來高?？梢圆捎酶映墒斓南到y(tǒng)來完成信息獲取工作，不光是通過微博，還可以通過各種網(wǎng)絡(luò)平臺(tái)，如論壇、QQ、貼吧等，實(shí)時(shí)獲取最新需求，通過系統(tǒng)自動(dòng)深入分析，幫助學(xué)校及時(shí)、全面、準(zhǔn)確地掌握需求，了解自身的不足之處，并及時(shí)得到改善?？傊?，隨著大數(shù)據(jù)時(shí)代下的人工智能的不斷發(fā)展，一定能在復(fù)雜的教育領(lǐng)域發(fā)揮其巨大潛力。