亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于ANN的學(xué)校建議分析系統(tǒng)

        2020-02-02 07:41:34朱穎
        電子技術(shù)與軟件工程 2020年18期
        關(guān)鍵詞:分類文本學(xué)校

        朱穎

        (南京林業(yè)大學(xué) 江蘇省南京市 210037)

        隨著中國(guó)國(guó)力的不斷增強(qiáng)和社會(huì)地位不斷提高,社會(huì)對(duì)學(xué)校教育的重視也在逐年加強(qiáng)。學(xué)校作為當(dāng)代社會(huì)知識(shí)青年的主要生源地,在招生方面的吸引力除去在教學(xué)方面以外,當(dāng)中有很大一部分吸引力依賴于其硬件設(shè)施。近年來,研究表明,排名越靠前的學(xué)校越發(fā)注重學(xué)生的學(xué)習(xí)環(huán)境建設(shè),尤其是外部設(shè)施的建設(shè)。一個(gè)好的學(xué)校不光依賴于優(yōu)質(zhì)的教學(xué),宿舍、圖書館、交通等設(shè)施的提高和改善也能提升在校學(xué)生的學(xué)習(xí)質(zhì)量,從而增強(qiáng)學(xué)校的吸引力。因此,知道自己需要在哪些硬件設(shè)施方面進(jìn)行改善對(duì)一個(gè)學(xué)校聲望的提升有著關(guān)鍵性影響。當(dāng)前,對(duì)于學(xué)校建議獲取主要有兩大措施,一是基于問卷調(diào)查的傳統(tǒng)評(píng)價(jià)模式,二是基于網(wǎng)絡(luò)輿論數(shù)據(jù)的評(píng)價(jià)模式。而目前國(guó)內(nèi)外社會(huì)調(diào)查中較為廣泛使用的一種方法還是問卷調(diào)查,這可從各項(xiàng)研究中看出。該調(diào)查方法在實(shí)施過程中容易受到時(shí)間和空間限制,需要大量的數(shù)據(jù)輸入與統(tǒng)計(jì)工作,且該評(píng)價(jià)體系難以在時(shí)間上對(duì)比公眾需求,所以并不具有未來可持續(xù)性。而現(xiàn)代互聯(lián)網(wǎng)作為一種新興媒體成為公眾發(fā)表意見最常用的平臺(tái),其中包括:QQ、貼吧、微信、論壇、微博等各種方式,從而在社會(huì)信息傳播中占有主導(dǎo)地位。公眾通過這些網(wǎng)絡(luò)工具對(duì)學(xué)校的一些問題或看法則在短時(shí)間內(nèi)就可以形成,信息量大,范圍廣,方便獲取的同時(shí)也有著代表性意見。因此,通過網(wǎng)絡(luò)平臺(tái)獲取學(xué)校意見相比于過去的問卷調(diào)查有著更加方便快捷的好處,其中微博又以其短小、隨時(shí)隨地、全平臺(tái)共享的特點(diǎn)從各個(gè)網(wǎng)絡(luò)工具中脫穎而出,迅速擁有了一大批學(xué)生、社會(huì)人士受眾。同時(shí)作為學(xué)校面向的主要人群,他們的意見尤為重要。

        人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network,簡(jiǎn)稱ANN),是一種通過調(diào)準(zhǔn)內(nèi)部大量節(jié)點(diǎn)之間相互連接的關(guān)系和權(quán)重,從而達(dá)到處理信息的目的的信息處理的數(shù)學(xué)模型[1]。本文針對(duì)目前微博上廣大群眾對(duì)于學(xué)校設(shè)施的需求,總結(jié)了宿舍、教室、食堂、交通、圖書館這五大學(xué)校主要設(shè)施,利用文本分類思想并結(jié)合人工神經(jīng)網(wǎng)絡(luò),獲取微博里關(guān)于每一個(gè)設(shè)施的特征值,高效地、精確地對(duì)該條微博進(jìn)行分類,從而為大數(shù)據(jù)時(shí)代下的關(guān)于學(xué)校建議的獲取提供一種新思路。

        1 數(shù)據(jù)獲取與處理

        1.1 數(shù)據(jù)獲取

        本文研究的對(duì)象是新浪微博用戶發(fā)表的微博,首先要獲取符合要求的微博內(nèi)容。本文使用的數(shù)據(jù)集是借用GooSeeker(https://www.gooseeker.com/)下的微博采集工具箱內(nèi)所提取的微博數(shù)據(jù)作為訓(xùn)練用的數(shù)據(jù)集。GooSeeker 是通過新浪微博API 進(jìn)行實(shí)時(shí)微博數(shù)據(jù)爬取,從而獲取大量微博數(shù)據(jù)的平臺(tái)[2]。

        圖1:神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖

        圖2:神經(jīng)網(wǎng)絡(luò)的誤差線狀圖

        圖3:平均相對(duì)誤差MRE

        通過爬取 2020年 6月至 2020年 9月有涉及到學(xué)校各種關(guān)鍵設(shè)施的12387 條微博數(shù)據(jù),由于這些原始微博數(shù)據(jù)里面往往含有大量無關(guān)信息,如時(shí)間、微博粉絲數(shù)、登錄方式、用戶名等,反而會(huì)影響后續(xù)關(guān)鍵文本提取,所以,需要對(duì)微博數(shù)據(jù)進(jìn)行進(jìn)一步的篩選、過濾,選出合適的、可搭建模型的微博文本。但提取數(shù)據(jù)時(shí)考慮到處理效率問題,而所獲取的樣本數(shù)據(jù)量過大,信息處理起來過于繁瑣,不適合全作為訓(xùn)練數(shù)據(jù),因此,從數(shù)據(jù)樣本中隨機(jī)選取3000條相關(guān)微博,其中關(guān)于宿舍725 條,教室433 條,食堂421 條,交通692 條,圖書館729 條。

        1.2 數(shù)據(jù)處理

        1.2.1 去冗余信息

        模型主要是以文本作為信息輸入,旨在挖掘出文本中的隱含特征,獲取微博文本的向量表達(dá)。由于從微博爬取的文本無法直接輸入人工神經(jīng)網(wǎng)絡(luò)模型,且這些沒有經(jīng)過處理的文本數(shù)據(jù)中有很多冗余信息,會(huì)影響分類效果和效率。所以要進(jìn)行中文文本的預(yù)處理,如中文分詞、停用詞過濾、詞語向量化等[3]。為了節(jié)約人工處理數(shù)據(jù)時(shí)間,同時(shí)加快信息處理能力,本文使用Python 程序?qū)ξ谋緮?shù)據(jù)進(jìn)行進(jìn)一步處理,jieba 作為目前最好的 Python 中文分詞組件,它的精確模式可以在進(jìn)行中文分詞后還可以進(jìn)行去標(biāo)點(diǎn)、去空格、去停用詞等處理,最終使得文本串變成一系列有效詞語的集合[4]。

        表1:訓(xùn)練、驗(yàn)證、測(cè)試結(jié)果(括號(hào)中的百分比為準(zhǔn)確率)

        1.2.2 數(shù)據(jù)的特征值提取

        分別總結(jié)關(guān)于宿舍、教室、食堂、交通、圖書館五個(gè)設(shè)施地點(diǎn)的名詞庫(kù),其中每個(gè)名詞庫(kù)包括地點(diǎn)名詞、代表性行為詞和相關(guān)形容詞。然后將完成jieba 分詞處理后每一條微博的有效詞語集合與各個(gè)詞庫(kù)中關(guān)鍵詞進(jìn)行匹配,每出現(xiàn)該庫(kù)中一個(gè)關(guān)鍵詞則將該庫(kù)value 值計(jì)數(shù)加一,統(tǒng)計(jì)出每一個(gè)詞庫(kù)對(duì)應(yīng)的關(guān)鍵詞出現(xiàn)頻率總數(shù),通過xlwt 寫入Excel 表格,最終得到一個(gè)五維的輸入向量。

        2 建立模型

        人工神經(jīng)網(wǎng)絡(luò)具有自學(xué)習(xí)和自適應(yīng)的能力,它可以通過預(yù)先提供的一批相應(yīng)的輸入輸出數(shù)據(jù)來分析和掌握二者之間的潛在規(guī)律并且根據(jù)這些規(guī)律,用新的輸入數(shù)據(jù)計(jì)算輸出結(jié)果[5]。人工神經(jīng)網(wǎng)絡(luò)由不同層次的神經(jīng)元組成,這些具有非線性功能的神經(jīng)元通過突觸權(quán)重相互連接。在訓(xùn)練過程中,通過權(quán)重的變化,從而使輸出更接近神經(jīng)網(wǎng)絡(luò)的目標(biāo)。對(duì)于大部分具有類別可分性的條件的問題,神經(jīng)網(wǎng)絡(luò)系統(tǒng)能夠?qū)斎胂蛄窟M(jìn)行定向分析從而得出該輸入所屬的數(shù)據(jù)屬于哪一類的結(jié)果[6]。而該學(xué)校建議系統(tǒng)分類的最關(guān)鍵問題是對(duì)建議類別的分辨和確認(rèn),神經(jīng)網(wǎng)絡(luò)系統(tǒng)通過對(duì)輸入特征向量的分析,得出一個(gè)輸出向量,通過與收集到樣本的輸出值進(jìn)行差值計(jì)算,得到絕對(duì)值最小的,也就是最相近的分類,因此神經(jīng)網(wǎng)絡(luò)作為該系統(tǒng)的分類器是非常適合的。

        首先,將經(jīng)過特征值提取處理后的五維向量作為第1 層的輸入向量。其次,建立神經(jīng)網(wǎng)絡(luò)模型,該網(wǎng)絡(luò)模型有輸入層,3 個(gè)隱層神經(jīng)元和輸出層,輸入層的神經(jīng)元數(shù)量與輸入?yún)?shù)的數(shù)量相同。輸入層是學(xué)校建議分析系統(tǒng)的五種設(shè)施的特征值,輸出層為每種設(shè)施代表的數(shù)字標(biāo)簽,其結(jié)構(gòu)如圖1所示。

        然后進(jìn)行網(wǎng)絡(luò)訓(xùn)練,從全部樣本中隨機(jī)抽取 2100 例(宿舍507條,教室303 條,食堂295 條,交通484 條,圖書館510 條)作為訓(xùn)練組,450 例作為驗(yàn)證組(宿舍109 條,教室65 條,食堂63 條,交通104 條,圖書館110 條),450 例為測(cè)試組(宿舍109 條,教室65 條,食堂63 條,交通104 條,圖書館109 條),分別占總數(shù)據(jù)的70%,15%,15%。通過 MATLAB 2020a 對(duì)上述數(shù)據(jù)編程,將數(shù)據(jù)輸入構(gòu)建好的ANN 模型進(jìn)行訓(xùn)練,最后進(jìn)行模型的比較和驗(yàn)證[7]。

        模型采用計(jì)算平均相對(duì)誤差MRE(Mean Relative Estimation Error)、誤差總值re_sum,進(jìn)行精度和可靠性評(píng)價(jià),其中MRE、re_sum 定義為:

        re_sum = re_sum + re;

        MRE = re_sum/N;

        圖4:神經(jīng)網(wǎng)絡(luò)回歸分析結(jié)果

        其中,樣本個(gè)數(shù)用N 表示,網(wǎng)絡(luò)模型預(yù)測(cè)值采用y_cal 表示,y_real 為實(shí)驗(yàn)實(shí)際值,re 是預(yù)測(cè)值和實(shí)際值差的絕對(duì)值與實(shí)際值的單個(gè)比值。

        3 實(shí)驗(yàn)結(jié)果

        使用處理好的訓(xùn)練集數(shù)據(jù)用于神經(jīng)網(wǎng)絡(luò)訓(xùn)練,從圖2 可以很明顯看出,當(dāng)訓(xùn)練次數(shù)達(dá)到34 次時(shí),訓(xùn)練、驗(yàn)證和測(cè)試誤差同時(shí)達(dá)到最小,其中測(cè)試誤差稍大一點(diǎn),但也只有0.084016,誤差小于9%,在可接受的范圍以內(nèi)。同時(shí),從圖3 看出,平均相對(duì)誤差MRE 通過MATLAB 計(jì)算得出為0.0632。

        接著考慮ANN 神經(jīng)網(wǎng)絡(luò)的收斂性,于是對(duì)訓(xùn)練、驗(yàn)證和測(cè)試結(jié)果進(jìn)行回歸分析,可以從圖4 看到分析效果。

        從圖4 可以看出,訓(xùn)練、驗(yàn)證和測(cè)試結(jié)果的R 值分別為 0.98128,0.97847,0.97265,三者的總R 值和為0.97964,回歸效果較好,這說明神經(jīng)網(wǎng)絡(luò)系統(tǒng)的仿真試驗(yàn)的誤差較小,基本上可以進(jìn)行仿真試驗(yàn)。為了能看出分類的效果,本文把訓(xùn)練組、驗(yàn)證組和測(cè)試組的測(cè)試結(jié)果進(jìn)行對(duì)照,如表1所示。

        從表1 中可以看出,人工神經(jīng)網(wǎng)絡(luò)具有較好的識(shí)別能力,每組準(zhǔn)確率達(dá)到97.0%,可以應(yīng)用于學(xué)校建議分類。

        4 圖形化表示

        由于該建議分析模型的輸出是一個(gè)一維向量,為了直觀地展示給學(xué)校分析人員,本文在五維輸入向量中取其累積數(shù)量最大的設(shè)施代表值作為最終預(yù)測(cè)結(jié)果(詞庫(kù)中關(guān)于該設(shè)施的關(guān)鍵詞數(shù)量累積的值越大表示越有可能是該設(shè)施對(duì)應(yīng)的分類),再通過詞庫(kù)和分類的映射關(guān)系得到最終的分類結(jié)果的圖形化表示。利用python 中的pyplot 模塊生成一個(gè)餅圖,反映當(dāng)前數(shù)據(jù)集各個(gè)分類的占比,通過這個(gè)占比可以很明顯看出微博內(nèi)對(duì)學(xué)校設(shè)施評(píng)論的傾向,分析人員從而可以作出正確的改善或者認(rèn)知定位等相關(guān)工作。圖五顯示的關(guān)于學(xué)校建議分析系統(tǒng)情況圖形化表示。經(jīng)檢驗(yàn),每一部分均占比與數(shù)據(jù)表中一致,所以也可以表明系統(tǒng)最終分類結(jié)果較為可靠。

        如果學(xué)校分析人員在微博收集數(shù)據(jù)時(shí)加上該學(xué)校的關(guān)鍵字,且將每次獲取的信息分類結(jié)果按收集時(shí)間命名并保存,則可以在某一特定時(shí)間段內(nèi)將各類數(shù)據(jù)與最近一次分析結(jié)果對(duì)比,若某些分類占值波動(dòng)較大,則表明微博內(nèi)對(duì)該學(xué)校該類設(shè)施需求較大,學(xué)校需要對(duì)這些方面給予更多關(guān)注,起到了定點(diǎn)分析的作用。

        5 討論

        本文提出了一種基于人工神經(jīng)網(wǎng)絡(luò)的學(xué)校建議分析系統(tǒng)。首先通過新浪微博API 收集原始樣本數(shù)據(jù),然后篩選、過濾后選擇合適的數(shù)據(jù)構(gòu)成訓(xùn)練用的數(shù)據(jù)集。在對(duì)樣本庫(kù)進(jìn)行深入分析后,建立了用于特征提取的關(guān)鍵詞庫(kù)并提取了5 個(gè)硬件設(shè)施所代表的特征值,通過累積計(jì)數(shù)得到從微博文本到實(shí)數(shù)向量空間的映射,最終利用神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)分類。將人工神經(jīng)網(wǎng)絡(luò)與信息處理結(jié)合是一種很好的方法。結(jié)果表明,ANN 可以成功地應(yīng)用于對(duì)學(xué)校建議的分類,對(duì)于學(xué)校提高管理水平和滿足受眾需求有著重大的現(xiàn)實(shí)意義和參考價(jià)值,為大數(shù)據(jù)時(shí)代下的關(guān)于學(xué)校建議的獲取提供一種新思路。

        但這種方法在應(yīng)用時(shí)也有諸多技術(shù)限制,例如,通過jieba 對(duì)微博進(jìn)行分詞后的關(guān)鍵詞與構(gòu)造關(guān)鍵詞庫(kù)時(shí)用的單個(gè)關(guān)鍵詞有所偏差以及各類關(guān)鍵詞指標(biāo)的設(shè)立與檢驗(yàn)、隱含層個(gè)數(shù)的設(shè)立、文本內(nèi)容的長(zhǎng)度,從而對(duì)人工神經(jīng)網(wǎng)絡(luò)判別的準(zhǔn)確性有一定影響。

        隨著對(duì)人工神經(jīng)網(wǎng)絡(luò)的不斷深入研究,未來高??梢圆捎酶映墒斓南到y(tǒng)來完成信息獲取工作,不光是通過微博,還可以通過各種網(wǎng)絡(luò)平臺(tái),如論壇、QQ、貼吧等,實(shí)時(shí)獲取最新需求,通過系統(tǒng)自動(dòng)深入分析,幫助學(xué)校及時(shí)、全面、準(zhǔn)確地掌握需求,了解自身的不足之處,并及時(shí)得到改善??傊?,隨著大數(shù)據(jù)時(shí)代下的人工智能的不斷發(fā)展,一定能在復(fù)雜的教育領(lǐng)域發(fā)揮其巨大潛力。

        猜你喜歡
        分類文本學(xué)校
        分類算一算
        在808DA上文本顯示的改善
        分類討論求坐標(biāo)
        基于doc2vec和TF-IDF的相似文本識(shí)別
        電子制作(2018年18期)2018-11-14 01:48:06
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        學(xué)校推介
        留學(xué)生(2016年6期)2016-07-25 17:55:29
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        奇妙學(xué)校
        如何快速走進(jìn)文本
        中文字幕乱码无码人妻系列蜜桃| 美女福利视频网址导航| 麻豆国产av在线观看| 亚洲一区二区三区四区五区黄 | 理论片87福利理论电影| 国产欧美日韩不卡一区二区三区| av大片网站在线观看| 欧美老妇牲交videos| 55夜色66夜色国产精品视频| 欧美成人久久久免费播放| 亚洲av偷拍一区二区三区| 青青草视频是针对华人| 国产精品亚洲专区无码不卡| 亚洲精品久久区二区三区蜜桃臀 | 国产人澡人澡澡澡人碰视频| 久久免费国产精品一区二区| 日本骚色老妇视频网站| 人妖一区二区三区视频| 国产激情综合在线观看| 亚洲成人小说| 日韩精品欧美激情国产一区| 国产极品大秀在线性色| 国产av天堂亚洲国产av天堂| 香蕉视频在线精品视频| 日本手机在线| 午夜精品人妻中字字幕| 中文字幕人妻少妇伦伦| 亚洲熟女一区二区三区| 亚洲欧美日韩专区一| 亚洲精品一区二区三区国产| 痴汉电车中文字幕在线| 99久久精品国产一区二区三区| 国产av天堂成人网| 人妻少妇无乱码中文字幕| 国产一区二区三区在线观看完整版 | 日本一区二区在线播放| 中文字幕无码av激情不卡| 亚洲精品美女久久久久久久 | 亚洲熟妇少妇任你躁在线观看无码| 日本五月天婷久久网站| 国产男女猛烈无遮挡免费视频网址|