亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于Python爬蟲技術(shù)的高校網(wǎng)絡(luò)輿情數(shù)據(jù)分析研究

        2023-06-22 03:25:20丁然
        現(xiàn)代信息科技 2023年5期
        關(guān)鍵詞:網(wǎng)絡(luò)爬蟲輿情

        摘? 要:高校論壇是學(xué)生發(fā)表意見和相互交流的一個網(wǎng)絡(luò)平臺,也是高校校園輿情的一個重要信息源頭。高校百度貼吧是以在校生為主導(dǎo)群體的在線交流平臺,貼吧內(nèi)信息在一定程度上反映了學(xué)生的思想動態(tài)和輿論導(dǎo)向,文章以“安徽審計職業(yè)學(xué)院百度貼吧”為例,分析Python網(wǎng)絡(luò)爬蟲技術(shù)的實現(xiàn)原理,爬取貼吧內(nèi)的文本數(shù)據(jù),利用分詞、詞頻統(tǒng)計、詞云圖制作等技術(shù)進行數(shù)據(jù)分析,提出輿情結(jié)論和研究展望,為校園相關(guān)部門輿情引導(dǎo)提供幫助和新的思路。

        關(guān)鍵詞:網(wǎng)絡(luò)爬蟲;Python;輿情

        中圖分類號:TP391? ? 文獻標識碼:A? 文章編號:2096-4706(2023)05-0106-04

        Analysis and Research of University Network Public Opinion Data Based on Python Crawler Technology

        —Taking“Baidu Post Bar of Anhui Audit College”as an Example

        DING Ran

        (Anhui Audit College, Hefei? 230601, China)

        Abstract: University forum is a network platform for students to express their opinions and communicate with each other, which is also an important information source on campus public opinion. Baidu Post Bar in colleges and universities is an online communication platform dominated by internal students. The information in the post bar reflects the ideological dynamics and public opinion orientation of students to a certain extent. This paper takes “Baidu Post Bar in Anhui Audit College” as an example, analyzes the implementation principle of Python Web crawler technology, and climbs the text data in the post bar. It uses word segmentation, word frequency statistics, word cloud image production and other technologies to analyze the data, puts forward public opinion conclusions and research prospects, and provides help and new ideas for the guidance of public opinion of relevant departments on campus.

        Keywords: Web crawler; Python; public opinion

        0? 引? 言

        隨著互聯(lián)網(wǎng)以及以社交為基礎(chǔ)的互聯(lián)網(wǎng)應(yīng)用不斷迅猛發(fā)展,其背后帶來的是數(shù)據(jù)的爆炸式增長[1]。其中,數(shù)據(jù)量指數(shù)級增長,數(shù)據(jù)結(jié)構(gòu)日趨復(fù)雜,數(shù)據(jù)源涉及各行各業(yè)。對于高校而言,網(wǎng)絡(luò)的普及一方面豐富了學(xué)校的教育教學(xué)方法,提升了管理者的教育管理水平;另一方面也讓網(wǎng)絡(luò)技術(shù)融入了高校大學(xué)生的學(xué)生和生活中,為其帶來便利。

        高校大學(xué)生是一個思想十分活躍的群體,他們傾向于將自己所見所感在網(wǎng)絡(luò)上發(fā)布,諸如百度貼吧、微博、抖音、微信公眾號、微信朋友圈等網(wǎng)絡(luò)平臺。這些網(wǎng)絡(luò)平臺支持的轉(zhuǎn)發(fā)、評論、分享等便捷功能,促使并加快了網(wǎng)絡(luò)數(shù)據(jù)的增長。在這些網(wǎng)絡(luò)平臺上,有學(xué)生發(fā)布的大量的信息資源,內(nèi)容包羅萬象、豐富多彩,在一定程度上代表了高校大學(xué)生的思想和行為。然而,面對復(fù)雜的網(wǎng)絡(luò)環(huán)境、大數(shù)據(jù)的信息浪潮,大學(xué)生在信息甄別能力上還比較薄弱,在強有力的信息沖擊下容易迷失自我。最初個人發(fā)布的意見,隨著意見的擴散和討論的逐步深入,各種觀點的交流與碰撞,就可能轉(zhuǎn)化為大多數(shù)人的集體意識,討論的主題逐漸趨向于特定的焦點,最終形成具有一定規(guī)模及明確指向的校園網(wǎng)絡(luò)輿情,從而對和諧校園的建設(shè)產(chǎn)生一定的影響[2]。

        1? 數(shù)據(jù)來源

        本文以“安徽審計職業(yè)學(xué)院百度貼吧”為例,對校園貼吧網(wǎng)絡(luò)輿情數(shù)據(jù)進行分析研究,掌握校園貼吧網(wǎng)絡(luò)輿情的現(xiàn)狀及發(fā)展趨勢,進而加強輿情引導(dǎo),為在校大學(xué)生的健康成長提供一個更加良好的網(wǎng)絡(luò)氛圍,促進校園網(wǎng)絡(luò)建設(shè)健康發(fā)展。安徽審計職業(yè)學(xué)院在校大學(xué)生人數(shù)達7 000余人,校園內(nèi)學(xué)生公寓、普通教室、實訓(xùn)機房、圖書館等學(xué)生學(xué)習(xí)生活場所均已連接互聯(lián)網(wǎng),校園內(nèi)無線網(wǎng)絡(luò)實現(xiàn)全覆蓋,在校生上網(wǎng)條件便利,對于社會發(fā)生的熱點話題,在校學(xué)生可以通過校園百度貼吧網(wǎng)絡(luò)平臺方便迅速地發(fā)布意見、表達觀點。打開百度官網(wǎng),進入百度貼吧,搜索“安徽審計職業(yè)學(xué)院”點擊進入貼吧,這時進入“安徽審計學(xué)院吧”百度貼吧網(wǎng)頁,網(wǎng)頁導(dǎo)航欄目主要包括“看帖”“圖片”“吧主推薦”“視頻”四部分內(nèi)容,其中“看貼”內(nèi)容最為豐富,截至2022年3月,共有帖子數(shù)90多萬。本文通過Python爬蟲技術(shù)爬取2021年12月17日至2022年3月17日時間段內(nèi)的發(fā)帖內(nèi)容,具體包括發(fā)帖的標題、回復(fù)內(nèi)容、作者名稱、發(fā)布時間等;再將發(fā)帖內(nèi)容數(shù)據(jù)存儲為Excel表格文件,作為數(shù)據(jù)源;最后通過Python數(shù)據(jù)分析技術(shù)進行分析。

        2? 相關(guān)理論及技術(shù)實現(xiàn)

        2.1? 網(wǎng)絡(luò)爬蟲理論

        互聯(lián)網(wǎng)上所有的資源都是通過URL(統(tǒng)一資源定位符,通常所說的網(wǎng)址)作為相關(guān)描述放置在服務(wù)器上的,網(wǎng)址的訪問是通過HTTP協(xié)議實現(xiàn),HTTP協(xié)議是超文本傳輸協(xié)議,是一個基于“請求與響應(yīng)”模式的、無狀態(tài)的應(yīng)用層協(xié)議[3]。訪問網(wǎng)址的基本流程如圖1所示。

        互聯(lián)網(wǎng)上大量的資源節(jié)點連接在一起,很像一張大大的“蜘蛛網(wǎng)”,網(wǎng)絡(luò)爬蟲就像蜘蛛一樣,在網(wǎng)上沿著URL絲線爬行。網(wǎng)絡(luò)爬蟲就是利用軟件工具模擬瀏覽器訪問URL,并下載每一個URL對應(yīng)的網(wǎng)頁內(nèi)容,完成網(wǎng)頁數(shù)據(jù)的收集整理與分析的過程。

        網(wǎng)絡(luò)爬蟲需要注意合法性問題,網(wǎng)站上涉及的個人隱私數(shù)據(jù)是不允許爬取的,更不能將爬取的數(shù)據(jù)用于商業(yè)用途或違反法律規(guī)定。在爬取一個網(wǎng)站的數(shù)據(jù)時,合法性需要遵守。本文爬蟲數(shù)據(jù)僅用于科學(xué)項目研究,主要針對本校大學(xué)生在校園貼吧上發(fā)布的內(nèi)容進行輿情分析,未涉及商業(yè)用途,也未涉及個人隱私等受法律保護的信息。

        2.2? Python技術(shù)及應(yīng)用

        Python起源于20世紀90年代,其創(chuàng)始人為荷蘭人吉多·范羅蘇姆,開始僅是為繼承ABC語言而開發(fā)的一種新的腳本程序,但時至今日,其以“優(yōu)雅”“明確”“簡單”的優(yōu)點在業(yè)界廣受歡迎,已經(jīng)成為最受歡迎的程序設(shè)計語言之一,在IEEE Spectrum 2019-2021編程語言排行榜上,Python連續(xù)3年蟬聯(lián)榜首。Python在網(wǎng)絡(luò)爬蟲方面功能十分強大,它能夠模擬瀏覽器登錄、有針對性地爬取網(wǎng)頁數(shù)據(jù),特別是Python擁有形形色色的爬蟲相關(guān)庫,為網(wǎng)頁文檔的爬取和處理提供強有力的支持。

        在本案例中,硬件環(huán)境搭配了高性能的個人計算機,配置標準為:Win 10系統(tǒng)(64位,基于x64的處理器操作系統(tǒng)),8 GB運行內(nèi)存,Intel Core i7處理器,500 GB硬盤。Python環(huán)境配置選擇安裝Python集成軟件Anaconda 3,使用pip install requests(其他re、lxml、pandas、selenium、jieba等庫的安裝方法相同)命令行安裝第三方爬蟲庫。在爬蟲前需要先分析貼吧URL組成,安徽審計職業(yè)學(xué)院百度貼吧URL為“https://tieba.baidu.com/f?kw=安徽審計學(xué)院&ie=utf-8&pn=0”,其中“https://tieba.baidu.com/f?”是每一頁的URL固定的開頭,“kw=安徽審計學(xué)院”為關(guān)鍵字貼吧名稱,“ie=utf-8”表示瀏覽器編碼,最后pn=0代表頁數(shù),pn=0是第1頁,pn=50是第2頁,pn=100是第3頁,以此類推。分析出URL的組成規(guī)律,能夠通過遍歷的方法爬取貼吧每一頁的內(nèi)容。

        在向貼吧URL發(fā)送HTTP請求時,需要模擬瀏覽器進行訪問,可以采取發(fā)送模擬User-Agent來通過檢驗,設(shè)置請求頭代碼如下:

        header={‘User-Agent:‘Mozilla/5.0Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/97.0.4692.99 Safari/537.36}

        成功發(fā)生請求后,會獲取響應(yīng),返回網(wǎng)頁源代碼,由于源網(wǎng)頁編碼方式為utf-8,與程序處理的編碼一致,正常不會出現(xiàn)亂碼,如果返回內(nèi)容出現(xiàn)亂碼,需要設(shè)置指定的utf-8編碼。通過xpath、BeautifulSoup對響應(yīng)的網(wǎng)頁內(nèi)容進行解析網(wǎng)頁,提取出貼吧標題、內(nèi)容、作者名稱等信息;利用pandas庫的DataFrame功能進行數(shù)據(jù)轉(zhuǎn)換;Selenium庫模擬瀏覽器操作實現(xiàn)翻頁,數(shù)據(jù)存儲利用xlrd庫與xlwt庫實現(xiàn)。主要流程如圖2所示。

        流程中各個功能通過自定義函數(shù)進行封裝,最后調(diào)用各函數(shù)實現(xiàn)貼吧數(shù)據(jù)的爬取。Python在爬取網(wǎng)頁數(shù)據(jù)方面簡單輕巧,在數(shù)據(jù)的處理與可視化分析上也游刃有余,貼吧關(guān)鍵信息分析可以采取分詞、統(tǒng)計詞頻、生成詞云圖方法,主要利用導(dǎo)入的jieba分詞庫、wordclound詞云庫、matplotlib繪圖庫等第三方庫功能實現(xiàn)。

        3? 校園百度貼吧輿情數(shù)據(jù)分析

        通過對2021年12月17日至2022年3月17日時間段貼吧“看貼”欄目數(shù)據(jù)進行爬取,數(shù)據(jù)存儲為文件名為data.xlsx的Excel文件,部分數(shù)據(jù)如圖3所示。

        通過對“標題”列數(shù)據(jù)、“內(nèi)容”列數(shù)據(jù)分別做詞頻統(tǒng)計,分別對其文本進行分詞,生成可視化詞云圖。以“標題”列為例,使用pandas讀取項目根目錄下源數(shù)據(jù),再用jieba庫對“標題”列數(shù)據(jù)進行分詞。由于文本數(shù)據(jù)中可能存在一類沒有實際意義的詞,比如組詞“的”,連詞“以及”,副詞“甚至”,語氣詞“吧”等被稱為“停用詞”的無用詞,在做分詞處理時需要將其過濾掉,因此分詞前需要做去除“停用詞”操作?!巴S迷~”的去除是一個不斷修正的過程,如果一些無用詞未在“停用詞”詞典(根據(jù)哈工大停用詞表、百度停用詞表等目前常用的中文停用詞表綜合整理得到stoplist.txt)里,需要累加進去。分詞操作代碼具體如下:

        import pandas as pd

        import re

        import jieba

        data = pd.read_excel('./data.xlsx')

        data_cut1 = data['標題'].apply(jieba.lcut)

        with open('./stoplist.txt','r',encoding = 'utf8') as f:

        stop = f.read()

        stop = stop.split()

        stop = [',',' ']+ stop # 用于多余停用詞的刪除,如空格,逗號

        data_1 = data_cut1.apply(lambda x:[i for i in x if i not in stop])

        去除停用詞后,對分詞的結(jié)果做詞頻統(tǒng)計,代碼具體如下:

        from tkinter import _flatten

        num1 = pd.Series(_flatten(list(data_1))).value_counts()

        詞云圖生成代碼具體如下:

        from wordcloud import WordCloud

        import matplotlib.pyplot as plt

        mywc=WordCloud(font_path='C:/Windows/Fonts/STKAITI.TTF',background_color='white')

        mywc2 = mywc.fit_words(num1)

        plt.imshow(mywc2)

        plt.axis('off')

        plt.show

        生成的詞云圖如圖4所示。

        同理,參照“標題”列數(shù)據(jù)代碼,操作生成“內(nèi)容”列數(shù)據(jù)詞頻統(tǒng)計表和詞云圖,分別如表2和圖5所示。

        詞云圖過濾掉大量的文本信息,對文本中出現(xiàn)頻率較高的關(guān)鍵詞突出顯示,不同的關(guān)鍵詞采用不同的顏色和字體大小,通過形成關(guān)鍵詞渲染,使瀏覽者只要一眼掃過就可以領(lǐng)略文本的主旨[4]。由詞頻統(tǒng)計表和詞云圖可以看出,在監(jiān)測周期內(nèi),“審計”“安徽”“學(xué)校”“學(xué)院”等詞提及頻率最高,是論壇發(fā)帖者和參與者關(guān)注度較高的話題,這些話題均與學(xué)校息息相關(guān);“專業(yè)”“專升本”“工作”“兼職”等詞提及頻率較高,均與學(xué)習(xí)、升學(xué)、求職等日常話題相關(guān)。學(xué)校學(xué)工管理者可以據(jù)此了解到學(xué)生日常關(guān)心的話題是什么,例如,從“兼職”“工作”詞頻反饋學(xué)生關(guān)注就業(yè)求職方面的話題,“專升本”詞頻可能反饋出學(xué)生對專升本升學(xué)有過多討論,“交流”“微信”“學(xué)姐”“學(xué)長”詞頻反饋學(xué)生有關(guān)交友需求方面的信息等。這些都從側(cè)面反映了學(xué)生的輿論傾向。高校校園網(wǎng)絡(luò)輿情是一種議論,但并不是所有的議論都具有網(wǎng)絡(luò)輿情的“規(guī)格”的,議論借助網(wǎng)絡(luò)虛擬空間[5]。只有這種議論達到一定規(guī)模,并且產(chǎn)生一定影響,才能形成校園網(wǎng)絡(luò)輿情熱點事件。

        4? 結(jié)? 論

        總體來看,在監(jiān)測周期內(nèi),“安徽審計學(xué)院百度貼吧”網(wǎng)絡(luò)輿情比較穩(wěn)定,輿情信息貼切學(xué)生生活,學(xué)生關(guān)注的多半是校園、學(xué)習(xí)、升學(xué)、求職等日常校園話題,未出現(xiàn)大規(guī)模傳播的負面網(wǎng)絡(luò)輿情事件。一方面可能是學(xué)校網(wǎng)絡(luò)輿情監(jiān)控比較及時,能夠及時監(jiān)測到貼吧里的不良輿論導(dǎo)向信息,將處于萌芽狀態(tài)的矛盾及時化解掉,保障了校園網(wǎng)絡(luò)穩(wěn)定;另一方面可能是學(xué)校扎實推進“三全育人”工作帶來的效果延伸,近年來,安徽審計職業(yè)學(xué)院不斷加強在校生網(wǎng)絡(luò)安全教育、大學(xué)生心理健康教育,課程思政教育,有效實現(xiàn)課程思政與學(xué)科教學(xué)同向同行,這些舉措無形中提升了在校學(xué)生的思想道德意識,進而規(guī)范了網(wǎng)絡(luò)行為。

        只有通過對大規(guī)模的樣本實驗數(shù)據(jù)分析研究,才有可能客觀反映校園網(wǎng)絡(luò)輿情的實際情況?!鞍不諏徲嬄殬I(yè)學(xué)院百度貼吧”數(shù)據(jù)并不能代表安徽審計職業(yè)學(xué)院網(wǎng)絡(luò)輿情的全部,更不能概括為整個高校校園網(wǎng)絡(luò)輿情,本文的實驗數(shù)據(jù)是監(jiān)測周期為3個月之內(nèi)的貼吧數(shù)據(jù),實驗數(shù)據(jù)有限,只是簡單探索了Python技術(shù)在高校校園百度貼吧數(shù)據(jù)分析中的簡單應(yīng)用。今后,筆者將持續(xù)研究基于爬蟲技術(shù)的校園百度貼吧輿情數(shù)據(jù)分析,關(guān)注爬蟲技術(shù)在微博、微信公眾號、微信朋友圈等平臺的輿情分析應(yīng)用,結(jié)合大數(shù)據(jù)爬蟲技術(shù),進行大規(guī)模實驗數(shù)據(jù)的爬取與分析研究,嘗試設(shè)計基于爬蟲技術(shù)的校園網(wǎng)絡(luò)輿情系統(tǒng)。

        參考文獻:

        [1] 席巖,張乃光,王磊,等.基于大數(shù)據(jù)的用戶畫像方法研究綜述 [J].廣播電視信息,2017(10):37-41.

        [2] 羅晶.校園輿情分析中的意見挖掘技術(shù)研究 [D].南京:東南大學(xué),2015.

        [3] 祝瑞,車敏.基于HTTP協(xié)議的服務(wù)器程序分析 [J].現(xiàn)代電子技術(shù),2012,35(4):117-119+122.

        [4] 周毅,寧亮,王鷗,等.基于Python的網(wǎng)絡(luò)爬蟲和反爬蟲技術(shù)研究 [J].現(xiàn)代信息科技,2021,5(21):149-151.

        [5] 胡江春.網(wǎng)絡(luò)輿情(2007年11月16日—12月15日) [J].中國改革,2008(1):7.

        作者簡介:丁然(1985.05—),男,漢族,安徽舒城人,講師,碩士研究生,研究方向:計算機應(yīng)用、大數(shù)據(jù)技術(shù)。

        收稿日期:2022-10-26

        基金項目:安徽審計職業(yè)學(xué)院2020年度院級自然重點科研項目(SJKJ2020A001)

        猜你喜歡
        網(wǎng)絡(luò)爬蟲輿情
        煉鐵廠鐵量網(wǎng)頁數(shù)據(jù)獲取系統(tǒng)的設(shè)計與實現(xiàn)
        輿情
        中國民政(2016年16期)2016-09-19 02:16:48
        基于社會網(wǎng)絡(luò)分析的權(quán)威網(wǎng)頁挖掘研究
        主題搜索引擎中網(wǎng)絡(luò)爬蟲的實現(xiàn)研究
        淺析如何應(yīng)對網(wǎng)絡(luò)爬蟲流量
        中國市場(2016年23期)2016-07-05 04:35:08
        輿情
        中國民政(2016年10期)2016-06-05 09:04:16
        輿情
        中國民政(2016年24期)2016-02-11 03:34:38
        微博的輿情控制與言論自由
        中文字幕AⅤ人妻一区二区| 中文字幕亚洲无线码在线一区| 一本色道久久综合狠狠躁篇| 日韩亚洲av无码一区二区三区| 一本大道东京热无码中字| 亚洲啪啪综合av一区| 国产 中文 制服丝袜 另类| 情色视频在线观看一区二区三区| 午夜免费观看日韩一级片| 无码中文亚洲av影音先锋 | 一区二区av日韩免费| 97青草超碰久久国内精品91| 人人人妻人人澡人人爽欧美一区| 欧美不卡视频一区发布| 国产码欧美日韩高清综合一区| 男女啪啪在线视频网站| 国产精品av在线| 一本一本久久a久久精品综合| 久久精品国产成人午夜福利| 久久综合老鸭窝色综合久久| 久久精品中文字幕女同免费| 成人免费看www网址入口| 国产艳妇av在线出轨| 能看不卡视频网站在线| 亚洲欧洲成人精品香蕉网| 综合三区后入内射国产馆 | 91精品福利一区二区| 亚洲素人日韩av中文字幕| av熟妇一区二区三区| 白天躁晚上躁麻豆视频| 91久久福利国产成人精品| 亚洲成人av一区二区| 中文字幕乱码高清完整版| 日韩精品大片在线观看| 我和丰满老女人性销魂| 日本一区二区三区视频网站| 99久久国产福利自产拍| 伊人狠狠色j香婷婷综合| 成人性生交大全免费看| 欧美成人精品午夜免费影视| 亚洲AⅤ无码国精品中文字慕|