亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        微博用戶信息采集分析系統(tǒng)設(shè)計與實現(xiàn)

        2019-10-18 02:57:59張揚范巖夏玲玲
        軟件導(dǎo)刊 2019年9期
        關(guān)鍵詞:數(shù)據(jù)分析

        張揚 范巖 夏玲玲

        摘 要:系統(tǒng)運用Python語言克服新浪微博反爬蟲問題,使用Scrapy框架實現(xiàn)了高效、穩(wěn)定的微博用戶信息爬蟲程序,全面獲取用戶在微博中的基本信息,并導(dǎo)入Neo4j圖數(shù)據(jù)庫和Echarts數(shù)據(jù)可視化庫進(jìn)行人物關(guān)系分析和挖掘。此外,系統(tǒng)針對微博中存在大量“網(wǎng)絡(luò)水軍”的現(xiàn)狀設(shè)置了過濾選項,可以有效排除“網(wǎng)絡(luò)水軍”非正常行為對分析結(jié)果的影響。系統(tǒng)調(diào)試結(jié)果表明,系統(tǒng)能夠?qū)崿F(xiàn)對特定微博下轉(zhuǎn)發(fā)、評論用戶信息的實時、穩(wěn)定、高效采集與分析,有效幫助人們從海量數(shù)據(jù)中提取復(fù)雜的關(guān)聯(lián)關(guān)系,簡潔、直觀地分析微博用戶之間的交互關(guān)系。

        關(guān)鍵詞:新浪微博;網(wǎng)絡(luò)爬蟲;模擬登錄;數(shù)據(jù)分析

        DOI:10. 11907/rjdk. 191139 開放科學(xué)(資源服務(wù))標(biāo)識碼(OSID):

        中圖分類號:TP319文獻(xiàn)標(biāo)識碼:A 文章編號:1672-7800(2019)009-0125-05

        Design and Implementation of Microblog User Information

        Acquisition and Analysis System

        ZHANG Yang, FAN Yan, XIA Ling-ling,CHEN Jun-an,WANG Qin

        (Department of Computer Information and Cyber Security, Jiangsu Police Institute, Nanjing 210031, China)

        Abstract: An efficient and stable crawler system based on Scrapy for microblog user information acquisition and analysis is designed. In the system, by overcoming anti-crawler problem of Sina Weibo, it can obtain all basic profile information of microblog users. The obtained user information can be imported into Neo4j graph database and Echarts visual diagram to analyze and mine the relationship between users. Additionally, according to the current situation of a large number of Internet paid posters existed in Microblog, the system provides a filtering option, which can effectively eliminate the influence of abnormal behavior of paid posters on the analysis results. The debugging results show that the system can crawl and analyze user information for specific microblog forwarding and commenting to achieve the real-time, stable and effective performance. It can effectively help people extract complex relationships from massive data and analyze the interaction between Microblog users concisely and intuitively.

        Key Words: Sina Weibo; network crawler; simulation login; data analysis

        0 引言

        隨著自媒體時代的到來,社交網(wǎng)絡(luò)服務(wù)(Social Network Service,SNS)已融入大眾日常生活中。個人將自己的信息上傳到各種各樣的社會化媒體平臺如微博、論壇、博客、在線社區(qū)、即時通訊軟件(微信、QQ)、社交網(wǎng)站(Facebook、Twitter)等,通過社交平臺管理自己的社交圈,由此造成大量社交數(shù)據(jù)在互聯(lián)網(wǎng)上被公開。社交數(shù)據(jù)中匯聚了大量的用戶關(guān)系數(shù)據(jù)和信息傳播數(shù)據(jù),有效提取出這些數(shù)據(jù)對于研究人類社會、經(jīng)濟(jì)等的潛在規(guī)律以及探索人類社會關(guān)系中的奧秘至關(guān)重要。

        新浪微博作為國內(nèi)最具影響力的社交平臺之一,截至2018年12月,月活躍用戶數(shù)已達(dá)4.46億,蘊含著海量有價值的用戶信息及社交關(guān)系數(shù)據(jù)。羅咪[1]通過模擬登陸抓取動態(tài)網(wǎng)頁,設(shè)計了一個基于Python的新浪微博爬蟲系統(tǒng)獲取用戶數(shù)據(jù);張章學(xué)[2]對社交網(wǎng)絡(luò)中的信息存儲進(jìn)行分析,構(gòu)建了用戶敏感數(shù)據(jù)獲取模型,在獲取用戶個人信息基礎(chǔ)上,利用好友列表獲取其整個社交平臺中用戶的敏感數(shù)據(jù)。以新浪微博為例,研究發(fā)現(xiàn)用戶所有敏感數(shù)據(jù)中,職業(yè)獲取率最低;Tumasjan A等[3]對Twitter上的10萬多條信息進(jìn)行分析,發(fā)現(xiàn)Twitter上的情緒如與政客相關(guān)的積極和消極情緒,與選民的政治偏好密切相關(guān);魏冬梅等[4]對Web信息獲取方法、原理和關(guān)鍵技術(shù)進(jìn)行研究,提出一種基于Python和相關(guān)庫,結(jié)合模塊化方法構(gòu)建Web文本信息獲取框架的策略。社交數(shù)據(jù)的獲取與關(guān)系數(shù)據(jù)的存儲和管理息息相關(guān),張琳和熊斯攀[5]基于Neo4j圖形數(shù)據(jù)庫設(shè)計并實現(xiàn)了Linked-US社交網(wǎng)絡(luò)平臺,更好地管理和更新社交網(wǎng)絡(luò)數(shù)據(jù)及其內(nèi)在關(guān)系;Fan YH[6]將Scrapy與Redis相結(jié)合對原始Scrapy框架進(jìn)行改進(jìn),設(shè)計了一個基于Web信息Scrapy框架的分布式爬蟲系統(tǒng)。

        本文以新浪微博為例,設(shè)計并實現(xiàn)一套基于Python的用戶信息采集系統(tǒng),可以實現(xiàn)模擬登錄新浪微博,獲取參與熱點話題的微博用戶信息,并利用Neo4j圖形數(shù)據(jù)庫存儲及可視化展示用戶關(guān)系。

        1 微博數(shù)據(jù)獲取方法

        1.1 基于微博API的數(shù)據(jù)獲取

        新浪微博提供的API接口可以使開發(fā)人員高效、便捷地獲取微博數(shù)據(jù),用戶在新浪微博開放平臺注冊成為開發(fā)者,通過Oauth2.0用戶授權(quán)后即可在任意開發(fā)環(huán)境下根據(jù)具體需求獲取所需微博數(shù)據(jù)[7]。盡管新浪微博提供的API已經(jīng)比較完善,但還存在一些不足。一方面出于對用戶隱私數(shù)據(jù)的保護(hù),部分用戶信息暫未支持API接口;另一方面新浪公司對API的調(diào)用頻率進(jìn)行了嚴(yán)格限制,致使數(shù)據(jù)采集速度欠佳,面對熱點話題中“吃瓜群眾”的爆發(fā)式增長,難以獲取大量實時數(shù)據(jù)。

        因此,通過微博的API接口進(jìn)行數(shù)據(jù)采集雖然高效、便捷,但難以滿足本系統(tǒng)對數(shù)據(jù)獲取的實時性要求。

        1.2 基于Python網(wǎng)絡(luò)爬蟲的數(shù)據(jù)獲取

        與新浪微博API相比,基于Python的網(wǎng)絡(luò)爬蟲利用程序模仿普通用戶使用瀏覽器訪問微博獲取實時數(shù)據(jù)。網(wǎng)絡(luò)爬蟲技術(shù)的優(yōu)勢在于通過對網(wǎng)頁源代碼的解析,幾乎可以獲取所有網(wǎng)頁展示信息,而且基于Python的網(wǎng)絡(luò)爬蟲獲取數(shù)據(jù)沒有速度限制,在理想狀態(tài)下每小時可獲取上百萬條用戶信息[8-10]。

        實現(xiàn)該項技術(shù)的難點在于新浪微博官方對微博爬蟲采取抵制態(tài)度,其反爬蟲機(jī)制一直在不斷完善,導(dǎo)致模擬登錄過程中障礙重重;此外,對網(wǎng)頁源代碼的分析和構(gòu)造請求也并不簡單。本文將重點闡述系統(tǒng)設(shè)計與實現(xiàn)過程中如何應(yīng)對反爬蟲機(jī)制。

        2 系統(tǒng)設(shè)計

        2.1 模擬登錄

        模擬登錄是本系統(tǒng)要攻克的第一個難題。模擬登錄指讓計算機(jī)模仿人工操作,以達(dá)到欺騙服務(wù)器的目的。本系統(tǒng)結(jié)合以下3種方式修改請求頭以實現(xiàn)模擬登錄。

        (1)隨機(jī)調(diào)用User-Agent。用戶代理(User-Agent,UA)是指包含瀏覽器信息、操作系統(tǒng)信息等的一個特殊字符串頭,服務(wù)器通過它判斷當(dāng)前訪問對象是瀏覽器還是網(wǎng)絡(luò)爬蟲。系統(tǒng)中使用Python安裝fake-useragent庫,每次向該庫請求時都會獲得一個隨機(jī)的User-Agent,偽裝成不同瀏覽器,降低了被服務(wù)器辨認(rèn)為網(wǎng)絡(luò)爬蟲的概率。

        (2)建立并維護(hù)proxy代理池。當(dāng)同一IP請求微博網(wǎng)頁次數(shù)過多將出現(xiàn)414狀態(tài)碼,因此考慮獲取代理網(wǎng)站提供的高速代理并建立代理池,每次請求隨機(jī)抽取一個可用代理,偽裝成不同地址,迷惑服務(wù)器。經(jīng)篩選發(fā)現(xiàn)購買代理服務(wù)商提供的穩(wěn)定、高可用優(yōu)質(zhì)IP價格昂貴,而部分代理服務(wù)商也提供免費的代理IP,但數(shù)量少且極易失效。針對免費代理極易失效的特點,本系統(tǒng)建立代理池,將剛獲取的代理IP設(shè)為100分,每次根據(jù)分?jǐn)?shù)高低依次檢測代理IP,當(dāng)檢測到不可用時扣1分,分?jǐn)?shù)低至閾值時直接從數(shù)據(jù)庫移除,當(dāng)檢測到可用即設(shè)為100分,如圖1所示。

        本系統(tǒng)建立的代理池以免費IP為主,包括獲取模塊、儲存模塊、檢測模塊、接口模塊,分別負(fù)責(zé)抓取各大代理商提供的免費高匿代理,以集合的形式將代理存入Redis數(shù)據(jù)庫,定期檢測代理的可用性和提供對外服務(wù)的接口。

        從代理池可擴(kuò)展性及數(shù)據(jù)庫連接安全性考慮,代理池導(dǎo)入Flask輕量級Web應(yīng)用框架,將數(shù)據(jù)庫中存儲的IP隨機(jī)映射到Web端口,程序使用requests.get()方法即可獲取IP,如圖2所示。

        (3)建立并維護(hù)Cookie池。Cookie是指某些網(wǎng)站為了辨別用戶身份,進(jìn)行Session跟蹤而儲存在用戶本地終端上的數(shù)據(jù),一般在登錄賬號后即可使用瀏覽器自帶的調(diào)試工具查看。在沒有登錄或同一賬號訪問頻率過高的情況下,新浪微博極易出現(xiàn)403狀態(tài)碼。因此需要購買大量微博賬號構(gòu)建Cookies池,每次請求時隨機(jī)獲取一個Cookie。Cookies池包括生成、儲存、檢測、接口4個模塊,雖然微博賬號不會失效但生成的Cookie有效期一般只有2~4天,因此要及時剔除失效的Cookie并重新登錄更新Cookie。

        在獲取Cookie的過程中有一個難點,即購買的微博賬號安全等級較低使得每次登錄微博均要輸入驗證碼,不同接口驗證碼類型也不相同,包括短信驗證碼、圖形驗證碼、四宮格滑動驗證碼等。本系統(tǒng)最終選擇在https://passport.weibo.cn/signin/login站點登錄并識別把握較大的四宮格滑動驗證碼,如圖3所示。具體采用識別驗證碼的模板匹配方法破解微博登錄驗證碼。微博驗證碼宮格只有4個,驗證碼樣式最多4*3*2*1=24種。首先將24種驗證碼圖片保存下來并設(shè)為模版,然后將登錄微博時出現(xiàn)的驗證碼與模板進(jìn)行匹配,當(dāng)相似度超過閾值時就能得到為模版定義的拖動順序,然后應(yīng)用自動化測試工具Selenium模擬用戶拖動操作即可。

        2.2 數(shù)據(jù)抓取

        為實現(xiàn)爬蟲穩(wěn)定、高效的運行,數(shù)據(jù)抓取模塊使用當(dāng)下最流行的Scrapy爬蟲框架,其具有異步、并發(fā)、可擴(kuò)展等優(yōu)勢,在單位時間內(nèi)可達(dá)到較高的吞吐量[11-13]。本系統(tǒng)爬取的目標(biāo)數(shù)據(jù)包括熱門微博下參與評論、轉(zhuǎn)發(fā)用戶的基本信息及評論內(nèi)容,具體通過以下3個模塊實現(xiàn)。

        (1)微博評論抓取。通過對新浪微博WAP站點的分析可知微博評論頁面的url很簡單[14]。如以“https://weibo.cn/comment/H4tkWk09n?page=2”為例,每條微博評論的url前半部分“https://weibo.cn/comment/”完全相同。url后半部分中“H4tkWk09n”是每條微博的唯一標(biāo)識符,暫將其稱為wid。url中“page=2”指當(dāng)前評論的頁數(shù),每頁包含10條評論,評論越多,評論頁數(shù)越多。因此爬蟲運行前只需獲取微博的唯一標(biāo)識符wid,構(gòu)造出初始url如“https://weibo.cn/comment/H4tkWk09n?page=1”,每頁爬完后修改page=page+1即可遞歸爬取直至頁面中沒有評論內(nèi)容[15]。

        評論頁面的源代碼并不復(fù)雜,如圖4所示。每條評論的具體內(nèi)容均在html的

        標(biāo)簽內(nèi),用xpath語法“selector.xpath(‘//div[@class=“c” and starts-with(@id,”C”)])”可以提取出
        標(biāo)簽中的所有內(nèi)容,再依次分離出用戶id、用戶昵稱、評論內(nèi)容、獲贊數(shù)、評論時間、評論內(nèi)容。第一個標(biāo)簽中的“/u/1946624694”,其10位阿拉伯?dāng)?shù)字是每位用戶的唯一標(biāo)識符,可用正則表達(dá)式提取出來。該參數(shù)不僅要存儲,還需要傳入下一模塊構(gòu)建用戶基本信息的url。

        (2)微博轉(zhuǎn)發(fā)抓取。微博轉(zhuǎn)發(fā)抓取與微博評論抓取大致相同,頁面url結(jié)構(gòu)也基本類似,如“https://weibo.cn/repost/H4tkWk09n?page=2”,表示wid 為H4tkWk09n的微博轉(zhuǎn)發(fā)的第二頁,構(gòu)造url遞歸爬取時可模仿評論部分。

        查看網(wǎng)頁源代碼也可發(fā)現(xiàn),每條轉(zhuǎn)發(fā)的全部內(nèi)容均在

        標(biāo)簽中,用xpath可分別提取出用戶昵稱、轉(zhuǎn)發(fā)內(nèi)容、轉(zhuǎn)發(fā)時間及發(fā)布工具。很明顯,獲取的時間格式并不規(guī)范,研究發(fā)現(xiàn)微博有3種不同的時間表示方式,由此編寫時間規(guī)范化函數(shù),如圖5所示,統(tǒng)一將時間設(shè)為年月日時分的格式,方便后期數(shù)據(jù)存儲與分析。

        如圖6所示,文本兩次出現(xiàn)“//@”,其中“//@”指轉(zhuǎn)發(fā)微博。“板刷在笆籬的馬甲”轉(zhuǎn)發(fā)“老方有腔調(diào)”的微博,“老方有腔調(diào)”轉(zhuǎn)發(fā)“哈三五四青年二代”的微博,“哈三五四青年二代”前面沒有“//@”則表示轉(zhuǎn)發(fā)原微博。如果“哈三五四青年二代”是一層轉(zhuǎn)發(fā),那么“板刷在笆籬的馬甲”即為原微博的三層轉(zhuǎn)發(fā)。由此可添加“轉(zhuǎn)發(fā)層級”屬性,用于后期分析熱點事件的傳播深度。

        (3)用戶基本信息抓取。用戶基本信息包括微博數(shù)、關(guān)注數(shù)、粉絲數(shù)、昵稱、性別、地區(qū)、生日,少數(shù)用戶還自己完善了簡介、感情狀況、認(rèn)證信息、性取向等信息。本系統(tǒng)對每種信息都進(jìn)行爬取,能獲取到信息則存入數(shù)據(jù)庫,無則以“/”填充。

        上述信息需在兩個頁面中獲取,如“https://weibo.cn/u/2672074571”中包括用戶的微博數(shù)、關(guān)注數(shù)及粉絲數(shù),“https://weibo.cn/2672074571/info”中則包含用戶的其它基本信息,如昵稱、性別、地區(qū)、生日等。不同用戶基本信息頁面url中改變的僅為uid(如2672074571)這一參數(shù)。在微博評論抓取中獲得uid后即可導(dǎo)入構(gòu)造url。兩個頁面源代碼分別如圖7和圖8所示,第一個頁面源代碼仍較規(guī)范可用xpath提取,而第二個頁面源碼中的信息會因不同用戶完善資料程度的不同有種類和數(shù)量上的差別,因此使用re正則表達(dá)式對每條信息分別匹配查找。

        通過以上3個模塊最多可獲得一個用戶的21條信息,本系統(tǒng)將這些能夠獲取的數(shù)據(jù)全部加以儲存并根據(jù)需要提取不同數(shù)據(jù)進(jìn)行相應(yīng)分析。

        2.3 數(shù)據(jù)存儲與分析

        (1)Neo4j圖數(shù)據(jù)庫。Neo4j是一個高性能的NoSQL圖形數(shù)據(jù)庫,它將結(jié)構(gòu)化數(shù)據(jù)存儲在網(wǎng)絡(luò)圖上而不是表中[16]。本系統(tǒng)將每個微博用戶抽象為節(jié)點,將評論或轉(zhuǎn)發(fā)關(guān)系抽象為兩個節(jié)點之間的連邊,利用Neo4j形象地展現(xiàn)出豐富的用戶關(guān)系,有效提升復(fù)雜關(guān)系數(shù)據(jù)查詢效率[17]。

        (2)ECharts庫。ECharts是一個使用JavaScript實現(xiàn)的開源圖表庫,可以流暢地運行在PC和移動設(shè)備上,底層依賴輕量級的Canvas類庫 ZRender,提供直觀、生動、交互豐富、可高度個性化定制的數(shù)據(jù)可視化圖表[18-20]。根據(jù)不同需求,本系統(tǒng)可導(dǎo)入Pyecharts生成各種ECharts圖表形象地展示數(shù)據(jù)。

        3 系統(tǒng)優(yōu)化

        3.1 圖形用戶界面

        由于每次采集熱點微博下的用戶信息時都需獲取微博的唯一標(biāo)識符wid,并手動填入config.py文件中,對本系統(tǒng)用戶特別是沒有開發(fā)經(jīng)驗的使用者而言十分不方便。因此,系統(tǒng)基于Tkinter庫設(shè)計并實現(xiàn)了圖形用戶界面,如圖9所示。用戶只需在界面文本框中輸入微博url或感興趣的主題關(guān)鍵字,系統(tǒng)將輸入的內(nèi)容存入臨時文件中,并經(jīng)過預(yù)處理提取出wid傳遞給爬蟲進(jìn)行爬取。

        3.2 水軍識別

        對爬取的熱點微博中的用戶數(shù)據(jù)進(jìn)行分析發(fā)現(xiàn),部分微博數(shù)據(jù)存在蹊蹺。如圖10所示,微博轉(zhuǎn)發(fā)量為點贊量的27倍且高達(dá)千萬,而多數(shù)微博呈現(xiàn)的規(guī)律為轉(zhuǎn)發(fā)數(shù)遠(yuǎn)小于點贊數(shù),如圖11所示。原因顯而易見,大多數(shù)人愿意給喜歡的微博隨手點個贊而不是花費更多的時間轉(zhuǎn)發(fā)到自己首頁。鑒于微博的轉(zhuǎn)發(fā)、點贊規(guī)則:一個賬號可以轉(zhuǎn)發(fā)某條微博無數(shù)次,卻只能點一次贊,可以認(rèn)為圖10是大量用戶多次轉(zhuǎn)發(fā)同一條微博所致。查看可疑微博轉(zhuǎn)發(fā)內(nèi)容證實了這一點,如圖12所示,多名疑似機(jī)器號的用戶轉(zhuǎn)發(fā)同一條微博時附帶無意義的內(nèi)容。進(jìn)入這些疑似機(jī)器用戶的主頁也可發(fā)現(xiàn),其存在等級低、粉絲少、多次轉(zhuǎn)發(fā)相同微博、無原創(chuàng)微博等共性特征,由此可以判定這些具有類似共性特征的用戶為“網(wǎng)絡(luò)水軍”。

        在某些特定數(shù)據(jù)分析需求下,大量“網(wǎng)絡(luò)水軍”嚴(yán)重影響了熱點微博下用戶信息的分析結(jié)果,亟需對爬取的用戶隊列進(jìn)行優(yōu)化,識別并移除“網(wǎng)絡(luò)水軍”??紤]到“網(wǎng)絡(luò)水軍”沒有社交圈,粉絲數(shù)幾乎為零,設(shè)置系統(tǒng)在爬取時識別粉絲數(shù)小于n(n可以根據(jù)數(shù)據(jù)分析需求進(jìn)行相應(yīng)的設(shè)置,本系統(tǒng)中設(shè)置n=3)的用戶并標(biāo)記為“網(wǎng)絡(luò)水軍”,在用戶分析時可以選擇將這些“網(wǎng)絡(luò)水軍”過濾掉。

        4 結(jié)語

        新浪微博作為國內(nèi)最有影響力的社交媒體平臺,為輿情分析、社會關(guān)系挖掘等提供了海量有價值的數(shù)據(jù),如何獲取和分析這些數(shù)據(jù)尤為重要。為實時獲取并分析特定微博下轉(zhuǎn)發(fā)、評論用戶相關(guān)信息,本文設(shè)計了基于新浪微博的用戶信息采集分析系統(tǒng)。本系統(tǒng)克服微博反爬蟲機(jī)制,利用Scrapy框架全面、高效地獲取數(shù)據(jù),爬取的信息實時傳入Neo4j圖數(shù)據(jù)庫并可根據(jù)需求生成Echarts圖表。實驗結(jié)果表明,本系統(tǒng)具有針對性強(qiáng)、穩(wěn)定性高、數(shù)據(jù)采集速度快、分析結(jié)果直觀等優(yōu)點,為用戶關(guān)系研究提供了新方法。

        參考文獻(xiàn):

        [1] 羅咪. 基于Python的新浪微博用戶數(shù)據(jù)獲取技術(shù)[J]. 電子世界, 2018(5): 138-139.

        [2] 張章學(xué). 社交網(wǎng)絡(luò)敏感數(shù)據(jù)獲取方法研究[J]. 軟件導(dǎo)刊, 2018, 17(3): 56-58.

        [3] TUMASJAN A,SPRENGER T O,SANDNER P G,et al. Election forecasts with twitter: how 140 characters reflect the political landscape[J]. Social Science Computer Review,2011,29(4): 402-418.

        [4] 魏冬梅,何忠秀,唐建梅. 基于Python的Web信息獲取方法研究[J]. 軟件導(dǎo)刊, 2018, 17(1): 41-43.

        [5] 張琳,熊斯攀. 基于Neo4j的社交網(wǎng)絡(luò)平臺設(shè)計與實現(xiàn)[J]. 情報探索, 2018(8):77-82.

        [6] FAN Y H,Design and implementation of distributed crawler system based on scrapy[C]. ?Chongqing, Peoples R China: 2017 3rd International Conference on Environmental Science and Material Application (ESMA),2017:25-26.

        [7] 徐嘉成. 基于k-means聚類和TF-IDF的新浪微博輿情分析[D]. 鞍山:遼寧科技大學(xué), 2016.

        [8] 李琳. 基于Python的網(wǎng)絡(luò)爬蟲系統(tǒng)的設(shè)計與實現(xiàn)[J]. 信息通信,2017(9): 26-27.

        [9] 謝克武. 大數(shù)據(jù)環(huán)境下基于Python的網(wǎng)絡(luò)爬蟲技術(shù)[J]. 電子制作, 2017(9): 44-45.

        [10] 陳智,梁娟,謝兵,等. 新浪微博數(shù)據(jù)爬取研究[J]. 物聯(lián)網(wǎng)技術(shù), 2016(12): 60-63.

        [11] 鄧萬宇,劉光達(dá),董瑩瑩. 一種基于Scrapy-Redis的分布式微博數(shù)據(jù)采集方案[J]. 信息技術(shù),2018(11): 59-62.

        [12] 安子建. 基于Scrapy框架的網(wǎng)絡(luò)爬蟲實現(xiàn)與數(shù)據(jù)抓取分析[D]. 長春:吉林大學(xué),2017.

        [13] 樊海英. 基于Scrapy的分布式網(wǎng)絡(luò)爬蟲系統(tǒng)的設(shè)計與開發(fā)[D]. 北京:北京工業(yè)大學(xué),2017.

        [14] 賴敬之. 基于網(wǎng)絡(luò)爬蟲的新浪微博數(shù)據(jù)分析網(wǎng)站的建立[J]. 通訊世界,2018(2): 73-74.

        [15] 雷程程,張岸,齊清文,等. 格網(wǎng)化的位置微博數(shù)據(jù)抓取與人群信息提取[J]. 測繪科學(xué),2017,42(2): 125-129.

        [16] 林啟勝,王磊,周喜,等. 基于圖數(shù)據(jù)庫的文獻(xiàn)檢索方法優(yōu)化與實現(xiàn)[J]. 微電子學(xué)與計算機(jī),2017,34(10):63-67.

        [17] 王紅,張青青,蔡偉偉,等. 基于Neo4j的領(lǐng)域本體存儲方法研究[J]. 計算機(jī)應(yīng)用研究,2017, 34(8): 2404-2407.

        [18] 黃雅莉,鐘琪. 基于Ajax與Echarts的網(wǎng)頁動態(tài)數(shù)據(jù)加載[J]. 科技資訊,2018(23): 34-37.

        [19] 王子毅,張春海. 基于ECharts的數(shù)據(jù)可視化分析組件設(shè)計實現(xiàn)[J]. 微型機(jī)與應(yīng)用,2016,35(14):46-48,51.

        [20] 趙海國. Ajax技術(shù)支持下的ECharts動態(tài)數(shù)據(jù)實時刷新技術(shù)的實現(xiàn)[J]. 電子技術(shù),2018(3):25-27,57.

        (責(zé)任編輯:孫 娟)

        猜你喜歡
        數(shù)據(jù)分析
        電子物證檢驗的數(shù)據(jù)分析與信息應(yīng)用研究
        基于matlab曲線擬合的數(shù)據(jù)預(yù)測分析
        商情(2016年40期)2016-11-28 11:28:07
        分眾媒體趨勢下場景營銷的商業(yè)前景
        商(2016年32期)2016-11-24 17:39:41
        佛山某給水管線控制測量探討
        科技資訊(2016年18期)2016-11-15 18:05:53
        SPSS在環(huán)境地球化學(xué)中的應(yīng)用
        考試周刊(2016年84期)2016-11-11 23:57:34
        大數(shù)據(jù)時代高校數(shù)據(jù)管理的思考
        科技視界(2016年18期)2016-11-03 22:51:40
        我校如何利用體育大課間活動解決男生引體向上這個薄弱環(huán)節(jié)
        體育時空(2016年8期)2016-10-25 18:02:39
        Excel電子表格在財務(wù)日常工作中的應(yīng)用
        淺析大數(shù)據(jù)時代背景下的市場營銷策略
        新常態(tài)下集團(tuán)公司內(nèi)部審計工作研究
        中國市場(2016年36期)2016-10-19 04:31:23
        国产三a级三级日产三级野外| 色婷婷日日躁夜夜躁| 女性自慰网站免费看ww| 国产午夜激情视频自拍| 99久久精品国产亚洲av天| 精品人妻一区二区三区狼人| 日本丰满少妇裸体自慰| 亚洲av日韩综合一区二区三区| 国产成人亚洲精品青草天美| 越南女子杂交内射bbwxz| 无码夜色一区二区三区| 久久精品美女久久| 亚洲一区二区三区久久久| 亚洲精品大全中文字幕| 丰满人妻中文字幕一区三区| 日本熟妇人妻xxxx| 国产午夜伦鲁鲁| 国产精品人妻一码二码尿失禁| 国产一区二区三区四区五区vm| 欧美人与动牲交片免费播放| 国产精品三级自产拍av| 所有视频在线观看免费| 伊人精品久久久久中文字幕| 欧美成人午夜精品久久久| 免费毛片性天堂| 日韩黄色大片免费网站| 精品亚洲一区二区三区四区五| 成年性生交大片免费看| 97人妻碰碰视频免费上线| 国产精品网站夜色| 精品少妇后入一区二区三区| 亚洲香蕉av一区二区三区| 果冻传媒2021精品一区| 亚洲AV永久青草无码性色av| 久久精品国产亚洲av成人擦边| 国产午夜三级精品久久久| 国产极品视觉盛宴| 国产69精品久久久久999小说| 亚洲国产香蕉视频欧美| 日本av一级视频在线观看| 蜜桃视频在线看一区二区三区|