亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于大數(shù)據(jù)技術的房價數(shù)據(jù)采集及可視化分析應用

        2021-09-05 05:05:01石慧陳培輝
        計算機時代 2021年8期
        關鍵詞:大數(shù)據(jù)分析可視化

        石慧 陳培輝

        摘 ?要: 在“房住不炒”定位下,住房選購成了廣大市民比較關心的問題。把大數(shù)據(jù)分析技術引入到房價分析,利用Scrapy爬蟲框架對廣州房價線上數(shù)據(jù)的爬取,經清洗和可視化,把影響房價的要素以可視化的形式予以呈現(xiàn)。與傳統(tǒng)方法相比,大數(shù)據(jù)分析技術在數(shù)據(jù)采集及可視化分析應用方面優(yōu)勢明顯。

        關鍵詞: 大數(shù)據(jù)分析; 可視化; 爬蟲框架; 房價數(shù)據(jù)

        中圖分類號:TP399 ? ? ? ? ?文獻標識碼:A ? ? 文章編號:1006-8228(2021)08-71-05

        Housing price data collection and visualized analysis with big data technology

        Shi Hui, Chen Peihui

        (Department of Information Engineering, Shanwei Vocational and Technical College, Shanwei, Guangdong 516600, China)

        Abstract: Under the positioning of "housing without speculation", the purchase of housing has become a concern of the general public. This article introduces the big data analysis technology into the housing price analysis, and the online data of Guangzhou housing price is crawled by using the Scrapy crawler framework. After cleaning and visualization of online data, the factors affecting housing price are presented in the form of visualization. Compared with traditional methods, big data analysis technology has obvious advantages in applications of data collection and visualized analysis.

        Key words: big data analysis; visualization; crawler framework; housing price data

        0 引言

        網(wǎng)絡數(shù)據(jù)采集是通過網(wǎng)絡爬蟲[1]等技術從互聯(lián)網(wǎng)采集數(shù)據(jù)的過程。網(wǎng)絡數(shù)據(jù)采集和數(shù)據(jù)可視化具有廣泛的應用范圍,涉及挖掘數(shù)據(jù)可視化、文本數(shù)據(jù)可視化、交通可視化、生物醫(yī)學可視化、網(wǎng)絡數(shù)據(jù)可視化等領域。閆志國[2]等通過爬取電商藥品數(shù)據(jù)并對數(shù)據(jù)可視化處理,為用戶在網(wǎng)上買藥提供參考。曹睿娟[3]等提出基于大數(shù)據(jù)的城市內澇網(wǎng)絡輿情監(jiān)測及演化機理,為內澇事件輿情應對提供決策支持。于鳳芹[4]等借助動態(tài)面板模型和多重中介效應模型,研究金融科技與商業(yè)銀行盈利能力的關系及中介傳導機制。饒加旺[5]等構建了智慧城市文本大數(shù)據(jù)與自動分詞模型,指出當前智慧城市建設中的問題。

        有效地利用大數(shù)據(jù)技術,深入挖掘互聯(lián)網(wǎng)中的數(shù)據(jù),可以為我們提供許多有趣的信息[6],也能為消費者和商家等目標用戶提供一定的參考意見和決策支持。

        1 基于大數(shù)據(jù)技術的房價分析方法

        本文主要利用網(wǎng)絡爬蟲技術采集58同城網(wǎng)的廣州房價線上數(shù)據(jù),并挖掘和分析網(wǎng)絡數(shù)據(jù)中的信息。首先利用Xpath Helper獲取返回DOM樹形結構的根節(jié)點,再結合Python的Scrapy框架對廣州房價的線上網(wǎng)站的數(shù)據(jù)進行爬取,之后調用Sqlalchemy引擎對所采集的數(shù)據(jù)進行存取,接著調用Pandas庫和Numpy庫中的函數(shù),對數(shù)據(jù)進行清洗,最后結合Matplotlib庫、Seaborn庫以及Pyecharts庫中的函數(shù)對清洗后的數(shù)據(jù)進行直觀的可視化展示。

        1.1 Scrapy框架

        Scrapy爬蟲框架是基于Python開發(fā)的一個快速、高層次的屏幕抓取和Web抓取框架,Scrapy框架主要由調度器(Scheduler)、下載器(Downloader)、爬蟲(Spider)和實體管道(Item Pipeline)、Scrapy引擎(Scrapy Engine)五大組件構成[7-8]。調度器抓取網(wǎng)頁網(wǎng)址或鏈接的優(yōu)先隊列,可以去除重復的網(wǎng)址,用戶根據(jù)自己的需求定制調度器。建立在Twisted高效異步模型上的下載器用于從網(wǎng)絡上高速下載資源。用戶通過定制正則表達式等語法定制自己的爬蟲,從特定的網(wǎng)頁中采集實體信息,也可以提取鏈接讓Scrapy繼續(xù)抓取下一個頁面。實體管道用于處理爬蟲提取的實體,主要的功能是持久化實體、驗證實體的有效性、清除不需要的信息[9-10]。

        2 房價數(shù)據(jù)采集和預處理

        2.1 房價數(shù)據(jù)采集

        前期調研階段,通過分析國內主流房產網(wǎng)站和熱點大城市的網(wǎng)絡搜索熱度和權重,結合區(qū)域特點,選擇58同城網(wǎng)的廣州房價數(shù)據(jù)為數(shù)據(jù)來源[11],具體信息包括戶型、面積、朝向、樓層、城區(qū)、小區(qū)名、總價、單價等[12]。

        房價數(shù)據(jù)采集過程:查找房價具體內容、檢驗爬取內容、查詢Headers信息、數(shù)據(jù)存儲調用等。①房價具體信息的查找:進入網(wǎng)站,通過頁面的Html源碼查看特定信息標簽,根據(jù)標簽信息爬取特定的數(shù)據(jù)。數(shù)據(jù)爬取過程中需要理清標簽之間的嵌套關系,從首頁面到二級子頁面,依次往下涉及的標簽種類有整體框架標簽、下級標簽、具體內容的標簽等。②利用XPath Helper插件獲取爬取內容的標簽層級,檢驗所采集的數(shù)據(jù)是否出現(xiàn)錯誤。③HTTP請求頭Headers信息的查詢:考慮到很多網(wǎng)站設置了反爬蟲機制,在合法合規(guī)前提下通過在Headers信息中添加代理IP以達到反爬的目的。④利用Sqlalchemy引擎實現(xiàn)數(shù)據(jù)的存儲和調用:數(shù)據(jù)庫中為了防止字段亂碼,要把表中的字段改成英文的形式,利用字典的形式更換成英文字段,然后把表插入數(shù)據(jù)庫中。

        2.2 房價數(shù)據(jù)清洗

        房價數(shù)據(jù)清洗階段主要操作包括:缺失值檢測、數(shù)據(jù)去重、數(shù)據(jù)格式統(tǒng)一、過濾模糊數(shù)據(jù)等步驟。

        由于爬取的信息沒有缺失值,所以只進行了全面的檢測,分別查看了含缺失值的列。數(shù)據(jù)去重階段通過判斷重復數(shù)據(jù),并統(tǒng)計重復數(shù)據(jù)的數(shù)目,查看重復的數(shù)據(jù)。為了檢驗重復的數(shù)據(jù)是否準確,可以隨機選擇一個標題,用query()函數(shù)進行選擇行操作,使用count()方法,判斷去除重復項的數(shù)據(jù)表剩下的數(shù)據(jù)量,通過調用pandas庫的drop_duplicates()函數(shù)執(zhí)行對數(shù)據(jù)的去重操作。做重復數(shù)據(jù)的去除時可以重新使用一張數(shù)據(jù)表,再次進行去重操作。

        數(shù)據(jù)格式統(tǒng)一:需要去重單位字段,再把去重后的數(shù)據(jù)存儲在數(shù)據(jù)庫中。表1顯示的是去重后存放在數(shù)據(jù)庫中的部分數(shù)據(jù)結果。

        過濾模糊數(shù)據(jù)主要是通過調用query()函數(shù)選取非模糊的數(shù)據(jù)信息來實現(xiàn)模糊信息過濾。由于數(shù)據(jù)中房子的地址包括了廣州周邊的,對研究每個地區(qū)房子的價格沒有太大的價值,需要去除這部分冗余信息。

        3 房價數(shù)據(jù)分析和可視化

        3.1 房價數(shù)據(jù)的分組和透視

        房價數(shù)據(jù)分組是根據(jù)影響房價的要素對房價數(shù)據(jù)進行聚類分組,以便進一步分析各要素對房價的影響。不同的購房者對房子具體需求不同,在對房價數(shù)據(jù)分組時要對不同要素做具體分析,需要把數(shù)據(jù)重新組合成更直觀的列表形式來表達。對廣州各地區(qū)進行分組,查看每個地區(qū)可售房源的數(shù)量,分析得出,番禺出售的房子數(shù)量比較多,其次分別是天河、花都、黃埔、增城。再對各地區(qū)的數(shù)據(jù)取均值,最后對價格排序。

        房價數(shù)據(jù)透視用到pandas庫的pivot_table函數(shù),以地區(qū)和朝向進行分組查看面積和價格,對每個地區(qū)房價最高的小區(qū)進行數(shù)據(jù)透視,并按房價進行降序,結果如表2所示。

        3.2 房價數(shù)據(jù)的可視化及分析

        房價的數(shù)據(jù)可視化是在房價數(shù)據(jù)分組或聚合之后的可視化,對廣州每個地區(qū)的房價生成箱型圖,分析各地區(qū)價格情況,如圖2所示。分析得到:廣州各地區(qū)房價的差距比較大,在2020年上半年中,因為疫情的原因,廣州各地區(qū)經濟受到不同程度的影響[13],只有天河、越秀和南沙GDP屬于正增長狀態(tài),并且平均房價比較高的各地區(qū)同比增長率平均都在-1.0%左右。GDP最高的天河區(qū)房價最高,如果單純只是想在廣州買到房,不考慮其他因素,可以選擇花都區(qū)、增城區(qū)、南沙區(qū)、從化區(qū),這幾個區(qū)的房價相對穩(wěn)定,均價在1.5萬到2.5萬之間,其余區(qū)之間的價格差距明顯比較大,差距幾乎有1萬多。

        如果只關注價格信息,得到的信息比較片面,需要把朝向、價格、密集情況結合起來。以朝向為例,把注重房子朝向的信息綜合作為參考,圖3、圖4顯示其中朝南和朝東方向受到購房者關注度情況。

        圖中x軸為地區(qū),y軸為價格,每個朝向為主題,分析得到:在廣州相對關注比較多的朝向是南、南北、東南,而東西、西北受關注較少,其中東北朝向集中分布在天河、海珠、番禺,根據(jù)散點分布,番禺價位較低。如果從地區(qū)經濟狀況看,天河、海珠,這兩個地區(qū)在高價位上的變動不大,但海珠地區(qū)散點密集高于天河,如果想要更多的朝向選擇,可以考慮海珠地區(qū)。朝北的房子分布比較均衡,且經濟比較發(fā)達的地區(qū)普遍價位較高,東朝向的房子分布較均勻,經濟力量最強的天河區(qū)依然房價最高。

        圖5、圖6分別將廣州總體房價以曲線圖和地圖形式展現(xiàn)出來,可以直觀判斷出廣州房價的狀況,幫助購房者根據(jù)需求在現(xiàn)波動范圍內合理決策。

        4 結論

        本文利用網(wǎng)絡爬蟲技術采集58同城網(wǎng)的廣州房價數(shù)據(jù),通過對數(shù)據(jù)進行爬取、存取、清洗和可視化,把影響房價的要素以一種合理的可視化的形式加以呈現(xiàn)。相比傳統(tǒng)分析方法,大數(shù)據(jù)分析技術在數(shù)據(jù)采集、數(shù)據(jù)挖掘和可視化應用方面優(yōu)勢明顯。

        參考文獻(References):

        [1] 潘曉英,陳柳等.主題爬蟲技術研究綜述[J].計算機應用研究,2020.37(4):961-965

        [2] 閆志國,宛楠等.基于Scrapy爬取電商藥品數(shù)據(jù)及數(shù)據(jù)可視化分析處理[J].輕工科技,2021.37(3):98-100

        [3] 曹睿娟,姜仁貴.基于大數(shù)據(jù)的城市內澇網(wǎng)絡輿情監(jiān)測及演化機理[J].西安理工大學學報,2020.36(2):151-158

        [4] 于鳳芹,于千惠.金融科技影響商業(yè)銀行盈利能力的機制分析[J].金融與經濟,2021.2:45-62

        [5] 饒加旺,王勇,馬榮華.文本大數(shù)據(jù)的智慧城市研究與分析[J].測繪科學,2020.45(7):174-184

        [6] 夏秋月,路婕等.大數(shù)據(jù)背景下鄭州市中原區(qū)二手房特征價格研究,2020.39(1):83-88

        [7] Shemshadi A, Sheng Q Z, Qin Y. ThingSeek: a crawler

        and search engine for the internet of things//Proceedings of the 39th International ACM SIGIR conference on Research and Development in Information Retrieval. New York,2016:1149-1152

        [8] 曾健榮,張仰森,鄭佳等.面向多數(shù)據(jù)源的網(wǎng)絡爬蟲實現(xiàn)技術及應用[J].計算機科學,2019.46(5):304-309

        [9] 樊宇豪.基于Scrapy的分布式網(wǎng)絡爬蟲系統(tǒng)設計與實現(xiàn)[D].電子科技大學,2018.

        [10] 李曉煬.Scrapy在氣象綜合業(yè)務實時監(jiān)控系統(tǒng)中獲取第三方數(shù)據(jù)的應用[J].無線互聯(lián)科技,2019.16(21):3-4

        [11] 王康,李含偉.自媒體時代的企業(yè)網(wǎng)絡輿情應對策略研究——基于上市公司百度指數(shù)的研究[J].情報科學,2018.36(1):113-117

        [12] 瞿詩進,胡守庚,李全峰,等.城市住宅地價影響因素的定量識別與時空異質性——以武漢市為例[J].地理科學進展,2018.37(10):71-80

        [13] 陳憂子.2020年GDP:天河黃埔越秀總量居前,番禺反超白

        云重回第四[N].廣州日報,2021.3.24.

        收稿日期:2021-04-06

        基金項目:2020年度廣東普通高校創(chuàng)新團隊項目“人工智能技術與應用創(chuàng)新團隊”(2020KCXTD045); 2020年度廣東省高職院校高水平專業(yè)群建設項目“計算機應用技術專業(yè)群”(GSPZYQ2020076)

        作者簡介:石慧(1983-),女,湖北咸寧人,碩士研究生,講師,主要研究方向:大數(shù)據(jù)技術、人工智能技術。

        猜你喜歡
        大數(shù)據(jù)分析可視化
        自然資源可視化決策系統(tǒng)
        北京測繪(2022年6期)2022-08-01 09:19:06
        思維可視化
        師道·教研(2022年1期)2022-03-12 05:46:47
        基于Power BI的油田注水運行動態(tài)分析與可視化展示
        云南化工(2021年8期)2021-12-21 06:37:54
        自然資源可視化決策系統(tǒng)
        北京測繪(2021年7期)2021-07-28 07:01:18
        基于CGAL和OpenGL的海底地形三維可視化
        “融評”:黨媒評論的可視化創(chuàng)新
        傳媒評論(2019年4期)2019-07-13 05:49:14
        大數(shù)據(jù)分析對提高教學管理質量的作用
        亞太教育(2016年36期)2017-01-17 17:26:50
        基于大數(shù)據(jù)分析的電力通信設備檢修影響業(yè)務自動分析平臺研究與應用
        面向大數(shù)據(jù)遠程開放實驗平臺構建研究
        面向大數(shù)據(jù)分析的信息管理實踐教學體系構建
        色哟哟精品视频在线观看| 国产午夜精品av一区二区三| 东京热加勒比视频一区| 一本久久综合亚洲鲁鲁五月天| 午夜男女爽爽爽在线视频| 中文字幕亚洲无线码高清| 国产高清在线精品一区不卡| 免费午夜爽爽爽www视频十八禁 | 亚洲中文字幕无码爆乳| 久久精品无码一区二区2020| 一区二区黄色素人黄色| 久久久国产精品无码免费专区| 国产黄在线观看免费观看不卡| 加勒比精品久久一区二区三区| 成人性生交大片免费看i| 成年女人免费v片| 无码国产69精品久久久孕妇| 青草蜜桃视频在线观看| 亚洲人成伊人成综合久久| 人妻丰满av无码中文字幕| 色偷偷一区二区无码视频| 久久精品韩国日本国产| 午夜av天堂精品一区| 久久青青草原亚洲av无码麻豆| 欧美精品在线一区| 日韩av他人妻中文字幕| 亚洲 欧美 偷自乱 图片| 国产成人综合亚洲精品| A阿V天堂免费无码专区| 97精品熟女少妇一区二区三区| 色婷婷五月综合久久| 欧美精品在线一区| 高清国产精品一区二区| 丰满少妇作爱视频免费观看| 免费现黄频在线观看国产| 国产精品三级av一区二区| 男女真人后进式猛烈视频网站| 日韩亚洲av无码一区二区三区| 亚色中文字幕| 亚洲av成人一区二区| 蜜桃久久精品成人无码av|