亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于Pandas+Seaborn+Matplotlib的城市共享單車租賃分析可視化

        2024-12-10 00:00:00徐豪劉婉月張自豪
        現代信息科技 2024年23期
        關鍵詞:可視化

        摘" 要:在現代城市交通中,共享單車的普及帶來了大量騎行數據,蘊含豐富的用戶行為信息。文章旨在通過對Kaggle共享單車數據集的深入分析,探討影響共享單車使用模式的主要因素。采用Python的Pandas庫進行數據處理,并利用Seaborn和Matplotlib進行可視化分析,以直觀展示數據特征和用戶行為模式。研究發(fā)現,租賃數量與溫度、濕度及風速等氣象因素密切相關,且在特定時段內租賃活動更為頻繁。這一研究不僅展示了Pandas、Seaborn及Matplotlib在數據可視化中的優(yōu)越性,還為城市交通管理和共享單車運營提供了數據支撐,從而優(yōu)化交通管理、提升用戶體驗。

        關鍵詞:大數據分析;可視化;共享單車數據;Python

        中圖分類號:TP391.4" 文獻標識碼:A" 文章編號:2096-4706(2024)23-0058-06

        Visualization of Urban Sharing Bicycle Rental Analysis Based on Pandas+Seaborn+Matplotlib

        XU Hao1, LIU Wanyue2, ZHANG Zihao1

        (1.School of Artificial Intelligence and Big Data, Henan University of Technology, Zhengzhou" 450001, China;

        2.iFLYTEK Co., Ltd., Hefei" 230088, China)

        Abstract: The widespread adoption of sharing bicycles in modern urban transportation has brought a vast amount of riding data which contains rich information about user behavior. This paper aims to conduct an in-depth analysis of the Kaggle sharing bicycle dataset to explore the main factors influencing sharing bicycle usage patterns. It utilizes Pandas library of Python for data processing and employs Seaborn and Matplotlib for visual analysis, providing an intuitive display of data characteristics and user behavior patterns. The study finds that rental quantities are closely related to meteorological factors such as temperature, humidity, and wind speed, with rental activities being more frequent during specific time periods. This research not only demonstrates the superiority of Pandas, Seaborn, and Matplotlib in data visualization, but also provides data support for urban traffic management and sharing bicycle operation, thereby optimizing traffic management and enhancing user experience.

        Keywords: Big Data analysis; visualization; sharing bicycle data; Python

        0" 引" 言

        自行車共享系統作為傳統自行車租賃的新一代,從注冊會員到租賃再到歸還整個過程實現自動化。用戶可輕松在特定位置租用自行車并在另一位置歸還,目前全球約有500多個共享單車項目,由50多萬輛自行車組成。因其在交通、環(huán)境和健康問題上發(fā)揮重要作用,人們對其產生極大興趣。與此同時,眾多研究者也對這些系統所產生的數據興致盎然。與公共汽車或地鐵等其他運輸服務不同,共享自行車使用的持續(xù)時間、出發(fā)時間和到達位置都明確記錄在系統中。所以,對今天共享單車數據的分析,不管是針對商業(yè)價值或是學術研究,對共享單車數據的分析也尤為重要。

        而在“互聯網+”與大數據快速發(fā)展的當下,高效處理并展示大量數據成為亟待解決的問題之一[1]。而數據分析可視化能提升數據呈現效果,讓用戶更迅速、直觀地理解復雜數據。通過Python對共享單車使用數據進行深入挖掘[2],既能為城市交通規(guī)劃者和共享單車運營商提供數據支撐,進而優(yōu)化交通管理、提高用戶體驗,又能進一步拓展自行車共享系統的價值。

        1" 利用Python進行數據可視化

        要實現更高效的數據分析,采用具有強大繪圖功能的Python語言處理數據至關重要。Python作為解釋性編程語言,在人工智能、網絡爬蟲、科學計算與統計等諸多方面廣泛應用,其數據分析功能強大,可顯著提高數據分析效率[3]。

        之所以運用Python語言處理,是因為其擁有眾多適用于數據分析和數據可視化的工具庫,如Seaborn、Pandas、Numpy和Matplotlib。Matplotlib是Python的一個2D繪圖庫,用于生成圖形和圖表。它在數據科學和機器學習中廣泛應用于數據可視化[4]。在本實驗中,Matplotlib用于繪制模型訓練和驗證過程中的損失曲線和準確率曲線,幫助直觀分析模型的性能。Pandas是一個強大的分析結構化數據的工具集,它的使用基礎是Numpy(提供高性能的矩陣運算),用于數據挖掘和數據分析,同時也提供數據清洗功能。Seaborn則是一個建立在Matplotlib基礎之上的Python數據可視化庫,專注于繪制各種統計圖形,以便更輕松地呈現和理解數據[5]。

        因此,利用具有強大繪圖功能的Python語言處理數據對于更有效地開展數據分析十分必要[6]。

        2" 數據簡介

        城市共享單車的租賃分析針對的是共享單車在某一特定時段的租賃數量。本文的數據集是來自Kaggle競賽的美國華盛頓共享單車租賃數據,數據的特征主要包含季節(jié)、節(jié)假日、工作日、天氣、日期、溫度、濕度、未注冊人員數量、注冊人員數量以及共享單車使用量等各種方面的信息,共享單車的租賃數據如表1所示。

        3" 共享單車租賃數據集的預處理

        3.1" 數據集的導入分析

        首先導入數據集并使用info函數查看具體數據,程序運行結果如圖1所示。

        首先大致觀察數據和列標簽的形態(tài),接著運用函數查看數據的基本信息。由此可知,該數據一共有10 886行、12列。每一列都對應著共享單車租賃的不同特性。其中,三列數據為浮點型,“datetime”列的數據為字符串類型,其余數據為整型?!癲atetime”列的數據展示了單車租賃的具體時間和日期,“holiday”與“workingday”分別用“1”和“0”表示“是”和“否”,“season”則用“1”“2”“3”“4”來代表春、夏、秋、冬四個季節(jié)。

        3.2" 缺失值的處理

        查看本次數據中是否含有缺失值,使用missingno庫中的matrix函數Pandas DataFrame類型創(chuàng)建一個矩陣熱圖,顯示數據中缺失值的分布情況,運行結果如圖2所示。

        缺失值矩陣圖展示了數據集中每列的缺失值情況。圖中的每一列代表數據集的一列,行代表每個數據樣本。白色的條代表缺失值,深色的條代表存在的數據。通過這種可視化,可以直觀地看到數據集中缺失值的分布和模式。所以由圖2可知本次數據沒有缺失值,不需要進行缺失值處理。

        3.3" 重復值分析

        通過data.drop_duplicates () 函數對重復數據進行清除操作。具體代碼如下:

        duplicate_rows = data.duplicated()

        num_duplicates = duplicate_rows.sum()

        print(f\"Number of duplicate rows: {num_duplicates}\")

        if num_duplicates gt; 0:

        print(\"Duplicate rows:\")

        print(data[duplicate_rows].head())

        data_cleaned = data.drop_duplicates()

        data_cleaned.info()

        清除重復數據前,數據集的尺寸為10 886行×12列;清除后,數據集的大小仍為10 886行×12列,這表明本數據集沒有重復的數據值。

        3.4" 共享單車租賃的特征相關性分析

        為了了解各個變量與count(單車租賃數量)的相關性,筆者做了各變量與count的相關矩陣熱力圖,因為datetime列數據的類型不屬于數值型類型,在之前將數據集中的datetime的year、month、day(具體日期)、hour以及weekday部分轉化為數值型數據。但熱力圖需要數值型數據運算,所以重建int_df刪去其中非數值的列。以熱力圖可視化顯示了各變量間的相關性,可以找出和共享單車租賃相聯系的特征,結果如圖3所示。

        從圖3當中可以得知,count與registered、casual呈現出高度正相關關系,相關系數分別為0.7和0.97。鑒于count等于casual與registered之和,這種正相關符合預期。count與temp呈正相關,相關系數是0.39。通常來講,氣溫過低時人們往往不太樂意騎車出行。count和humidity(濕度)為負相關,濕度過大的天氣確實不適合騎車。在考量濕度的時候,也需要同時考慮溫度。windspeed對租車人數的影響似乎不大,相關系數為0.1,這可能是因為極端大風天氣的出現頻率較低。在風速處于正常范圍內波動時,對人們租車的影響比較小。所以由此可以總結出,不同特征值對租賃數量的影響力度排序為:時段的影響最大,其次是溫度、濕度、年份、月份、季節(jié)、天氣等級、風速、星期幾、是否工作日以及是否假日。

        3.5" 數據的重新處理

        對數據集進行一定的分析,可知沒有缺失值和異常值。但datetime的數據類型是object,為了之后的數據分析更方便,需要把它轉化為時間類型,并拆分為year、month、week、day、hour、weekday,即日期的處理轉換,為接下來的數據分析做準備。替換后的部分數據如圖4所示。

        4" 共享單車租賃的可視化分析

        按照影響共享單車租賃數據的各類要素,查看各要素數據的分布情況,便可以得到各要素對共享單車租賃產生的影響[7]。

        4.1" 時段對租賃數量的影響

        使用Seaborn和Matplotlib庫來按時段分組并計算平均租賃數量,然后將這些結果可視化為折線圖,結果如圖5所示。

        由圖5能夠得知,在工作日,會員用戶的用車高峰出現在上下班時間,此外中午還有一個小高峰,猜測可能是外出吃午餐的人在用車;而對臨時用戶起伏比較平緩,高峰期在17點左右。對于非工作日而言,租賃數量隨時間呈現為正態(tài)分布,14點左右為高峰,4點左右為低谷,且分布較為均勻。并且會員用戶的用車數量遠超過臨時用戶。

        4.2" 溫度對租賃數量的影響

        使用Seaborn和Matplotlib庫來按溫度大小分組并計算平均租賃數量,然后將這些結果可視化為折線圖,結果如圖6所示。

        由圖6可觀察到隨氣溫上升租車數量總體呈現上升趨勢,但在氣溫超過35時開始下降,在氣溫4度時達到最低點。

        4.3" 濕度對租賃數量的影響

        通過Pandas對共享單車數據進行按濕度(humidity)分組,并計算每個濕度區(qū)間內的casual、registered和count的平均租賃數量,生成折線圖,折線圖如圖7所示。

        從圖7得出,在濕度20%左右租賃數量迅速達到高峰值,此后緩慢遞減。

        4.4" 季節(jié)對出行人數的影響

        使用Seaborn、Pandas和Matplotlib庫來按季節(jié)分組并計算平均租賃數量,然后將這些結果可視化為小提琴圖,結果如圖8所示。

        圖8展示了不同季節(jié)租賃數量的分布情況,有效地顯示使用需求在秋季迎來高峰,而春季租賃數量最低。

        4.5" 風速對出行人數的影響

        使用Seaborn和Matplotlib庫來按風速大小分組并計算平均租賃數量,然后將這些結果可視化為折線圖[8]。具體代碼如下:

        plt.plot(windspeed_rentals.index,windspeed_rentals['casual'],label='casual', color='black', linestyle='-')

        plt.plot(windspeed_rentals.index,windspeed_rentals['registered'],label='registered',color='black', linestyle='--')

        plt.plot(windspeed_rentals.index, windspeed_rentals['count'],color='black', linestyle=':', label='count')

        plt.title('不同風速下每小時最大租賃數量折線圖')

        plt.xlabel('風速(米/秒)')

        plt.ylabel('最大租賃數量/人次')

        plt.legend()

        結果如圖9所示。

        圖9展示了處于不同風速條件下,各類租賃的最大租賃數量的分布狀況??梢园l(fā)現租賃數量與風速呈負相關,即風速越大租賃數量越少,當風速超過30米/秒時明顯減少,然而在風速約為40米/秒時卻出現了一次回升[9]。

        4.6" 天氣情況對出行情況的影響

        通過Pandas對共享單車數據按天氣(weather)分組,計算每種天氣條件下casual和registered的平均租賃數量,生成weather_df數據框。接著,使用Matplotlib繪制堆疊柱狀圖,結果如圖10所示。

        由圖10可知在不同天氣條件下每小時發(fā)起的平均租賃數量,由圖10可以看出晴天少時使用人數最多,小雪小雨時使用人數最少。

        4.7" 工作日對出行情況的影響

        將日期分為周末和工作日兩個方面進行對比探討,對比工作日和非工作日的自行車租賃數量,并通過柱狀圖和餅圖進行可視化[10]。首先計算工作日和非工作日的平均租賃數量,然后繪制柱狀圖和餅圖,具體操作如下:

        通過Pandas將共享單車數據依據工作日(workingday)進行分組操作,并計算casual與registered的平均租賃數量,進而生成workingday_df數據框。把工作日的數據存儲在workingday_df_1中,非工作日的數據存儲在workingday_df_0里。利用Matplotlib創(chuàng)建子圖繪制堆疊條形圖以展示工作日和非工作日的平均租賃數量,將這兩種情形下casual和registered的比例繪制出來,結果如圖11所示。

        從圖11中可知工作日會員用戶出行數量較多,臨時用戶出行數量較少。

        5" 結" 論

        用Python分析共享單車租賃交易數據集,把數據集中的不同屬性用圖展示出來并進行簡單剖析,會員常于工作日出行頻繁,而在節(jié)假日卻出行較少;臨時用戶恰與之相反。一季度,出行之人總體為數不多。租賃數量隨天氣等級攀升而漸次減少。小時數對租賃狀況影響昭然,會員出行現雙高峰之態(tài),非會員則呈正態(tài)分布之姿。溫度與濕度,對非會員影響頗深,于會員卻影響甚微。租賃數量隨風速增大而逐步遞減。工作日,會員用戶出行數量可觀,臨時用戶則甚少;周末之際,會員用戶租賃數量下滑,臨時用戶租賃數量卻上揚。

        在對共享單車數據的分析中,Python充分展現出其在數據整理和分析領域的強大優(yōu)勢。通過對大量的共享單車數據進行處理,Python可以快速地按照特定需求進行分組、聚合等操作,如根據工作日與非工作日對數據分組分析。同時,利用Python能夠從海量復雜的數據中提取關鍵信息,繪制出如不同特征下租賃數量變化的圖表,使人們對共享單車的使用情況有更全面的認識,切實適應了大數據時代的要求,實用性遠超其他編程語言。

        參考文獻:

        [1] 郭鵬,林祥枝,黃藝,等.共享單車:互聯網技術與公共服務中的協同治理 [J].公共管理學報,2017,14(3):1-10+154.

        [2] 錢蕾,周瑋騰,韓寶明.城市軌道交通運營突發(fā)事件數據可視化分析 [J].鐵道科學與工程學報,2020,17(4):1025-1035.

        [3] 康顥,沈瑤,王博文,等.基于Python的線性動態(tài)電路可視化分析軟件設計與實現 [J].實驗室研究與探索,2022,41(2):116-120.

        [4] 王越,陳國兵,李軍.基于數據挖掘的故障模式、影響及危害性分析改進方法 [J].科學技術與工程,2021,21(24):10536-10542.

        [5] 王彩玲,許欣黎.基于Python語言的計算機專業(yè)招聘信息的爬取及分析 [J].現代信息科技,2024,8(16):88-92+97.

        [6] 王晨.基于Python爬蟲的豆瓣TOP250電影數據分析與可視化研究 [J].現代信息科技,2024,8(16):93-97.

        [7] 李天輝.基于python的數據分析可視化研究與實現 [J].電子測試,2020(20):78-79.

        [8] 趙志凡,鄧一哲,張思源,等.基于Python的城市天氣數據可視化分析 [J].軟件,2024,45(4):37-39.

        [9] 傅哲,辛泓潤,余力,等.基于使用行為分析的共享單車管理優(yōu)化研究 [J].信息系統學報,2018(2):81-94.

        [10] 柳鍵,張晉莉.共享電單車投放策略的演化分析 [J].江西師范大學學報:自然科學版,2023,47(5):506-512.

        作者簡介:徐豪(2005—),男,漢族,河南鶴壁人,本科在讀,研究方向:人工智能;劉婉月(1994—),女,漢族,河南鄭州人,高級工程師,碩士,研究方向:自然語言處理、機器翻譯、計算機視覺;張自豪(1988—),男,漢族,河南商丘人,講師,碩士生導師,博士,研究方向:計算機視覺。

        猜你喜歡
        可視化
        自然資源可視化決策系統
        北京測繪(2022年6期)2022-08-01 09:19:06
        思維可視化
        師道·教研(2022年1期)2022-03-12 05:46:47
        基于Power BI的油田注水運行動態(tài)分析與可視化展示
        云南化工(2021年8期)2021-12-21 06:37:54
        自然資源可視化決策系統
        北京測繪(2021年7期)2021-07-28 07:01:18
        基于CGAL和OpenGL的海底地形三維可視化
        “融評”:黨媒評論的可視化創(chuàng)新
        傳媒評論(2019年4期)2019-07-13 05:49:14
        欧美大屁股xxxx高潮喷水| 免费在线观看蜜桃视频| 色综合久久精品中文字幕| 亚洲偷自拍国综合第一页| 国产中文字幕乱人伦在线观看| 98bb国产精品视频| 久久亚洲精品国产精品婷婷| 亚洲乱码中文字幕视频| 欧美另类人妖| 美女裸体自慰在线观看| 一区二区三区在线视频免费观看 | 国产精品白浆无码流出| 国成成人av一区二区三区| 亚洲精品无码av人在线观看国产| 国产精品_国产精品_k频道| 精品视频在线观看免费无码| 一区二区三区日本在线| 国产在线观看免费视频软件| 蜜臀av 国内精品久久久| 中文字幕Aⅴ人妻一区二区苍井空| 国产精品高清一区二区三区人妖| 老熟妇乱子伦牲交视频| 风韵饥渴少妇在线观看| 久久精品国产72国产精福利| 精品人妻在线一区二区三区在线| 少妇做爰免费视频了| 日韩精品一区二区三区视频| 看黄色亚洲看黄色亚洲| 国产一级二级三级在线观看av| 久久久久久人妻一区精品| 欧美a级在线现免费观看| 亚洲日本精品一区二区三区| 久久99亚洲精品久久久久| 成年无码aⅴ片在线观看| 天堂AV无码AV毛片毛| 丝袜美腿福利视频在线| 亚洲av无码一区二区乱孑伦as| 在线观看av手机网址| 亚洲国产女同在线观看| 欧美丰满熟妇bbbbbb| a级毛片免费观看视频|