董欣
(沈陽師范大學計算機與數學基礎教學部,遼寧 沈陽 110034)
Python是數據科學與數據分析領域的最好用的編程語言。豐富的第三方庫、開源社區(qū)、及不斷優(yōu)化的使用文檔,為許多非計算機領域的學習者提供了廣闊的入門與精通渠道。所以本文基于Python,簡要介紹 Python 在數據分析中的思路與應用場景。
Python有大量的工具庫,例如:numpy、matplotlib、Seaborn、pandas、scikit-learn等工具庫。
NumPy:用于簡化數組和矩陣的操作,是一種開源的數值計算擴展。這種工具可用來存儲和處理大型矩陣,比Python自身的嵌套列表(nested list structure)結構要高效的多,支持大量的維度數組與矩陣運算,此外也針對數組運算提供大量的數學函數庫。
Matplotlib:第一個 Python 可視化程序庫,提供了完整的2D和有限3D圖形支持。盡管它已有十多年的歷史,但仍然是Python社區(qū)中使用最廣泛的繪圖庫。
Seaborn:Seaborn利用Matplotlib的強大功能,可以只用幾行代碼就創(chuàng)建漂亮的圖表。關鍵區(qū)別在于Seaborn的默認款式和調色板設計更加美觀和現代。
Pandas:基于numpy構建的,為時間序列分析提供了很好的支持。pandas中有兩個主要的數據結構,一個是Series,另一個是DataFrame。該工具是為了解決數據分析任務而創(chuàng)建的。Pandas 納入了大量庫和一些標準的數據模型,提供了高效地操作大型數據集所需的工具。
Anaconda是一個開源的Python發(fā)行版本,其包含了conda、Python等180多個科學包及其依賴項,本質是一個包管理器和環(huán)境管理器。anaconda用于大規(guī)模數據處理、預測分析、科學計算等,致力于簡化包的管理和部署。
安裝anaconda時建議勾選“Register Anaconda as the system Python 3.x”,則設置Anaconda為系統默認的python環(huán)境,這樣就可以直接使用其集成的所有工具包。
按照數據可視化的一般流程,要先進行數據讀取。本文以各種不同等級的2種商品銷售情況數據為例,把Excel文檔作為數據源進行數據讀取。
使用NumPy中函數genfromtxt() 讀取Excel非常容易,該函數生成NumPy數組:
IO=’C:\Users\Administrator\python\data.xls’
data=pd.read_excel(io=IO)
在Python 中,一個函數可以有數量可變的參數,可以通過指定所需的參數來傳遞一個參數的子集。數組是非常強大的矩陣狀對象,并且可以很容易地分割成更小的數組。
接下來,把讀取到數組中的數據通過matplotlib庫中的工具繪制折線圖進行分析,由x軸,y軸和代表數據的折線構成。
x1=[‘1特級’,‘2一級’,‘3標準’,‘4中等’,‘5普通’]
y1=data[‘總評’]#A商品不同等級銷售量
x2=[‘1特級’,‘2一級’,‘3標準’,‘4中等’,‘5普通’]
y2=data[‘卷面’]#B商品不同等級銷售量
圖1 商品等級銷售折線圖
本文運用Python對2種不同等級的商品銷售情況數據進行分析,旨在為數據分析提供了一種新的思路綜上,在科學研究、教學和軟件開發(fā)領域,如何實現更加精準而簡潔的數據分析是一個重要研究方向,需要我們不斷的探索和實踐。