董海峰
摘要:隨著經(jīng)濟(jì)的不斷發(fā)展,計(jì)算機(jī)網(wǎng)絡(luò)也在不斷的發(fā)展,編程語(yǔ)言也應(yīng)運(yùn)而生,Python成為了應(yīng)用比較廣泛的解釋型腳本語(yǔ)言,在很多領(lǐng)域都進(jìn)行應(yīng)用,Python簡(jiǎn)單易懂,開(kāi)放性強(qiáng),在系統(tǒng)的開(kāi)發(fā)方面應(yīng)用很方便。這篇文章研究Python編程語(yǔ)言的特點(diǎn),進(jìn)行技術(shù)分析,在開(kāi)發(fā)領(lǐng)域的應(yīng)用和在大數(shù)據(jù)時(shí)代下Python編程語(yǔ)言的發(fā)展方向,為以后的研究學(xué)習(xí)鋪下道路。
關(guān)鍵詞:Python;應(yīng)用;軟件
中圖分類(lèi)號(hào):TP311.5 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1007-9416(2020)07-0101-02
0 引言
作為一門(mén)解釋型腳本語(yǔ)言,Python具備開(kāi)源性、門(mén)檻低、可移植性強(qiáng)及擁有更為豐富的資源庫(kù)的特點(diǎn),目前已經(jīng)成為比較主流的編程語(yǔ)言之一,在包括Web開(kāi)發(fā)在內(nèi)的多領(lǐng)域都有著深入的應(yīng)用。
1 多種語(yǔ)言在數(shù)據(jù)挖掘方面的比較
現(xiàn)在市場(chǎng)上有很多腳本語(yǔ)言,寫(xiě)爬蟲(chóng)程序的語(yǔ)言可以使用C、C++、C#、PHP、Java、Python,但是在數(shù)據(jù)挖掘階段大多數(shù)人還是習(xí)慣使用Python,因?yàn)橄啾容^而言,Python更加具有開(kāi)源性、簡(jiǎn)潔性、類(lèi)庫(kù)性這些特點(diǎn)。
(1)PHP有其自身的優(yōu)勢(shì),性能很強(qiáng)、配合簡(jiǎn)單、穩(wěn)定、容易部署、跨平臺(tái)性也很強(qiáng),但是也是有很大的缺點(diǎn)的,不適合做爬蟲(chóng)、自動(dòng)運(yùn)行腳本.科學(xué)運(yùn)算項(xiàng)目,這語(yǔ)言基本構(gòu)架就不適合,并且它是個(gè)單進(jìn)程的程序,不夠穩(wěn)定,運(yùn)行運(yùn)行著就會(huì)莫名其妙的自己掛掉,所以后期維護(hù)很困難。(2)Java語(yǔ)言簡(jiǎn)單、安全、穩(wěn)定、跨平臺(tái),但是需要運(yùn)行環(huán)境、不適合開(kāi)發(fā)桌面應(yīng)用程序,而且Java的代碼量很大,一旦需要修改就會(huì)很麻煩,不適合開(kāi)發(fā)爬蟲(chóng),比較適合金融系統(tǒng)的構(gòu)建。(3)C/C++語(yǔ)言非常靈活、嚴(yán)謹(jǐn)、精確,但是門(mén)檻高難學(xué),開(kāi)發(fā)效率低,寫(xiě)爬蟲(chóng)代碼需要的時(shí)間長(zhǎng),所以一般不用C/C++語(yǔ)言來(lái)寫(xiě)爬蟲(chóng)代碼。(4)Python語(yǔ)言簡(jiǎn)單明了,類(lèi)庫(kù)性強(qiáng),一般在開(kāi)發(fā)的時(shí)候,使用Python語(yǔ)言可以起到事半功倍的效果[1]。
2 Python語(yǔ)言的特點(diǎn)
第一,相對(duì)于C、C++、Java等編輯/靜態(tài)類(lèi)型語(yǔ)言,python的開(kāi)發(fā)效率提升了3-5倍,也就是說(shuō)代碼量是其他編程語(yǔ)言的三分之一,而且無(wú)需編譯、鏈接步驟,提高程序員效率,代碼非常簡(jiǎn)單,上手非常容易。比如我們要完成某個(gè)功能,如果用Java 需要100行代碼,但用Python可能只需要20行代碼,這是Python具有巨大吸引力的一大特點(diǎn),很適合剛剛?cè)腴T(mén)進(jìn)行學(xué)習(xí)的初學(xué)者,可以增強(qiáng)學(xué)習(xí)者的信心,使得工作科學(xué)有效的開(kāi)展。第二,Python語(yǔ)言具有開(kāi)源性和靈活性,簡(jiǎn)單地說(shuō),你可以自由地發(fā)布這個(gè)軟件的拷貝,閱讀它的源代碼,對(duì)它做改動(dòng),把它的一部分用于新的自由軟件中。它具有腳本語(yǔ)言中最豐富和強(qiáng)大的類(lèi)庫(kù),具有可移植性,Python提供多種可選的獨(dú)立程序,如用戶(hù)圖形界面、數(shù)據(jù)庫(kù)接入、基于web系統(tǒng)、還提供了操作系統(tǒng)接口,使用起來(lái)很方便,語(yǔ)法非常清晰,它甚至不是一種格式自由的語(yǔ)言。例如,它要求if語(yǔ)句的下一行必須向右縮進(jìn),否則不能通過(guò)編譯。Python作為一門(mén)解釋型的語(yǔ)言,它天生具有跨平臺(tái)的特征,只要為平臺(tái)提供了相應(yīng)的Python解釋器,Python就可以在該平臺(tái)上運(yùn)行[2]。它也是一種功能強(qiáng)大而完善的通用型語(yǔ)言,也促使了大家都喜歡使用它。
3 基于Python的計(jì)算機(jī)軟件應(yīng)用技術(shù)分析
3.1 建立相應(yīng)的文件
需要建立相應(yīng)的文件,利用scrapy-redis進(jìn)行建立的文件夾包含三個(gè):第一,需要儲(chǔ)存爬蟲(chóng)的內(nèi)容;第二,需要儲(chǔ)存爬蟲(chóng)規(guī)范;第三,需要將爬蟲(chóng)內(nèi)容和規(guī)范儲(chǔ)存在文件內(nèi)。
3.2 信息爬取
在爬取信息得實(shí)際流程中,我們需要分為以下幾步進(jìn)行。
3.2.1 獲取軟件
我們需要進(jìn)行獲取軟件,得到準(zhǔn)確的URL,就需要進(jìn)行網(wǎng)絡(luò)爬蟲(chóng),檢索數(shù)據(jù)的URL,然后和需要的數(shù)據(jù)資料進(jìn)行比對(duì),將得到的準(zhǔn)確的URL放進(jìn)資料庫(kù),按順序排隊(duì),然后再等URL出來(lái),利用地址進(jìn)行查詢(xún)相應(yīng)的網(wǎng)站信息,再將有用的信息資料存放在資料庫(kù)中,已經(jīng)使用過(guò)的URL就需要放入已經(jīng)使用的資料庫(kù)里面。
3.2.2 將所獲得的信息存儲(chǔ)起來(lái)
需要將所獲得的信息儲(chǔ)存起來(lái),就需要對(duì)所獲得的信息進(jìn)行檢索檢查,取其精華,去其糟粕,只留下有用的信息,在檢索的過(guò)程中,可能會(huì)出現(xiàn)很多的類(lèi)似或者抄襲的現(xiàn)象,這是就需要去掉該頁(yè)面的信息。這種情況如果沒(méi)有處理好,就會(huì)出現(xiàn)很多沒(méi)有用的信息愛(ài)占用著磁盤(pán)的空間,是一種資源的浪費(fèi),所以在對(duì)頁(yè)面進(jìn)行分析的時(shí)候,要注重選取信息的環(huán)節(jié),加大篩選的準(zhǔn)確性。畢竟每臺(tái)電腦的內(nèi)存都是有限的,所以一定要通過(guò)URL查詢(xún)到網(wǎng)址之后,就行相應(yīng)的頁(yè)面分析篩選,選出正確的信息進(jìn)行存儲(chǔ)[3]。
3.2.3 預(yù)處理
預(yù)處理是指進(jìn)行第一步處理,使信息中的文字和頁(yè)面中的廣告分離,取走需要的信息,進(jìn)行簡(jiǎn)單的篩選處理工作,對(duì)需要的信息留下進(jìn)行處理加工。
3.2.4 分頁(yè)檢索能力
在使用的時(shí)候,如果客戶(hù)需要使用分頁(yè)檢索功能,那就可以對(duì)答案進(jìn)行篩選、排列的操作,來(lái)呈現(xiàn)出準(zhǔn)確的答案。
4 計(jì)算機(jī)語(yǔ)言軟件在大數(shù)據(jù)時(shí)代下的發(fā)展方向
4.1 通信領(lǐng)域的發(fā)展
我國(guó)大部分的通信公司為了制定合理的通信方案,常常要收集大量的用戶(hù)資料。若使用計(jì)算機(jī)分析軟件,對(duì)用戶(hù)的通信習(xí)慣等方面進(jìn)行科學(xué)預(yù)估,進(jìn)而針對(duì)性的對(duì)網(wǎng)絡(luò)用戶(hù)提供超值的通信方案,可對(duì)客戶(hù)科學(xué)建議月租、流量包等方面的套餐,滿(mǎn)足用戶(hù)多元化的上網(wǎng)需求,從而改善部分通信公司逐漸下滑的運(yùn)營(yíng)情況。具體而言,通信公司可以利用數(shù)據(jù)挖掘等技術(shù),在計(jì)算機(jī)軟件技術(shù)的基礎(chǔ)上,收集并歸納公司客戶(hù)的通信數(shù)據(jù)及相關(guān)資料,總結(jié)客戶(hù)平常的通信習(xí)慣,進(jìn)而對(duì)其建議公司所推出的的相關(guān)套餐及通信活動(dòng)[4]??傊?,在數(shù)據(jù)信息爆炸式增長(zhǎng)的時(shí)代,通信公司應(yīng)利用計(jì)算機(jī)軟件技術(shù),不斷加強(qiáng)公司的通信服務(wù)質(zhì)量,進(jìn)而持續(xù)增強(qiáng)公司的經(jīng)濟(jì)效益,使公司得以快速發(fā)展。所以,在大數(shù)據(jù)環(huán)境下,計(jì)算機(jī)軟件技術(shù)在通信領(lǐng)域的應(yīng)用可以作為其未來(lái)的發(fā)展趨勢(shì)。
4.2 企業(yè)數(shù)據(jù)信息的發(fā)展
現(xiàn)如今,大部分企業(yè)的穩(wěn)步發(fā)展均要依靠客戶(hù)數(shù)據(jù)信息的有效處理。企業(yè)可以利用計(jì)算機(jī)軟件技術(shù)對(duì)海量數(shù)據(jù)進(jìn)行科學(xué)的分析,從而獲得有利于企業(yè)快速發(fā)展的數(shù)據(jù)價(jià)值規(guī)律。此外,企業(yè)通過(guò)運(yùn)用計(jì)算機(jī)軟件技術(shù),還能提高企業(yè)人員的工作效率。而且,利用計(jì)算機(jī)軟件技術(shù),企業(yè)還能獲得客戶(hù)多方面的數(shù)據(jù)信息。但是要注意,在進(jìn)行客戶(hù)數(shù)據(jù)信息的分析處理時(shí),要選擇有代表性的數(shù)據(jù)進(jìn)行整合分類(lèi)。在大數(shù)據(jù)時(shí)代下,每位客戶(hù)的數(shù)據(jù)信息都比較多。如若要對(duì)客戶(hù)所有的數(shù)據(jù)信息進(jìn)行完整的分析,便會(huì)消耗一定的時(shí)間和精力。所以,在對(duì)客戶(hù)數(shù)據(jù)進(jìn)行分析時(shí),要進(jìn)行抽樣化分析,即應(yīng)以某一部分有代表性的樣品為例,進(jìn)行抽樣化處理[5]。而且,計(jì)算機(jī)軟件技術(shù)還會(huì)給出客戶(hù)的整體消費(fèi)偏好。利用計(jì)算機(jī)軟件技術(shù)的探究方法,對(duì)用戶(hù)的數(shù)據(jù)進(jìn)行分析、對(duì)比,可總結(jié)出用戶(hù)的消費(fèi)偏好。還能通過(guò)用戶(hù)的消費(fèi)偏好,針對(duì)性的為客戶(hù)制定相應(yīng)的產(chǎn)品方案或購(gòu)買(mǎi)計(jì)劃,滿(mǎn)足客戶(hù)多樣化的需求,進(jìn)而提升企業(yè)的產(chǎn)品評(píng)價(jià)。同時(shí)。企業(yè)也可將計(jì)算機(jī)軟件技術(shù)應(yīng)用于多種領(lǐng)域,以最大限度地發(fā)揮其應(yīng)用價(jià)值。
5 結(jié)語(yǔ)
總體來(lái)說(shuō),在計(jì)算機(jī)實(shí)際應(yīng)用中,若要進(jìn)行數(shù)據(jù)挖掘,通常會(huì)采用網(wǎng)絡(luò)爬蟲(chóng)的方法來(lái)進(jìn)行,而Python語(yǔ)言在編寫(xiě)網(wǎng)絡(luò)爬蟲(chóng)程序時(shí),具有較大的優(yōu)勢(shì),因此,大多情況下都會(huì)將Python作為編寫(xiě)網(wǎng)絡(luò)爬蟲(chóng)的首要語(yǔ)言。
參考文獻(xiàn)
[1] 彭?yè)P(yáng)劍.試析計(jì)算機(jī)軟件技術(shù)在大數(shù)據(jù)時(shí)代的應(yīng)用[J].信息記錄材料,2019,20(6):93-94.
[2] 郭佳興.計(jì)算機(jī)軟件技術(shù)在大數(shù)據(jù)時(shí)代的應(yīng)用探討[J].數(shù)字技術(shù)與應(yīng)用,2019,37(5):220-221.
[3] 趙金金.分層技術(shù)在計(jì)算機(jī)軟件開(kāi)發(fā)中的應(yīng)用效果分析[J].湖北農(nóng)機(jī)化,2019(09):48.
[4] 劉洪.計(jì)算機(jī)軟件開(kāi)發(fā)中分層技術(shù)的應(yīng)用研究[J].信息與電腦(理論版),2019(9):29-30.
[5] 王鴻燕.計(jì)算機(jī)軟件技術(shù)在大數(shù)據(jù)時(shí)代的應(yīng)用分析[J].電腦知識(shí)與技術(shù),2019,15(14):253-254.
數(shù)字技術(shù)與應(yīng)用2020年7期