亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于Python的大數(shù)據(jù)文檔拆分規(guī)律研究

2022-07-06 10:06:07丁思蓉何靜茹李真

現(xiàn)代信息科技 2022年6期

關(guān)鍵詞：對比分析

丁思蓉?何靜茹?李真

摘? 要：拆分大數(shù)據(jù)文檔是日常生活中所需的，隨著大數(shù)據(jù)文檔的增加，選擇拆分行數(shù)是一個(gè)值得研究的問題。運(yùn)用PyCharm Community和Python來拆分大文檔，對比分析在不同行數(shù)的條件下，大文檔拆分成小文檔所用的數(shù)量以及時(shí)間。報(bào)告了拆分?jǐn)?shù)量適中是最佳的，文檔數(shù)據(jù)量越大，消耗的時(shí)間越不穩(wěn)定。通過對同一文檔拆分最短時(shí)間的拆分行數(shù)進(jìn)行研究，得到拆分時(shí)間規(guī)律，選擇最佳的拆分行數(shù)，以此提高拆分文檔效率。

關(guān)鍵詞：拆分大數(shù)據(jù)文檔;對比分析;拆分行數(shù)

中圖分類號(hào)：TP309? ? ? ? ?文獻(xiàn)標(biāo)識(shí)碼：A文章編號(hào)：2096-4706（2022）06-0107-03

Research on Big Data Document Splitting Rule Based on Python

DING Sirong， HE Jingru， LI Zhen

（Chengdu Jincheng College， Chengdu? 611731， China）

Abstract： Splitting big data documents is necessary in daily life. With the increase of big data documents， choosing the number of splitting rows is a problem worthy of study. This paper uses the PyCharm Community and Python to split large documents， compares and analyzes the quantity and time used to split large documents into small documents under the condition of different numbers of rows. It is reported that a moderate number of splitting rows is the best， and the larger the amount of document data， the more unstable the time consumed. By studying the number of splitting rows in the shortest time of splitting the same document， the rule of splitting time is obtained， and the best number of splitting rows is selected to improve the efficiency of splitting the document.

Keywords： splitting big data document; comparative analysis; the number of splitting rows

0? 引? 言

人類數(shù)據(jù)庫以18個(gè)月為周期，倍數(shù)增長，大文檔越來越多，在進(jìn)行數(shù)據(jù)庫處理領(lǐng)域，業(yè)內(nèi)通常將大于10 GB的文本定義為大數(shù)據(jù)量表。對大文本的數(shù)據(jù)處理與分析會(huì)首先對文件進(jìn)行拆分，第一提高電腦運(yùn)行效率，第二提高分析速度，第三方便進(jìn)行傳輸。對于大數(shù)據(jù)量表的拆分。首先需要根據(jù)實(shí)際情況確定拆分原則，可以按照不同的地域、時(shí)間切片等方式進(jìn)行拆分。在方法上，可以以時(shí)間的遞增而表的記錄數(shù)量均勻遞增的數(shù)據(jù)庫問題，可以使用時(shí)間切片的方式來解決。把一個(gè)大數(shù)據(jù)量以時(shí)間節(jié)點(diǎn)拆分成多個(gè)小數(shù)據(jù)量表，分布到不同的硬盤或其他存儲(chǔ)介質(zhì)中，大大提升了查詢速度[1]。第二，會(huì)按照不同的表拆分到不同的數(shù)據(jù)庫（主機(jī)）之上，或根據(jù)表中的數(shù)據(jù)的邏輯關(guān)系，浮同一個(gè)表中的數(shù)據(jù)按照某種條件拆分到多臺(tái)數(shù)據(jù)庫（主機(jī)）上面[2]?；蛘咴谶M(jìn)行總段拆分時(shí)宜采用自動(dòng)拆分和交互拆分相結(jié)合的方式進(jìn)行，通過“一分為二”的方式，把一個(gè)總段按給定的分界面拆分成二部分，再對拆分出的部分繼續(xù)“一分為二”，經(jīng)過幾次“一分為二”，就可以拆分成最終的分段[3]。以及進(jìn)行 K-means聚類，產(chǎn)生n個(gè)簇，從每個(gè)簇中取出一個(gè)樣本構(gòu)成子集，每個(gè)子集與少數(shù)類樣本一起構(gòu)成m訓(xùn)練子集[4]。

由于大數(shù)據(jù)量表容量過大，使用傳統(tǒng)的軟件無法處理，比如EXCEL，NAVICAT，SPSS等。因此需要使用對大數(shù)據(jù)量表更具處理能力的Python數(shù)據(jù)模塊[5]。本論文研究在使用Python數(shù)據(jù)模塊拆分大數(shù)量表時(shí)的拆分效率問題。在不同的拆分?jǐn)?shù)量上，如何消耗的時(shí)間最短。

本次研究的大數(shù)據(jù)量表容量為9.82 GB，CSV逗號(hào)分隔符格式，包含1億7百多萬條數(shù)據(jù)?，F(xiàn)有EXCEL軟件最多現(xiàn)實(shí)1 048 576行數(shù)據(jù)，無法將文檔完全顯示。使用Python的Pandas數(shù)據(jù)分析庫開打文檔的時(shí)間約為5～10分鐘，效率太低。因此只能選擇先將文檔進(jìn)行拆分，小于EXCEL的最大顯示行數(shù)后，才進(jìn)行分析。

文檔拆分思路為，先使用Python的文檔映射功能，逐行掃描數(shù)據(jù)量表。達(dá)到100萬上限后，將其保存為一個(gè)新的文檔，在繼續(xù)掃描下一個(gè)100萬行數(shù)據(jù)。以此類推，完成大數(shù)據(jù)量表的拆分。

在進(jìn)行拆分程序運(yùn)行的過程中，我們發(fā)現(xiàn)不同的掃描行數(shù)，不同的拆分文檔數(shù)，其消耗的時(shí)間不同。例如，掃描行數(shù)多，保存時(shí)長長，但拆分文檔數(shù)少;相反掃描行數(shù)少，保存時(shí)長短，但拆分文檔數(shù)量多。那么掃描行數(shù)，保存時(shí)長和拆分文檔數(shù)如何搭配，能夠讓拆分文檔效率最高呢？

為此我們進(jìn)行了一系列的實(shí)驗(yàn)。將掃描行數(shù)按照10萬、20萬、30萬到100萬行分成10檔，使用不同的電腦進(jìn)行拆分，記錄每個(gè)文檔的拆分時(shí)間。試圖找出掃描行數(shù)，保存時(shí)間和拆分文檔數(shù)之間的規(guī)律。由于拆分10行數(shù)據(jù)文檔的時(shí)間低于1秒，為了分析和記錄的便捷，記錄時(shí)間統(tǒng)一精確到毫秒。5D2058FE-E3C3-4CC2-8DA5-F9965BB54F4A

1? 實(shí)驗(yàn)過程

以下我們從工具配置、實(shí)驗(yàn)實(shí)現(xiàn)過程和結(jié)果展示三個(gè)方面還原整個(gè)實(shí)驗(yàn)的過程。

1.1? 工具配置

所使用的筆記本電腦為Thinkpad e14和華為MateBook 14。兩臺(tái)電腦的硬件配置如下：

華為MateBook 14處理器為Intel（R）Core（TM） i5-10210U CPU @ 1.60 GHz 2.11 GHz，系統(tǒng)類型為64位操作系統(tǒng)，基于x64的處理器;

ThinkPad E14的處理器為11th Gen Intel（R） Core（TM） i5-1135G7 @ 2.40 GHz （8 CPUs），～2.4 GHz，系統(tǒng)類型為64位操作系統(tǒng)。

1.2? 實(shí)現(xiàn)過程

我們使用PyCharm Community Edition 2020.2.1 x64、Python 3.8 （64-bit）和2019版Excel。使用PyCharm編寫文檔拆分程序，采集每一個(gè)拆分文檔的開始和結(jié)束時(shí)設(shè)定時(shí)間點(diǎn)，并將時(shí)間精度設(shè)為毫秒。在代碼中設(shè)置拆分文檔大小參數(shù)，用于實(shí)驗(yàn)在不同文檔大小下的開始結(jié)束時(shí)間點(diǎn)。在運(yùn)行軟件之前需要停止所有的后臺(tái)以及Wi-Fi信號(hào)運(yùn)行軟件，保證整個(gè)實(shí)驗(yàn)只有“拆分行數(shù)”這一個(gè)因變量，防止后臺(tái)的軟件在運(yùn)行時(shí)對程序運(yùn)行造成影響。例如拆分時(shí)間的圖像波動(dòng)十分厲害，說明此時(shí)的數(shù)據(jù)不穩(wěn)定，造成的主要原因就是此時(shí)拆分每一個(gè)文件的時(shí)間的自變量會(huì)不僅僅是拆分行數(shù)的不同，也包括電腦運(yùn)行PyCharm的速度不一樣，當(dāng)自變量超過兩個(gè)的時(shí)候，得出的因變量則無法說明我們的數(shù)據(jù)是“拆分不同行數(shù)文檔所用的時(shí)間”。

我們以10萬到100萬行，10個(gè)檔次作為文檔大小采集點(diǎn)執(zhí)行程序，收集每一個(gè)文檔拆分的開始時(shí)間、結(jié)束時(shí)間。將所有數(shù)據(jù)轉(zhuǎn)入Excel中，使用每一個(gè)文檔的結(jié)束時(shí)間與開始時(shí)間相減得到文檔拆分消耗時(shí)間。使用程序的結(jié)束時(shí)間與考試時(shí)間相減得到文檔拆分的總消耗時(shí)間。

由于10萬條文檔和100萬條文檔的消耗時(shí)間存在數(shù)量級的差異，因此需要對數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理。

1.3? 結(jié)果展示

以下展示華為MateBook 14的拆分消耗時(shí)間。10到30萬行的消耗時(shí)間折線圖的圖像均在一定的區(qū)域內(nèi)波動(dòng)。40萬行的消耗時(shí)間折線圖后半段呈向上的趨勢，所以用40萬行來拆分時(shí)，拆分到后期時(shí)所花費(fèi)的時(shí)間相應(yīng)會(huì)增加。50萬行的消耗時(shí)間折線圖相較于前四個(gè)圖像更加不穩(wěn)定。60萬行的消耗時(shí)間折線圖圖像在后半段時(shí)間出現(xiàn)了一段快速下降的區(qū)域，當(dāng)下降到最低點(diǎn)時(shí)圖像開始呈直線上升，直到后半段圖像才趨于穩(wěn)定，在一定的范圍內(nèi)波動(dòng)。70萬行的消耗時(shí)間折線圖整體相對穩(wěn)定，中間在拆分第73到79個(gè)文件時(shí)所消耗的時(shí)間明顯高于其他值。80萬行到100萬行的圖像變得更加不穩(wěn)定，消耗時(shí)間的波動(dòng)性很強(qiáng)。

綜合10萬到100萬的圖表來看，100萬到80萬中，會(huì)有幾個(gè)突變值，不穩(wěn)定，且拆分行數(shù)越大，拆分文檔的時(shí)間越不穩(wěn)定，而70萬到10萬這個(gè)區(qū)間中，拆分文檔的時(shí)間則趨于穩(wěn)定，都在一個(gè)穩(wěn)定的趨于范圍內(nèi)波動(dòng)。

以下圖1到圖2依次為華為MateBook14和ThinkPad E14 Gen2聯(lián)想筆記本電腦10萬到100萬行處理消耗時(shí)間的匯總折線圖。

由以上時(shí)間消耗記錄可以看出當(dāng)9.82 GB存儲(chǔ)數(shù)據(jù)的容量大小的文件拆分時(shí)，隨著行數(shù)的上升，每次大文檔拆分出來的文件數(shù)量逐步遞減。

華為的圖像中拆分的數(shù)量從10萬到70萬行時(shí)，所消耗的時(shí)間向上呈拋物線的形式，其中的最低點(diǎn)在20萬到30萬行間，且10萬到20萬的下降速率比20萬到70萬行的上升速率大，而在70萬到90萬行中，隨著數(shù)量的增加，所消耗的時(shí)間則減少，其中從70萬到80萬行的時(shí)間減少最多，80萬已經(jīng)低于10萬到70萬行拋物線的最低點(diǎn)，80萬到90萬行有輕微的下降趨勢，90萬行是所有數(shù)據(jù)的最低點(diǎn)，90萬到100萬行之間所用的時(shí)間有輕微的上升。

聯(lián)想的圖像中在10萬到20萬行呈下降趨勢，20萬到80萬行的區(qū)間曲線的波動(dòng)不大，拆分的時(shí)間相似，在80萬到90萬行呈上升的趨勢后趨于穩(wěn)定。

ThinkPad E 14 Gen2聯(lián)想筆記本電腦整體比華為MateBook14的所用時(shí)間短。華為MateBook14在20萬到10萬拆分每一個(gè)文檔的時(shí)間總體呈上升趨勢，ThinkPad E 14 Gen2聯(lián)想則在20萬到10萬一直在一定的范圍內(nèi)跳動(dòng)。

2? 實(shí)驗(yàn)結(jié)論

通過使用編程方法對大數(shù)據(jù)文檔進(jìn)行拆分的實(shí)驗(yàn)分析，繪制在不同數(shù)據(jù)量大小的消耗時(shí)間和文檔數(shù)量的折線圖，我們可以得到以下三個(gè)結(jié)論。

2.1? 大數(shù)據(jù)文檔拆分所消耗的時(shí)間與硬件有關(guān)

在實(shí)驗(yàn)過程中，華為電腦所消耗的時(shí)間普遍高于聯(lián)想，兩臺(tái)電腦在拆分70萬到100萬行的規(guī)律更是呈明顯相反的趨勢。在不同硬件的支持下，無論是軟件啟動(dòng)的速度還是執(zhí)行命令的時(shí)間都產(chǎn)生不小的影響。

2.2? 拆分時(shí)間規(guī)律與傳統(tǒng)認(rèn)知差異較大

通常我們認(rèn)為單個(gè)文件小、拆分?jǐn)?shù)量多和單個(gè)文件大、拆分?jǐn)?shù)量少，兩種情況所消耗的時(shí)間相似且較多;單個(gè)文件適中、拆分?jǐn)?shù)量適中所消耗的時(shí)間應(yīng)該最小。但事實(shí)卻不一樣，總時(shí)間消耗的最低值沒有出現(xiàn)在文檔大小和數(shù)量適中的情況，不同的電腦總時(shí)間消耗的最低值也不同。

2.3? 拆分時(shí)間規(guī)律與文檔數(shù)據(jù)量有關(guān)

文檔數(shù)據(jù)量越大，消耗時(shí)間波動(dòng)性越小。拆分一個(gè)文件的時(shí)間短，在由于在執(zhí)行文檔拆分程序過程中，電腦很容易受到外界干擾。并且單個(gè)文件越小，拆分時(shí)間越短受干擾的程度越大，所得到的時(shí)間圖像波動(dòng)性更強(qiáng)。

3? 結(jié)? 論5D2058FE-E3C3-4CC2-8DA5-F9965BB54F4A

本文利用Python對大數(shù)據(jù)文檔的拆分進(jìn)行了分析，得到了不同的拆分行數(shù)對拆分時(shí)間的影響。研究結(jié)果表明，電腦硬件、文檔數(shù)據(jù)量對拆分時(shí)間的影響較為復(fù)雜，從提高拆分速率的角度來看，盡可能選擇高配置的電腦將文件拆分為大容量文檔。

通過使用兩臺(tái)不同知名品牌的筆記本電腦，對同一份文檔執(zhí)行相同代碼程序可以看出，不論消耗的時(shí)間還是規(guī)律都呈現(xiàn)出了完全不同的變化。硬件配置的差異對處理效率有明顯影響，在運(yùn)行同一個(gè)文件時(shí)，前后兩次處理的時(shí)間差異較大，需要根據(jù)電腦的實(shí)際情況進(jìn)行調(diào)整。拆分同一個(gè)文檔中數(shù)據(jù)量越大越容易觀測到異值，便于重新進(jìn)行實(shí)驗(yàn)，最終得到的圖像也就更加可靠穩(wěn)定，文檔數(shù)據(jù)量小，不容易確定數(shù)據(jù)的波動(dòng)范圍以及趨勢，實(shí)驗(yàn)的容錯(cuò)性也就越低，所以在沒有數(shù)據(jù)最大執(zhí)行容量大小的限制下，需要盡可能將文檔拆分為大容量文檔。

由于本次實(shí)驗(yàn)只是用兩臺(tái)電腦進(jìn)行數(shù)據(jù)實(shí)驗(yàn)，不具有普遍性，并且無法將所有的干擾全部清除，我們只能將其中一些干擾排除在外，例如軟件的啟動(dòng)時(shí)間和其他軟件占用資源等，所以可能會(huì)存在較大的誤差。后續(xù)會(huì)使用更多的電腦作為樣本采集拆分?jǐn)?shù)據(jù)，并通過數(shù)學(xué)建模的方式從數(shù)據(jù)中提取規(guī)律，找到在不同情況下的最有效率解。

參考文獻(xiàn)：

[1] 馬小麗，姜贊梅.MS SQL Server2000中大數(shù)據(jù)量表的拆分與實(shí)現(xiàn) [J].電氣傳動(dòng)自動(dòng)化，2013，35（5）：46-48+56.

[2] 侯佳佳，喬運(yùn)華，卜建國，等.基于分布式數(shù)據(jù)庫數(shù)據(jù)處理的研究 [J].制造業(yè)自動(dòng)化，2013，35（1）：94-96.

[3] 鄭斌華，陶自強(qiáng)，楊銀官.船舶總段拆分模型數(shù)據(jù)重用技術(shù)研究與應(yīng)用[C]//2013年CAD/CAM學(xué)術(shù)交流會(huì)議論文集，2013-06，中國貴州貴陽，2013：144-147.

[4] 杜紅樂，張燕.基于拆分集成的不均衡數(shù)據(jù)分類算法 [J].計(jì)算機(jī)系統(tǒng)應(yīng)用，2017，26（8）：223-226.

[5] 黃蓉美，宋永生.基于Python的植物標(biāo)本采集實(shí)訓(xùn)平臺(tái) [J].現(xiàn)代信息科技，2021，5（17）：35-37.

作者簡介：丁思蓉（2003.12—），女，漢族，四川自貢人，本科在讀，研究方向：大數(shù)據(jù)技術(shù)與分析。

收稿日期：2022-02-075D2058FE-E3C3-4CC2-8DA5-F9965BB54F4A