亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

數(shù)據(jù)自動采集在煤層氣生產(chǎn)中的應用
——以沁水盆地柿莊南區(qū)塊煤層氣井為例

2021-06-07 05:07:08陳慧郭暉

西北地質(zhì) 2021年2期

陳慧,郭暉

(1.北京中煤礦山工程有限公司北京 100013；2.中聯(lián)煤層氣有限責任公司北京 100015)

中國煤層氣資源豐富，總資源量約為 36.8 萬億m3，居世界前列(白振瑞等，2015；朱慶忠等，2017)。目前，中國煤層氣生產(chǎn)也進入了快速發(fā)展階段，并在鉆完井、產(chǎn)量計量、天然氣集輸、氣水處理等環(huán)節(jié)產(chǎn)生了大量數(shù)據(jù)(秦勇等，2015；宋巖等，2012)。因此，高效、準確的采集和分析數(shù)據(jù)對于保障煤層氣生產(chǎn)計劃順利實施、提高煤層氣產(chǎn)量具有重要的意義。

近年來，大數(shù)據(jù)技術(shù)在中國能源企業(yè)已廣泛應用，其在油田生產(chǎn)中的應用為實現(xiàn)油氣智能化、自動化生產(chǎn)提供了有效支撐(張仙偉等，2020；高偉華，2018；劉宏偉，2010)。運用大數(shù)據(jù)技術(shù)對煤層氣生產(chǎn)數(shù)據(jù)進行多維度分析也是煤層氣企業(yè)降本增效的有效途徑。其中，一線生產(chǎn)數(shù)據(jù)快速、高效的提取和采集是保障大數(shù)據(jù)技術(shù)在煤層氣生產(chǎn)過程中順利應用的重要前提。目前煤層氣生產(chǎn)數(shù)據(jù)采集多沿用傳統(tǒng)的工作模式，主要存在以下幾個方面的問題：①生產(chǎn)一線缺少標準數(shù)據(jù)庫和專業(yè)數(shù)據(jù)管理軟件，大部分數(shù)據(jù)以靜態(tài)報表分散存儲，數(shù)據(jù)管理效率較低，給后期數(shù)據(jù)統(tǒng)計和應用帶來不便。②生產(chǎn)一線數(shù)據(jù)以靜態(tài)報表的方式以電子郵件的形式傳送，依靠人工收集數(shù)據(jù)的工作步驟繁瑣，且不能充分發(fā)揮網(wǎng)絡(luò)資源的作用。③數(shù)據(jù)利用效率較低，各類數(shù)據(jù)須通過人工方式錄入Excel表格中，降低了工作效率并容易出現(xiàn)錯誤。這種傳統(tǒng)的生產(chǎn)數(shù)據(jù)采集模式制約了數(shù)據(jù)篩選、數(shù)據(jù)分析及結(jié)果可視化及驗證，從而嚴重影響了煤層氣生產(chǎn)運行的穩(wěn)定性及生產(chǎn)決策的準確性。因此，筆者針對煤層氣生產(chǎn)數(shù)據(jù)建立了一套自動數(shù)據(jù)采集系統(tǒng)，實現(xiàn)煤層氣生產(chǎn)全過程數(shù)據(jù)準確、快速提取，以期為后續(xù)數(shù)據(jù)分析和應用奠定良好基礎(chǔ)，提高中國煤層氣開采效率。

1 數(shù)據(jù)自動采集系統(tǒng)

數(shù)據(jù)自動采集系統(tǒng)是將煤層氣生產(chǎn)作業(yè)區(qū)在生產(chǎn)過程中產(chǎn)生的不同類別、不同格式和不同結(jié)構(gòu)的生產(chǎn)數(shù)據(jù)自動識別、采集并處理成具有統(tǒng)一結(jié)構(gòu)的數(shù)據(jù)格式。數(shù)據(jù)自動采集系統(tǒng)主要包括以下3個子系統(tǒng)：查找表格標題、分析表格結(jié)構(gòu)、提取表格數(shù)據(jù)(圖1)。該系統(tǒng)可從郵件中自動識別并判斷文件類型，提取表格標題，分析表格結(jié)構(gòu)，根據(jù)指定關(guān)鍵字或表格形式進行識別提取數(shù)據(jù)。

2 數(shù)據(jù)采集步驟

2.1 查找表格標題

數(shù)據(jù)自動提取技術(shù)主要針對2種常用的數(shù)據(jù)載體文件：一種是Word文件；另一種是Excel文件。針對Word文件，首先獲取文檔所有頂層節(jié)點(Node)并過濾出所有“段落(Paragraph)”、“表格(Table)”節(jié)點。對于每一個表格節(jié)點，獲取其節(jié)點下標，找出段落節(jié)點中下標分別大于、小于表格下標并最為接近的2個段落節(jié)點。任何一個段落節(jié)點中的文字如果以“表”開頭，則將其作為表格名稱。若均符合要求或均不符合要求，則以先出現(xiàn)的段落節(jié)點的文字作為表格標題。針對Excel文件，則直接使用工作表(Worksheet)名稱作為表格標題。

圖1 數(shù)據(jù)自動采集系統(tǒng)結(jié)構(gòu)示意圖Fig.1 Structure of automatic data acquisition system

2.2 分析表格結(jié)構(gòu)

2.2.1 Word文件

Word中表格的存儲結(jié)構(gòu)與HTML類似，主要采用“先行后列”的樹狀結(jié)構(gòu)。對于常見的列合并單元格，實際存儲時并沒有存儲列合并信息，所以直接讀取表格會出現(xiàn)“錯位”的情況。分析Word表格內(nèi)容需要將原始的樹狀結(jié)構(gòu)標準化為二維結(jié)構(gòu)。由于Word表格在每個單元格內(nèi)存有列寬信息(圖2a)，所以需要遍歷每一行的每個單元格，對列寬進行累加，以獲取單元格的X坐標。在遍歷完成所有單元格后，對X坐標進行去重和排序，生成一個有序數(shù)列Xi(i=0,1,2,3,…)，其中i即為所對應的原始單元格在二維結(jié)構(gòu)表格中的列號(即列下標)(圖2b)。此步驟同時可以整理出所有單元格橫向合并的列跨距，并使用“{←}”標識被橫向合并的單元格(圖2c、圖2d)。對于存在縱向合并的單元格，被合并的單元格可以讀出“CellMerge.Previous”標記，所以縱向合并處理比較簡單，直接處理標記即可(使用“{↑}”進行標識)，此步驟兼容同時被橫縱合并的單元格。

圖2 Word中橫向合并單元格結(jié)構(gòu)分析圖Fig.2 Structural analysis of horizontal merged cells in Word

2.2.2 Excel文件

針對Excel表格，可以讀取到每一個非空單元格(圖3a)，通過單元格的行列號可以將數(shù)據(jù)解析至對應位置(A1、B1、B2……E2代表數(shù)據(jù))。解析單元格的“是否被合并(IsMerged)”標記可以獲取到當前單元格的合并狀態(tài)，若為被合并的單元格，可以通過“獲取合并區(qū)間(GetMergedRange)”找到其合并主體(圖3b中A1、B1和C2為合并主體)。若與合并主體處在同一列，則當前單元格視為向上合并(使用“{↑}”進行標識)，否則視為向左合并(使用“{←}”進行標識)(圖3c)。

a.原始表格；b.合并主體；c.處理結(jié)果圖3 Excel單元格結(jié)構(gòu)分析圖Fig.3 Structural analysis of cells in excel

2.3 提取表格數(shù)據(jù)

表格結(jié)構(gòu)分析完成之后，Word文件與Excel文件的表格內(nèi)容已經(jīng)展開并統(tǒng)一為同樣類型的二維表結(jié)構(gòu)。在此基礎(chǔ)上可以進行數(shù)據(jù)提取。提取數(shù)據(jù)使用合并后的單元格(以下簡稱“簇”)作為邏輯判斷單位，以匹配表格的實際結(jié)構(gòu)，由于簇與簇之間可能不完全對齊，所以同時要記錄與相鄰簇之間的關(guān)系以便后續(xù)判斷。筆者設(shè)計的常用提取表格數(shù)據(jù)方法主要有2種：①為整表導出。②為模板匹配。整表導出使用預設(shè)的正則表達式列表，當表格標題與正則表達式列表中的任何一項匹配成功時，將當前表格輸出為一個工作表，添加(若文件已存在則覆蓋)輸出目標的Excel文件中，并生成修改記錄。模板匹配主要根據(jù)用戶定義模板中所包含的正則表達式遍歷單元格，尋找每一個簇與之相匹配的模板。模板匹配主要對表格進行識別。該系統(tǒng)主要有2種表格識別的方式：①為整表識別。②為關(guān)鍵字識別。筆者重點介紹模板匹配的相關(guān)識別算法。

2.3.1 整表識別

整表識別時，先判斷被識別的表格是否屬于標準的二維表結(jié)構(gòu)(分析后的表格不存在任何合并的結(jié)構(gòu))(李目海，1999)。若不是二維表結(jié)構(gòu)，終止整表識別，忽略所有整表識別的模板，使用關(guān)鍵字識別。若當前表格屬于二維表結(jié)構(gòu)(圖4a)，則根據(jù)定義的模板，在第一行(列)中進行匹配(A1、B1、C1、D1)。匹配完成后若存在有效的匹配結(jié)果(A1、B1、D1)，則從第二行(列)開始順次向下(右)遍歷每一個行(列)(A2、B2、D2……A5、B5、D5)。提取出匹配到的標題所在列(行)的單元格內(nèi)的數(shù)據(jù)，最終形成一個一維的標題列表和一個二維(外層為增長方向，內(nèi)層為標題對應的數(shù)據(jù)項)的數(shù)據(jù)集列表(圖4b)，結(jié)束識別，輸出數(shù)據(jù)表格。

2.3.2 關(guān)鍵字識別

關(guān)鍵字識別是假設(shè)標題簇與數(shù)據(jù)區(qū)成對出現(xiàn)且數(shù)據(jù)區(qū)緊貼于標題簇的右側(cè)(下方)，縱(橫)向的起止位置相同。該識別方法可進一步根據(jù)數(shù)據(jù)區(qū)域劃分為(王瑞通等，2017)：單個單元格(Single)、連續(xù)多個單元格(Array)、單元格內(nèi)的鍵值對(KeyValuePairs)、按行/列增長的數(shù)據(jù)表(DataTable)。

關(guān)鍵字識別首先根據(jù)一系列識別規(guī)則查找數(shù)據(jù)區(qū)域標題，按識別結(jié)果的位置拓撲關(guān)系構(gòu)建數(shù)據(jù)識別模型，對數(shù)據(jù)區(qū)域周邊單元格的形狀排除沖突與歧義，對模型中的數(shù)據(jù)區(qū)域進行篩選匹配，并最終完成識別。

(1)單個單元格(Single)。獲取所有與模板匹配成功的標題簇，對于每一個標題簇：獲取4條邊界的位置、右側(cè)簇、下方簇(表格邊界在判斷上等效于標題簇)；右側(cè)簇或下方簇的跨度均與本簇相同的情況下，若均為標題簇或均為非標題簇(圖5a、圖5b)，則標記當前簇為無效簇，跳過當前簇，否則將并不是標題簇的作為數(shù)據(jù)簇(有效數(shù)據(jù)區(qū))(圖5c)。若右側(cè)簇或下方簇的跨度與當前簇跨度相同，且右側(cè)簇或下方簇不是標題簇，則標記為數(shù)據(jù)簇(有效數(shù)據(jù)區(qū))(圖5d)，否則標記當前簇為無效簇，跳過當前簇(圖5e)。若右側(cè)簇或下方簇的跨度與當前簇跨度均不同，則標記當前簇為無效簇，跳過當前簇(圖5f)。

圖4 整表識別示意圖Fig.4 Schematic diagram of whole table identification

圖5 具有跨度相同的單個單元格識別示意圖Fig.5 Schematic diagram of identifying single cells with the same span

(2)連續(xù)多個單元格(Array)。連續(xù)多個單元格是指一個合并的標題單元格對應多個數(shù)據(jù)單元格的結(jié)構(gòu)。若標題單元格為列合并，則數(shù)據(jù)區(qū)位于下方單元格；若為行合并，則數(shù)據(jù)區(qū)位于右側(cè)單元格；若同時存在行列合并，且除了標題單元格和其他單元格以外，其他方向存在非標題單元格，則提取非標題單元格為數(shù)據(jù)(圖6a、圖6b)。若右側(cè)或者下方都是標題單元格或者其他單元格，則當前單元格為無效單元格(圖6c、圖6d)。若不存在合并，則按照單個單元格的規(guī)則處理。

圖6 不同類型的連續(xù)多個單元格識別示意圖Fig.6 Schematic diagram of identifying different types of consecutive cells

(3)單元格內(nèi)的鍵值對(KeyValuePairs)。單元格內(nèi)的鍵值對是指單個單元格內(nèi)既有標題又有數(shù)據(jù)的數(shù)據(jù)結(jié)構(gòu)。不向外查找數(shù)據(jù)單元格，直接提取整個單元格內(nèi)的文字，具體提取內(nèi)容按照定義的提取模式進行處理。

(4)按行/列增長的數(shù)據(jù)表(DataTable)。標題單元格合并，數(shù)據(jù)區(qū)位置判定規(guī)則與“連續(xù)多個單元格”相同。數(shù)據(jù)區(qū)形狀為二維表格，向下增長，第一行為數(shù)據(jù)區(qū)的列標題。將查找指定方向上的所有單元格，直到出現(xiàn)合并方式不同的單元格或到達表格盡頭。該類數(shù)據(jù)表可分為2種：①為標題單元格為行合并(圖7a)。②為標題單元格為列合并(圖7b)。前者數(shù)據(jù)區(qū)在標題單元格的右側(cè)，所以“向右”尋找“相同行跨距”的“列”，后者數(shù)據(jù)區(qū)在標題單元格的下方，所以“向下”尋找“相同列跨距”的“行”。

按列增長的數(shù)據(jù)表與按行增長的數(shù)據(jù)表相似(數(shù)據(jù)區(qū)行列關(guān)系互換)，數(shù)據(jù)區(qū)的查找方式也相同，但選擇第一列判定數(shù)據(jù)區(qū)內(nèi)表頭。此外，按列增長的數(shù)據(jù)區(qū)，在輸出時需要做行列轉(zhuǎn)置，統(tǒng)一為按行增長相同的數(shù)據(jù)格式。

2.3.3 數(shù)據(jù)提取

每一個識別模板中包含多個提取項，用于提取坐標信息，從識別出的數(shù)據(jù)區(qū)域內(nèi)提取需要的數(shù)據(jù)，并按實際需要映射到數(shù)據(jù)庫的字段上，用以直接生成數(shù)據(jù)表條目。每個提取項有2個正則表達式，提取過程中先使用“識別匹配表達式”抽提單個字段，再使用“解析匹配表達式”抽提字段數(shù)據(jù)內(nèi)容。

3 數(shù)據(jù)自動采集在柿莊南煤層氣生產(chǎn)中的應用

3.1 煤層氣生產(chǎn)概況

柿莊南區(qū)塊處在沁水盆地南部，煤炭儲量巨大，具有煤變質(zhì)程度高、含氣量高、煤層埋藏深度適中等特點，為煤層氣規(guī)模化開發(fā)提供了優(yōu)良的條件(伊永祥等，2019；張松航等，2015;康清清等，2020；宿虎等，2020)。柿莊南區(qū)塊煤層氣井整體投產(chǎn)時間較長，至 2019年底，該區(qū)塊已建煤層氣井1 300余口。據(jù)統(tǒng)計，柿莊南區(qū)塊5個產(chǎn)區(qū)中每天可產(chǎn)生鉆井日報、煤層氣井生產(chǎn)日報數(shù)據(jù)多達2 300多份，這些數(shù)據(jù)信息覆蓋面廣，數(shù)據(jù)量也十分龐大，涉及鉆井、完井、測試、穩(wěn)壓、采氣、運輸、儲存等多個方面。因此，建立數(shù)據(jù)自動采集系統(tǒng)對于加快煤層氣田智能化發(fā)展、降低生產(chǎn)成本具有重要意義。

圖7 按行增長的數(shù)據(jù)表示意圖Fig.7 Schematic diagram of data table growing by row

3.2 數(shù)據(jù)自動采集在生產(chǎn)中的應用

3.2.1 單個單元格

本示例中，Word表格所有要提取的字段均為標題、值成對出現(xiàn)的單元格(圖8a)，所以使用“單個單元格”匹配模板，多數(shù)情況下，也可以用“連續(xù)多個單元格”代替。表格結(jié)構(gòu)較為繁雜，出現(xiàn)了大量列合并情況(圖8b)。其中，“一開日期”、“二開日期”等標題簇的右側(cè)均存在其他標題簇，所以數(shù)據(jù)區(qū)被認為在下方；“完鉆依據(jù)”右側(cè)和下方均無標題簇，在第一輪識別中無法確定數(shù)據(jù)區(qū)位置，在第二輪識別中由于下方簇已被標記為數(shù)據(jù)區(qū)，所以將右側(cè)區(qū)域標記為數(shù)據(jù)區(qū)。在表格結(jié)構(gòu)識別的基礎(chǔ)上根據(jù)匹配模板中包含正則表達式(標題模式和內(nèi)容模式)進行標題識別和抽提數(shù)據(jù)并得到匹配結(jié)果(圖8c、圖8d)。最終完成單個單元格的數(shù)據(jù)提取(圖8e)。

3.2.2 連續(xù)多個單元格

Word單元格中坐標數(shù)據(jù)緊貼在標題簇一側(cè)、總跨距與標題簇一致(圖9a)。標題單元格縱向合并可直接使用“{↑}”進行標識(圖9b)。在此基礎(chǔ)上使用“連續(xù)多個單元格”匹配模板中的正則表達式匹配數(shù)據(jù)(圖9c、圖9d)。輸出結(jié)果將二維結(jié)構(gòu)轉(zhuǎn)化為文本結(jié)構(gòu)，使用“||”分隔每一行，使用“|”分隔每一列(圖9e)。這樣做的目的是為了將所有數(shù)據(jù)的格式均一化，方便后續(xù)的數(shù)據(jù)提取。當數(shù)據(jù)簇的外側(cè)有其他不同合并數(shù)的簇時，也可以使用“按行增長的數(shù)據(jù)表”模板得到相同的結(jié)果。

3.2.3 單元格內(nèi)鍵值對

本示例中，需要提取的數(shù)據(jù)為Word單元格內(nèi)部文本中的一部分(圖10a)?！皢卧駜?nèi)的鍵值對”不向外查找數(shù)據(jù)區(qū)，標題單元格自身即為數(shù)據(jù)區(qū)。在得到表格結(jié)構(gòu)之后(圖10b)，將根據(jù)匹配模式進行數(shù)據(jù)匹配(圖10c、圖10d)。該提取模式是從當前單元格的文本中找到以“固井：”開頭、“?！苯Y(jié)尾的字符串，然后提取其“：”和“?！敝g的內(nèi)容。利用該模板可提取“固井”和“山西11固井隊”(圖10e)

3.2.4 按行增長的數(shù)據(jù)表

該數(shù)據(jù)表的坐標信息為“一個標題格+二維數(shù)據(jù)區(qū)”式的組合型數(shù)據(jù)(圖11a)，所以在表格結(jié)構(gòu)分析的基礎(chǔ)上(圖11b)使用“按行增長數(shù)據(jù)表(DataTable)” 模板進行匹配(圖11c、圖11d)。由于每個標題簇的下方均存在標題簇，所以判定數(shù)據(jù)區(qū)位于右側(cè)。數(shù)據(jù)區(qū)的判定從標題簇右側(cè)第一列開始，直到行數(shù)發(fā)生變化或出現(xiàn)其他標題簇、表格邊界。所以2組數(shù)據(jù)最終均囊括了所有的3行2列單元格簇。輸出結(jié)果將二維結(jié)構(gòu)化為文本結(jié)構(gòu)，使用“||”分隔每一行，使用“|”分隔行內(nèi)列數(shù)據(jù)(圖11e)。這樣做的目的是為了將所有數(shù)據(jù)的格式均一化，方便后續(xù)的數(shù)據(jù)提取。

a.原始文檔;b.分析表格結(jié)構(gòu);c.匹配模板;d.匹配結(jié)果;e.識別結(jié)果圖8 單個單元格數(shù)據(jù)提取示例圖Fig.8 Example of single cell data extraction

a.原始文檔;b.分析表格結(jié)構(gòu);c.匹配模板;d.匹配結(jié)果;e.識別結(jié)果圖9 連續(xù)多個單元格數(shù)據(jù)提取示例圖Fig.9 Example of data extraction from consecutive cells

a.原始文檔;b.分析表格結(jié)構(gòu);c.匹配模板;d.匹配結(jié)果;e.識別結(jié)果圖10 單元格內(nèi)鍵值對數(shù)據(jù)提取示例圖Fig.10 Example of data extraction of key value pairs in cells

a.原始文檔；b.分析表格結(jié)構(gòu)；c.匹配模板；d.匹配結(jié)果；e.識別結(jié)果圖11 按行增長的數(shù)據(jù)表數(shù)據(jù)提取示例圖Fig.11 Example of data extraction from data table of row growth

4 結(jié)論

(1)數(shù)據(jù)自動采集系統(tǒng)可以將不同格式、不同結(jié)構(gòu)和不同類別的生產(chǎn)數(shù)據(jù)自動識別、采集并處理成具有統(tǒng)一結(jié)構(gòu)的數(shù)據(jù)格式。該系統(tǒng)主要包含“查找表格標題、分析表格結(jié)構(gòu)、提取表格數(shù)據(jù)”3個關(guān)鍵模塊。

(2)數(shù)據(jù)自動采集系統(tǒng)可分別針對Word文件和Excel文件查找表格標題和分析表格結(jié)構(gòu)，在此基礎(chǔ)上利用整表識別或者關(guān)鍵字識別對單個單元格、連續(xù)多個單元格、單元格內(nèi)的鍵值對、按行/列增長的數(shù)據(jù)表進行表格識別，實現(xiàn)數(shù)據(jù)自動采集。

(3)柿莊南煤層氣生產(chǎn)數(shù)據(jù)自動采集應用表明，該系統(tǒng)可以針對單個單元格、連續(xù)多個單元格、單元格內(nèi)的鍵值對和按行/列增長的數(shù)據(jù)表等進行表格分析、模板匹配和數(shù)據(jù)提取，從而準確和高效地開展數(shù)據(jù)采集，為加快煤層氣田智能化發(fā)展提供有效支撐。