文|于 剛 劉 巍
(作者單位:中石油西南油氣田分公司檔案中心)
油氣地質資料中富含了實踐活動中獲得的階段性知識,盡快學習和掌握知識,無論對企業(yè)生產(chǎn)降本增效,還是科學研究創(chuàng)新,都極具價值。以油氣勘探開發(fā)知識來擴展檔案著錄項,實現(xiàn)自動著錄,用戶通過搜索系統(tǒng)對著錄信息進行組合檢索,可以極大提高利用的維度和范圍,使用戶體驗盡快得到改善。
油氣企業(yè)在勘探開發(fā)生產(chǎn)、經(jīng)營、科研過程中,會形成大量的地質資料檔案,忠實地大量記錄了企業(yè)活動、人員行為和油氣地質認識。經(jīng)過長達數(shù)年甚至幾十年真金白銀的付出和積累,大量信息中富含了地質實踐活動中獲得的階段性知識,盡快學習和掌握知識,無論對企業(yè)生產(chǎn)降本增效,還是科學研究創(chuàng)新,都極具價值。
傳統(tǒng)以紙質檔案為主的印象還在大家的記憶深入駐留。近十年來,國家對檔案中電子文件的收集非常重視,油氣地質檔案中電子文件的數(shù)量已越來越齊全而龐大,而且通過歷年來的數(shù)字化工作,老舊資料的數(shù)字化率亦非常高,如中國石油數(shù)字檔案館于2020 年6 月完成竣工驗收,電子檔案的時代已悄然來臨。目前完全實現(xiàn)電子文件歸檔還有距離,但是油氣資料紙電文件同時歸檔已是普遍行為,大量歸檔的電子文件,將會為檔案利用產(chǎn)生新的機遇。
隨著數(shù)據(jù)時代的到來,各類結構化和非結構化數(shù)據(jù)開始裝載進各類數(shù)據(jù)庫中,人們使用各種技術手段去提取信息,在信息中歸納知識,用知識創(chuàng)新促進經(jīng)濟生活增長,似乎檔案的價值開始松動、弱化。檔案的價值何在?這是一個問題,如果數(shù)據(jù)是一條大河川流不息,檔案就是河岸邊一座座堡壘,保存著某時段的有價值的數(shù)據(jù)記錄集合。它既是客觀數(shù)據(jù),也是權威的主觀認知,是當時社會、經(jīng)濟、科技的快照,守護著數(shù)據(jù)流向遠方,以后不管河流泛濫還是干枯,你總可以回到你關注的那個點,復原當時真實的工作場景和思想認知。油田地質資料中深藏的真知灼見、實踐經(jīng)驗,對地質研究、油氣企業(yè)生產(chǎn)甚至國民經(jīng)濟發(fā)展,都有著非常重要的影響。這是一個挑戰(zhàn),又是一個機遇。檔案的價值不可否認,我們按照國家、企業(yè)有關規(guī)定的要求,將油氣地質資料收齊收全,保證資料權威性的前提下,按規(guī)定的格式和質量要求驗收,立足自有基石。
新時代,機器計算能力的提升,人們看待數(shù)據(jù)的視角更廣闊,處理手段更多樣化,傳統(tǒng)單一依靠著錄項來檢索資料的方式,已難以應對用戶需求的深刻變化,那通向未來之門在哪兒?進入了一個數(shù)據(jù)化、信息化、智能化的時代,人們要求準確快速獲取數(shù)據(jù)、信息、知識,而檢索油氣地質資料檔案中相關內(nèi)容能力,必須與之匹配。
我們的用戶在哪?是些什么人?他們在想什么做什么,他們需要在檔案中得到什么,面向用戶,以獲得良好體驗的服務,才是我們新生之門。
從事油氣勘探開發(fā)的研究和工程技術人員是檔案借閱的最大用戶群,他們的目標是油氣地質和勘探開發(fā)技術。另一大群體是油氣企業(yè)的管理人員,他們的目標是油氣勘探開發(fā)的管理和經(jīng)濟,例如地質技術人員想獲取在某個區(qū)域內(nèi)所有油氣勘探開發(fā)檔案,又如地質技術人員想獲取記錄了某個區(qū)域內(nèi)某個地層的油氣勘探開發(fā)檔案,又如工程技術人員想獲取記錄了某個區(qū)域內(nèi)有油氣顯示的地層進行了試油氣的油氣勘探開發(fā)檔案,又如管理人員要獲取某個氣藏的勘探過程的檔案,還如要收集某級組織或每個人在一定時間段內(nèi)的工作記錄的檔案,這些范圍更廣闊或者要求更細粒度的需求,確實是一個挑戰(zhàn)。
人工智能、知識學習、大數(shù)據(jù)、神經(jīng)網(wǎng)絡一個個炫目的名詞不斷閃耀在我們的視界中,檔案在宏大的進程中有著不可替代的作用。由于花費巨大,目前一般單位很難實現(xiàn)全過程數(shù)據(jù)歸檔,檔案只是這個進程中非常關鍵的一部分,這非常考驗檔案管理者的定力,在按規(guī)范收全收齊歸檔資料的基礎上,快速將資料投放到用戶的應用場景中,實現(xiàn)更高效檔案利用才是當務之急。
長期以來,利用按類和著錄項實現(xiàn)檔案檢索是行之有效的辦法,從紙質目錄檢索到數(shù)據(jù)庫檢索,更快更準一直是我們的目標。目前國內(nèi)各油氣公司地質資料檔案的著錄項,除公共著錄項,油氣勘探開發(fā)檔案專有著錄項也定義不少,在《中國石油檔案管理手冊》(2020 版)中就定義了井號、井別、井型、地區(qū)、工作區(qū)域等五十多項,而且在中國石油檔案系統(tǒng)中還可以自定義來擴展。在實際工作中,如果這么多項著錄,工作量會徒然增加,而且專有項著錄要查閱油氣專業(yè)資料,歸檔人員還要具備一定專業(yè)知識,所以專用項幾乎很難全面實際著錄,更別用說擴展了。另外即使可以擴展著錄項,也難以與用戶的需求相匹配,如我們著錄了完鉆層位,但用戶需要知道某個鉆遇層位,或者需要知道有油氣顯示的層位,這種因人而異、千變?nèi)f化的需求,我們傳統(tǒng)的工作方式很難適應。
檔案著錄,就是將歸檔資料的特征標示出來,利于管理和應用。但著錄項過多,歸檔人員和檔案管理更傾向于利用自己工作的項目,手工著錄,精力花費大而不靈活,不適應以滿足用戶良好體驗為服務目標的趨勢。
改善著錄,讓地質資料檔案的獨有和共性特征,能最大限度得到體現(xiàn),獨有的特征可以幫助用戶及時找到個別資料,共性特征可以幫助用戶找到有關聯(lián)的資料集合,獨有特征有些是單獨的,更多是由多個特征共同表達出的,如張XX、XX 構造、XXXX 年、儲量報告,就能讓我們迅速找到由張XX 在XXXX 年參與編寫的XX 構造的那本儲量報告。
首先要建立一套基本知識庫,這個知識庫由油氣地質知識、油氣鉆完井技術知識和員工信息構成,油氣地質知識包括井名、井別、井坐標、構造名、層位、巖性等,如層位,有以下字段:界、系統(tǒng)、統(tǒng)、組(階)、段、亞段,而段還應有以下子字段(過去名稱、現(xiàn)有名稱),但在實際工作中,我們主要使用組(階)、段來描述地層情況和油氣發(fā)現(xiàn),所以在層位我們只保留組(階)、段的信息,如組(階)有“蓬萊組、遂寧組、沙溪廟組、涼高山組、自流井組”等。由于歷史上段名曾有不同命名,而自流井組的段有“過渡層、大安寨、馬鞍山、東岳廟、珍珠沖”;由于歷史上段名曾有不同命名,如“馬鞍山”就曾名為“自三”,所以保留過程名稱,有助于對歷史資料的搜索,這些段不管是過去名稱,還是現(xiàn)在名稱,都有代表符號,但代表符號在資料中由于上下數(shù)標等原因,在資料中使用不同方式處理,也不利于搜索,所以我們可以暫時舍棄。油氣鉆完井技術包括鉆頭類型及尺寸、套管類型及尺寸、鉆井液類型及密度、射孔方法及彈型;員工信息則有員工名、參加工作時間和現(xiàn)今狀態(tài)(在崗、已退休、不在崗),可以看到我們主要是依靠確定性、單值信息來增加著錄,改善利用體驗,對于連續(xù)值數(shù)據(jù)項,我們暫不考慮。這里有一個誤區(qū)我們需要澄清,以往通過著錄,我們希望更準備找到單一的檔案,但目前隨著生產(chǎn)、研究在更大范圍、更多緯度地對資料的需求,我們應該具備搜索一定范圍內(nèi)或一定條件資料集的能力,用戶會根據(jù)自己的要求對結果集進行判斷。另外,多條件的自然邏輯選擇,也會極大降低我們的選擇復雜度,如我們的人名,其實重名的非常多,但如果人名和資料中的地質信息結合,由于在地質資料上有名有姓的企業(yè)職工不會太多,重名的情況就會大為降低。
在完成了基本知識庫以后,我們應將檔案系統(tǒng)地質資料的基本信息遷移到我們的綜合著錄信息庫中,基本信息包括資料題目、檔案號、現(xiàn)有著錄項等,然后用基本知識庫的各字段來擴展綜合著錄信息庫,這些知識庫擴展過來的字段,初始都賦為空值。
目前很多檔案系統(tǒng)都部署到了企業(yè)的云平臺上,地質資料的電子文件已作為檔案的附件上傳到云平臺中,這些電子文件作為被搜索的對象。完成基本知識庫和綜合著錄信息庫準備后,我們將編制一個自動著錄引擎,其工作原理是這樣的:將基本知識庫的字段作為關鍵字,利用全文檢索技術,在電子文件中進行搜索,如有匹配的,則將關鍵字存入對應文件的對應字段中,注意由檔案系統(tǒng)遷移過來的著錄項值已確定就不必進行搜索了。
基于油氣地質知識的檔案資料搜索系統(tǒng),通過知識來擴展著錄項,可以極大提高用戶利用的維度和范圍,使用戶體驗得到改善,在投入成本和開發(fā)時間上,是比較現(xiàn)實的選擇,但隨著技術的發(fā)展和用戶要求更深入,這僅僅是開了一個頭,如大家可以看到我們對不是固有的確定數(shù)值的已有知識,幾乎都沒有進行著錄,如孔隙度著錄,由于同一資料中不同地層有不同的值,既要在資料中讀到孔隙度,又要與對應地層匹配上。目前實施的技術條件和硬件要求代價太大,當下我們采用以較小代價,選擇盡快進行推廣利用,改善用戶體驗的策略是符合實際的,從地質資料中語義識別出地質知識進行著錄是我們的最終目標,我們會追蹤技術發(fā)展,進行專題研究,在性價比可行的條件下,對系統(tǒng)進行迭代,在改善地質資料利用的路上,不斷前行。