王凱月 黃珊 王逸飛 孫紅軍 蘇雪松 延偉
摘 要:本論文開展油田環(huán)保安全標準關(guān)聯(lián)性監(jiān)測技術(shù)研究,針對油田環(huán)保安全標準相關(guān)國內(nèi)外動態(tài)信息(如:標準動態(tài)、政策法規(guī)、智庫報告、情報產(chǎn)品、熱點欄目)進行油田環(huán)保安全標準領域自動化關(guān)聯(lián)性監(jiān)測,遵循“油田環(huán)保安全領域標準數(shù)據(jù)需求識別、油田環(huán)保安全領域標準數(shù)據(jù)源的確定依據(jù)、油田環(huán)保安全領域標準關(guān)聯(lián)數(shù)據(jù)自動抓取、油田環(huán)保安全領域標準關(guān)聯(lián)監(jiān)測內(nèi)容分析”的研究思路,利用大數(shù)據(jù)分析與知識關(guān)聯(lián)技術(shù),實現(xiàn)對所需監(jiān)測數(shù)據(jù)基本內(nèi)容的自動化統(tǒng)計與分析,動態(tài)可視化地展示或分析所需監(jiān)測數(shù)據(jù)的內(nèi)容,及時跟蹤與推送油田環(huán)保安全標準前沿與熱點內(nèi)容,支持用戶便捷了解油田環(huán)保安全標準領域最新發(fā)展動態(tài),為開展油田環(huán)保安全領域標準知識庫建設提供多元數(shù)據(jù)支撐。
關(guān)鍵詞:油田環(huán)保安全,標準數(shù)據(jù),關(guān)聯(lián)性監(jiān)測,機器學習
DOI編碼:10.3969/j.issn.1674-5698.2024.02.008
0 引 言
以新一代信息技術(shù)為代表的新一輪科技革命和產(chǎn)業(yè)變革加速演進,經(jīng)濟社會數(shù)字化轉(zhuǎn)型成為時代趨勢。標準作為經(jīng)濟活動和社會發(fā)展的技術(shù)支撐,以及國家基礎性制度的重要方面,無論在深度還是在廣度上都將受到這一趨勢的影響。標準數(shù)字化轉(zhuǎn)型已成為新時代我國標準化事業(yè)發(fā)展的重要戰(zhàn)略方向,對增強我國科技發(fā)展的標準化互動支撐能力、影響全球標準化生態(tài)變革具有重要意義。隨著人工智能、開源、區(qū)塊鏈等技術(shù)的持續(xù)發(fā)展,標準化領域受其影響,出現(xiàn)了多種標準數(shù)字化相關(guān)概念、標準形式與制定方式。2019年國際標準化組織(ISO)和國際電工委員會(IEC)提出SMART(Standard Machine Applicable,Readableand Transferable)標準的概念,將標準數(shù)字化能力劃分為5個階段,該模型在國際層面已經(jīng)形成共識。2021年10月,中共中央、國務院發(fā)布《國家標準化發(fā)展綱要》,要求“推動標準工作向數(shù)字化、網(wǎng)絡化、智能化轉(zhuǎn)型”。隨著我國社會不斷發(fā)展,油田行業(yè)也逐漸發(fā)展起來。同時,油田行業(yè)的經(jīng)濟基礎也與日俱增,油田行業(yè)的環(huán)保安全意識日益增強,而油田環(huán)保安全領域標準對于規(guī)范和引導油田行業(yè)安全生產(chǎn)、綠色發(fā)展和效率提升具有重要作用。在數(shù)字化時代,油田行業(yè)對于安全環(huán)保標準智能化應用和服務要求更高。當前,油田環(huán)保安全領域標準面臨尚未形成標準動態(tài)數(shù)據(jù)源分析與監(jiān)測方法,具體問題如下。
油田環(huán)保安全領域系統(tǒng)化和一體化的標準動態(tài)數(shù)據(jù)源尚未建立。在高質(zhì)量發(fā)展新時代,標準數(shù)字化既是經(jīng)濟社會發(fā)展、數(shù)字技術(shù)變革,也是實現(xiàn)國家質(zhì)量基礎設施數(shù)字化轉(zhuǎn)型的關(guān)鍵內(nèi)容。隨著標準數(shù)字化的發(fā)展,標準的普及與使用更加廣泛,在標準數(shù)字化發(fā)展過程中,油田企業(yè)高質(zhì)量發(fā)展對標準動態(tài)數(shù)據(jù)質(zhì)量提出了更高要求,尚未形成高相關(guān)、系統(tǒng)化、一體化的標準動態(tài)數(shù)據(jù)源分析與監(jiān)測方法,無法及時跟蹤全球有關(guān)油田環(huán)保安全領域標準數(shù)據(jù)、政策法規(guī)、戰(zhàn)略規(guī)劃、科技成果等,不能實時跟蹤與推送前沿與熱點內(nèi)容,自然無法滿足支持用戶便捷了解科技標準的最新發(fā)展動態(tài)。同時,油田環(huán)保安全領域各標準管理平臺在標準數(shù)字內(nèi)容來源、加工、更新、管理和存儲格式等方面都有所區(qū)別,形成了“各自為政的局面”,亟待建立統(tǒng)一的標準數(shù)據(jù)“源”。
因此,為有效支撐國家和國家標準數(shù)字化戰(zhàn)略有效實施,本論文開展油田環(huán)保安全標準關(guān)聯(lián)性監(jiān)測技術(shù)研究,針對油田環(huán)保安全標準相關(guān)國內(nèi)外動態(tài)信息(如:標準動態(tài)、政策法規(guī)、智庫報告、情報產(chǎn)品、熱點欄目)進行油田環(huán)保安全標準領域自動化關(guān)聯(lián)性監(jiān)測,及時跟蹤與推送前沿與熱點內(nèi)容,支持用戶便捷了解油田環(huán)保安全標準領域最新發(fā)展動態(tài)。
1 研究綜述
標準關(guān)聯(lián)性監(jiān)測(Association Monitoring)是指圍繞某一領域標準通過對多個相關(guān)事件或數(shù)據(jù)點之間的關(guān)聯(lián)進行實時監(jiān)測和分析,以發(fā)現(xiàn)新的關(guān)聯(lián)模式、趨勢或異常情況的過程。這種監(jiān)測技術(shù)在不同領域中都有廣泛的應用,如:市場分析、金融風控、社交媒體挖掘等。
數(shù)據(jù)源關(guān)聯(lián)監(jiān)測相關(guān)技術(shù)的發(fā)展可以追溯到互聯(lián)網(wǎng)的興起和數(shù)據(jù)爆炸的時代。數(shù)據(jù)源關(guān)聯(lián)監(jiān)測是指對數(shù)據(jù)源進行實時或定期的監(jiān)測和分析,以識別數(shù)據(jù)的變化和趨勢。在互聯(lián)網(wǎng)和大數(shù)據(jù)時代,數(shù)據(jù)源的規(guī)模和多樣性迅速增加,對數(shù)據(jù)源關(guān)聯(lián)監(jiān)測的需求也日益增加。隨著技術(shù)的不斷發(fā)展,相關(guān)技術(shù)在過去幾十年發(fā)生了巨大變化。
在數(shù)據(jù)源關(guān)聯(lián)監(jiān)測的發(fā)展歷史中,最早應用的技術(shù)之一是網(wǎng)絡爬蟲[1, 2]。網(wǎng)絡爬蟲技術(shù)最早出現(xiàn)在20世紀90年代末,用于搜索引擎的數(shù)據(jù)收集和索引。當時的搜索引擎如:Altavista和Excite都使用了網(wǎng)絡爬蟲技術(shù)來抓取互聯(lián)網(wǎng)上的網(wǎng)頁。隨著互聯(lián)網(wǎng)規(guī)模的迅速擴大,網(wǎng)絡爬蟲技術(shù)也得到了進一步的發(fā)展和改進?,F(xiàn)在,網(wǎng)絡爬蟲已廣泛應用于各種領域,如:輿情監(jiān)測、新聞采集和金融數(shù)據(jù)收集等。另一個重要的技術(shù)是文本挖掘[3],在20世紀90年代末至2000年初開始得到關(guān)注和發(fā)展。當時,研究者開始使用自然語言處理和機器學習技術(shù),對大規(guī)模文本數(shù)據(jù)進行分析和挖掘。這為數(shù)據(jù)源關(guān)聯(lián)監(jiān)測中的文本分析提供了基礎。通過文本挖掘技術(shù)[4],可以從數(shù)據(jù)源中提取關(guān)鍵詞、主題和情感等信息,以便判斷數(shù)據(jù)源的變化和趨勢。隨著計算能力和數(shù)據(jù)量的增加,機器學習技術(shù)也開始應用于數(shù)據(jù)源關(guān)聯(lián)監(jiān)測。機器學習[5,6]是一種通過算法讓計算機從數(shù)據(jù)中學習和提取模式的技術(shù)。在數(shù)據(jù)源關(guān)聯(lián)監(jiān)測中,機器學習可以用于構(gòu)建模型并預測數(shù)據(jù)的變化和趨勢。研究者可以使用機器學習算法如:支持向量機、決策樹和神經(jīng)網(wǎng)絡等來構(gòu)建模型,以自動識別異常行為和趨勢,并提供預測結(jié)果。統(tǒng)計分析[ 7 ]也是數(shù)據(jù)源關(guān)聯(lián)監(jiān)測中的重要技術(shù)之一,是一種用于分析和解釋數(shù)據(jù)的技術(shù)。在數(shù)據(jù)源關(guān)聯(lián)監(jiān)測中,統(tǒng)計分析技術(shù)常用于比較和分析不同時期的數(shù)據(jù)。通過統(tǒng)計分析,可以檢測數(shù)據(jù)的趨勢、方差和相關(guān)性等統(tǒng)計指標,幫助用戶理解數(shù)據(jù)源的動態(tài)變化。
此外,隨著人工智能和大數(shù)據(jù)技術(shù)的快速發(fā)展,數(shù)據(jù)源關(guān)聯(lián)監(jiān)測也融合了一些新興的技術(shù)。例如:自然語言處理和語義分析技術(shù)可以進一步提高文本數(shù)據(jù)的理解和處理能力。深度學習技術(shù)[7]的應用可以幫助處理復雜的模式和結(jié)構(gòu)。同時,云計算和分布式處理技術(shù)可以加速數(shù)據(jù)源關(guān)聯(lián)監(jiān)測的速度和效率。區(qū)塊鏈技術(shù)的引入可以保證數(shù)據(jù)的安全性和可信度。
數(shù)據(jù)源關(guān)聯(lián)監(jiān)測相關(guān)技術(shù)在過去幾十年中取得了長足的發(fā)展。網(wǎng)絡爬蟲、文本挖掘、機器學習、統(tǒng)計分析和數(shù)據(jù)可視化等技術(shù)的進步不僅提高了數(shù)據(jù)源關(guān)聯(lián)監(jiān)測的效率和準確性,還為決策者和研究人員提供了更好的數(shù)據(jù)分析和洞察力。隨著新興技術(shù)的不斷涌現(xiàn),比如:自然語言處理、深度學習和區(qū)塊鏈等,數(shù)據(jù)源關(guān)聯(lián)監(jiān)測將進一步發(fā)展和創(chuàng)新。這些技術(shù)應用于油田環(huán)保安全領域標準數(shù)據(jù)源關(guān)聯(lián)監(jiān)測,也將促進油田環(huán)保安全領域標準數(shù)字化的發(fā)展。
目前已經(jīng)開始對標準關(guān)聯(lián)性監(jiān)測進行探索,中國標準化研究院通過監(jiān)測國內(nèi)外相關(guān)網(wǎng)站實現(xiàn)實時追蹤抓取國內(nèi)外相關(guān)標準化信息情報,在此基礎上形成標準輿情化產(chǎn)品。國家科技圖書文獻中心(NSTL)建成了科技標準重點領域信息門戶,該門戶聚焦標準化與科技創(chuàng)新互動、資源環(huán)境標準化、質(zhì)量研究、農(nóng)業(yè)食品標準化、高新技術(shù)標準化等領域,跟蹤全球有關(guān)科技標準的政策法規(guī)、戰(zhàn)略規(guī)劃、科技成果等,實時跟蹤與推送前沿與熱點內(nèi)容,支持用戶便捷了解科技標準的最新發(fā)展動態(tài)。目前門戶已經(jīng)監(jiān)測了國內(nèi)外183個相關(guān)標準化機構(gòu)。但是上述嘗試均是基于全領域標準開展相關(guān)關(guān)聯(lián)性監(jiān)測研究,鑒于此,本論文也將開展油田環(huán)保安全標準關(guān)聯(lián)性監(jiān)測技術(shù)研究。
2 油田環(huán)保安全領域標準關(guān)聯(lián)性監(jiān)測技術(shù)的主要內(nèi)容
2.1 油田環(huán)保安全領域標準數(shù)據(jù)需求識別
針對公司對油田環(huán)保安全領域相關(guān)業(yè)務標準數(shù)據(jù)需求模糊、不明確等問題,開展大規(guī)??绮块T的實地調(diào)研與專家研討,明確不同部門對標準數(shù)據(jù)及其來源需求的關(guān)鍵要點,繪制不同部門標準數(shù)據(jù)需求清單,并對業(yè)務相關(guān)標準數(shù)據(jù)需求數(shù)據(jù)進行聚類組織和處理,并反饋給各個業(yè)務部門,通過不斷迭代優(yōu)化,最終精準識別不同業(yè)務標準數(shù)據(jù)需求。上述工作方案的關(guān)鍵在于如何開展大規(guī)模的實地調(diào)研與專家研討,本論文的具體方案如下所示。
實地調(diào)研確定需求的方案流程如下。
(1)確定調(diào)研目的。明確標準數(shù)據(jù)源范圍調(diào)研的目的,為了了解不同業(yè)務部門對不同標準數(shù)據(jù)源需求情況。
(2)制定調(diào)研計劃。設計一個調(diào)研問卷或面談指南,包括一些開放性問題和封閉性問題,以便業(yè)務部門可以詳細描述他們對標準數(shù)據(jù)的需求。
(3)選擇合適的受訪人員。選擇每個部門中的關(guān)鍵人員,包括管理層、業(yè)務分析師和其他涉及數(shù)據(jù)使用的員工。
(4)進行調(diào)研。采訪被選擇的受訪人員,確保問卷或面談過程中能夠深入探討他們的需求和期望。
(5)整理和分析數(shù)據(jù)。將調(diào)研數(shù)據(jù)整理和分析,找出各部門的共同需求和特定需求。這可能需要使用一些統(tǒng)計方法和數(shù)據(jù)分析工具。
專家研討確定需求的方案流程如下。
(1)召集專家組。邀請各個部門的專家,包括業(yè)務領域的專家和數(shù)據(jù)分析專家,參與研討會議。
(2)明確定位議程。制定會議議程,確保在會議中全面涵蓋各個部門的需求,并確定確切的問題,以便專家們能夠提供有針對性的意見。
(3)組織研討會議。進行研討會議,鼓勵專家分享他們的見解、經(jīng)驗和建議。
(4)記錄和整理意見。記錄專家的意見和建議,包括可能的解決方案和實施策略。
(5)綜合分析。將實地調(diào)研和專家研討的結(jié)果綜合起來,尋找共同點,確定優(yōu)先級,制定數(shù)據(jù)需求的詳細計劃。
(6)反饋和確認。將綜合分析的結(jié)果反饋給相關(guān)部門,確認他們的需求是否被準確理解,如果有誤會或遺漏,及時進行修正。
(7)制定實施計劃?;诰C合分析的結(jié)果,制定數(shù)據(jù)需求的實施計劃,包括數(shù)據(jù)收集、處理、分析和報告的具體步驟和時間表。
2.2 油田環(huán)保安全領域標準數(shù)據(jù)源的確定依據(jù)
針對油田環(huán)保安全領域業(yè)務標準數(shù)據(jù)源范圍確定規(guī)則或依據(jù)缺乏的問題,研究面向不同業(yè)務需求的標準數(shù)據(jù)源范圍確定的規(guī)則和框架要點,提出集“戰(zhàn)略目標、問題導向、業(yè)務流程、前沿熱點、重點任務、權(quán)威可信”等多維度為一體的標準數(shù)據(jù)源確定依據(jù),并制定參照指標,采用多維評價指標體系等方法綜合確定標準數(shù)據(jù)源。
通過建立符合標準源規(guī)則或框架要點的標準數(shù)據(jù)源篩選依據(jù),并采用多維評價指標體系等方法對標準數(shù)據(jù)源重要程度進行打分,最終建立具有重要度評價的標準數(shù)據(jù)源頭體系。當前標準源的評價研究大多采用單一或幾個指標數(shù)據(jù)來進行測算,由于標準數(shù)據(jù)源是一個多元復雜系統(tǒng),所以采用單一或幾個測量指標無法準確表征標準數(shù)據(jù)源應有內(nèi)涵。鑒于此,后續(xù)本文將采用多維指標體系方法來評估標準源重要水平。在多維指標體系下,其中一個重要問題就是對指標設置權(quán)重,根據(jù)設置權(quán)重方法不同,可將標準源常用測度方法劃分為主觀權(quán)重法、客觀權(quán)重法、綜合計量法。主觀權(quán)重法包括綜合加權(quán)法和層次分析法,客觀權(quán)重法包括主成分分析法和熵值法,綜合計量法包括隨機前沿分析法(SFA)和數(shù)據(jù)包絡分析法(DEA)。綜合計量法更適用于包含投入和產(chǎn)出要素的績效評估方法,即評估對象如何以較少的資源投入獲得較多產(chǎn)出結(jié)果的多屬性評估,這種方法要求指標體系中指標之間存在明顯或嚴格的投入—產(chǎn)出關(guān)系。同時,由于熵值法是根據(jù)各項指標數(shù)值的變異程度來確定指標權(quán)數(shù)的,避免了人為因素帶來的偏差,但該方法忽略了指標本身重要程度,有時確定的指標權(quán)數(shù)會與預期的結(jié)果相差甚遠,同時熵值法不能減少評價指標的維數(shù)。鑒于此,本文后續(xù)將采用主觀和客觀相結(jié)合的方法從不同維度對標準數(shù)據(jù)源重要程度進行打分。
2.3 油田環(huán)保安全領域標準關(guān)聯(lián)數(shù)據(jù)自動抓取
針對油田環(huán)保安全領域標準關(guān)聯(lián)信息自動化抓取水平較低的問題,聚焦上述確定的油田環(huán)保安全領域標準數(shù)據(jù)的國內(nèi)外相關(guān)數(shù)據(jù)源,采用大規(guī)模關(guān)聯(lián)數(shù)據(jù)自動化抓取技術(shù),自動搜集、挖掘和揭示相關(guān)領域或機構(gòu)發(fā)布的標準相關(guān)新聞、政策、法規(guī)、報告、項目、成果等標準情報資源。其中,大數(shù)據(jù)關(guān)聯(lián)數(shù)據(jù)自動化抓取是通過各種技術(shù)手段自動從不同數(shù)據(jù)源中提取數(shù)據(jù)并將其整合到一個數(shù)據(jù)存儲中,以便進一步分析和處理。本論文制定的自動化抽取技術(shù)方案如下。
(1)Web 抓取和爬蟲技術(shù)
爬蟲框架:使用像Scrapy(Python)、ApacheNutch(Java)或者其他開源爬蟲框架,能夠自動化地從網(wǎng)頁上抓取數(shù)據(jù)。
數(shù)據(jù)解析:使用H T M L 解析庫(比如:BeautifulSoup、Jsoup)或正則表達式從網(wǎng)頁中提取所需數(shù)據(jù)。
(2)API 調(diào)用
A PI 抓?。汉芏嗑W(wǎng)站和在線服務提供A PI接口,可以通過API調(diào)用直接獲取數(shù)據(jù)。使用工具如:Requests(Python)來進行API調(diào)用。
認證和授權(quán):如果API需要認證,應確保擁有正確的A PI密鑰或令牌,并且了解API的限制和配額。
(3)數(shù)據(jù)庫連接和查詢
數(shù)據(jù)庫連接:使用數(shù)據(jù)庫連接庫(例如:JDBC、ODBC)連接到數(shù)據(jù)庫系統(tǒng)。
SQL查詢:編寫SQL查詢語句來選擇和提取所需的數(shù)據(jù)。對于非關(guān)系型數(shù)據(jù)庫,可以使用相應的查詢語言(例如:MongoDB的查詢語言)。
(4)日志文件監(jiān)控
日志分析:對服務器日志文件進行實時監(jiān)控,并分析其中的數(shù)據(jù)。使用工具如:Apache Flume可以用來收集、聚合和移動大量的日志數(shù)據(jù)。
(5)消息隊列
消息隊列:使用消息隊列系統(tǒng)(例如:ApacheKafka、RabbitMQ)來收集和傳輸數(shù)據(jù)。生產(chǎn)者將數(shù)據(jù)放入消息隊列,消費者從中獲取數(shù)據(jù)。
(6)數(shù)據(jù)倉庫抽?。‥TL)
ETL工具:使用ETL工具(例如:Apache NiFi、Talend、Apache Air f low)來提取、轉(zhuǎn)換和加載數(shù)據(jù)。這些工具通常提供可視化界面,方便配置數(shù)據(jù)流程。
(7)實時數(shù)據(jù)流處理
流處理框架:使用實時數(shù)據(jù)流處理框架(例如:Apache Storm、Apache Flink、Apache Kaf kaStreams)來處理數(shù)據(jù)流,可以在數(shù)據(jù)抵達時進行實時處理。
(8)機器學習和自然語言處理
NLP 技術(shù):如果需要從文本中抽取信息,可以使用自然語言處理(NLP)技術(shù)。工具如:NLTK(Python自然語言處理庫)可以幫助處理文本數(shù)據(jù)。機器學習模型:利用機器學習模型(例如:文本分類、命名實體識別)來自動從非結(jié)構(gòu)化數(shù)據(jù)中抽取結(jié)構(gòu)化信息。
(9)數(shù)據(jù)爬蟲和機器學習結(jié)合
自動化學習模型:利用自動化學習模型(例如:AutoML工具)來構(gòu)建能夠適應不同網(wǎng)站結(jié)構(gòu)的數(shù)據(jù)爬蟲,從而實現(xiàn)智能化的數(shù)據(jù)抓取。
在選擇合適的技術(shù)時,需要考慮數(shù)據(jù)源的類型、數(shù)據(jù)量、抓取頻率、數(shù)據(jù)的格式等因素。綜合運用這些技術(shù),可以實現(xiàn)高效、穩(wěn)定和自動化的大數(shù)據(jù)關(guān)聯(lián)數(shù)據(jù)抓取過程。
2.4 油田環(huán)保安全領域標準關(guān)聯(lián)監(jiān)測內(nèi)容分析
針對公司不同業(yè)務對標準數(shù)據(jù)分析和應用能力較差的問題,利用大數(shù)據(jù)分析與知識關(guān)聯(lián)技術(shù),分別從區(qū)域、時間、發(fā)布機構(gòu)、關(guān)鍵詞、摘要、單位合作網(wǎng)絡、被引用頻次等方面開展相關(guān)自動化識別,實現(xiàn)對所需監(jiān)測數(shù)據(jù)基本內(nèi)容的自動化統(tǒng)計與分析,實時、動態(tài)、可視化地展示或分析所需監(jiān)測數(shù)據(jù)的內(nèi)容。
自動化采集的標準信息可以通過各種機器學習和數(shù)據(jù)分析技術(shù)進行深入分析。本論文將綜合采用以下大數(shù)據(jù)分析技術(shù)嘗試進行監(jiān)測數(shù)據(jù)分析。
(1)文本挖掘(Text Mining)
自然語言處理(NLP):使用NLP技術(shù),如:分詞、命名實體識別、情感分析等,對文本進行處理和理解。
主題建模:使用主題建模算法(如:L a t e n tDirichlet Allocation)發(fā)現(xiàn)文本數(shù)據(jù)中的主題和關(guān)鍵詞。
文本分類:使用文本分類算法(如:樸素貝葉斯、支持向量機)對文本進行分類,例如:垃圾郵件過濾、新聞分類等。
(2)數(shù)據(jù)挖掘(Data Mining):
聚類分析:使用聚類算法(如:K均值聚類、層次聚類)將數(shù)據(jù)分成不同的簇,揭示數(shù)據(jù)的內(nèi)在結(jié)構(gòu)。
關(guān)聯(lián)規(guī)則挖掘:使用關(guān)聯(lián)規(guī)則挖掘算法(如:Apriori算法)找出數(shù)據(jù)中的關(guān)聯(lián)規(guī)律,例如:購物籃分析。
異常檢測:使用異常檢測算法(如:孤立森林、LOF算法)找出數(shù)據(jù)中的異常點,用于欺詐檢測、設備健康監(jiān)測等。
(3)可視化分析
使用可視化工具(如:Matplotlib、Seaborn、D3.js)將分析結(jié)果以圖表、圖形的形式呈現(xiàn),幫助用戶直觀理解數(shù)據(jù)。
利用地理信息系統(tǒng)(GIS)技術(shù),將數(shù)據(jù)可視化在地圖上,用于地理空間分析。
(4)實時分析
使用流處理技術(shù)(如:Apache Kafka、ApacheStorm)進行實時數(shù)據(jù)分析,對持續(xù)產(chǎn)生的數(shù)據(jù)進行快速處理和響應。
在進行機器分析之前,需要進行數(shù)據(jù)預處理,包括數(shù)據(jù)清洗、缺失值處理、特征工程等步驟,以保證分析結(jié)果的準確性。選擇合適的算法和工具,結(jié)合領域知識,可以更好地發(fā)現(xiàn)數(shù)據(jù)中的模式和規(guī)律。
3 研究結(jié)論
本文聚焦油田環(huán)保安全領域標準關(guān)聯(lián)性監(jiān)測技術(shù)研究,針對我國油田環(huán)保安全領域相關(guān)業(yè)務標準數(shù)據(jù)需求模糊、結(jié)構(gòu)化處理需求差異較大、標準數(shù)據(jù)分析和知識關(guān)聯(lián)能力較弱等問題,采用專家研討和總結(jié)歸納等方法,繪制不同部門標準數(shù)據(jù)需求清單,精準識別不同業(yè)務標準數(shù)據(jù)需求。研究面向不同業(yè)務需求的標準數(shù)據(jù)源范圍確定的框架要點,提出集“戰(zhàn)略目標、問題導向、業(yè)務流程、前沿熱點、重點任務、權(quán)威可信”等多維度為一體的標準數(shù)據(jù)源篩選依據(jù),采用多維評價指標體系等方法綜合確定標準數(shù)據(jù)源。采用大規(guī)模關(guān)聯(lián)數(shù)據(jù)自動化抓取技術(shù),自動搜集、挖掘和揭示相關(guān)領域或機構(gòu)發(fā)布的標準相關(guān)新聞、政策、法規(guī)、報告、項目、成果等標準情報資源。利用大數(shù)據(jù)分析與知識關(guān)聯(lián)技術(shù),實現(xiàn)對所需監(jiān)測數(shù)據(jù)基本內(nèi)容的自動化統(tǒng)計與分析,實時、動態(tài)、可視化地展示或分析所需監(jiān)測數(shù)據(jù)的內(nèi)容。研發(fā)標準數(shù)據(jù)源監(jiān)測狀態(tài)提示與預警技術(shù),對標準源狀態(tài)(如:采集中、待審核、暫停、異常、新增數(shù)據(jù)量、采集時間等)進行提示或預警,及時優(yōu)化和調(diào)整相應標準源。利用標準重點相關(guān)內(nèi)容的關(guān)聯(lián)技術(shù),將獲取的標準信息關(guān)鍵詞或重點內(nèi)容與關(guān)聯(lián)知識進行大數(shù)據(jù)匹配,從而將與標準信息相關(guān)的創(chuàng)新成果、技術(shù)、評價等類型信息或數(shù)據(jù)納入監(jiān)測數(shù)據(jù)源中,實現(xiàn)多類型、高關(guān)聯(lián)的標準數(shù)據(jù)監(jiān)測,為開展標準知識庫建設提供多元數(shù)據(jù)支撐。
參考文獻
S. Brin,L. Page. The anatomy of a large-scale hypertextualWeb search engine[J]. Computer Networks and ISDN Systems,1998,30(1-7): 107-117,.
M. Najork, J. L. Wiener. Breadth-first crawling yields highqualitypages[C]. In Proceedings of the 10th InternationalConference on World Wide Web, 2001.
C. Aggarwal. Data Mining: The Textbook[M]. Springer, 2015.Y. Huang, S. Zhang, J. Chen. A novel web data monitoringapproach based on deep learning[C]. In Proceedings of the19th International Conference on Big Data Analytics andKnowledge Discovery, 2017.
Hastie, T., Tibshirani, R., Friedman, J. The Elementsof Statistical Learning: Data Mining, Inference, andPrediction[M]. Springer, 2009.
唐亮,段建國,許洪波,等. 基于信息論的文本分類模型[J].計算機工程與設計, 2008,29(24):6312-6315.
尹江,尹治本,黃洪. 網(wǎng)絡爬蟲效率瓶頸的分析與解決方案[J]. 計算機應用, 2008(05):1114-1116+1119.