亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于超文本標(biāo)記語言的文檔信息自動(dòng)提取技術(shù)研究

2020-09-30 06:45:53余俊余少鋒周宇鵬廖崇陽羅勇

粘接 2020年8期

余俊余少鋒周宇鵬廖崇陽羅勇

摘要：文章研究探索了如何使用文檔分解（文檔結(jié)構(gòu)研究），文檔標(biāo)記（具有可擴(kuò)展標(biāo)記語言（XMI），超文本標(biāo)記語言（HMI）和可伸縮矢量圖形（SVG），以及多方面的分類機(jī)制。文檔內(nèi)容提取是通過計(jì)算機(jī)編程（使用Java）實(shí)現(xiàn)的。在這項(xiàng)研究中開發(fā)的文檔信息自動(dòng)提取技術(shù)證明：作為信息提供者，可以使信息用戶（包括工程師）以更易于訪問的方式制作文檔內(nèi)容。

關(guān)鍵詞：文檔信息自動(dòng)提取;超文本標(biāo)記語言;分解方案;文檔標(biāo)記;分面分類

中圖分類號(hào)：TP391

文獻(xiàn)標(biāo)識(shí)碼：A

文章編號(hào)：1001-5922（2020）08-0080-05

Research on Automatic Extraction of Document InformationBased on Hypertext Markup Language

SHE Jun，YU Shao-feng，ZHOU Yu-peng，LIAO Chong-yang，LUO Yong

（1.lnformation & Communication Branch of China Southern Power Grid Peaking & Frequency Modulation Power（Generation Co..Ltd..Guangzhou Guangdong 511400，China;2.Westem Maintenance Test Branch of China SouthernPower CJrid Peaking & Frequency Modulatio Generation Co..Ltd.，Xingyi Guizhou 562400.China）

Abstract ： This paper explores how to use document decomposition （document structure research） .document mark-up （with Extensihle Markup Language （XML），Hypertext Markup Language （HML）.and Scalable Vector （Graphics（SVG） .and more classification mechanism.The document content extraction is realized through computer program -ming （using Java）.The automatic extraction technology of document information （AETDI） developed in this re-search proves that as an information provider，you can make Information users （including engineers） can create doc-ument content in a more accessible way.

Key words ： automatic extraction of document information;hypertext markup language;decomposition scheme;docu-ment markup;faceted classification

0前言

當(dāng)前正在開展生產(chǎn)域信息平臺(tái)（ Production Do-main information Platform）的研究與建設(shè)工作，其軟件環(huán)境分為數(shù)據(jù)中心和應(yīng)用中心兩大部分，在公司內(nèi)部被稱作“兩個(gè)中心”[1-2]。“兩個(gè)中心”建設(shè)目的在于探索以“數(shù)據(jù)應(yīng)用”作為企業(yè)信息化核心，通過組件技術(shù)去系統(tǒng)化的新途徑，克服傳統(tǒng)信息系統(tǒng)相對(duì)孤立，系統(tǒng)間數(shù)據(jù)資源難以互相調(diào)用的弊端[3-4]。目前，生產(chǎn)域信息平臺(tái)已具備了對(duì)實(shí)時(shí)數(shù)據(jù)、關(guān)系型數(shù)據(jù)的處理能力，需要增加對(duì)文檔型數(shù)據(jù)（非關(guān)系型數(shù)據(jù)）的處理能力，為此急需要先期開展對(duì)文檔型數(shù)據(jù)的信息提取和處理方法的研究。已經(jīng)發(fā)現(xiàn)參與設(shè)計(jì)過程的工程師花費(fèi)了多達(dá)20%-30%的時(shí)間來搜索和訪問設(shè)計(jì)信息[5-6]。這可以看作是提供更好的信息系統(tǒng)以使工程師能夠更輕松地搜索和檢索信息的重要性的指示。但是，要使信息系統(tǒng)成功，就必須基于對(duì)工程師工作方式的理解和超文本標(biāo)記語言的特征。

1支持AETDI的方法和技術(shù)

信息通常分為3種類型：結(jié)構(gòu)化信息，半結(jié)構(gòu)化信息和非結(jié)構(gòu)化信息[2]。數(shù)據(jù)庫中的數(shù)據(jù)通常是結(jié)構(gòu)化信息，而文檔（例如電子郵件和對(duì)話）是非結(jié)構(gòu)化信息的示例。AETDI處理具有邏輯結(jié)構(gòu)的半結(jié)構(gòu)文檔，因此可以進(jìn)行搜索。為了理解文檔的邏輯結(jié)構(gòu)，我們進(jìn)行了研究，探索了如何分解文檔。它從不同的角度和粒度定義了11種分解方案。為了使半結(jié)構(gòu)化文檔的內(nèi)容能夠由計(jì)算機(jī)自動(dòng)準(zhǔn)確地解釋，使用了標(biāo)記技術(shù)，包括可擴(kuò)展標(biāo)記語言（XML），超文本標(biāo)記語言（HMI）和可縮放矢量圖形（SVG）被雇傭。使用多面分類機(jī)制對(duì)文檔內(nèi)容進(jìn)行分類。針對(duì)AETDI設(shè)計(jì)了一種基于超文本標(biāo)記語言的概念層次結(jié)構(gòu)，以適應(yīng)其在超文本標(biāo)記語言中的應(yīng)用。

1.1超文本標(biāo)記語言文檔結(jié)構(gòu)

文檔結(jié)構(gòu)定義了文檔中內(nèi)容對(duì)象的組織方式。在電子商務(wù)中，如果業(yè)務(wù)合作伙伴對(duì)文檔結(jié)構(gòu)有共同的了解，則可以用一致的方式創(chuàng)建，傳輸和解釋文檔，同時(shí)保留發(fā)送者想要的語義。只有確定并遵循了文檔結(jié)構(gòu)，才可以有效地訪問和檢索文檔內(nèi)容。應(yīng)該以盡可能標(biāo)準(zhǔn)化的結(jié)構(gòu)創(chuàng)建超文本標(biāo)記語言，以便可以在公司中保持一致性，并且可以在協(xié)作成員之間實(shí)現(xiàn)溝通的完整性。該研究項(xiàng)目通過不同的分解策略研究文檔結(jié)構(gòu)。已經(jīng)定義了11種分解方案以提供對(duì)文檔結(jié)構(gòu)的全面理解。圖1說明了定義不同分解方案以從不同角度和不同粒度查看文檔結(jié)構(gòu)的想法。

1.2文檔標(biāo)記

以結(jié)構(gòu)化和可定義的方式交換信息的需求導(dǎo)致了標(biāo)記技術(shù)的誕生。標(biāo)記是用于解釋文檔中的結(jié)構(gòu)和信息的代碼。文檔可以被計(jì)算機(jī)標(biāo)記和自動(dòng)處理。標(biāo)記可用于幫助搜索文檔內(nèi)容，例如在文檔信息自動(dòng)提取系統(tǒng)中。通用標(biāo)記首先由Scribe文檔格式器普及，隨后在LATEX中普及。它也被合并到SGML和ODA中。隨著Web技術(shù)和諸如XML，HML和SVG之類的標(biāo)記語言的出現(xiàn)，標(biāo)記技術(shù)已經(jīng)表現(xiàn)出了代表文檔結(jié)構(gòu)的優(yōu)勢(shì)。

在AETDI中，如圖2所示，XML用于標(biāo)記文檔文本，SVG用于標(biāo)記圖形，HML用于嵌入圖像。在系統(tǒng)中，圖形與圖像的不同之處在于，圖形的內(nèi)容被視為一組元素（例如在復(fù)雜的圖形中，其中某些元素可以重復(fù)使用或重復(fù)），而圖像被視為一個(gè)整體，并且無法進(jìn)一步分解。圖形中的嵌入文本也被視為一個(gè)單獨(dú)的元素，可以進(jìn)行搜索。

1.3超文本標(biāo)記語言領(lǐng)域的概念層次結(jié)構(gòu)的分面分類和設(shè)計(jì)

對(duì)信息進(jìn)行分類是一門傳統(tǒng)且至關(guān)重要的學(xué)科。分類將孤立的，不連貫的感官印象轉(zhuǎn)化為可識(shí)別的對(duì)象和重復(fù)出現(xiàn)的模式?，F(xiàn)代文獻(xiàn)分類方法的起源是基于圖書館科學(xué)家最初提出的原理。隨著Web和網(wǎng)絡(luò)的出現(xiàn)，信息的組織和分類被視為使人們能夠應(yīng)對(duì)越來越多的他們可以訪問的文檔的關(guān)鍵。已經(jīng)針對(duì)不同的用途開發(fā)了不同類型的分類方案。圖2顯示了如何通過正確的關(guān)系（由約束定義）將信息（在文檔和內(nèi)容級(jí)別上）分類為正確的概念和方面。

2文檔超文本標(biāo)記語言化后的數(shù)據(jù)自動(dòng)提取及處理

文檔到移動(dòng)終端上的時(shí)候其實(shí)是一個(gè)離線文件，通過開發(fā)了特定的APP來顯示轉(zhuǎn)換后的文檔，并在填寫試驗(yàn)數(shù)據(jù)后APP能自動(dòng)提取數(shù)據(jù)，對(duì)于數(shù)據(jù)提取其實(shí)現(xiàn)在有2種方式：①原生開發(fā)，②混合開發(fā)，本文通過對(duì)2個(gè)方式進(jìn)行比較，最后來確定哪種技術(shù)方案適合本次研究課題。

2.1原生方案

當(dāng)應(yīng)用程序需要展示網(wǎng)頁時(shí)，而需求上卻不允許打開系統(tǒng)瀏覽器時(shí)，安卓為了解決這種需求提供了WebView控件。WebView控件類似于嵌入了一個(gè)瀏覽器，而且原生的WebView是支持本地文件系統(tǒng)打開文本標(biāo)記語言。

本方案最重要的就是內(nèi)容的提取，提取內(nèi)容采用超文本標(biāo)記語言中已經(jīng)用Javascript寫好，所以APP要能提取到表單中的數(shù)據(jù)需要原生代碼去調(diào)用離線文件中的Javascript的代碼。原生webView.loadUrl方法其實(shí)支持調(diào)用離線網(wǎng)頁中的js，但是不能獲取函數(shù)返回的結(jié)果。

提取到離線試驗(yàn)數(shù)據(jù)后，為了方便系統(tǒng)數(shù)據(jù)導(dǎo)入，需要把數(shù)據(jù)寫入到本地的文件系統(tǒng)系統(tǒng)中，對(duì)于原生APP支持操作文件的API就能實(shí)現(xiàn)，所以對(duì)文件的支持非常好，API也非常豐富。

2.2混合開發(fā)方案

混合開發(fā)方案采用基于VUE的Uniapp，因?yàn)長ni-app能實(shí)現(xiàn)一次開發(fā)，支持適配Android與IOS等平臺(tái)，對(duì)于后期維護(hù)非常方便，所以混合開發(fā)內(nèi)容是居于Uniapp來比較的。本地超文本標(biāo)記語言顯示的支持上Uniapp的web-view組件支持，web-view是一個(gè)web瀏覽器組件，可以用來承載網(wǎng)頁的容器。

內(nèi)容提取的支持和原生采用不通的方式，網(wǎng)頁向應(yīng)用發(fā)送消息，在的message事件回調(diào)event.detail.data中接收消息，所以內(nèi)容提取上非常容易實(shí)現(xiàn)，不是采用app組件去調(diào)用離線網(wǎng)頁Javascript，而是離線網(wǎng)頁通知的方式，然后app獲取到通知的數(shù)據(jù)，所以內(nèi)容提取支持非常好，不單如此umapp還提供了一些調(diào)用app應(yīng)用的函數(shù)，所以說非常米方便。

最后就是文件系統(tǒng)的寫入，Uniapp本質(zhì)也是基于H5來實(shí)現(xiàn)APP開發(fā)，對(duì)文件系統(tǒng)支持其實(shí)不是非常好，但是也是提供的保存文件到本地的接口，但是接口不是非常完善，但是可以實(shí)現(xiàn)文件的基本操作。

Uniapp實(shí)現(xiàn)文件提取總體流程如下圖3所示。

通過對(duì)上述2個(gè)技術(shù)的比對(duì)總結(jié)：離線超文本標(biāo)記語言上顯示上無論是原生還是混合開發(fā)支持上都非常好;在數(shù)據(jù)提取區(qū)域，原生采用原生代碼去調(diào)用離線網(wǎng)頁的JS來實(shí)現(xiàn)，js返回的數(shù)據(jù)無法接收，而混合開發(fā)支持離線的網(wǎng)頁支持通知App自生，所以數(shù)據(jù)提取上混合開發(fā)更強(qiáng);文件保存上兩者都支持;綜上3點(diǎn)本文采用混合開發(fā)方案更好，而且混合開發(fā)還有一次開發(fā)支持多端等優(yōu)點(diǎn)。

3文檔信息自動(dòng)提取過程

文中討論AETDI系統(tǒng)的實(shí)施，并重點(diǎn)關(guān)注當(dāng)前研究項(xiàng)目中執(zhí)行的4個(gè)方面的關(guān)鍵問題。它們是文檔結(jié)構(gòu)，文檔標(biāo)記，文檔內(nèi)容的提取以及導(dǎo)航機(jī)制的創(chuàng)建。但在此不討論分面分類和結(jié)果發(fā)布的實(shí)現(xiàn)，因?yàn)檫@些操作是由作者先前研究中開發(fā)的Waypoint系統(tǒng)執(zhí)行的。

3.1文檔結(jié)構(gòu)的實(shí)施

由于文檔結(jié)構(gòu)的復(fù)雜性，UML類圖已被設(shè)計(jì)為實(shí)現(xiàn)由文檔分解方案定義的文檔元素之間的關(guān)系。圖4是表示物理結(jié)構(gòu)分解方案的UML類圖的頂層結(jié)構(gòu)。從圖5可以看出，文檔具有3個(gè)主要類別：標(biāo)題，正文和注釋。聚集關(guān)系表明標(biāo)題，正文或注釋是文檔的“部分”（菱形指向“整個(gè)”）。根據(jù)文檔正文解釋標(biāo)題的詳細(xì)信息，并且注釋可以補(bǔ)充正文，已經(jīng)在Heading和Body類之間以及Body和Note類之間指定了關(guān)聯(lián)關(guān)系。為每個(gè)類指定的多重性指標(biāo)定義參與關(guān)系的對(duì)象數(shù)。如圖5所示，一個(gè)“正文”對(duì)象可以與一個(gè)或沒有“標(biāo)題”對(duì)象相關(guān)，但可以與零個(gè)或多個(gè)“注釋”對(duì)象相關(guān)。一個(gè)標(biāo)題或注釋對(duì)象與一個(gè)“正文”對(duì)象完全相關(guān)。對(duì)于這3個(gè)類的每一個(gè)，已經(jīng)定義了兩個(gè)屬性，一個(gè)ID屬性使每個(gè)類都是唯一的，一個(gè)IDREF屬性用于保持另一個(gè)類的ID，從而可以實(shí)現(xiàn)從一個(gè)類到另一個(gè)類的信息導(dǎo)航指南。

Body，Heading和Note類的擴(kuò)展結(jié)構(gòu)。Body是一個(gè)相對(duì)復(fù)雜的類，可以是Part，Chapter，Section，Paragraph，Sentence或Word。Bodv類及其子類之間的繼承關(guān)系意味著Part，Chapter，Section，Section，Sentence和Word類都從Body類繼承其屬性和操作。已經(jīng)在相關(guān)子類之間指定了聚合關(guān)系以施加所需的限制。已根據(jù)Section的類別將反射聚合關(guān)系指定給See-tion類，根據(jù)文檔的復(fù)雜性，可以將Section分解為更小的部分（即小節(jié)或子小節(jié)）。圖像屬性已定義為允許在文檔中將文本與圖像實(shí)體相關(guān)聯(lián)。

上面圖5的UML類圖清楚地指定了文檔元素以及根據(jù)文檔分解方案的元素之間的關(guān)系。使用UML類模型定義文檔結(jié)構(gòu)還非常有助于使人們理解長文檔，以便與參與研究項(xiàng)目的每個(gè)人進(jìn)行交流，并在技術(shù)上開發(fā)XML DTD數(shù)據(jù)模型以有效實(shí)施文檔標(biāo)記。

3.2文檔加標(biāo)的實(shí)施

標(biāo)記一詞指代置于文檔中以指示如何解釋（非標(biāo)記）數(shù)據(jù)的代碼或令牌。無需加價(jià)，計(jì)算機(jī)就可以通過頻繁計(jì)數(shù)或通過操作員的指示，基于發(fā)現(xiàn)的關(guān)鍵字或短語以某種程度的準(zhǔn)確性來識(shí)別內(nèi)容。但是，文檔標(biāo)記可以毫不含糊地指示可以找到某些內(nèi)容的位置。在信息檢索系統(tǒng)中使用文檔標(biāo)記技術(shù)將獲得更高的準(zhǔn)確性。XML和HML以及SVG（一種用于二維圖形的基于XML的語言）已用于在AETDI中標(biāo)記超文本標(biāo)記語言。本文重點(diǎn)介紹XML標(biāo)記的實(shí)現(xiàn)。在其他地方描述了圖像和圖形的標(biāo)記。在XML文檔中，合法的或不合法的由文檔類型定義（DTD）或模式指定。DTD或模式還建立了文檔有效性的標(biāo)準(zhǔn)，可以由專用計(jì)算機(jī)軟件自動(dòng)檢查該標(biāo)準(zhǔn)。如果計(jì)算機(jī)軟件可用于驗(yàn)證和反饋結(jié)構(gòu)復(fù)雜的非常長的超文本標(biāo)記語言（例如，500P的報(bào)告）上的標(biāo)記錯(cuò)誤，那么這將是一個(gè)優(yōu)勢(shì)，否則這將非常困難甚至無法實(shí)現(xiàn)校驗(yàn)。因此，DTD或模式的生成是XML標(biāo)記的核心。在本文中，正是DTD數(shù)據(jù)模型將UML類圖中的文檔結(jié)構(gòu)信息傳輸?shù)娇赡軒в袠?biāo)記的XML文檔中。

DTD定義中的一個(gè)重要概念是創(chuàng)建元素內(nèi)容模型，該模型指示允許元素具有哪些內(nèi)容，例如子元素，文本數(shù)據(jù)，空元素或任何內(nèi)容。如圖6所示的Body類相對(duì)應(yīng)的DTD的摘錄。在上面的DTD數(shù)據(jù)模型中，已經(jīng)創(chuàng)建了兩種重要類型的內(nèi)容模型來反映兩個(gè)重要的關(guān)系。為了捕獲DTD中Body元素及其子元素之間的繼承關(guān)系，內(nèi)容模型已定義為<！-- ELEMENT body（部分|章|節(jié)|段落|句子|單詞）*-->以支持子元素的選擇。因此，為文檔創(chuàng)建適當(dāng)?shù)腄TD時(shí)，應(yīng)牢記兩個(gè)重要事項(xiàng)：首先，元素的內(nèi)容模型應(yīng)明確聲明子元素之間的關(guān)系（例如順序或選擇）。其次，必須正確指定子元素的數(shù)量（例如零個(gè)或一個(gè)，或一對(duì)多）。此處創(chuàng)建的DTD數(shù)據(jù)模型提供了XML標(biāo)記的語法規(guī)則。有了DTD數(shù)據(jù)模型后，完成XML標(biāo)記的其余工作需要將標(biāo)簽（DTD中元素指定的名稱）插入文檔的正確位置，這可以手動(dòng)完成，自動(dòng)或通過計(jì)算機(jī)程序自動(dòng)執(zhí)行。

4實(shí)驗(yàn)與結(jié)果分析

AETDI專為管理任何工程文檔（包括工程圖）而開發(fā)。文檔內(nèi)容可以是文本，圖像或圖形。實(shí)驗(yàn)以CADCAM教科書作為1個(gè)長文檔的示例，以及巴斯大學(xué)賽車隊(duì)提供的一組賽車項(xiàng)目海報(bào)作為許多工程文檔的緊湊表示（包含正式文檔的內(nèi)容）結(jié)構(gòu)，其中包含各種文本和表格，以及各種說明性材料，例如照片，繪圖和圖表等）。本文將探討進(jìn)行的實(shí)驗(yàn)，其中使用了一系列問題來說明AETDI對(duì)工程師的作用。它著重于分解方案的使用。

總而言之，此實(shí)驗(yàn)研究表明，AETDI在某種意義上比普通信息系統(tǒng)先進(jìn)：

用戶可以通過對(duì)結(jié)構(gòu)和內(nèi)容（不是僅內(nèi)容）進(jìn)行復(fù)雜的查詢來檢索非常特定的文檔內(nèi)容。概念樹中的分解方案表示結(jié)構(gòu)，如圖7所示，超文本標(biāo)記語言主題索引和關(guān)鍵字搜索表示內(nèi)容。ED-CMS中實(shí)施的分解方案意義重大，因?yàn)榫臀臋n結(jié)構(gòu)而言，不同類別的信息對(duì)文檔用戶而言具有同等重要的意義。例如，書本章節(jié)標(biāo)題中的“產(chǎn)品建?！狈祷亟o讀者的意義遠(yuǎn)大于書帖本身，在圖形標(biāo)題中找到的“電動(dòng)機(jī)驅(qū)動(dòng)器”比在書帖中找到的“電動(dòng)機(jī)驅(qū)動(dòng)器”也是如此。章節(jié)文字。因此，在AETDI中實(shí)施分解方案對(duì)用戶來說意義重大，尤其是當(dāng)用戶使用分解方案從結(jié)構(gòu)復(fù)雜的長文檔中訪問和檢索特定內(nèi)容時(shí)。

5結(jié)語

文章討論了超文本標(biāo)記語言的文檔信息自動(dòng)提取。文檔分解方案的復(fù)雜性和超文本標(biāo)記語言的概念樹是AETDI的強(qiáng)大功能，但同時(shí)也是其最大的局限性。該系統(tǒng)需要大量的文檔結(jié)構(gòu)方面的專業(yè)知識(shí)來定義分解方案，并且需要相關(guān)的知識(shí)來讓文檔標(biāo)記作者正確地掌握和應(yīng)用這些方案。此外，由于系統(tǒng)采用Waypoint平臺(tái)（基于多面分類機(jī)制），因此檢索到的信息結(jié)果將極大地依賴于設(shè)計(jì)概念樹的人員的專業(yè)知識(shí)以及使信息分類過程自動(dòng)化的約束條件。期望這樣的人應(yīng)該對(duì)超文本標(biāo)記語言領(lǐng)域有豐富的知識(shí)。

參考文獻(xiàn)

[1]匡成寶.HTML語言的網(wǎng)頁制作方法與技巧探討[J].電腦迷，2017（03）：190-191.

[2]羅正蓉，范靈.應(yīng)用HTML和css制作網(wǎng)頁[J].科技展望，2016（26）：10.

[3]朱敏.JavaScript在HTML中的應(yīng)用探討[J].科技視界，2016（24）：227-228.

[4]劉霜，潘立武.HTML發(fā)展應(yīng)用中的探索與研究[J].信息與電腦（理論版）.2016（11）：72-73.

[5]魏佳欣，葉飛躍.基于HTML特征與層次聚類的Web查詢接口發(fā)現(xiàn)[J].計(jì)算機(jī)工程，2016（02）：56-61.

[6] Choi，H.，&Sim，S..（2015）.A studv on efficiency ofmarkup language using dom tree.Wireless Personal Com-munications， 86（1），143-163.

收稿日期：2020-01-02

作者簡介：佘?。?973-），男，漢族，高級(jí)工程師，研究方向：電力企業(yè)信息化。

基金項(xiàng)目：南方電網(wǎng)調(diào)峰調(diào)頻發(fā)電有限公司科技項(xiàng)目（STKJXM20180065）

粘接2020年8期

粘接的其它文章: 信息化技術(shù)在水利工程施工管理中的應(yīng)用研究; 基于微機(jī)控制的智能高鐵座椅; 基于模型測(cè)試汽車自動(dòng)化控制系統(tǒng)對(duì)照研究; ZigBee下分析觸屏式智能公交站牌的應(yīng)用; 透水性混凝土制備及在護(hù)坡工程穩(wěn)定性中的應(yīng)用; 配網(wǎng)自動(dòng)化開關(guān)遠(yuǎn)程重啟及壓板投退裝置