余俊 余少鋒 周宇鵬 廖崇陽 羅勇
摘要:文章研究探索了如何使用文檔分解(文檔結(jié)構(gòu)研究),文檔標(biāo)記(具有可擴(kuò)展標(biāo)記語言(XMI),超文本標(biāo)記語言(HMI)和可伸縮矢量圖形(SVG),以及多方面的分類機(jī)制。文檔內(nèi)容提取是通過計(jì)算機(jī)編程(使用Java)實(shí)現(xiàn)的。在這項(xiàng)研究中開發(fā)的文檔信息自動(dòng)提取技術(shù)證明:作為信息提供者,可以使信息用戶(包括工程師)以更易于訪問的方式制作文檔內(nèi)容。
關(guān)鍵詞:文檔信息自動(dòng)提取;超文本標(biāo)記語言;分解方案;文檔標(biāo)記;分面分類
中圖分類號(hào):TP391
文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1001-5922(2020)08-0080-05
Research on Automatic Extraction of Document InformationBased on Hypertext Markup Language
SHE Jun,YU Shao-feng,ZHOU Yu-peng,LIAO Chong-yang,LUO Yong
(1.lnformation & Communication Branch of China Southern Power Grid Peaking & Frequency Modulation Power(Generation Co..Ltd..Guangzhou Guangdong 511400,China;2.Westem Maintenance Test Branch of China SouthernPower CJrid Peaking & Frequency Modulatio Generation Co..Ltd.,Xingyi Guizhou 562400.China)
Abstract : This paper explores how to use document decomposition (document structure research) .document mark-up (with Extensihle Markup Language (XML),Hypertext Markup Language (HML).and Scalable Vector (Graphics(SVG) .and more classification mechanism.The document content extraction is realized through computer program -ming (using Java).The automatic extraction technology of document information (AETDI) developed in this re-search proves that as an information provider,you can make Information users (including engineers) can create doc-ument content in a more accessible way.
Key words : automatic extraction of document information;hypertext markup language;decomposition scheme;docu-ment markup;faceted classification
0前言
當(dāng)前正在開展生產(chǎn)域信息平臺(tái)( Production Do-main information Platform)的研究與建設(shè)工作,其軟件環(huán)境分為數(shù)據(jù)中心和應(yīng)用中心兩大部分,在公司內(nèi)部被稱作“兩個(gè)中心”[1-2]。“兩個(gè)中心”建設(shè)目的在于探索以“數(shù)據(jù)應(yīng)用”作為企業(yè)信息化核心,通過組件技術(shù)去系統(tǒng)化的新途徑,克服傳統(tǒng)信息系統(tǒng)相對(duì)孤立,系統(tǒng)間數(shù)據(jù)資源難以互相調(diào)用的弊端[3-4]。目前,生產(chǎn)域信息平臺(tái)已具備了對(duì)實(shí)時(shí)數(shù)據(jù)、關(guān)系型數(shù)據(jù)的處理能力,需要增加對(duì)文檔型數(shù)據(jù)(非關(guān)系型數(shù)據(jù))的處理能力,為此急需要先期開展對(duì)文檔型數(shù)據(jù)的信息提取和處理方法的研究。已經(jīng)發(fā)現(xiàn)參與設(shè)計(jì)過程的工程師花費(fèi)了多達(dá)20%-30%的時(shí)間來搜索和訪問設(shè)計(jì)信息[5-6]。這可以看作是提供更好的信息系統(tǒng)以使工程師能夠更輕松地搜索和檢索信息的重要性的指示。但是,要使信息系統(tǒng)成功,就必須基于對(duì)工程師工作方式的理解和超文本標(biāo)記語言的特征。
1支持AETDI的方法和技術(shù)
信息通常分為3種類型:結(jié)構(gòu)化信息,半結(jié)構(gòu)化信息和非結(jié)構(gòu)化信息[2]。數(shù)據(jù)庫中的數(shù)據(jù)通常是結(jié)構(gòu)化信息,而文檔(例如電子郵件和對(duì)話)是非結(jié)構(gòu)化信息的示例。AETDI處理具有邏輯結(jié)構(gòu)的半結(jié)構(gòu)文檔,因此可以進(jìn)行搜索。為了理解文檔的邏輯結(jié)構(gòu),我們進(jìn)行了研究,探索了如何分解文檔。它從不同的角度和粒度定義了11種分解方案。為了使半結(jié)構(gòu)化文檔的內(nèi)容能夠由計(jì)算機(jī)自動(dòng)準(zhǔn)確地解釋,使用了標(biāo)記技術(shù),包括可擴(kuò)展標(biāo)記語言(XML),超文本標(biāo)記語言(HMI)和可縮放矢量圖形(SVG)被雇傭。使用多面分類機(jī)制對(duì)文檔內(nèi)容進(jìn)行分類。針對(duì)AETDI設(shè)計(jì)了一種基于超文本標(biāo)記語言的概念層次結(jié)構(gòu),以適應(yīng)其在超文本標(biāo)記語言中的應(yīng)用。
1.1超文本標(biāo)記語言文檔結(jié)構(gòu)
文檔結(jié)構(gòu)定義了文檔中內(nèi)容對(duì)象的組織方式。在電子商務(wù)中,如果業(yè)務(wù)合作伙伴對(duì)文檔結(jié)構(gòu)有共同的了解,則可以用一致的方式創(chuàng)建,傳輸和解釋文檔,同時(shí)保留發(fā)送者想要的語義。只有確定并遵循了文檔結(jié)構(gòu),才可以有效地訪問和檢索文檔內(nèi)容。應(yīng)該以盡可能標(biāo)準(zhǔn)化的結(jié)構(gòu)創(chuàng)建超文本標(biāo)記語言,以便可以在公司中保持一致性,并且可以在協(xié)作成員之間實(shí)現(xiàn)溝通的完整性。該研究項(xiàng)目通過不同的分解策略研究文檔結(jié)構(gòu)。已經(jīng)定義了11種分解方案以提供對(duì)文檔結(jié)構(gòu)的全面理解。圖1說明了定義不同分解方案以從不同角度和不同粒度查看文檔結(jié)構(gòu)的想法。
1.2文檔標(biāo)記
以結(jié)構(gòu)化和可定義的方式交換信息的需求導(dǎo)致了標(biāo)記技術(shù)的誕生。標(biāo)記是用于解釋文檔中的結(jié)構(gòu)和信息的代碼。文檔可以被計(jì)算機(jī)標(biāo)記和自動(dòng)處理。標(biāo)記可用于幫助搜索文檔內(nèi)容,例如在文檔信息自動(dòng)提取系統(tǒng)中。通用標(biāo)記首先由Scribe文檔格式器普及,隨后在LATEX中普及。它也被合并到SGML和ODA中。隨著Web技術(shù)和諸如XML,HML和SVG之類的標(biāo)記語言的出現(xiàn),標(biāo)記技術(shù)已經(jīng)表現(xiàn)出了代表文檔結(jié)構(gòu)的優(yōu)勢(shì)。
在AETDI中,如圖2所示,XML用于標(biāo)記文檔文本,SVG用于標(biāo)記圖形,HML用于嵌入圖像。在系統(tǒng)中,圖形與圖像的不同之處在于,圖形的內(nèi)容被視為一組元素(例如在復(fù)雜的圖形中,其中某些元素可以重復(fù)使用或重復(fù)),而圖像被視為一個(gè)整體,并且無法進(jìn)一步分解。圖形中的嵌入文本也被視為一個(gè)單獨(dú)的元素,可以進(jìn)行搜索。
1.3超文本標(biāo)記語言領(lǐng)域的概念層次結(jié)構(gòu)的分面分類和設(shè)計(jì)
對(duì)信息進(jìn)行分類是一門傳統(tǒng)且至關(guān)重要的學(xué)科。分類將孤立的,不連貫的感官印象轉(zhuǎn)化為可識(shí)別的對(duì)象和重復(fù)出現(xiàn)的模式?,F(xiàn)代文獻(xiàn)分類方法的起源是基于圖書館科學(xué)家最初提出的原理。隨著Web和網(wǎng)絡(luò)的出現(xiàn),信息的組織和分類被視為使人們能夠應(yīng)對(duì)越來越多的他們可以訪問的文檔的關(guān)鍵。已經(jīng)針對(duì)不同的用途開發(fā)了不同類型的分類方案。圖2顯示了如何通過正確的關(guān)系(由約束定義)將信息(在文檔和內(nèi)容級(jí)別上)分類為正確的概念和方面。
2文檔超文本標(biāo)記語言化后的數(shù)據(jù)自動(dòng)提取及處理
文檔到移動(dòng)終端上的時(shí)候其實(shí)是一個(gè)離線文件,通過開發(fā)了特定的APP來顯示轉(zhuǎn)換后的文檔,并在填寫試驗(yàn)數(shù)據(jù)后APP能自動(dòng)提取數(shù)據(jù),對(duì)于數(shù)據(jù)提取其實(shí)現(xiàn)在有2種方式:①原生開發(fā),②混合開發(fā),本文通過對(duì)2個(gè)方式進(jìn)行比較,最后來確定哪種技術(shù)方案適合本次研究課題。
2.1原生方案
當(dāng)應(yīng)用程序需要展示網(wǎng)頁時(shí),而需求上卻不允許打開系統(tǒng)瀏覽器時(shí),安卓為了解決這種需求提供了WebView控件。WebView控件類似于嵌入了一個(gè)瀏覽器,而且原生的WebView是支持本地文件系統(tǒng)打開文本標(biāo)記語言。
本方案最重要的就是內(nèi)容的提取,提取內(nèi)容采用超文本標(biāo)記語言中已經(jīng)用Javascript寫好,所以APP要能提取到表單中的數(shù)據(jù)需要原生代碼去調(diào)用離線文件中的Javascript的代碼。原生webView.loadUrl方法其實(shí)支持調(diào)用離線網(wǎng)頁中的js,但是不能獲取函數(shù)返回的結(jié)果。
提取到離線試驗(yàn)數(shù)據(jù)后,為了方便系統(tǒng)數(shù)據(jù)導(dǎo)入,需要把數(shù)據(jù)寫入到本地的文件系統(tǒng)系統(tǒng)中,對(duì)于原生APP支持操作文件的API就能實(shí)現(xiàn),所以對(duì)文件的支持非常好,API也非常豐富。
2.2混合開發(fā)方案
混合開發(fā)方案采用基于VUE的Uniapp,因?yàn)長ni-app能實(shí)現(xiàn)一次開發(fā),支持適配Android與IOS等平臺(tái),對(duì)于后期維護(hù)非常方便,所以混合開發(fā)內(nèi)容是居于Uniapp來比較的。本地超文本標(biāo)記語言顯示的支持上Uniapp的web-view組件支持,web-view是一個(gè)web瀏覽器組件,可以用來承載網(wǎng)頁的容器。
內(nèi)容提取的支持和原生采用不通的方式,網(wǎng)頁向應(yīng)用發(fā)送消息,在的message事件回調(diào)event.detail.data中接收消息,所以內(nèi)容提取上非常容易實(shí)現(xiàn),不是采用app組件去調(diào)用離線網(wǎng)頁Javascript,而是離線網(wǎng)頁通知的方式,然后app獲取到通知的數(shù)據(jù),所以內(nèi)容提取支持非常好,不單如此umapp還提供了一些調(diào)用app應(yīng)用的函數(shù),所以說非常米方便。
最后就是文件系統(tǒng)的寫入,Uniapp本質(zhì)也是基于H5來實(shí)現(xiàn)APP開發(fā),對(duì)文件系統(tǒng)支持其實(shí)不是非常好,但是也是提供的保存文件到本地的接口,但是接口不是非常完善,但是可以實(shí)現(xiàn)文件的基本操作。
Uniapp實(shí)現(xiàn)文件提取總體流程如下圖3所示。
通過對(duì)上述2個(gè)技術(shù)的比對(duì)總結(jié):離線超文本標(biāo)記語言上顯示上無論是原生還是混合開發(fā)支持上都非常好;在數(shù)據(jù)提取區(qū)域,原生采用原生代碼去調(diào)用離線網(wǎng)頁的JS來實(shí)現(xiàn),js返回的數(shù)據(jù)無法接收,而混合開發(fā)支持離線的網(wǎng)頁支持通知App自生,所以數(shù)據(jù)提取上混合開發(fā)更強(qiáng);文件保存上兩者都支持;綜上3點(diǎn)本文采用混合開發(fā)方案更好,而且混合開發(fā)還有一次開發(fā)支持多端等優(yōu)點(diǎn)。
3文檔信息自動(dòng)提取過程
文中討論AETDI系統(tǒng)的實(shí)施,并重點(diǎn)關(guān)注當(dāng)前研究項(xiàng)目中執(zhí)行的4個(gè)方面的關(guān)鍵問題。它們是文檔結(jié)構(gòu),文檔標(biāo)記,文檔內(nèi)容的提取以及導(dǎo)航機(jī)制的創(chuàng)建。但在此不討論分面分類和結(jié)果發(fā)布的實(shí)現(xiàn),因?yàn)檫@些操作是由作者先前研究中開發(fā)的Waypoint系統(tǒng)執(zhí)行的。
3.1文檔結(jié)構(gòu)的實(shí)施
由于文檔結(jié)構(gòu)的復(fù)雜性,UML類圖已被設(shè)計(jì)為實(shí)現(xiàn)由文檔分解方案定義的文檔元素之間的關(guān)系。圖4是表示物理結(jié)構(gòu)分解方案的UML類圖的頂層結(jié)構(gòu)。從圖5可以看出,文檔具有3個(gè)主要類別:標(biāo)題,正文和注釋。聚集關(guān)系表明標(biāo)題,正文或注釋是文檔的“部分”(菱形指向“整個(gè)”)。根據(jù)文檔正文解釋標(biāo)題的詳細(xì)信息,并且注釋可以補(bǔ)充正文,已經(jīng)在Heading和Body類之間以及Body和Note類之間指定了關(guān)聯(lián)關(guān)系。為每個(gè)類指定的多重性指標(biāo)定義參與關(guān)系的對(duì)象數(shù)。如圖5所示,一個(gè)“正文”對(duì)象可以與一個(gè)或沒有“標(biāo)題”對(duì)象相關(guān),但可以與零個(gè)或多個(gè)“注釋”對(duì)象相關(guān)。一個(gè)標(biāo)題或注釋對(duì)象與一個(gè)“正文”對(duì)象完全相關(guān)。對(duì)于這3個(gè)類的每一個(gè),已經(jīng)定義了兩個(gè)屬性,一個(gè)ID屬性使每個(gè)類都是唯一的,一個(gè)IDREF屬性用于保持另一個(gè)類的ID,從而可以實(shí)現(xiàn)從一個(gè)類到另一個(gè)類的信息導(dǎo)航指南。
Body,Heading和Note類的擴(kuò)展結(jié)構(gòu)。Body是一個(gè)相對(duì)復(fù)雜的類,可以是Part,Chapter,Section,Paragraph,Sentence或Word。Bodv類及其子類之間的繼承關(guān)系意味著Part,Chapter,Section,Section,Sentence和Word類都從Body類繼承其屬性和操作。已經(jīng)在相關(guān)子類之間指定了聚合關(guān)系以施加所需的限制。已根據(jù)Section的類別將反射聚合關(guān)系指定給See-tion類,根據(jù)文檔的復(fù)雜性,可以將Section分解為更小的部分(即小節(jié)或子小節(jié))。圖像屬性已定義為允許在文檔中將文本與圖像實(shí)體相關(guān)聯(lián)。
上面圖5的UML類圖清楚地指定了文檔元素以及根據(jù)文檔分解方案的元素之間的關(guān)系。使用UML類模型定義文檔結(jié)構(gòu)還非常有助于使人們理解長文檔,以便與參與研究項(xiàng)目的每個(gè)人進(jìn)行交流,并在技術(shù)上開發(fā)XML DTD數(shù)據(jù)模型以有效實(shí)施文檔標(biāo)記。
3.2文檔加標(biāo)的實(shí)施
標(biāo)記一詞指代置于文檔中以指示如何解釋(非標(biāo)記)數(shù)據(jù)的代碼或令牌。無需加價(jià),計(jì)算機(jī)就可以通過頻繁計(jì)數(shù)或通過操作員的指示,基于發(fā)現(xiàn)的關(guān)鍵字或短語以某種程度的準(zhǔn)確性來識(shí)別內(nèi)容。但是,文檔標(biāo)記可以毫不含糊地指示可以找到某些內(nèi)容的位置。在信息檢索系統(tǒng)中使用文檔標(biāo)記技術(shù)將獲得更高的準(zhǔn)確性。XML和HML以及SVG(一種用于二維圖形的基于XML的語言)已用于在AETDI中標(biāo)記超文本標(biāo)記語言。本文重點(diǎn)介紹XML標(biāo)記的實(shí)現(xiàn)。在其他地方描述了圖像和圖形的標(biāo)記。在XML文檔中,合法的或不合法的由文檔類型定義(DTD)或模式指定。DTD或模式還建立了文檔有效性的標(biāo)準(zhǔn),可以由專用計(jì)算機(jī)軟件自動(dòng)檢查該標(biāo)準(zhǔn)。如果計(jì)算機(jī)軟件可用于驗(yàn)證和反饋結(jié)構(gòu)復(fù)雜的非常長的超文本標(biāo)記語言(例如,500P的報(bào)告)上的標(biāo)記錯(cuò)誤,那么這將是一個(gè)優(yōu)勢(shì),否則這將非常困難甚至無法實(shí)現(xiàn)校驗(yàn)。因此,DTD或模式的生成是XML標(biāo)記的核心。在本文中,正是DTD數(shù)據(jù)模型將UML類圖中的文檔結(jié)構(gòu)信息傳輸?shù)娇赡軒в袠?biāo)記的XML文檔中。
DTD定義中的一個(gè)重要概念是創(chuàng)建元素內(nèi)容模型,該模型指示允許元素具有哪些內(nèi)容,例如子元素,文本數(shù)據(jù),空元素或任何內(nèi)容。如圖6所示的Body類相對(duì)應(yīng)的DTD的摘錄。在上面的DTD數(shù)據(jù)模型中,已經(jīng)創(chuàng)建了兩種重要類型的內(nèi)容模型來反映兩個(gè)重要的關(guān)系。為了捕獲DTD中Body元素及其子元素之間的繼承關(guān)系,內(nèi)容模型已定義為<!-- ELEMENT body(部分|章|節(jié)|段落|句子|單詞)*-->以支持子元素的選擇。因此,為文檔創(chuàng)建適當(dāng)?shù)腄TD時(shí),應(yīng)牢記兩個(gè)重要事項(xiàng):首先,元素的內(nèi)容模型應(yīng)明確聲明子元素之間的關(guān)系(例如順序或選擇)。其次,必須正確指定子元素的數(shù)量(例如零個(gè)或一個(gè),或一對(duì)多)。此處創(chuàng)建的DTD數(shù)據(jù)模型提供了XML標(biāo)記的語法規(guī)則。有了DTD數(shù)據(jù)模型后,完成XML標(biāo)記的其余工作需要將標(biāo)簽(DTD中元素指定的名稱)插入文檔的正確位置,這可以手動(dòng)完成,自動(dòng)或通過計(jì)算機(jī)程序自動(dòng)執(zhí)行。
4實(shí)驗(yàn)與結(jié)果分析
AETDI專為管理任何工程文檔(包括工程圖)而開發(fā)。文檔內(nèi)容可以是文本,圖像或圖形。實(shí)驗(yàn)以CADCAM教科書作為1個(gè)長文檔的示例,以及巴斯大學(xué)賽車隊(duì)提供的一組賽車項(xiàng)目海報(bào)作為許多工程文檔的緊湊表示(包含正式文檔的內(nèi)容)結(jié)構(gòu),其中包含各種文本和表格,以及各種說明性材料,例如照片,繪圖和圖表等)。本文將探討進(jìn)行的實(shí)驗(yàn),其中使用了一系列問題來說明AETDI對(duì)工程師的作用。它著重于分解方案的使用。
總而言之,此實(shí)驗(yàn)研究表明,AETDI在某種意義上比普通信息系統(tǒng)先進(jìn):
用戶可以通過對(duì)結(jié)構(gòu)和內(nèi)容(不是僅內(nèi)容)進(jìn)行復(fù)雜的查詢來檢索非常特定的文檔內(nèi)容。概念樹中的分解方案表示結(jié)構(gòu),如圖7所示,超文本標(biāo)記語言主題索引和關(guān)鍵字搜索表示內(nèi)容。ED-CMS中實(shí)施的分解方案意義重大,因?yàn)榫臀臋n結(jié)構(gòu)而言,不同類別的信息對(duì)文檔用戶而言具有同等重要的意義。例如,書本章節(jié)標(biāo)題中的“產(chǎn)品建?!狈祷亟o讀者的意義遠(yuǎn)大于書帖本身,在圖形標(biāo)題中找到的“電動(dòng)機(jī)驅(qū)動(dòng)器”比在書帖中找到的“電動(dòng)機(jī)驅(qū)動(dòng)器”也是如此。章節(jié)文字。因此,在AETDI中實(shí)施分解方案對(duì)用戶來說意義重大,尤其是當(dāng)用戶使用分解方案從結(jié)構(gòu)復(fù)雜的長文檔中訪問和檢索特定內(nèi)容時(shí)。
5結(jié)語
文章討論了超文本標(biāo)記語言的文檔信息自動(dòng)提取。文檔分解方案的復(fù)雜性和超文本標(biāo)記語言的概念樹是AETDI的強(qiáng)大功能,但同時(shí)也是其最大的局限性。該系統(tǒng)需要大量的文檔結(jié)構(gòu)方面的專業(yè)知識(shí)來定義分解方案,并且需要相關(guān)的知識(shí)來讓文檔標(biāo)記作者正確地掌握和應(yīng)用這些方案。此外,由于系統(tǒng)采用Waypoint平臺(tái)(基于多面分類機(jī)制),因此檢索到的信息結(jié)果將極大地依賴于設(shè)計(jì)概念樹的人員的專業(yè)知識(shí)以及使信息分類過程自動(dòng)化的約束條件。期望這樣的人應(yīng)該對(duì)超文本標(biāo)記語言領(lǐng)域有豐富的知識(shí)。
參考文獻(xiàn)
[1]匡成寶.HTML語言的網(wǎng)頁制作方法與技巧探討[J].電腦迷,2017(03):190-191.
[2]羅正蓉,范靈.應(yīng)用HTML和css制作網(wǎng)頁[J].科技展望,2016(26):10.
[3]朱敏.JavaScript在HTML中的應(yīng)用探討[J].科技視界,2016(24):227-228.
[4]劉霜,潘立武.HTML發(fā)展應(yīng)用中的探索與研究[J].信息與電腦(理論版).2016(11):72-73.
[5]魏佳欣,葉飛躍.基于HTML特征與層次聚類的Web查詢接口發(fā)現(xiàn)[J].計(jì)算機(jī)工程,2016(02):56-61.
[6] Choi,H.,&Sim,S..(2015).A studv on efficiency ofmarkup language using dom tree.Wireless Personal Com-munications, 86(1),143-163.
收稿日期:2020-01-02
作者簡介:佘?。?973-),男,漢族,高級(jí)工程師,研究方向:電力企業(yè)信息化。
基金項(xiàng)目:南方電網(wǎng)調(diào)峰調(diào)頻發(fā)電有限公司科技項(xiàng)目(STKJXM20180065)