亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一種新聞類WORD格式文件數(shù)據(jù)抽取算法研究

        2022-07-06 01:17:58張志強王偉鈞張修軍
        關(guān)鍵詞:數(shù)據(jù)文件批量數(shù)據(jù)庫

        張志強,王偉鈞 ,張修軍,施 達(dá)

        (成都大學(xué) 計算機學(xué)院, 四川 成都 610106)

        0 引 言

        LexisNexis是著名的法律類、新聞報刊類及財務(wù)類商業(yè)信息數(shù)據(jù)庫.從LexisNexis中產(chǎn)生的信息文件,如新聞類信息文件,多以WORD文件格式保存.由于有時需要對這些時事新聞信息進行搜索和數(shù)據(jù)分析,常用的方式是直接在WORD文件中進行新聞信息的人工檢索和分析,但這種方式效率較低.為了提高信息檢索和處理效率,本研究考慮首先從新聞類WORD文件中抽取新聞信息數(shù)據(jù),構(gòu)建新聞信息數(shù)據(jù)庫,然后在數(shù)據(jù)庫中進行數(shù)據(jù)快速檢索和數(shù)據(jù)挖掘分析處理.

        針對數(shù)據(jù)抽取技術(shù),目前已有眾多文獻進行了相關(guān)研究.針對Web環(huán)境中網(wǎng)頁數(shù)據(jù)特征,文獻[1-4]結(jié)合大數(shù)據(jù)技術(shù)提出了利用XPath、改進的數(shù)據(jù)記錄識別算法及計算相似度為依據(jù)的多種策略進行網(wǎng)頁數(shù)據(jù)抽取操作;針對關(guān)系型數(shù)據(jù)庫系統(tǒng),文獻[5-7]提出了利用Redo日志數(shù)據(jù)抽取模型、時間戳方式及深度學(xué)習(xí)的降維技術(shù)等多種策略進行數(shù)據(jù)抽取操作;針對Excel格式數(shù)據(jù)文件,文獻[8]提出了一種利用Aspose.Cell插件進行數(shù)據(jù)抽取操作;文獻[9]基于神經(jīng)網(wǎng)絡(luò)方法論述了神經(jīng)網(wǎng)絡(luò)事件抽取技術(shù)的發(fā)展方向;文獻[10-11]探討了基于知識圖譜構(gòu)建的知識抽取技術(shù)的發(fā)展方向,也提出了基于知識圖譜技術(shù)的國內(nèi)關(guān)鍵詞抽取算法進行CNKI數(shù)據(jù)庫抽取文獻數(shù)據(jù)的操作;文獻[12]分析了信息抽取技術(shù)在農(nóng)業(yè)領(lǐng)域知識服務(wù)中的應(yīng)用前景;文獻[13]提出了一種從PDF文件中抽取表格數(shù)據(jù)的方法,通過該方法實現(xiàn)了數(shù)據(jù)從PDF文件導(dǎo)入數(shù)據(jù)庫的過程;文獻[14]提出了一種數(shù)值信息抽取算法,并將該算法應(yīng)用于數(shù)據(jù)侵權(quán)追蹤系統(tǒng)的設(shè)計和實現(xiàn);文獻[15]提出了一種基于醫(yī)學(xué)文獻命名實體識別算法模型,利用該算法模型對醫(yī)學(xué)文獻信息進行抽取,從而實現(xiàn)了醫(yī)學(xué)文獻標(biāo)注管理功能;文獻[16]利用正則表達(dá)式對公共文化服務(wù)機構(gòu)的年報數(shù)據(jù)建立模板進行數(shù)據(jù)匹配和抽取操作,實現(xiàn)了多源數(shù)據(jù)環(huán)境下的年報數(shù)據(jù)集成工作;文獻[17]提出了一種增量抽取數(shù)據(jù)算法,利用該算法實現(xiàn)了醫(yī)院數(shù)據(jù)抽取到大數(shù)據(jù)平臺的過程;文獻[18]提出了一種基于哈工大語言技術(shù)平臺和雙向編碼器的數(shù)據(jù)抽取方法,利用該方法實現(xiàn)了文本內(nèi)容的抽取過程.

        雖然以上眾多文獻對數(shù)據(jù)抽取技術(shù)進行了探討,但由于從LexisNexis中產(chǎn)生的新聞類WORD文件格式不同于其他數(shù)據(jù)文件格式,已有的數(shù)據(jù)抽取技術(shù)不能用于這類數(shù)據(jù)文件.為此,本研究設(shè)計新的數(shù)據(jù)文件抽取算法,實現(xiàn)對這些新聞類WORD格式文件的數(shù)據(jù)抽取操作,從而為后期新聞信息數(shù)據(jù)的快速檢索和數(shù)據(jù)挖掘分析提供基礎(chǔ)數(shù)據(jù)源.

        1 算法設(shè)計

        新聞類WORD數(shù)據(jù)文件中新聞內(nèi)容信息、新聞索引信息、甚至文件格式信息等往往混合在一起,使得在抽取數(shù)據(jù)時需要先解決非新聞內(nèi)容信息的清洗問題.另外,新聞信息數(shù)據(jù)源往往會產(chǎn)生大量的信息數(shù)據(jù)文件來保存新聞信息.抽取數(shù)據(jù)時,為了提高批量數(shù)據(jù)文件讀取的效率,也需要能自動快速讀取多文件.為了解決以上問題,本研究設(shè)計了一種有效的新聞類WORD格式文件數(shù)據(jù)抽取算法,利用該算法實現(xiàn)非新聞內(nèi)容信息的清洗及批量數(shù)據(jù)文件的快速自動抽取,并構(gòu)建數(shù)據(jù)庫.

        1.1 新聞類WORD文件抽取策略

        從LexisNexis數(shù)據(jù)庫產(chǎn)生的新聞類WORD格式文件的內(nèi)容包含總新聞索引信息和多篇新聞.新聞索引信息與新聞?wù)男畔ORD格式分別如圖1與圖2所示,其中每篇新聞格式由新聞標(biāo)題、新聞來源、獲取新聞的時間、新聞內(nèi)容長度(單詞數(shù))、新聞熱點、新聞?wù)膬?nèi)容、新聞圖片引源信息、新聞?wù)慕Y(jié)束標(biāo)記及新聞文章結(jié)束標(biāo)記等構(gòu)成.若要抽取文件中指定的多篇新聞信息數(shù)據(jù),則需要先識別和清洗無用的信息數(shù)據(jù).

        圖1 新聞索引信息WORD格式

        圖2 新聞?wù)男畔ORD格式

        根據(jù)WORD格式文件內(nèi)容,算法設(shè)計的各部分信息識別關(guān)鍵詞如表1所示.

        表1 算法設(shè)計的各部分信息識別關(guān)鍵詞

        表1中,頁眉信息標(biāo)記、新聞長度標(biāo)記、新聞熱點標(biāo)記、新聞圖片引源信息標(biāo)記、新聞?wù)慕Y(jié)束標(biāo)記等會隨著WORD文件中新聞信息的變化而變化.這些標(biāo)記采用正則表達(dá)式表示,在算法中以正則表達(dá)式進行匹配搜索.

        新聞類WORD文件抽取策略主要采用識別關(guān)鍵詞的方式清洗非新聞內(nèi)容信息數(shù)據(jù)和抽取新聞內(nèi)容信息數(shù)據(jù).具體的抽取策略如下:1)將WORD文件中的所有數(shù)據(jù)讀取到設(shè)定的內(nèi)存緩沖區(qū),對緩沖區(qū)清洗空行數(shù)據(jù),刪除空行字符串;2)識別總新聞索引信息結(jié)束標(biāo)記,清洗文件中的總新聞索引信息頭,刪除文件頭到總新聞索引信息結(jié)束標(biāo)記之間的字符數(shù)據(jù);3)識別頁眉信息標(biāo)記,清洗頁眉信息,刪除頁眉字符串,然后抽取新聞標(biāo)題和獲取新聞的時間數(shù)據(jù);4)識別新聞長度標(biāo)記,抽取新聞長度數(shù)據(jù);5)識別新聞熱點標(biāo)記,抽取新聞熱點數(shù)據(jù);6)識別新聞?wù)臉?biāo)記,作為抽取新聞內(nèi)容信息的起始位置來抽取新聞信息數(shù)據(jù),直到識別到新聞圖片引源信息標(biāo)記或識別到新聞?wù)慕Y(jié)束標(biāo)記(有些新聞文章沒有新聞圖片引源信息標(biāo)記)為止;7)識別新聞文章結(jié)束標(biāo)記,結(jié)束1篇新聞信息數(shù)據(jù)的抽取操作,并將抽取的新聞標(biāo)題信息、獲取新聞的時間數(shù)據(jù)、新聞長度數(shù)據(jù)、新聞熱點數(shù)據(jù)、新聞?wù)男畔⒌冉M合成SQL語句,寫入新聞信息數(shù)據(jù)庫;8)轉(zhuǎn)到3)繼續(xù)抽取下篇新聞信息數(shù)據(jù),直到緩沖區(qū)中的字符數(shù)據(jù)全部處理完為止.

        新聞類WORD文件抽取策略如圖3所示.

        圖3 新聞類WORD文件抽取策略

        1.2 批量文件自動搜索讀取策略

        因為新聞類別的多樣性和新聞獲取時間的多點性,將有大量新聞類WORD格式文件從LexisNexis數(shù)據(jù)庫中產(chǎn)生.為了提高數(shù)據(jù)抽取的效率,本研究需要考慮批量文件的自動搜索讀取和數(shù)據(jù)抽取操作,為此設(shè)計了批量文件自動搜索讀取策略.

        該策略中,首先將需要抽取的批量新聞類WORD數(shù)據(jù)文件復(fù)制到指定的磁盤工作目錄,根據(jù)新聞類別或新聞獲取時間來構(gòu)建該磁盤工作目錄的子目錄結(jié)構(gòu),再在子目錄結(jié)構(gòu)中放置各類新聞類WORD數(shù)據(jù)文件,獲取該目錄結(jié)構(gòu)下所有的WORD文件地址信息,將每個WORD文件的地址信息(絕對路徑名+文件名構(gòu)成的字符串信息)寫入XML文件緩保存.本研究采用XML文件緩保存的目的是為后期文件自動讀取而提供批量文件地址信息.后期文件數(shù)據(jù)抽取操作如下:首先讀取XML文件,將每個WORD文件的地址信息寫入內(nèi)存的列表變量中;然后依次遍歷列表變量,每次遍歷獲取1個WORD文件的地址信息,根據(jù)1.1節(jié)的新聞類WORD文件抽取策略進行文件數(shù)據(jù)抽取操作,直到列表變量中所有文件地址信息遍歷結(jié)束,則表明完成了批量文件自動搜索讀取操作.整個批量文件自動搜索讀取策略如圖4所示.

        圖4 批量文件自動搜索讀取策略

        2 算法實現(xiàn)

        本研究提出的算法實現(xiàn)的關(guān)鍵是批量文件自動搜索讀取策略和WORD文件數(shù)據(jù)抽取策略.具體的算法代碼結(jié)構(gòu)如下:

        Algorithm1 WORD_Data_extraction(filename_parameter,filename_xml)

        參數(shù)說明:filename_ parameter: 工作環(huán)境配置參數(shù)文件名

        filename_xml: 存儲WORD文件地址信息的XML文件名

        begin

        從filename_ parameter文件中讀取磁盤工作目錄;

        根據(jù)磁盤工作目錄地址從磁盤中獲取工作目錄中所有

        WORD文件的地址信息;

        將WORD文件的地址信息寫入filename_xml文件中;

        從filename_ parameter文件中讀取數(shù)據(jù)庫參數(shù);

        根據(jù)數(shù)據(jù)庫參數(shù)構(gòu)建指定數(shù)據(jù)庫;

        從filename_xml文件中讀取WORD文件地址信息,

        并寫入內(nèi)存列表變量L;

        end

        3 實驗測試

        本研究采用Java實現(xiàn)Algorithm1算法,使用SQL Server 2008 R2設(shè)計數(shù)據(jù)庫系統(tǒng),利用Apache的POI框架3.17版本對WORD文件進行讀寫.測試環(huán)境為Windows7(64-bit),CPU為Intel core i5,內(nèi)存為12 GB.實驗測試的樣本文件為從LexisNexis數(shù)據(jù)庫產(chǎn)生的15個新聞類WORD文件,其分類如表2所示.從表2可知,將批量新聞類文件按照生成時間進行歸類,每個樣本文件包含多篇新聞,樣本文件包含的新聞總篇數(shù)為2 210.

        表2 樣本文件分類表

        算法運行的配置參數(shù)設(shè)置在XML文件中,文件內(nèi)容如圖5所示.

        圖5 算法運行的配置參數(shù)

        從圖5可知,“C:13”為設(shè)置的磁盤工作目錄,“l(fā)ocalhost”為算法訪問的數(shù)據(jù)庫服務(wù)器地址,“sa”為數(shù)據(jù)庫服務(wù)器登錄名,“cdu”為數(shù)據(jù)庫服務(wù)器登錄密碼,“1433”為算法訪問數(shù)據(jù)庫服務(wù)器的端口號,“article_matching”為存儲數(shù)據(jù)的數(shù)據(jù)庫名.

        算法產(chǎn)生的XML文件內(nèi)容如圖6所示.從圖6可知,根據(jù)磁盤工作目錄,算法自動搜索磁盤中的新聞類文件,并將這些文件的批量地址信息寫入XML文件中保存,為算法后期數(shù)據(jù)抽取階段提供批量文件數(shù)據(jù)源地址.

        圖6 算法產(chǎn)生的XML文件內(nèi)容

        表3為算法生成的新聞信息表.

        表3 新聞信息表

        算法對樣本文件進行自動讀取并抽取新聞數(shù)據(jù),將抽取的新聞數(shù)據(jù)寫入數(shù)據(jù)庫“article_matching”的新聞信息表中.算法抽取新聞數(shù)據(jù)創(chuàng)建的數(shù)據(jù)表如圖7所示.從圖7可知,數(shù)據(jù)表包含2 210條記錄數(shù)據(jù).每條記錄數(shù)據(jù)存儲1篇新聞信息,其中article_id字段自動產(chǎn)生數(shù)據(jù)值.算法會根據(jù)每篇新聞文章信息進行抽取,并寫入對應(yīng)的title、date、length、highlight及articletext等字段中.

        圖7 算法抽取新聞數(shù)據(jù)創(chuàng)建的數(shù)據(jù)表

        4 結(jié) 論

        對新聞類WORD文件內(nèi)容進行有效地數(shù)據(jù)抽取并構(gòu)建數(shù)據(jù)庫是后期提高數(shù)據(jù)檢索和新聞數(shù)據(jù)分析操作效率的關(guān)鍵.本研究設(shè)計的數(shù)據(jù)抽取算法能有效地完成新聞類WORD文件內(nèi)容的無用數(shù)據(jù)清洗和有用數(shù)據(jù)抽取操作,且能進行批量文件的自動讀取和抽取操作并構(gòu)建數(shù)據(jù)庫,最終提高了數(shù)據(jù)抽取操作的效率.

        猜你喜歡
        數(shù)據(jù)文件批量數(shù)據(jù)庫
        批量提交在配置分發(fā)中的應(yīng)用
        數(shù)據(jù)文件恢復(fù)專題問答
        數(shù)據(jù)文件安全管控技術(shù)的研究與實現(xiàn)
        SQL數(shù)據(jù)文件恢復(fù)工具
        數(shù)據(jù)庫
        財經(jīng)(2017年2期)2017-03-10 14:35:35
        數(shù)據(jù)庫
        財經(jīng)(2016年15期)2016-06-03 07:38:02
        數(shù)據(jù)庫
        財經(jīng)(2016年3期)2016-03-07 07:44:46
        數(shù)據(jù)庫
        財經(jīng)(2016年6期)2016-02-24 07:41:51
        淺議高校網(wǎng)銀批量代發(fā)
        基于AUTOIT3和VBA的POWERPOINT操作題自動批量批改
        人妻丝袜中文无码av影音先锋专区| 国产精品亚洲ΑV天堂无码| 亚洲中文字幕永久网站| 久久精品亚洲成在人线av乱码| 久久久中文久久久无码| 亚洲欧洲精品成人久久曰影片| 国内精品福利在线视频| 日本女优免费一区二区三区| 狠狠躁天天躁无码中文字幕图| 色八区人妻在线视频免费| 在线观看亚洲AV日韩A∨| 一级黄片草逼免费视频| 欧美最猛性xxxx| 熟妇高潮一区二区三区| 久久成人永久免费播放| 久久中文字幕av一区二区不卡| 国产成人无码一区二区三区| 国产免费丝袜调教视频| 成人日韩av不卡在线观看| 男人的天堂av你懂得| а天堂8中文最新版在线官网| 国产欧美精品区一区二区三区| 亚洲色欲色欲欲www在线| 国产主播性色av福利精品一区| 国产成人无码18禁午夜福利p| 狠狠色狠狠色综合久久第一次| 久久久亚洲精品一区二区| 国产日韩精品中文字幕| 欧美裸体xxxx极品少妇| 久久久99精品成人片中文字幕| 人妻秘书被社长浓厚接吻| 午夜dy888国产精品影院| 激情亚洲一区国产精品| 久久狠狠爱亚洲综合影院| 精品国产一区二区三区18p| 幻女bbwxxxx在线视频| 99久久国产亚洲综合精品| 熟女免费观看一区二区| 成人影院yy111111在线| 亚洲免费视频播放| 中文字幕一区二区在线看|