亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        PDF文件的表格抽取研究綜述

        2021-07-16 08:02:18鄧建新葉志興張海平
        關(guān)鍵詞:單元格表格文獻(xiàn)

        唐 銳 鄧建新 葉志興 張海平

        (廣西大學(xué)廣西制造系統(tǒng)與先進(jìn)制造技術(shù)重點(diǎn)實(shí)驗(yàn)室 廣西 南寧 530000) (廣西大學(xué)機(jī)械工程學(xué)院 廣西 南寧 530000)

        0 引 言

        便攜式文檔格式(PDF)由于其跨平臺(tái)的通用性和文檔原稿完全再現(xiàn)的獨(dú)特優(yōu)勢(shì),廣泛應(yīng)用于各行各業(yè)的電子文件交互中,成為了不可替代的電子文檔標(biāo)準(zhǔn)格式之一,特別是各領(lǐng)域的科學(xué)出版物(如期刊雜志、學(xué)位論文和會(huì)議論文集等)的電子文獻(xiàn)普遍采用PDF傳輸和存儲(chǔ)。其中,表格作為最常見的可視化、高信息密度表示和構(gòu)造數(shù)據(jù)的方法之一[1-2],經(jīng)常作為PDF文獻(xiàn)中數(shù)據(jù)呈現(xiàn)的主要方式和載體,如材料科學(xué)文獻(xiàn)中材料成分?jǐn)?shù)據(jù)、實(shí)驗(yàn)結(jié)果的表達(dá)、財(cái)經(jīng)文獻(xiàn)中金融數(shù)據(jù)的表達(dá)等。為提高對(duì)這些數(shù)據(jù)的處理效率,實(shí)現(xiàn)對(duì)數(shù)據(jù)的系統(tǒng)管理、共享和重復(fù)有效綜合利用(如實(shí)現(xiàn)數(shù)據(jù)挖掘、構(gòu)建數(shù)據(jù)驅(qū)動(dòng)服務(wù))及知識(shí)提取,經(jīng)常需要設(shè)法取得這些表格中數(shù)據(jù),即進(jìn)行表格抽取。尤其是隨著大數(shù)據(jù)技術(shù)的成熟和在各行業(yè)的滲透,這些PDF中的表格數(shù)據(jù)作為相關(guān)領(lǐng)域大數(shù)據(jù)的主要來源,越來越受到對(duì)應(yīng)領(lǐng)域的大數(shù)據(jù)應(yīng)用的重視,對(duì)PDF電子文件(特別是科技文獻(xiàn))進(jìn)行表格抽取的需求也愈發(fā)強(qiáng)烈,推動(dòng)了對(duì)PDF文件表格抽取技術(shù)的研究。

        為此,本文通過綜合中國(guó)知網(wǎng)、萬(wàn)方數(shù)據(jù)、Web of Science、ACM Digital Library和IEEE/IEE Electronic Library中有關(guān)PDF表格抽取技術(shù)的相關(guān)文獻(xiàn),收集了近二十年來關(guān)于PDF表格抽取研究的成果,介紹了最新的表格抽取系統(tǒng)研究進(jìn)展,總結(jié)了PDF文獻(xiàn)的表格抽取的主要方法,分析了不同方法間的優(yōu)勢(shì)和不足,指出了存在的問題和發(fā)展方向。

        1 PDF表格抽取的總體思路

        表格抽取雖是信息抽取(Information Extraction,IE)中必不可少的一環(huán),但相關(guān)技術(shù)的發(fā)展遠(yuǎn)不及IE全面和成熟,特別是針對(duì)PDF文件的表格抽取技術(shù)仍存在較多的缺陷。由于表格可存在于不同數(shù)據(jù)源中,而在不同格式類型的數(shù)據(jù)源中表格對(duì)象的存儲(chǔ)特點(diǎn)完全不同,因此針對(duì)不同格式進(jìn)行表格抽取的方法也基本不同。目前絕大部分表格抽取研究集中在圖像和Web數(shù)據(jù)源格式,而涉及PDF表格抽取的研究占比相對(duì)較少。國(guó)內(nèi)有少量文獻(xiàn)和專利研究了PDF表格抽取[3-17],但更多是關(guān)于PDF實(shí)體信息抽取。

        表格既是一種可視化的知識(shí)表達(dá)模型,也能夠簡(jiǎn)單明了地傳達(dá)復(fù)雜數(shù)據(jù)之間的邏輯關(guān)系,同時(shí)具有物理結(jié)構(gòu)和邏輯結(jié)構(gòu)。物理結(jié)構(gòu)描述了表格區(qū)域在文本中的具體位置,邏輯結(jié)構(gòu)定義了表格的類型和單元格之間的關(guān)系。因此,表格抽取的過程主要包括:

        ① 表格檢測(cè),即定位到表格內(nèi)容對(duì)應(yīng)的文檔中位置。

        ② 表格結(jié)構(gòu)還原,即重構(gòu)表格的行和列,確定單元格數(shù)據(jù)之間的邏輯關(guān)系。對(duì)這兩個(gè)過程用不同的處理方式便形成了表格抽取的不同思路。當(dāng)前針對(duì)PDF的表格抽取研究出現(xiàn)了圖1所示的三種主要的思路。

        圖1 PDF表格抽取的研究思路

        (1) 轉(zhuǎn)化為標(biāo)記語(yǔ)言格式來提取表格數(shù)據(jù)。PDF是無標(biāo)記的文檔結(jié)構(gòu),對(duì)表格沒有明顯的標(biāo)識(shí)符,僅僅是文字和線條的無序集合。但標(biāo)準(zhǔn)通用標(biāo)記語(yǔ)言(Standard Generalized Markup Language,SGML)對(duì)表格有明確的標(biāo)簽,因此,可借助工具將PDF轉(zhuǎn)換為HTML或XML等標(biāo)記語(yǔ)言的Web格式,然后依賴標(biāo)記構(gòu)建隱馬爾可夫等模型(Hidden Markov Model,HMM)識(shí)別表格[18-20]并抽取信息。Pdf2table[1]是以這種思路研發(fā)的、較早的、完整的表格抽取系統(tǒng),通過pdftohtml工具獲得PDF表格并以結(jié)構(gòu)化數(shù)據(jù)格式(XML)存儲(chǔ)表格數(shù)據(jù),但該系統(tǒng)嚴(yán)重受限于pdftohtml返回的結(jié)果。根據(jù)標(biāo)記數(shù)據(jù)進(jìn)行表格信息抽取的方法又大致可以分為基于啟發(fā)式規(guī)則、基于本體知識(shí)、基于語(yǔ)義或數(shù)據(jù)特征三大類。這種研究思路依賴于學(xué)者自己對(duì)表格特征的理解和定義,需要在恰當(dāng)?shù)奈恢脼楸砀駜?nèi)容加

        標(biāo)簽,轉(zhuǎn)換的過程中很容易丟失必要的信息,從而導(dǎo)致單元格數(shù)據(jù)之間的邏輯關(guān)系錯(cuò)誤。

        (2) 將PDF轉(zhuǎn)換為圖片格式,依賴圖像處理和字符識(shí)別技術(shù)進(jìn)行抽取。由于圖像處理相關(guān)技術(shù)日益成熟,從圖像中分離表格信息的研究最多,主要根據(jù)表格框線特征和像素特征實(shí)現(xiàn)表格區(qū)域檢測(cè)定位[21],利用光學(xué)字符識(shí)別(Optical Character Recognition,OCR)技術(shù)提取表格數(shù)據(jù)[22-27],當(dāng)前越來越多的研究引入機(jī)器學(xué)習(xí)模型對(duì)表格抽取過程中的關(guān)鍵技術(shù)(如表格定位和表格重構(gòu)算法)進(jìn)行改進(jìn)和完善。但該方法對(duì)文件轉(zhuǎn)換后的清晰度有較高要求,且必須有表格實(shí)線才能正確地分離單元格信息[3],對(duì)三線表和表格行列不規(guī)則合并的情況卻不能實(shí)現(xiàn)理想的表格結(jié)構(gòu)和數(shù)據(jù)邏輯關(guān)系還原,而這樣的表在科技文獻(xiàn)PDF中比較常見。

        (3) 直接針對(duì)PDF文件的元數(shù)據(jù)設(shè)計(jì)表格抽取算法。PDF1.7在2008年1月正式成為ISO標(biāo)準(zhǔn)(ISO 32000),其格式本身包含了大量計(jì)算機(jī)可讀的元數(shù)據(jù)信息。比如PDF內(nèi)容流(Content Stream)中包含了一系列描述頁(yè)面外觀和其他圖形實(shí)體是如何呈現(xiàn)給用戶的指令。直接利用這些信息設(shè)計(jì)算法,可定位表格區(qū)域并實(shí)現(xiàn)表格抽取。一般需要借助PDF文件處理工具解碼PDF流對(duì)象,依賴于PDF元數(shù)據(jù)中的文本特征和圖形特征進(jìn)行表格識(shí)別并提取。

        前兩種研究思路需要對(duì)PDF格式進(jìn)行轉(zhuǎn)換。其中HTML需要對(duì)表格增加特別的標(biāo)記,過程相對(duì)繁瑣。而圖像處理的相關(guān)技術(shù)比較成熟,因此也是當(dāng)前表格抽取的主要技術(shù),金山WPS等眾多軟件或百度供應(yīng)商都提供了對(duì)應(yīng)的支持工具,但也正因?yàn)槠湟蕾囉趫D像技術(shù),一般需要通過手動(dòng)[4]或人機(jī)交互方式[5]識(shí)別表格,自動(dòng)化程度也受到影響。同時(shí)文件格式轉(zhuǎn)換的過程中難免丟失信息或引入噪聲,使抽取效果大打折扣。相比之下第三種思路更容易保證表格數(shù)據(jù)結(jié)構(gòu)信息的完整性,容易實(shí)現(xiàn)自動(dòng)化。尤其是自2005年Adobe推出PDF1.6以來,出現(xiàn)了很多直接利用PDF文件信息即第三種思路的表格抽取研究,又主要集中在表格抽取的算法設(shè)計(jì)和性能評(píng)估兩個(gè)方面,以下重點(diǎn)總結(jié)第三種思路下這兩方面的研究進(jìn)展。

        2 基于PDF元數(shù)據(jù)的表格抽取研究進(jìn)展

        2.1 表格抽取的算法設(shè)計(jì)

        有效檢測(cè)文檔中的表格區(qū)域,實(shí)現(xiàn)表格準(zhǔn)確定位是進(jìn)行表格數(shù)據(jù)提取的關(guān)鍵一步。根據(jù)表格定位算法設(shè)計(jì)的出發(fā)點(diǎn)不同,可將現(xiàn)有的基于PDF元數(shù)據(jù)的表格抽取研究分為基于表格布局特征和基于啟發(fā)式與機(jī)器學(xué)習(xí)結(jié)合的方法兩大類。

        2.1.1基于表格布局特征的抽取方法

        表格具有強(qiáng)烈的視覺效果和完全不同于正文的內(nèi)容布局,人們一眼就能從數(shù)千萬(wàn)個(gè)頁(yè)面中迅速判斷并定位表格,但是計(jì)算機(jī)不具備這樣的識(shí)別能力。目前PDF中的表格按照框線類型可分為三大類:同時(shí)具有橫線和豎線的全框線表格,只包含橫線的表格(比如常見的三線表)和橫豎線任意缺失的表格。同一領(lǐng)域內(nèi)的表格在結(jié)構(gòu)和布局上具有一定程度的相似性,如行或列中的數(shù)據(jù)類型和精度保持一致、行和列的完全填充、單元格之間大量的留白等,學(xué)者們?cè)噲D根據(jù)這樣的內(nèi)容布局特征實(shí)現(xiàn)表格抽取。通過將文本按一定規(guī)則切分為文本塊,聚類成候選表格區(qū)域,然后結(jié)合預(yù)定義的表格布局規(guī)則實(shí)現(xiàn)對(duì)候選區(qū)域篩選。如2018年6月更新的Tabula表格抽取系統(tǒng)[28]是這種方式的代表,但其自動(dòng)定位表格區(qū)域的準(zhǔn)確性不高,更依賴于手動(dòng)框選表格區(qū)域。

        根據(jù)每個(gè)人抽象出的不同緯度的內(nèi)容布局特征,定義不同的文本分割、聚類和篩選規(guī)則,可大致分為圖2所示的三類表格抽取方法。

        圖2 基于表格布局特征的表格抽取原理示意圖

        (1) 基于表格的整體布局。從整體上看,表格就是由若干數(shù)據(jù)格子分門別類進(jìn)行排序組合,以便于統(tǒng)計(jì)和查閱。相比正文段落的字符密度,表格行的數(shù)據(jù)密度相對(duì)較小,呈現(xiàn)松散且有序。根據(jù)松散性和行間距,可將頁(yè)面上文本的字符按照一定規(guī)則分割為不同的文本區(qū)域,預(yù)設(shè)表格布局定義[6-7]對(duì)其進(jìn)行篩選,獲得可能的表格區(qū)域。如文獻(xiàn)[27]定義了三種常見的表格布局,提出了一種基于矩形包容原則的搜索方法。根據(jù)表格布局規(guī)則(比如表格的行在高度上應(yīng)該是一致的)來過濾已找到的候選表。但是該算法受限于預(yù)先定義的表格布局,而且輸出結(jié)果存在大量的假性表格。

        (2) 基于表格框線。表格的框線形式存在多樣性,但實(shí)際應(yīng)用(尤其是科技文獻(xiàn))中一般不存在沒有任何一條橫豎線的無框線表,應(yīng)用最多的是三線表。線條可能作為單元格數(shù)據(jù)間的分割線,也可能是劃分表格區(qū)域和其他內(nèi)容的邊界,因此可利用表格框線界定表格區(qū)域[9]。PDF標(biāo)準(zhǔn)規(guī)范中的線條被單獨(dú)封裝在圖形對(duì)象中,可通過篩選直線或矩形繪制命令[7-8]找到相應(yīng)的線條特征。該方法相比于只利用布局特征的方法有更大的優(yōu)勢(shì),但是對(duì)圖形對(duì)象繪制路徑信息提取的完整度有較高要求,否則會(huì)出現(xiàn)表格誤判。

        文獻(xiàn)[8]結(jié)合了視覺分隔符(包括橫豎線和表格中無規(guī)則的空白)和內(nèi)容布局結(jié)構(gòu)分析實(shí)現(xiàn)表格定位。總體來看,基于表格框線特征的抽取方法[8-11]都依賴于線條繪制命令,要求準(zhǔn)確地獲取PDF圖像繪制命令中的表格框線部分,對(duì)于無關(guān)線條(如頁(yè)眉、頁(yè)腳)的篩選和過濾直接影響表格定位的結(jié)果。尤其是文獻(xiàn)[12]特別依賴橫豎線的交點(diǎn)來劃分單元格,無法處理只有橫線的表格。為彌補(bǔ)單一的表格框線篩選存在的不足,文獻(xiàn)[13]增加了表格標(biāo)題行的語(yǔ)義檢索,采用區(qū)域并行生長(zhǎng)的思想同時(shí)對(duì)文本行和表格線進(jìn)行篩選,一定程度上減少了表格區(qū)域的漏判和誤判。

        (3) 基于PDF文本流。PDF文件以頁(yè)為單位,頁(yè)與頁(yè)之間彼此獨(dú)立,每頁(yè)中與文字相關(guān)的信息(如文本位置、字體字號(hào)等)以流對(duì)象的形式存儲(chǔ),即文本流(Text Stream),是PDF內(nèi)容流的重要組成部分之一。由于PDF是面向顯示的,頁(yè)面上的每一個(gè)對(duì)象都有確定的位置坐標(biāo),保證其在不同平臺(tái)上顯示的唯一性。文本確定的外觀特征和先后順序在PDF文本流中都有對(duì)應(yīng)的操作符和操作數(shù),解碼文本流即可得到每一個(gè)字符詳細(xì)的文本狀態(tài)參數(shù)信息,包括字體、字號(hào)、字符間距、位置坐標(biāo)等。因此基于PDF文本流可將表格內(nèi)的文字流節(jié)點(diǎn)從水平和垂直兩個(gè)方向分別進(jìn)行柵格化[14-15],把無結(jié)構(gòu)化的文字信息歸位形成文本塊,從而篩選得到表格內(nèi)容[16-17]。文獻(xiàn)[29]研究了針對(duì)無標(biāo)記PDF的表格結(jié)構(gòu)識(shí)別的系統(tǒng)配置,開發(fā)了一個(gè)PDF表格抽取實(shí)驗(yàn)Web應(yīng)用程序。

        基于PDF文本流的表格抽取方法不依賴表格框線的識(shí)別,但是需要用戶在屏幕上手動(dòng)框選待重現(xiàn)的表格區(qū)域[14],是在已確定表格物理位置的情況下完成表格重構(gòu)的工作,而且對(duì)于單元格合并的情況其理解程度也不高。

        2.1.2基于啟發(fā)式與機(jī)器學(xué)習(xí)結(jié)合的抽取方法

        不同于基于內(nèi)容布局特征的方法完全預(yù)定義了表格可能的呈現(xiàn)形式,啟發(fā)式是根據(jù)表格的某些特征提供一些可能的假設(shè),引入機(jī)器學(xué)習(xí)模型訓(xùn)練數(shù)據(jù)集來幫助系統(tǒng)做決策,其靈活性和適應(yīng)性大大增加。相比之下,基于啟發(fā)式與機(jī)器學(xué)習(xí)結(jié)合的抽取方法[30]對(duì)于常規(guī)的清晰表格可以獲得更好的結(jié)果,因此被更多學(xué)者應(yīng)用到表格抽取的研究當(dāng)中。如最新的基于Tabula庫(kù)設(shè)計(jì)的Table-Pedia[31]系統(tǒng),結(jié)合了啟發(fā)式和機(jī)器學(xué)習(xí)方法,實(shí)現(xiàn)從PDF收集、表格抽取到實(shí)驗(yàn)數(shù)據(jù)庫(kù)構(gòu)建和操作的全過程。

        文獻(xiàn)[32]基于表格的“稀疏線”特征,引入條件隨機(jī)場(chǎng)和支持向量機(jī)來優(yōu)化表格定位的算法;而文獻(xiàn)[33]首先設(shè)計(jì)啟發(fā)式規(guī)則來標(biāo)記數(shù)據(jù)集,利用遠(yuǎn)程監(jiān)控技術(shù)自動(dòng)生成帶注釋的數(shù)據(jù)。通過標(biāo)記的訓(xùn)練集來訓(xùn)練監(jiān)督樸素貝葉斯、邏輯回歸和支持向量機(jī)模型對(duì)表格區(qū)域的邊界預(yù)測(cè);文獻(xiàn)[34]則結(jié)合松散規(guī)則選擇一些類似于表格的區(qū)域,通過構(gòu)建和改進(jìn)的卷積神經(jīng)網(wǎng)絡(luò)來確定所選區(qū)域是否為表格。文獻(xiàn)[35]提出的基于啟發(fā)式和無監(jiān)督學(xué)習(xí)的表格識(shí)別方法不需要手動(dòng)標(biāo)記任何的訓(xùn)練集,可以靈活地適應(yīng)新的輸入統(tǒng)計(jì)數(shù)據(jù),而不需要重新培訓(xùn)模型。但其只能定位到存在表標(biāo)題的表格區(qū)域,并且在表格結(jié)構(gòu)抽取階段,行和列以相同的對(duì)稱方式進(jìn)行分割的方法對(duì)提取多樣性的表格布局來說不夠靈活。

        總體來看,支持向量機(jī)能夠?qū)Ψ蔷€性可分或不可分?jǐn)?shù)據(jù)集進(jìn)行分類,而且所需的訓(xùn)練樣本數(shù)量較小,正好滿足了PDF表格抽取無法提供大規(guī)模訓(xùn)練樣本的現(xiàn)狀,因此被最多地采用。

        綜上所述,基于表格布局特征的抽取方法受限于規(guī)則的預(yù)定義,其靈活性不高。一般基于項(xiàng)目本身的需求來設(shè)計(jì)算法,不會(huì)將表格布局所有可能的情形都考慮周全,導(dǎo)致算法在一定情形下的實(shí)現(xiàn)效果可能較好,但適應(yīng)性不強(qiáng)。基于啟發(fā)式與機(jī)器學(xué)習(xí)結(jié)合的抽取方法通常需要較復(fù)雜的后處理環(huán)節(jié),啟發(fā)式特征的選擇和訓(xùn)練數(shù)據(jù)集的質(zhì)量決定了最后輸出結(jié)果的好壞。

        2.2 表格抽取性能評(píng)估的研究現(xiàn)狀

        表格抽取作為IE的子任務(wù)之一,表格抽取算法或系統(tǒng)的性能評(píng)估是一個(gè)不可忽略的問題。絕大部分的文獻(xiàn)在算法研究之后以常規(guī)的召回率、精確度或F-Measures為評(píng)價(jià)指標(biāo)驗(yàn)證其性能。由于表格結(jié)構(gòu)的特殊性,這些常用的指標(biāo)并不能準(zhǔn)確反映表格抽取算法的性能。專門研究表格抽取算法性能評(píng)估的文獻(xiàn)較少,以下總結(jié)相關(guān)的研究成果并分析存在的問題。

        國(guó)際文檔分析和識(shí)別大會(huì)(International Confe-rence on Document Analysis and Recognition,IDCAR)組織的同名競(jìng)賽是關(guān)于文本識(shí)別和分析問題的最重要的國(guó)際賽事。IDCAR于2013年設(shè)立了一項(xiàng)在原生數(shù)字PDF文檔中進(jìn)行表檢測(cè)和結(jié)構(gòu)識(shí)別的競(jìng)賽[36],該賽事提供了統(tǒng)一的數(shù)據(jù)集,第一次嘗試客觀地評(píng)估表格抽取技術(shù)的性能。但I(xiàn)DCAR提供的PDF文件數(shù)量較少,而且每一個(gè)文檔對(duì)應(yīng)一個(gè)XML文件以確定表格的位置,無法衡量其評(píng)估的系統(tǒng)對(duì)無注釋無標(biāo)記的文檔是否也具有相同的性能。

        現(xiàn)有的表格抽取技術(shù)性能評(píng)估框架主要集中在表格定位和表格結(jié)構(gòu)識(shí)別的過程[3],試圖分階段建立表格處理的輸出模型[37]和評(píng)價(jià)指標(biāo),而忽略了單元格數(shù)據(jù)的類屬關(guān)系是否被正確解釋。針對(duì)表格抽取的結(jié)果,文獻(xiàn)[38]提出了一種新的度量方法,稱為表格一致性,自動(dòng)生成計(jì)算關(guān)于單元格的數(shù)量、內(nèi)容、拓?fù)浣Y(jié)構(gòu)和索引結(jié)構(gòu)的查詢,用于識(shí)別器輸出和基本事實(shí)的邏輯表格結(jié)構(gòu)編碼,通過搜索其他表格編碼來驗(yàn)證或反駁查詢,定義已驗(yàn)證查詢的百分比。

        Silva[39]基于召回率和精確度引入了一致性和純度的概念,作為定義所有分割任務(wù)的評(píng)價(jià)指標(biāo)。Shahab等[40]提出了分別在多個(gè)級(jí)別使用精確度和召回率測(cè)量的方法,包括單元格、行、列和區(qū)域。Hu等[41]提出基于編輯距離的方法,以“插入”“刪除”“替換”分別描述表格區(qū)域的誤識(shí)別、未識(shí)別、合并拆分錯(cuò)誤,用被操作的行數(shù)表示代價(jià)函數(shù)。但該方法的局限性在于最后的輸出只有唯一的代價(jià)值,不便體現(xiàn)各種錯(cuò)誤類型發(fā)生的情況。Li等[42]和Wang等[43]提出了相似的評(píng)估方法,通過比較檢測(cè)到的表格區(qū)域面積與文檔基準(zhǔn)中的表格區(qū)域面積,計(jì)算其重疊率或面積比率作為評(píng)價(jià)指標(biāo)。但是不同的表格抽取算法對(duì)表格區(qū)域的定義存在差異,比如是否包含表格標(biāo)題等,造成抽取的表格面積具有多樣性,會(huì)直接影響計(jì)算結(jié)果。房婧等[6]構(gòu)建了一個(gè)公開的等比例中英文數(shù)據(jù)集,并對(duì)數(shù)據(jù)集標(biāo)注基準(zhǔn)結(jié)果,建立了一套面向應(yīng)用的細(xì)粒度評(píng)估準(zhǔn)則。定量描述了6種表格定位錯(cuò)誤類型,計(jì)算新意義下的準(zhǔn)確度和召回率。但是該評(píng)估方法沒有考慮具體的表格物理和邏輯結(jié)構(gòu)。

        總的來看,表格抽取還沒有標(biāo)準(zhǔn)的評(píng)價(jià)程序和方法,相關(guān)研究不夠系統(tǒng)和深入,也可以說是還沒有得到重視。更多的研究是停留在解決表格抽取的問題上,至于抽取性能的好壞帶有研究者較多的主觀意識(shí)。

        3 現(xiàn)有表格抽取技術(shù)的發(fā)展需求分析

        3.1 表格抽取的發(fā)展需求

        (1) 急需全自動(dòng)化的表格抽取方法和系統(tǒng)。實(shí)現(xiàn)全自動(dòng)化PDF文獻(xiàn)表格提取是主要需求趨勢(shì)之一。“表格”沒有客觀的、確定的、唯一的定義,只是一種組織整理數(shù)據(jù)的手段,一種可視化的數(shù)據(jù)表達(dá)模型,無法用數(shù)字或公式來量化,這無疑增加了計(jì)算機(jī)“讀懂表格”的難度。而隨著大數(shù)據(jù)的構(gòu)建需求,需要高效地從大量的PDF文獻(xiàn)中提取表格,不可能對(duì)每一個(gè)PDF文獻(xiàn)的表格進(jìn)行手工定位、交互式選取和再提取,因此需要訴諸自動(dòng)化提取方法和系統(tǒng)。如Rastan等[44-46]推出了完全自動(dòng)化的表格處理系統(tǒng)TEXUS,該系統(tǒng)融合了一個(gè)端到端的表格處理框架,擴(kuò)展了傳統(tǒng)表格處理概念的范圍,增加了PDF包裝器模塊和表格理解模塊,以幫助語(yǔ)義上正確的數(shù)據(jù)抽取。

        (2) 不同的表格抽取研究思路仍將并存發(fā)展。從目前的研究進(jìn)展來看,圖1提及的三種表格抽取研究思路各有優(yōu)劣,皆不能完美地解決所有的PDF表格抽取問題。尤其是在表格重構(gòu)的過程中,還沒有一個(gè)高效、成熟的算法或系統(tǒng)能夠?qū)崿F(xiàn)對(duì)所有單元格類型和結(jié)構(gòu)的正確還原。因此,從不同的研究角度出發(fā)(如標(biāo)記數(shù)據(jù)、轉(zhuǎn)為圖片或直接解碼PDF文件),應(yīng)用不同的工具和技術(shù)手段來解決表格抽取問題,多個(gè)研究思路仍將并存發(fā)展。受需求(1)的驅(qū)動(dòng),基于PDF文件元數(shù)據(jù)的抽取方式可能更適合自動(dòng)化,具有更大的發(fā)展前景。而第二種思路由于可與提取PDF文獻(xiàn)的主要文字內(nèi)容結(jié)合,也將被廣泛應(yīng)用。而無論哪種思路,如何提高提取的準(zhǔn)確性(數(shù)據(jù)正確、邏輯正確)仍然是主要需要解決的問題。

        (3) 結(jié)合機(jī)器學(xué)習(xí)等人工智能算法是未來的發(fā)展趨勢(shì)。表格布局的多樣性:① 每一張表格的數(shù)據(jù)格式和結(jié)構(gòu)布局,并沒有統(tǒng)一確定的標(biāo)準(zhǔn);② 不同的數(shù)據(jù)類型,不同作者的表達(dá)習(xí)慣和不同受眾的需要,單元格存在不同級(jí)別的若干行或列合并,表格橫豎線可能任意缺失;③ 表頭的具體位置也不確定,可能是第一行或第一列,可能是復(fù)合表頭,也可能和表格內(nèi)容交替出現(xiàn)。對(duì)表格重構(gòu)和單元格間邏輯關(guān)系的理解增加了難度。用一般性來概述表格布局的任意性,其結(jié)果肯定差強(qiáng)人意,適應(yīng)性不強(qiáng)。為此,隨著與機(jī)器學(xué)習(xí)有關(guān)的科學(xué)研究空前活躍,相關(guān)算法日益成熟,結(jié)合機(jī)器學(xué)習(xí)等人工智能算法來提高表格抽取靈活性已成為趨勢(shì)和手段。比如:第一種研究思路通過無監(jiān)督學(xué)習(xí)或半監(jiān)督學(xué)習(xí)對(duì)PDF元數(shù)據(jù)進(jìn)行標(biāo)記和注釋[32,47],實(shí)現(xiàn)從標(biāo)記數(shù)據(jù)中抽取表格;第二種研究思路利用深度神經(jīng)網(wǎng)絡(luò)等算法模型直接作用于圖像,檢測(cè)表格;第三種研究思路以支持向量機(jī)為主要方法應(yīng)用于表格抽取過程中。接下來,通過合理改進(jìn)和優(yōu)化人工智能算法,結(jié)合表格獨(dú)有的顯示特征,以構(gòu)建更完善的表格抽取技術(shù)仍是未來的發(fā)展趨勢(shì)之一。

        (4) 實(shí)現(xiàn)學(xué)科領(lǐng)域性的表格抽取是重要的技術(shù)需求。對(duì)同一張表格,不同人的理解并不相同,不同學(xué)科應(yīng)用背景下表格標(biāo)題、框線和內(nèi)容三部分不一定都完整存在。不同的算法中會(huì)限定不同需求的表格形式,如文獻(xiàn)[2]定義的表格區(qū)域包括表格標(biāo)題,文獻(xiàn)[29]不關(guān)心表格框線,而文獻(xiàn)[32]既不關(guān)心表格框線也不考慮表格標(biāo)題,只對(duì)滿足“稀疏線”特征的低密度文字行進(jìn)行標(biāo)記。故最后的表格抽取結(jié)果受限于學(xué)科背景和學(xué)者自身對(duì)表格的主觀理解和定義。

        更為突出的是,隨著數(shù)據(jù)的積累和大數(shù)據(jù)技術(shù)的發(fā)展,行業(yè)(或者特定領(lǐng)域)大數(shù)據(jù)的復(fù)用和應(yīng)用將居首位,但各行業(yè)間的知識(shí)、數(shù)據(jù)特征等各不相同。而現(xiàn)有的表格抽取方法考慮的都是常規(guī)的表格特征和布局,顯然通用的表格抽取技術(shù)在特定的學(xué)科領(lǐng)域?qū)崿F(xiàn)表格抽取的效果并不好。因此,面向特定的學(xué)科領(lǐng)域和特定需求構(gòu)建有針對(duì)性的PDF表格抽取算法將是未來的研究方向。以制造行業(yè)為例,基于數(shù)據(jù)驅(qū)動(dòng)材料研發(fā),發(fā)展材料信息學(xué)(Materials Informatics)[48],助力先進(jìn)制造已成為重要的議題。材料信息學(xué)強(qiáng)調(diào)對(duì)材料科學(xué)中的知識(shí)和數(shù)據(jù),特別是對(duì)已有的計(jì)算數(shù)據(jù)和實(shí)驗(yàn)數(shù)據(jù)進(jìn)行系統(tǒng)管理,需要高效地從已有PDF材料研發(fā)文獻(xiàn)中獲取實(shí)驗(yàn)數(shù)據(jù)。在生物學(xué)、物理學(xué)、軍事、金融、通信互聯(lián)網(wǎng)等各行業(yè)同樣重視數(shù)據(jù)信息的管理,故表格數(shù)據(jù)的抽取是不可忽視的技術(shù)需求之一。

        未來的研究可具體到某一個(gè)特定的學(xué)術(shù)領(lǐng)域或者基于學(xué)術(shù)領(lǐng)域知識(shí)的表格提取方法,結(jié)合其特定的理論知識(shí)和公理,設(shè)計(jì)領(lǐng)域內(nèi)的知識(shí)情景模型(如制造領(lǐng)域的工藝參數(shù)范圍可用于判斷提取數(shù)據(jù)的重構(gòu))、本體(可應(yīng)用于偵測(cè)表格的內(nèi)容)和表格抽取算法,增加語(yǔ)義,不但能提高效率,也能有效避免表格多樣性帶來的表格預(yù)定義不完全的問題、表格提取數(shù)據(jù)的邏輯正確性問題等。這相比通用的表格抽取技術(shù)也許會(huì)有更顯著的優(yōu)勢(shì)。

        3.2 性能評(píng)估的發(fā)展需求

        表格抽取的標(biāo)準(zhǔn)評(píng)價(jià)方法還沒有得到很好的發(fā)展[45],多年來應(yīng)用最為廣泛的是信息抽取中的召回率、精確度和F-measure來衡量系統(tǒng)的性能。但是單從以上指標(biāo)來比較兩個(gè)算法的優(yōu)劣并不恰當(dāng),因?yàn)楸砀癯槿〔粌H要求準(zhǔn)確獲得表格數(shù)據(jù),還涉及到單元格數(shù)據(jù)的對(duì)應(yīng)關(guān)系是否準(zhǔn)確,跨頁(yè)表格的提取是否完全等更多結(jié)構(gòu)上的細(xì)節(jié)內(nèi)容。特別是在單元格識(shí)別中,單元格的結(jié)構(gòu)和組織方式直接決定了表格的邏輯關(guān)系和數(shù)據(jù)之間的聯(lián)系,會(huì)出現(xiàn)各種需要單獨(dú)考慮的錯(cuò)誤。比如:?jiǎn)卧窨赡芟蛉我庖粋€(gè)方向拆分,也可能向另一個(gè)方向合并,錯(cuò)誤的識(shí)別和重構(gòu)會(huì)導(dǎo)致歧義[49]。 因此,構(gòu)建一套完整的、客觀的、適用于表格抽取的評(píng)價(jià)指標(biāo)體系是未來性能評(píng)估發(fā)展的迫切需求和研究熱點(diǎn)之一。

        此外,不管是算法測(cè)試還是性能評(píng)估,各研究都是基于各不相同的PDF數(shù)據(jù)集,有的是掃描PDF圖像文件,有的是PDF早期的版本標(biāo)準(zhǔn)。沒有統(tǒng)一的數(shù)據(jù)集使得不同研究的實(shí)驗(yàn)結(jié)論無法直接用于比較不同算法之間的差別和優(yōu)劣。目前公開公用的數(shù)據(jù)集UW-3中包含一部分表格區(qū)域的基準(zhǔn)[6],但是該數(shù)據(jù)集是針對(duì)圖像頁(yè)面而設(shè)計(jì),適用于頁(yè)面布局分割領(lǐng)域,不適用于版式文檔的表格定位。北航和微軟亞洲研究院聯(lián)合創(chuàng)建了一個(gè)多達(dá)41.7萬(wàn)數(shù)據(jù)量的開源表格檢測(cè)和表格結(jié)構(gòu)識(shí)別數(shù)據(jù)集TableBank[50],但是該數(shù)據(jù)集是對(duì)Word文檔和LaTex文檔進(jìn)行弱監(jiān)督而建立的,主要針對(duì)從圖像中檢測(cè)和識(shí)別表。因此,構(gòu)建一個(gè)公開的標(biāo)準(zhǔn)數(shù)據(jù)集成為未來性能評(píng)估工作的基礎(chǔ)。

        4 結(jié) 語(yǔ)

        大數(shù)據(jù)時(shí)代是信息科學(xué)技術(shù)發(fā)展的必然。數(shù)據(jù)不僅僅是存儲(chǔ)在計(jì)算機(jī)中的一個(gè)符號(hào),它已經(jīng)完全滲透到了當(dāng)今社會(huì)的每一個(gè)行業(yè)和個(gè)人,與人們的生產(chǎn)生活息息相關(guān)。表格作為傳達(dá)數(shù)據(jù)的重要形式之一,存在于海量的PDF文件中,是大數(shù)據(jù)的重要數(shù)據(jù)來源。研究獲取PDF中的表格數(shù)據(jù)能有效地幫助學(xué)科構(gòu)建數(shù)據(jù)庫(kù)和實(shí)現(xiàn)數(shù)據(jù)系統(tǒng)管理,特別是對(duì)于科學(xué)研究方面更是如此。

        現(xiàn)有的表格抽取技術(shù)主要形成了轉(zhuǎn)化為標(biāo)記語(yǔ)言格式,轉(zhuǎn)化為圖片和基于PDF元數(shù)據(jù)三種研究思路,但各有優(yōu)勢(shì),未來仍將并存發(fā)展,而基于PDF元數(shù)據(jù)更易實(shí)現(xiàn)自動(dòng)化。基于PDF元數(shù)據(jù)的方法主要是根據(jù)表格內(nèi)容布局設(shè)計(jì)篩選規(guī)則,或選擇表格特征設(shè)計(jì)啟發(fā)式算法,利用機(jī)器學(xué)習(xí)訓(xùn)練數(shù)據(jù)集?,F(xiàn)有方法在提取準(zhǔn)確性,尤其是科技文獻(xiàn)的表格數(shù)據(jù)邏輯性方面都還達(dá)不到要求,無法適應(yīng)多學(xué)科領(lǐng)域的專業(yè)的表格提取,而對(duì)于表格抽取算法的性能評(píng)估尚處于探索階段。

        隨著復(fù)用PDF文件中的數(shù)據(jù)和基于PDF文獻(xiàn)來構(gòu)建大數(shù)據(jù)等需求的推動(dòng),未來更需要全自動(dòng)化的高效提取方法和系統(tǒng)。同時(shí),需要結(jié)合各學(xué)科領(lǐng)域的公理、知識(shí),構(gòu)建情景模型、學(xué)科背景的表格特定規(guī)則等方式來提高表格提取算法對(duì)學(xué)科語(yǔ)義的理解能力,滿足對(duì)學(xué)科領(lǐng)域的表格的提取需求,并將其模塊化,便可以靈活地更改應(yīng)用到其他的領(lǐng)域。輔之機(jī)器學(xué)習(xí)等人工智能方法加強(qiáng)不同領(lǐng)域情景知識(shí)的學(xué)習(xí),以提高其智能適應(yīng)性。在此基礎(chǔ)上,結(jié)合學(xué)科知識(shí)搭建語(yǔ)言兼容、性能穩(wěn)定、精確度高的人工智能PDF表格抽取系統(tǒng)。這對(duì)實(shí)現(xiàn)國(guó)內(nèi)外大量科技文獻(xiàn)中表格數(shù)據(jù)的重用和共享具有重要的現(xiàn)實(shí)意義和價(jià)值。

        猜你喜歡
        單元格表格文獻(xiàn)
        《現(xiàn)代臨床醫(yī)學(xué)》來稿表格要求
        Hostile takeovers in China and Japan
        速讀·下旬(2021年11期)2021-10-12 01:10:43
        玩轉(zhuǎn)方格
        玩轉(zhuǎn)方格
        統(tǒng)計(jì)表格的要求
        統(tǒng)計(jì)表格的要求
        統(tǒng)計(jì)表格的要求
        Cultural and Religious Context of the Two Ancient Egyptian Stelae An Opening Paragraph
        大東方(2019年12期)2019-10-20 13:12:49
        淺談Excel中常見統(tǒng)計(jì)個(gè)數(shù)函數(shù)的用法
        西部皮革(2018年6期)2018-05-07 06:41:07
        The Application of the Situational Teaching Method in English Classroom Teaching at Vocational Colleges
        免费99视频 欧美日韩中文字幕久久伊人 欧美一区二区午夜福利在线yw 国产成人8x视频网站入口 538任你爽精品视频国产 AV成人午夜无码一区二区 久草国产视频 中文字幕在线观看国产双飞高清 囯产精品无码va一区二区 亚洲日韩欧美一区二区三区 午夜tv视频免费国产区4 亚洲精品成人av观看 97SE亚洲国产综合自在线不卡 永久无码在线观看 精品国产AⅤ一区二区三区4区 日日摸日日碰人妻无码老牲 97SE亚洲国产综合自在线不卡 国产妇女乱一性一交 中文字幕无码人妻丝袜 国产免费看网站v片不遮挡 国产精品自产拍在线观看免费 国产亚洲午夜精品 在线人妻无码一区二区 制服丝袜视频国产一区 欧洲亚洲第一区久久久 久久一区二区三区四区 久久精品无码一区二区三区不 日本污视频 精品国产高清一区二区广区 亚洲AV无码一区二区三区天堂网 欧美韩国精品另类综合 精品99在线黑丝袜 久久国产免费观看精品 国产激情视频在线观看首页 成人动漫久久 小12箩利洗澡无码视频网站 2021国产最新在线视频一区 欧美中文字幕在线看 国产一区二区精品久久凹凸 日韩欧美国产自由二区 国产综合久久久久影院 一区二区无码中出 极品 在线 视频 大陆 国产 久久国产亚洲高清观看5388 一本无码av一区二区三区 中文毛片无遮挡高潮 任你躁欧美一级在线精品免费 免费的一级毛片 亚洲色偷拍一区二区三区 51精品视频一区二区三区 丁香婷婷色 激情五月天伊人久久 亚洲国产香蕉视频欧美 亚洲熟妇在线视频观看 日韩永久免费无码AV电影 国产在线不卡视频 亚洲欧美日韩中文v在线 亚洲AV毛片无码成人区httP 亚洲国产精品久久久久秋霞1 亚洲福利天堂网福利在线观看 四虎影视久久久免费 久久99国产伦精品免费 全免费a级毛片免费看 在线视频一区二区日韩国产 亚洲性综合网 国产高清在线精品一区αpp 久久精品国产亚洲综合色 国产精品白浆一区二区免费看 无码在线观看123 av色综合网站 国产精品天堂avav在线 国产精品一区二区av片 亚洲VA欧美VA国产VA综合 亚洲tv精品一区二区三区 无码AV高潮喷水无码专区线 久久福利资源国产精品999 久久久国产精品福利免费 天天干夜夜躁 亚洲男女免费视频 久久国产亚洲AV无码麻豆 久久精品无码专区东京热 国产哟交泬泬视频在线播放 国产一区二区激情对白在线 99热这里有免费国产精品 国产成人久久蜜一区二区 男女一级毛片免费视频看 中文字幕一区二区三区在线不卡 91精品全国免费观看青青 久久国产影视免费精品 亚洲色欲大片AAA无码 精品国产av无码一道 97人妻视频妓女网 国产成人8x视频网站入口 国产成人美女AV 亚洲日韩中文字幕在线播放 欧美日韩国产在线观看免费 巨爆乳中文字幕爆乳区 色噜噜狠狠色综合中文字幕 国产精品嫩草影院午夜 亚洲制服无码一区二区三区 一本到无码AV专区无码 亚洲人成人一区二区三区 国产高清国内精品福利99久久 国产午夜亚洲精品理论片不卡 亚洲午夜福利精品久久 99热成人精品国产免 亚洲熟妇AV一区二区三区宅男 亚洲一区二区欧美色妞影院 精品国产亚洲一区二区三区演员表 一区二区无码中出 在线播放国产女同闺蜜 国产亚洲精品福利在线 亚洲婷婷丁香激情 91精品啪在线观看国产色 国内精品人妻无码久久久影院94 久久综合亚洲色社区 国产人澡人澡澡澡人碰视频 野外三级国产在线观看 91网站在线看 亚洲色欲大片AAA无码 综合91在线精品 无码一区东京热 国产精品大屁股1区二区三区 国产精品无码久久久一区蜜臀 精品中文字幕制服中文 久久青草国产精品一区 一本一道波多野结衣av中文 欧美在线成人午夜网站 久久精品无码一区二区2020 国产精品爆乳在线播放 97色噜噜 亚洲成AⅤ人在线观看无码 久久国产成人午夜av影院 97中文字幕在线观看 国产精品亚洲A∨天堂 9久久精品视香蕉蕉 国产 中文 制服丝袜 另类 欧美日韩精品一区二区三区高清视频 午夜精品一区二区三区无码不卡 亚洲AV无码成人网站久久精品 欧美人与禽交zozo 日韩欧美国产自由二区 亚洲高潮喷水中文字幕 国产精品高潮无码毛片 亚洲日韩图片专区小说专区 久久精品爱国产免费久久 国产免费人成视频在线播放播 久久久久欧洲AV成人无码国产 久久久久久一级毛片免费无遮挡 久久国产亚洲高清观看5388 国产高清a 久久无码高潮喷水免费看 熟妇无码AV 国产午夜精品一区二区三区不 美国黄色片一区二区三区 日韩爱爱视频 视频一区精品自拍 在线观看av手机网址 亚洲国产成人AⅤ片在线观看 国产精品爽爽va在线观看网站 久久精品无码一区二区2020 精品囯产成人国产在线观看 日韩女人毛片在线播放 超碰Av一区=区三区 美女一级毛片免费观看97 国产系列丝袜熟女精品视频 亚洲欧美日韩国产综合久 久久久久亚洲精品天堂 在线播放国产女同闺蜜 精品不卡久久久久久无码人妻 亚洲黄色尤物视频 国产精品自产拍在线18禁 欧美日韩亚洲一区二区精品 亚洲天堂资源网 久久精品国产亚洲AV成人公司 色欲AV无码久久精品有码 国产精品爆乳在线播放 中文字幕久热精品视频免费 免费成人福利视频 成人国产精品一区二区网站 欧美a在线播放 岛国大片在线免费观看 亚洲AV无码一区二区二三区我 亚洲欧洲国产日产国码无码 免费成人福利视频 国产91色在线|亚洲 亚洲不卡电影 国产精品高清视亚洲乱码有限公司 欧美成人a在线网站 久久av高潮av喷水av无码 香蕉国产人午夜视频在线观看 久久中文字幕日韩精品 国产午夜亚洲精品理论片不卡 亚洲AV伊人久久综合密臀性色 亚洲中文字幕无码二区在线 久久免费视亚洲无码视频 亚洲无码a∨在线视频 午夜亚洲AV成人无码国产 久久精品中文字幕极品 久久天堂av色综合 欧美人成在线播放网站免费 四虎成人精品国产一区a 人伦片无码中文字幕 午夜毛片午夜女人喷潮视频 国产亚洲高清不卡在线观看 国产自产精品露脸刺激91在线 亚洲 无码 制服 丝袜 自拍 精品无码AⅤ片 亚洲中文av一区二区三区 中文字幕avdvd 99久久综合九九亚洲 亚洲av日韩av综合aⅴxxx 2021国内精品久久久久精免费 久久国产成人亚洲精品影院老金 国产999视频 亚洲男女免费视频 亚洲AV无码精品呻吟 8av国产精品爽爽ⅴa在线观看 国产无码swag专区 国产aⅴ夜夜欢一区二区三区 麻豆AⅤ精品无码一区二区 久久精品国产亚洲5555 国产成人久久蜜一区二区 白浆出来无码视频在线 亚洲成av人片天堂网九九 亚洲VA中文字幕无码毛片春药 911香蕉视频 久久这里只精品国产2 尤物无码一区 国产系列丝袜熟女精品视频 久久成人永久免费播放 亚洲国产另类久久久精品小说 女的把腿张开男的猛戳出浆 久久福利青草精品资源 国产亚洲精品自在久久77 久久频精品99香蕉国产 小12箩利洗澡无码视频网站 亚洲成人观看 亚洲乱码一区二区三区成人小说 国产精品久久久久影视不卡 国产人成无码视频在线 大陆国产乱人伦 精品国偷自产在线不卡短视频 亚洲欧美日韩中文v在线 国产在线不卡免费播放 久久精品爱国产免费久久 免费一区二区三区视频狠狠 在线精品日韩一区二区三区 亚洲天堂资源网 久久久AV无码精品免费 狠狠躁夜夜躁AV网站中文字幕 国产高潮精品久久AV无码 2022Av天堂在线无码 麻豆国产av尤物网站尤物 人妻在线中文字幕 999久久66久6只有精品 欧美日韩国产成人综合在线影院 久久精品国产亚洲婷婷 丝袜欧美视频首页在线 久久精品国产91久久性色tv 亚洲色欲大片AAA无码 一本无码人妻在中文字幕 国产亚洲美女精品久久 亚洲欧美中文v日韩v在线 久久久久久亚洲AV成人无码国产 中文字幕人妻中文 正在播放淫亚洲 女高中生自慰污免费网站 91情侣视频 91亚洲国产成人aⅴ毛片大全 国产爆乳乱码女大生Av 无码Av在线一区二区三区 人妻无码AⅤ不卡中文字幕 手机看片国产日韩 中文字幕一区二区三区乱码不卡 啪啪无码人妻丰满熟妇 亚洲AV秘 无码二区在线 亚洲国产欧美日韩一区二区 國产AV天堂 欧美三级超在线视频 九色91精品国产网站 久久久久亚洲AV成人网毛片 热久久亚洲 在线视频中文字幕乱人伦 日韩五十路 免费高清日本中文 亚洲人妻无缓冲av不卡 亚洲制服无码一区二区三区 加勒比精品久久一区二区三区 99热最新在线观看 中文字幕不卡高清免费 啪啪视频一区二区三区入囗 国产成+人+综合+亚洲专 日韩精品国产自在欧美 偷亚洲偷国产欧美高清 无码人妻系列不卡免费视频 欧美中文字幕在线看 欧美综合区 亚洲国产cao 亚洲色成人网一二三区 亚洲欧美性另类春色 国产高清吃奶成免费视频网站 亚洲欧洲日产国产AV无码 精品国产福利久久久 国产成人77亚洲精品www 国产哟交泬泬视频在线播放 亚洲亚洲网站三级片在线 国产精品爆乳在线播放 久久精品爱国产免费久久 亚洲AV成人无码久久精品四虎 91福利国产在线观一区二区 538任你爽精品视频国产 久久99热精品免费观看欧美 香蕉视频免费在线 亚洲男女免费视频 99久久国内精品成人免费 国产99久久无码精品 无码AV高潮喷水无码专区线 国产成人啪精品午夜网站 亚洲精品亚洲人成在线下载 中文字幕巨乱亚洲 中文字幕在线日韩 精品囯产成人国产在线观看 精品无码av不卡一区二区三区 一本一本久久a久久 国产免费一级在线观看 亚洲制服无码一区二区三区 国产成人亚洲精品电影 精品国产av无码一道 久久免费观看国产精品 国产视频最新 亚洲日韩中文字幕在线播放 国产精品国产三级在线高清观看 亚洲另类激情综合偷自拍图 国产午夜福利精品 日韩成人无码v清免费 久久99国产伦精品免费 丝袜美女污污免费观看的网站 国产日韩欧美911在线观看 无码一区二区三区在线在看 精品国产品欧美日产在线 亚洲电影中文字幕 国产成人AV无码精品无毒 一本无码人妻在中文字幕 麻豆国产巨作AV剧情老师 国产人成无码视频在线 亚洲AV成人无码国产一区二区 亚洲一区二区婷婷久久 精品亚洲午夜久久久久 2021av在线 久久精品国产亚洲不av麻豆 亚洲国产A∨无码影院 久久天堂av色综合 成人午夜免费无码视频在线观看 亚洲男人的天堂精品一区二区 久久青青草原亚洲AV无码麻豆 亚洲国产一区在线二区三区 成人xx免费无码 欧洲一区在线观看 国产亚洲欧美精品一区 91产精品无码无套在线 国产一级免费黄片无码AV 九色91精品国产网站 久久精品免视看国产盗摄 亚洲A∨无码国产精品久久网 99ri国产在线观看 国产乱子伦精品免费女 狠狠躁夜夜躁人人爽天天 欧美成人a在线网站 亚洲精品亚洲人成在线下载 亚洲AV无码国产成人久久强迫 91爱爱视频 久久99国产亚洲高清 国产精品爽爽va在线观看网站 欧洲亚洲第一区久久久 91视频爱爱 亚洲a级片在线观看 亚洲熟妇一区无码 超碰Av一区=区三区 久久天堂av色综合 色综合久久无码中文字幕app 午夜a福利 亚洲国产成人AⅤ片在线观看 亚洲AV无码精品色午夜超碰 麻豆国产巨作AV剧情老师 亚洲aⅴ无码国精品中文字慕 久久久久久99精品 人妻久久999精品1024 无码人妻系列不卡免费视频 2021国产精品一区二区在线 国产精彩视频 视频一区精品自拍 加勒比无码专区中文字幕 亚洲两性视频一三区 亚洲成AⅤ人在线观看无码 亚洲精品aⅴ无码精品丝袜足 国产精品青草视频免费播放 亚洲国产A∨无码影院 久久精品性无码一区二区爱爱 亚洲一区sm无码 国产精品亚洲专区在线播放 丝袜欧美视频首页在线 久久男人av资源网站无码 国产成人精品日本亚洲专区6 亚洲人成人一区二区三区 亚洲V在线激情 国产精品自产拍在线18禁 国产国拍亚洲精品午夜不卡17 久久精品国产亚洲AV高清特级 精品少妇大屁股白浆无码 中文字幕亚洲综合久久菠萝蜜 午夜影视啪啪免费体验区入口 亚洲免费天堂 无码片久久久天堂中文字幕 伊人精品无码AV一区二区三区 久久久久久久98亚洲精品 曰韩精品无码一区二区三区 国产精品美女AV免费观看 精品亚洲国产探花在线播放 国产在线精品福利大全 亚洲aⅴ无码日韩av无码网站 美女一级毛片免费观看97 精品国产三级a 亚洲高潮喷水中文字幕 99国产精品丝袜久久久久 av无码精品一区二区乱子 国产成人午夜福利在线小电影 成人国产永久福利看片 亚洲国产欧美日韩一区二区 精品无码AⅤ片 国产亚洲欧美精品一区 亚洲成a人片在线网站 国产丝袜精品不卡 波多野结衣一区二区三区视频 亚洲色AV性色在线观看 精品国产一区二区三区AV小说 久久亚洲伊人 精品人伦一区二区三区蜜桃麻豆 国产成人综合久久久久久 日韩亚洲中文图片小说 久久精品国产91久久性色tv 9久9久女女热精品视频免费观看 亚州精品无码人妻久久 亚洲色成人网一二三区 无码精品一区二区三区超碰 一级呦女专区毛片 在线精品无码一区二区三区 久久精品无码一区二区三区不 乱人伦视频69 啪啪无码人妻丰满熟妇 www插插插无码视频网站 国产精品无码久久久久免费AV 婷婷第四色 樱花AV在线无码 av一区无码不卡毛片 91久久精品无码人妻系列 成黄色片视频日本秘书丝袜 国产免费一区二区三区最新不卡 国产成人77亚洲精品www 精品少妇大屁股白浆无码 精品国产亚洲一区二区三区演员表 亚洲日韩区在线电影 亚洲色大成网站www在线观看 亚洲片一区二区三区 欧洲亚洲第一区久久久 精品一精品国产一级毛片 欧美日本免费一区二 一级呦女专区毛片 久久精品国产亚洲婷婷 亚洲精品123区在线观看 亚洲制服无码一区二区三区 日韩女人毛片在线播放 久久福利资源国产精品999 免费国产黄线在线播放 亚洲欧洲日产国产AV无码 揄拍成人国产精品视频 国产综合自拍 级毛片免费看无码 日中文字幕在线 国产精彩视频 国产精品自产拍在线观看中文 亚洲精品美女久久久久久久 亚洲国产成人AV人片久久网站 一本大道久久精品 东京热 国产免费看网站v片不遮挡 国产农村三片免费网站 www插插插无码视频网站 久久久久久一级毛片免费无遮挡 一级一级毛片无码免费视频 AV教师一区高清 亚洲成a人片在线网站 欧美成人免费观看国产 最新精品国偷自产在线婷婷 中文字幕精品久久天堂一区 国产午夜精品久久久久99 深夜国产成人福利在线观看女同 无码中文av有码中文av 天天综合天天色 2021年国产精品每日更新 国产精品无码无片在线观看3D 98国产精品永久在线观看 欧美成人中文字幕 91精品国产91久久久无码95 97精品国产91久久久久久久 久久国产品野战 中字无码av电影在线观看网站 国产成人av综合亚洲色欲 a级福利毛片 99ri国产在线观看 99国产超薄丝袜足j在线播放 久久精品国产99久久丝袜 国产精品短视频 欧美成人免费看片一区 欧美精品aaa久久久影院 欧美日本免费一区二 日本一区二区啪啪视频 激情人妻在线视频 中文AV怡红院 国产aⅴ夜夜欢一区二区三区 一级呦女专区毛片 夜夜被公侵犯的美人妻 YW亚洲AV无码乱码在线观看 久久综合视频网站 高清无码精品一区二区三区 国产乱子伦精品免费女 色伊人国产高清在线 在线无码国产精品亚洲а∨ 综合激情网站 久久精品国产免费观看99 国产一区二区三区小说 亚洲欧美日韩国产综合久 无码日韩人妻AV一区免费 亚洲AV成人无码久久精品在 亚洲精品美女久久久久久久 精品无码久久久久久久久粉色 色综合另类小说图片区 亚洲第一无码精品久久 国产精品欧美久久久久老妞 全免费a级毛片免费看 亚洲欧洲精品成人久久曰不卡 久久国产欧美日韩高清专区 午夜精品一区二区三区无码不卡 亚洲国产成人久久综合一区77 国产91 对白在线播放九色 欧美日本免费一区二 国产欧美va欧美va香蕉在线观 91久久国产精品视频 激情久久无码天堂 亚洲AV无码成人精品区网页 久久免费精品国产72精品剧情 国产亚洲女在线线精品 毛片无码高潮喷白浆视频 日本视频中文字幕一区在线 亚洲熟妇色xxxxx欧美老妇 久久久久亚洲精品美女 久久精品一品道久久精品9 亚洲av不卡电影在线网址最新 欧美色资源 产国语一级特黄aa大片 免费毛片性天堂 亚洲av无码成人网站www 国产91 对白在线播放九色 国产精品综合久久久久久久免费 天天躁日日躁狠狠躁一区 日中文字幕在线 国产国拍亚洲精品午夜不卡17 无码中文日韩Av 亚洲AV无码成人网站久久精品 亚洲欧美日韩中文v在线 国产福利片无码区在线观看 亚洲国产精品自产拍久久蜜AV 久久免费观看国产精品 成 人 网 站 在线 看 免费 中文亚洲爆乳av无码专区 中文人妻无码一区二区三区信息 国产婷婷丁香五月麻豆 日本丰满妇人成熟免费中文字幕 久久久久国产亚洲AV麻豆 аⅴ天堂国产最新版在线中文 无码一区久久久久久久绯色AV 一级片麻豆 成人国产永久福利看片 无码在线观看123 亚洲精品黄网在线观看 亚洲免费av电影一区二区三区 亚洲精品中国国产嫩草影院美女 国产精品网站夜色 国产高清吃奶成免费视频网站 在线免费欧美 丁香婷婷色 国产女人精品视频国产灰线 免费看奶头视频的网站 国产妇女乱一性一交 国产亚洲高清不卡在线观看 亚洲欧洲精品成人久久曰不卡 国产成人免费高清激情明星 91华人在线 麻豆AV免费网站 国产精品无码久久久久免费AV 中文字幕av一区二区三区 亚洲最大成av人网站 亚洲av无码专区在线亚 XXXXBBBB欧美 国产午夜无码视频免费网站 91亚洲国产成人aⅴ毛片大全 成黄色片视频日本秘书丝袜 连续高潮喷水无码 婷婷色综合成人成人网小说 午夜影视啪啪免费体验区入口 国产成人精品免费久久久久 香蕉国产人午夜视频在线观看 免费一区二区三区视频狠狠 亚洲视频99 亚洲高潮喷水中文字幕 99久久久精品免费香蕉 中文字幕AⅤ人妻一区二区 精品一区二区av天堂 亚洲AV秘 无码一区二区三区臀 国产成人AV无码精品无毒 久久中文字幕日韩精品 亚洲AV无码精品一区二区三区l 无码av免费永久免费永久专区 亚洲国产成人AⅤ片在线观看 99热国产在线 亚洲AV无码成人精品区天堂 国产成人77亚洲精品www 人妻无码Aⅴ中文系列 国产亚洲精品自在久久77 国产偷国产偷高清精品 国产精品偷伦免费观看的 亚洲AV无码秘 蜜桃1区 在线播放国产女同闺蜜 日韩欧美第一区二区三区 视频在线观看一区二区三区 久久se精品一区精品二区国产 亚洲国产精品线观看不卡 免费一区二区三区视频狠狠 亚洲中文字幕在线爆乳 日韩女人毛片在线播放 亚洲欧洲久久久精品 国产高清精品自在线看 99久久久无码国产精品动漫 91精品国产91久久久无码95 久久久国产精品福利免费 精品久久久久中文字幕APP av无码天一区二区一三区 热久久这里只有 一区二区无码中出 国产成人国产在线观看 女高中生自慰污免费网站 手机看片福利日韩国产 无码Av在线一区二区三区 99热这里有免费国产精品 波多野结衣一区二区三区视频 久久99热精品免费观看欧美 2021国产精品久久 亚洲日韩图片专区小说专区 无码一区东京热 国内精品伊人久久久久av 日本激情网址 国产国语对白一区二区三区 亚州无线国产2021 亚州AV无码乱码精品国产 日韩爱爱视频 99国产精品丝袜久久久久 日韩精品成人无码AV片 亚洲精品成AV无在线观看 亚洲欧美日韩中文v在线 日韩欧美国产丝袜视频 夜夜爽无码一区二区三区 欧美日韩免费一区中文字幕 国产精品乱一区二区三区 伊人婷婷色香五月综合缴激情 亚洲国产一区在线二区三区 国产一区二区精品久久凹凸 av超碰在线免费观看 四虎精品国产一区二区三区 9久久精品视香蕉蕉 国产成人亚洲综合无码精品 国产va精品免费观看 91精品啪在线观看国产18 在线观看日本一区二区 亚洲一区二区欧美色妞影院 欧美视频第一页 国产精品无码久久久久免费AV 亚洲AV无码秘 蜜桃1区 久久久久久中文字幕有精品 国产妇女乱一性一交 国产精品无码无片在线观看3D 精品人妻中文av一区二区三区 亚洲欧美日韩国产一区二区精品 av无码天一区二区一三区 欧美日本免费一区二 51精品视频一区二区三区 国产免费看网站v片不遮挡 国内久久婷婷精品人双人 美国黄色片一区二区三区 亚洲国产麻豆综合一区 永久无码在线观看 8av国产精品爽爽ⅴa在线观看 日日爽日日操 免费99视频 色综合久久中文综合久久激情 国产一区二区牛影视 国产91 对白在线播放九色 中文 国产 无码免费 国产成人一区二区三区免费观看 国产一区二区精品久久凹凸 国产高清a 二区久久国产乱子伦免费精品 精品国产一区二区三区AV小说 久久这里只精品国产2 免费无码中文字幕A级毛片 无码成人片一区二区三区 制服丝袜视频国产一区 亚洲午夜久久久久中文字幕 亚洲tv精品一区二区三区 欧美人与禽交zozo 纯肉无遮挡H肉动漫在线观看国产 亚洲欧美日韩一区二区在线观看 亚洲天堂中文 丝袜欧美视频首页在线 乱伦一区二 白浆出来无码视频在线 无码天堂亚洲国产av麻豆 91天堂素人精品系列全集亚洲 亚洲欧美日韩中文v在线 免费精品美女久久久久久久久久 亚洲伊人久久成人综合网 在线精品无码一区二区三区 国产清品夜色一区二区三区不卡 无码国产精品第100页 专区亚洲欧洲日产国码AV 午夜短视频日韩免费 国产女人精品视频国产灰线 狠狠色狠狠色综合网老熟女 国内精品一区二区2021在线 久久精品国产99久久丝袜 国产香蕉尹人综合在线观 国产99久久无码精品 日韩欧美在线观看成人 国产一区二区牛影视 中文字幕亚洲综合久久菠萝蜜 婷婷综合缴情亚洲狠狠 久久中国国产Av秘 入口 无码之国产精品网址蜜芽 国产精品亚洲片夜色在线 国产精品女同一区二区久久 亚洲熟妇色xxxxx欧美老妇 欧美成人在线A免费观看 国产午夜精品一区二区三区视频 亚洲欧美日韩国产一区二区精品 日本视频中文字幕一区在线 久久精品国产6699国产精 国产成人拍精品免费视频 超碰Av一区=区三区 精品国产亚洲一区二区三区演员表 亚洲AV无码未成人网站久久精品 福利视频一二区 国产成人精品麻豆 国产福利片无码区在线观看 国产美女69视频免费观看 国产精品玖玖玖在线资源 精品国产三级a 久草午夜视频 免费无码又爽又刺激高潮的视频网站 欧美激情中文字幕在线一区二区 国产精品国产三级国产专区5o 亚洲精品国产品国语在线app 乱中年女人伦av三区 任你躁欧美一级在线精品免费 激情人妻在线视频 成人无码区免费AⅤ片WWW 国产成人精品午夜福利免费APP 亚洲精品亚洲人成在线下载 国产AV无码一区精品天堂 国产成人免费一区二区三区 无码午夜剧场 AV无码中文字幕不卡一二三区 高清无码精品一区二区三区 亚洲VA中文字幕无码毛片春药 国内精品一区二区2021在线 亚洲韩国在线 免费av在线国模 中文字幕一区二区三区在线不卡 人妻少妇不满足中文字幕 无码 制服 丝袜 国产 另类 亚洲色大成人一区二区 亚洲国产精品500在线观看 综合色天天久久 人妻无码一区二区在线影院 狠狠色综合播放一区二区 高清国产美女一级a毛片在线 国产午夜亚洲精品不卡福利 国产免费专区 欧美日韩性高爱潮视频 欧美a在线播放 夜夜被公侵犯的美人妻 亚洲αⅴ无码乱码在线观看性色 国产日韩久久久精品影院首页 四虎成人精品无码永久在线 国产91网 无码国产精品第100页 乱人伦中文字幕在线不卡网站 国产亚洲美女精品久久 国产AV无码专区亚洲AV桃花庵 亚洲熟妇乱子伦在线 国产精品一区二区av片 无码熟妇人妻AV影音先锋 无码电影在线观看一区二区三区 色综合久久加勒比高清88 一本大道久久精品 东京热 亚洲AV无码国产永久播放蜜芽 国产人澡人澡澡澡人碰视频 二区久久国产乱子伦免费精品 国产精品亚洲专区无码web 成人午夜免费无码视频在线观看 伊人亚洲综合网色AV另类 欧美在线成人午夜网站 欧美成人a在线网站 国产成人户外露出视频在线 a观看v视频网站入口免费 久久久久久一级毛片免费无遮挡 久久免费区一区二区三波多野在 国产成人免费a在线视频 欧美性一区 91精品啪在线观看国产18 欧美午夜精品久久久久久浪潮 97SE亚洲国产综合自在线不卡 女女同性黄网在线观看 久久精品国产99久久丝袜 日批视频免费在线观看 五月婷婷影视 中文字幕在线久热精品 亚洲aⅴ无码国精品中文字慕 麻豆国产巨作AV剧情老师 产国语一级特黄aa大片 丝袜美女污污免费观看的网站 91孕妇精品一区二区三区 免费国产黄线在线播放 日本韩国一区二区三区 久久久精品2019中文字幕之3 亚洲AV无码秘 蜜桃1区 999精品全免费观看视频 草草影院国产 国产精品久久久久尤物 国产伦精品一区二区三区四区 呦泬泬精品导航 91精品啪在线观看国产18 无码一区久久久久久久绯色AV 久久久久久久妓女精品免费影院 一级毛片不卡在线播放免费 精品一区二区三区免费爱 精选麻豆国产AV 国产精品白浆无码流出 最新国产精品亚洲二区 亚洲天堂中文 国产免费一级在线观看 国产一区二区三区啪 国产精品九九九久久九九 免费毛片视频网站 日韩欧美在线播放视频 97中文字幕在线观看 国内精品一区二区2021在线 亚洲AV秘 无码一区二区三区臀 国产精品无码专区综合网 九九九影院 国产福利片无码区在线观看 国产亚洲欧美精品一区 精品国产免费久久久久久 免费人成在线观看播放国产 亚洲乱码一区二区三区成人小说 亚洲AV秘 片一区二区三 无码电影在线观看一区二区三区 97在线视频免费 日本在线观看不卡 樱花AV在线无码 午夜视频网址 大陆国产乱人伦 国产午夜精品久久久久99 亚洲欧洲国产日产国码无码 亚洲AⅤ无码片一区二区三区 在线视频 亚洲精品 无码一区二区三区AV免费换脸 国产香蕉尹人综合在线观 九九九影院 麻豆国产乱人伦精品一区二区 亚洲国产香蕉视频欧美 亚洲AV无码专区国产H小说 加勒比无码专区中文字幕 91成人午夜性a一级毛片 亚洲黄色尤物视频 午夜tv视频免费国产区4 亚洲自拍愉拍 本道无码一区二区久久激情 日批视频免费在线观看 精品综合久久久久久8888 国产日韩精品一区二区在线观看播放 51精品视频一区二区三区 亚洲另类欧美综合久久图片区 加勒比黑人在线 久久无码高潮喷水免费看 无码中文日韩Av 亚洲色欲Aⅴ无码一区二区 色欲AV成人无码精品无码 欧美日韩性高爱潮视频 国产女高清在线看免费观看 亚州无线国产2021 亚洲AV无码精品一区二区三区l 久久国产国内精品对话对白 91亚洲人成手机在线观看 国产精品18久久久久久不卡中国 午夜无码一区二区三区在线 久久波多野结衣av 亚洲欧美日韩国产精品网 久久久久中文字幕无码少妇 国产白丝网站精品污在线入口 最新国产午夜福利 国产精品九九九久久九九 久久综合亚洲色社区 国产成人精品免费久久久久 欧美日本道免费二区三区 日本手机在线 中文不卡视频 一区二区免费电影 8av国产精品爽爽ⅴa在线观看 国产午夜亚洲精品不卡福利 精品18在线观看免费视频 精品国产福利久久久 国产自产c区 啪啪视频一区二区三区入囗 在线无码国产精品亚洲а∨ 国产91色在线|亚洲 欧美日韩国产在线观看免费 亚洲VA不卡一区 免费中文熟妇在线影片 国产又色又爽又刺激视频 麻豆国产av尤物网站尤物 亚洲无码a∨在线视频 国产aⅴ天堂亚洲国产av 久久99热精品免费观看欧美 亚洲Va中文字幕久久无码一区 久久精品国产亚洲5555 亚洲一级电影在线观看 久久久99精品成人片中文字幕 亚洲国产成人精品福利在线观看 狠狠色狠狠色综合网老熟女 99国产超薄丝袜足j在线播放 亚洲V在线激情 亚洲婷婷丁香激情 国产免费人成视频在线播放播 色999欧美日韩 中文字幕乱偷乱码亚洲 亚洲VA中文字幕欧美VA丝袜 国产乱人伦偷精品视频免 精品国产av无码一道 欧美亚洲国产人妖系列视 2021国产最新在线视频一区 国产人成无码视频在线 亚洲AV秘 无码一区二区三区1 全免费a级毛片免费看 色综合久久无码中文字幕app 久久99国产亚洲高清 国产女高清在线看免费观看 91天堂素人精品系列全集亚洲 亚洲国产夜色在线观看 91美女片黄在线观看 精品国产av无码一道 久久国产成人午夜av影院 国产一区二区精品久久凹凸 国产精品九九九久久九九 国产成人免费一区二区三区 传媒在线无码 亚洲电影中文字幕 九九九影院 亚洲成a人片在线播放观看国产 妺妺窝人体色www聚色窝韩国 亚洲AV成人无码国产一区二区 久久国产热精品波多野结衣av 国产内射XXXXX在线 亚洲国产一区二区三区最新 国产女人91精品嗷嗷嗷嗷 亚洲午夜无码AV不卡 国产爆乳无码一区二区在线 亚洲 无码 制服 丝袜 自拍 久久半精品国产99精品国产 亚洲最大无码AV网站观看 日韩爱爱视频 精品18在线观看免费视频 制服丝袜视频国产一区 人妻少妇不满足中文字幕 亚洲精品国产品国语在线app 免费二级毛片在线播放 国产成人精品曰本亚洲 久久国产综合精品欧美 人妻无码中文专区久久综合 久久久久久亚洲AV成人无码国产 一本无码人妻在中文字幕 一区二区三区不卡在线 狠狠干视频网站
        久久精品免费一区二区喷潮| 爽爽影院免费观看| 日韩av无码久久一区二区| 奇米影视第四色首页| 伊人狠狠色丁香婷婷综合| 国产乱xxⅹxx国语对白| 亚洲熟女少妇一区二区| 日韩中文在线视频| 天天做天天躁天天躁| 美女视频黄的全免费的| 国产精品久免费的黄网站| 一区五码在线| 国产美女胸大一区二区三区| 亚洲国产高清一区av| 一区二区三区免费看日本| 国产精品99精品久久免费| 成人午夜视频精品一区| 天堂8中文在线最新版在线| 日韩一级特黄毛片在线看| 精品国产乱码一区二区三区在线| 亚洲成AV人久久| 国产亚洲一区二区三区三州| 久久久精品国产三级精品| 亚洲国产色一区二区三区| 日韩精品久久久久久免费| 好大好深好猛好爽视频免费| 久久综合成人网| 久久久久亚洲AV无码去区首| 日本中出熟女一区二区| 激情都市亚洲一区二区| 久久精品国产色蜜蜜麻豆国语版| 成人爽a毛片免费视频| 在线精品国产一区二区三区| 久久国产成人亚洲精品影院老金| 日本久久一区二区三区高清| 日本一级特黄aa大片| 性无码一区二区三区在线观看 | 中文字幕人妻av一区二区| 99久久国产综合精品女乱人伦| 亚洲aⅴ久久久噜噜噜噜| 日韩精品一级在线视频|