(廣西大學(xué)廣西制造系統(tǒng)與先進(jìn)制造技術(shù)重點(diǎn)實(shí)驗(yàn)室 廣西 南寧 530000) (廣西大學(xué)機(jī)械工程學(xué)院 廣西 南寧 530000)
便攜式文檔格式(PDF)由于其跨平臺(tái)的通用性和文檔原稿完全再現(xiàn)的獨(dú)特優(yōu)勢(shì),廣泛應(yīng)用于各行各業(yè)的電子文件交互中,成為了不可替代的電子文檔標(biāo)準(zhǔn)格式之一,特別是各領(lǐng)域的科學(xué)出版物(如期刊雜志、學(xué)位論文和會(huì)議論文集等)的電子文獻(xiàn)普遍采用PDF傳輸和存儲(chǔ)。其中,表格作為最常見的可視化、高信息密度表示和構(gòu)造數(shù)據(jù)的方法之一[1-2],經(jīng)常作為PDF文獻(xiàn)中數(shù)據(jù)呈現(xiàn)的主要方式和載體,如材料科學(xué)文獻(xiàn)中材料成分?jǐn)?shù)據(jù)、實(shí)驗(yàn)結(jié)果的表達(dá)、財(cái)經(jīng)文獻(xiàn)中金融數(shù)據(jù)的表達(dá)等。為提高對(duì)這些數(shù)據(jù)的處理效率,實(shí)現(xiàn)對(duì)數(shù)據(jù)的系統(tǒng)管理、共享和重復(fù)有效綜合利用(如實(shí)現(xiàn)數(shù)據(jù)挖掘、構(gòu)建數(shù)據(jù)驅(qū)動(dòng)服務(wù))及知識(shí)提取,經(jīng)常需要設(shè)法取得這些表格中數(shù)據(jù),即進(jìn)行表格抽取。尤其是隨著大數(shù)據(jù)技術(shù)的成熟和在各行業(yè)的滲透,這些PDF中的表格數(shù)據(jù)作為相關(guān)領(lǐng)域大數(shù)據(jù)的主要來源,越來越受到對(duì)應(yīng)領(lǐng)域的大數(shù)據(jù)應(yīng)用的重視,對(duì)PDF電子文件(特別是科技文獻(xiàn))進(jìn)行表格抽取的需求也愈發(fā)強(qiáng)烈,推動(dòng)了對(duì)PDF文件表格抽取技術(shù)的研究。
為此,本文通過綜合中國(guó)知網(wǎng)、萬(wàn)方數(shù)據(jù)、Web of Science、ACM Digital Library和IEEE/IEE Electronic Library中有關(guān)PDF表格抽取技術(shù)的相關(guān)文獻(xiàn),收集了近二十年來關(guān)于PDF表格抽取研究的成果,介紹了最新的表格抽取系統(tǒng)研究進(jìn)展,總結(jié)了PDF文獻(xiàn)的表格抽取的主要方法,分析了不同方法間的優(yōu)勢(shì)和不足,指出了存在的問題和發(fā)展方向。
表格抽取雖是信息抽取(Information Extraction,IE)中必不可少的一環(huán),但相關(guān)技術(shù)的發(fā)展遠(yuǎn)不及IE全面和成熟,特別是針對(duì)PDF文件的表格抽取技術(shù)仍存在較多的缺陷。由于表格可存在于不同數(shù)據(jù)源中,而在不同格式類型的數(shù)據(jù)源中表格對(duì)象的存儲(chǔ)特點(diǎn)完全不同,因此針對(duì)不同格式進(jìn)行表格抽取的方法也基本不同。目前絕大部分表格抽取研究集中在圖像和Web數(shù)據(jù)源格式,而涉及PDF表格抽取的研究占比相對(duì)較少。國(guó)內(nèi)有少量文獻(xiàn)和專利研究了PDF表格抽取[3-17],但更多是關(guān)于PDF實(shí)體信息抽取。
表格既是一種可視化的知識(shí)表達(dá)模型,也能夠簡(jiǎn)單明了地傳達(dá)復(fù)雜數(shù)據(jù)之間的邏輯關(guān)系,同時(shí)具有物理結(jié)構(gòu)和邏輯結(jié)構(gòu)。物理結(jié)構(gòu)描述了表格區(qū)域在文本中的具體位置,邏輯結(jié)構(gòu)定義了表格的類型和單元格之間的關(guān)系。因此,表格抽取的過程主要包括:
② 表格結(jié)構(gòu)還原,即重構(gòu)表格的行和列,確定單元格數(shù)據(jù)之間的邏輯關(guān)系。對(duì)這兩個(gè)過程用不同的處理方式便形成了表格抽取的不同思路。當(dāng)前針對(duì)PDF的表格抽取研究出現(xiàn)了圖1所示的三種主要的思路。
(1) 轉(zhuǎn)化為標(biāo)記語(yǔ)言格式來提取表格數(shù)據(jù)。PDF是無標(biāo)記的文檔結(jié)構(gòu),對(duì)表格沒有明顯的標(biāo)識(shí)符,僅僅是文字和線條的無序集合。但標(biāo)準(zhǔn)通用標(biāo)記語(yǔ)言(Standard Generalized Markup Language,SGML)對(duì)表格有明確的標(biāo)簽,因此,可借助工具將PDF轉(zhuǎn)換為HTML或XML等標(biāo)記語(yǔ)言的Web格式,然后依賴標(biāo)記構(gòu)建隱馬爾可夫等模型(Hidden Markov Model,HMM)識(shí)別表格[18-20]并抽取信息。Pdf2table[1]是以這種思路研發(fā)的、較早的、完整的表格抽取系統(tǒng),通過pdftohtml工具獲得PDF表格并以結(jié)構(gòu)化數(shù)據(jù)格式(XML)存儲(chǔ)表格數(shù)據(jù),但該系統(tǒng)嚴(yán)重受限于pdftohtml返回的結(jié)果。根據(jù)標(biāo)記數(shù)據(jù)進(jìn)行表格信息抽取的方法又大致可以分為基于啟發(fā)式規(guī)則、基于本體知識(shí)、基于語(yǔ)義或數(shù)據(jù)特征三大類。這種研究思路依賴于學(xué)者自己對(duì)表格特征的理解和定義,需要在恰當(dāng)?shù)奈恢脼楸砀駜?nèi)容加
標(biāo)簽,轉(zhuǎn)換的過程中很容易丟失必要的信息,從而導(dǎo)致單元格數(shù)據(jù)之間的邏輯關(guān)系錯(cuò)誤。(2) 將PDF轉(zhuǎn)換為圖片格式,依賴圖像處理和字符識(shí)別技術(shù)進(jìn)行抽取。由于圖像處理相關(guān)技術(shù)日益成熟,從圖像中分離表格信息的研究最多,主要根據(jù)表格框線特征和像素特征實(shí)現(xiàn)表格區(qū)域檢測(cè)定位[21],利用光學(xué)字符識(shí)別(Optical Character Recognition,OCR)技術(shù)提取表格數(shù)據(jù)[22-27],當(dāng)前越來越多的研究引入機(jī)器學(xué)習(xí)模型對(duì)表格抽取過程中的關(guān)鍵技術(shù)(如表格定位和表格重構(gòu)算法)進(jìn)行改進(jìn)和完善。但該方法對(duì)文件轉(zhuǎn)換后的清晰度有較高要求,且必須有表格實(shí)線才能正確地分離單元格信息[3],對(duì)三線表和表格行列不規(guī)則合并的情況卻不能實(shí)現(xiàn)理想的表格結(jié)構(gòu)和數(shù)據(jù)邏輯關(guān)系還原,而這樣的表在科技文獻(xiàn)PDF中比較常見。
(3) 直接針對(duì)PDF文件的元數(shù)據(jù)設(shè)計(jì)表格抽取算法。PDF1.7在2008年1月正式成為ISO標(biāo)準(zhǔn)(ISO 32000),其格式本身包含了大量計(jì)算機(jī)可讀的元數(shù)據(jù)信息。比如PDF內(nèi)容流(Content Stream)中包含了一系列描述頁(yè)面外觀和其他圖形實(shí)體是如何呈現(xiàn)給用戶的指令。直接利用這些信息設(shè)計(jì)算法,可定位表格區(qū)域并實(shí)現(xiàn)表格抽取。一般需要借助PDF文件處理工具解碼PDF流對(duì)象,依賴于PDF元數(shù)據(jù)中的文本特征和圖形特征進(jìn)行表格識(shí)別并提取。
前兩種研究思路需要對(duì)PDF格式進(jìn)行轉(zhuǎn)換。其中HTML需要對(duì)表格增加特別的標(biāo)記,過程相對(duì)繁瑣。而圖像處理的相關(guān)技術(shù)比較成熟,因此也是當(dāng)前表格抽取的主要技術(shù),金山WPS等眾多軟件或百度供應(yīng)商都提供了對(duì)應(yīng)的支持工具,但也正因?yàn)槠湟蕾囉趫D像技術(shù),一般需要通過手動(dòng)[4]或人機(jī)交互方式[5]識(shí)別表格,自動(dòng)化程度也受到影響。同時(shí)文件格式轉(zhuǎn)換的過程中難免丟失信息或引入噪聲,使抽取效果大打折扣。相比之下第三種思路更容易保證表格數(shù)據(jù)結(jié)構(gòu)信息的完整性,容易實(shí)現(xiàn)自動(dòng)化。尤其是自2005年Adobe推出PDF1.6以來,出現(xiàn)了很多直接利用PDF文件信息即第三種思路的表格抽取研究,又主要集中在表格抽取的算法設(shè)計(jì)和性能評(píng)估兩個(gè)方面,以下重點(diǎn)總結(jié)第三種思路下這兩方面的研究進(jìn)展。
2 基于PDF元數(shù)據(jù)的表格抽取研究進(jìn)展 2.1 表格抽取的算法設(shè)計(jì) 有效檢測(cè)文檔中的表格區(qū)域,實(shí)現(xiàn)表格準(zhǔn)確定位是進(jìn)行表格數(shù)據(jù)提取的關(guān)鍵一步。根據(jù)表格定位算法設(shè)計(jì)的出發(fā)點(diǎn)不同,可將現(xiàn)有的基于PDF元數(shù)據(jù)的表格抽取研究分為基于表格布局特征和基于啟發(fā)式與機(jī)器學(xué)習(xí)結(jié)合的方法兩大類。
2.1.1基于表格布局特征的抽取方法
表格具有強(qiáng)烈的視覺效果和完全不同于正文的內(nèi)容布局,人們一眼就能從數(shù)千萬(wàn)個(gè)頁(yè)面中迅速判斷并定位表格,但是計(jì)算機(jī)不具備這樣的識(shí)別能力。目前PDF中的表格按照框線類型可分為三大類:同時(shí)具有橫線和豎線的全框線表格,只包含橫線的表格(比如常見的三線表)和橫豎線任意缺失的表格。同一領(lǐng)域內(nèi)的表格在結(jié)構(gòu)和布局上具有一定程度的相似性,如行或列中的數(shù)據(jù)類型和精度保持一致、行和列的完全填充、單元格之間大量的留白等,學(xué)者們?cè)噲D根據(jù)這樣的內(nèi)容布局特征實(shí)現(xiàn)表格抽取。通過將文本按一定規(guī)則切分為文本塊,聚類成候選表格區(qū)域,然后結(jié)合預(yù)定義的表格布局規(guī)則實(shí)現(xiàn)對(duì)候選區(qū)域篩選。如2018年6月更新的Tabula表格抽取系統(tǒng)[28]是這種方式的代表,但其自動(dòng)定位表格區(qū)域的準(zhǔn)確性不高,更依賴于手動(dòng)框選表格區(qū)域。
根據(jù)每個(gè)人抽象出的不同緯度的內(nèi)容布局特征,定義不同的文本分割、聚類和篩選規(guī)則,可大致分為圖2所示的三類表格抽取方法。
圖2 基于表格布局特征的表格抽取原理示意圖
(1) 基于表格的整體布局。從整體上看,表格就是由若干數(shù)據(jù)格子分門別類進(jìn)行排序組合,以便于統(tǒng)計(jì)和查閱。相比正文段落的字符密度,表格行的數(shù)據(jù)密度相對(duì)較小,呈現(xiàn)松散且有序。根據(jù)松散性和行間距,可將頁(yè)面上文本的字符按照一定規(guī)則分割為不同的文本區(qū)域,預(yù)設(shè)表格布局定義[6-7]對(duì)其進(jìn)行篩選,獲得可能的表格區(qū)域。如文獻(xiàn)[27]定義了三種常見的表格布局,提出了一種基于矩形包容原則的搜索方法。根據(jù)表格布局規(guī)則(比如表格的行在高度上應(yīng)該是一致的)來過濾已找到的候選表。但是該算法受限于預(yù)先定義的表格布局,而且輸出結(jié)果存在大量的假性表格。
(2) 基于表格框線。表格的框線形式存在多樣性,但實(shí)際應(yīng)用(尤其是科技文獻(xiàn))中一般不存在沒有任何一條橫豎線的無框線表,應(yīng)用最多的是三線表。線條可能作為單元格數(shù)據(jù)間的分割線,也可能是劃分表格區(qū)域和其他內(nèi)容的邊界,因此可利用表格框線界定表格區(qū)域[9]。PDF標(biāo)準(zhǔn)規(guī)范中的線條被單獨(dú)封裝在圖形對(duì)象中,可通過篩選直線或矩形繪制命令[7-8]找到相應(yīng)的線條特征。該方法相比于只利用布局特征的方法有更大的優(yōu)勢(shì),但是對(duì)圖形對(duì)象繪制路徑信息提取的完整度有較高要求,否則會(huì)出現(xiàn)表格誤判。
文獻(xiàn)[8]結(jié)合了視覺分隔符(包括橫豎線和表格中無規(guī)則的空白)和內(nèi)容布局結(jié)構(gòu)分析實(shí)現(xiàn)表格定位。總體來看,基于表格框線特征的抽取方法[8-11]都依賴于線條繪制命令,要求準(zhǔn)確地獲取PDF圖像繪制命令中的表格框線部分,對(duì)于無關(guān)線條(如頁(yè)眉、頁(yè)腳)的篩選和過濾直接影響表格定位的結(jié)果。尤其是文獻(xiàn)[12]特別依賴橫豎線的交點(diǎn)來劃分單元格,無法處理只有橫線的表格。為彌補(bǔ)單一的表格框線篩選存在的不足,文獻(xiàn)[13]增加了表格標(biāo)題行的語(yǔ)義檢索,采用區(qū)域并行生長(zhǎng)的思想同時(shí)對(duì)文本行和表格線進(jìn)行篩選,一定程度上減少了表格區(qū)域的漏判和誤判。
(3) 基于PDF文本流。PDF文件以頁(yè)為單位,頁(yè)與頁(yè)之間彼此獨(dú)立,每頁(yè)中與文字相關(guān)的信息(如文本位置、字體字號(hào)等)以流對(duì)象的形式存儲(chǔ),即文本流(Text Stream),是PDF內(nèi)容流的重要組成部分之一。由于PDF是面向顯示的,頁(yè)面上的每一個(gè)對(duì)象都有確定的位置坐標(biāo),保證其在不同平臺(tái)上顯示的唯一性。文本確定的外觀特征和先后順序在PDF文本流中都有對(duì)應(yīng)的操作符和操作數(shù),解碼文本流即可得到每一個(gè)字符詳細(xì)的文本狀態(tài)參數(shù)信息,包括字體、字號(hào)、字符間距、位置坐標(biāo)等。因此基于PDF文本流可將表格內(nèi)的文字流節(jié)點(diǎn)從水平和垂直兩個(gè)方向分別進(jìn)行柵格化[14-15],把無結(jié)構(gòu)化的文字信息歸位形成文本塊,從而篩選得到表格內(nèi)容[16-17]。文獻(xiàn)[29]研究了針對(duì)無標(biāo)記PDF的表格結(jié)構(gòu)識(shí)別的系統(tǒng)配置,開發(fā)了一個(gè)PDF表格抽取實(shí)驗(yàn)Web應(yīng)用程序。
基于PDF文本流的表格抽取方法不依賴表格框線的識(shí)別,但是需要用戶在屏幕上手動(dòng)框選待重現(xiàn)的表格區(qū)域[14],是在已確定表格物理位置的情況下完成表格重構(gòu)的工作,而且對(duì)于單元格合并的情況其理解程度也不高。
2.1.2基于啟發(fā)式與機(jī)器學(xué)習(xí)結(jié)合的抽取方法
不同于基于內(nèi)容布局特征的方法完全預(yù)定義了表格可能的呈現(xiàn)形式,啟發(fā)式是根據(jù)表格的某些特征提供一些可能的假設(shè),引入機(jī)器學(xué)習(xí)模型訓(xùn)練數(shù)據(jù)集來幫助系統(tǒng)做決策,其靈活性和適應(yīng)性大大增加。相比之下,基于啟發(fā)式與機(jī)器學(xué)習(xí)結(jié)合的抽取方法[30]對(duì)于常規(guī)的清晰表格可以獲得更好的結(jié)果,因此被更多學(xué)者應(yīng)用到表格抽取的研究當(dāng)中。如最新的基于Tabula庫(kù)設(shè)計(jì)的Table-Pedia[31]系統(tǒng),結(jié)合了啟發(fā)式和機(jī)器學(xué)習(xí)方法,實(shí)現(xiàn)從PDF收集、表格抽取到實(shí)驗(yàn)數(shù)據(jù)庫(kù)構(gòu)建和操作的全過程。
文獻(xiàn)[32]基于表格的“稀疏線”特征,引入條件隨機(jī)場(chǎng)和支持向量機(jī)來優(yōu)化表格定位的算法;而文獻(xiàn)[33]首先設(shè)計(jì)啟發(fā)式規(guī)則來標(biāo)記數(shù)據(jù)集,利用遠(yuǎn)程監(jiān)控技術(shù)自動(dòng)生成帶注釋的數(shù)據(jù)。通過標(biāo)記的訓(xùn)練集來訓(xùn)練監(jiān)督樸素貝葉斯、邏輯回歸和支持向量機(jī)模型對(duì)表格區(qū)域的邊界預(yù)測(cè);文獻(xiàn)[34]則結(jié)合松散規(guī)則選擇一些類似于表格的區(qū)域,通過構(gòu)建和改進(jìn)的卷積神經(jīng)網(wǎng)絡(luò)來確定所選區(qū)域是否為表格。文獻(xiàn)[35]提出的基于啟發(fā)式和無監(jiān)督學(xué)習(xí)的表格識(shí)別方法不需要手動(dòng)標(biāo)記任何的訓(xùn)練集,可以靈活地適應(yīng)新的輸入統(tǒng)計(jì)數(shù)據(jù),而不需要重新培訓(xùn)模型。但其只能定位到存在表標(biāo)題的表格區(qū)域,并且在表格結(jié)構(gòu)抽取階段,行和列以相同的對(duì)稱方式進(jìn)行分割的方法對(duì)提取多樣性的表格布局來說不夠靈活。
總體來看,支持向量機(jī)能夠?qū)Ψ蔷€性可分或不可分?jǐn)?shù)據(jù)集進(jìn)行分類,而且所需的訓(xùn)練樣本數(shù)量較小,正好滿足了PDF表格抽取無法提供大規(guī)模訓(xùn)練樣本的現(xiàn)狀,因此被最多地采用。
綜上所述,基于表格布局特征的抽取方法受限于規(guī)則的預(yù)定義,其靈活性不高。一般基于項(xiàng)目本身的需求來設(shè)計(jì)算法,不會(huì)將表格布局所有可能的情形都考慮周全,導(dǎo)致算法在一定情形下的實(shí)現(xiàn)效果可能較好,但適應(yīng)性不強(qiáng)。基于啟發(fā)式與機(jī)器學(xué)習(xí)結(jié)合的抽取方法通常需要較復(fù)雜的后處理環(huán)節(jié),啟發(fā)式特征的選擇和訓(xùn)練數(shù)據(jù)集的質(zhì)量決定了最后輸出結(jié)果的好壞。
2.2 表格抽取性能評(píng)估的研究現(xiàn)狀 表格抽取作為IE的子任務(wù)之一,表格抽取算法或系統(tǒng)的性能評(píng)估是一個(gè)不可忽略的問題。絕大部分的文獻(xiàn)在算法研究之后以常規(guī)的召回率、精確度或F-Measures為評(píng)價(jià)指標(biāo)驗(yàn)證其性能。由于表格結(jié)構(gòu)的特殊性,這些常用的指標(biāo)并不能準(zhǔn)確反映表格抽取算法的性能。專門研究表格抽取算法性能評(píng)估的文獻(xiàn)較少,以下總結(jié)相關(guān)的研究成果并分析存在的問題。
國(guó)際文檔分析和識(shí)別大會(huì)(International Confe-rence on Document Analysis and Recognition,IDCAR)組織的同名競(jìng)賽是關(guān)于文本識(shí)別和分析問題的最重要的國(guó)際賽事。IDCAR于2013年設(shè)立了一項(xiàng)在原生數(shù)字PDF文檔中進(jìn)行表檢測(cè)和結(jié)構(gòu)識(shí)別的競(jìng)賽[36],該賽事提供了統(tǒng)一的數(shù)據(jù)集,第一次嘗試客觀地評(píng)估表格抽取技術(shù)的性能。但I(xiàn)DCAR提供的PDF文件數(shù)量較少,而且每一個(gè)文檔對(duì)應(yīng)一個(gè)XML文件以確定表格的位置,無法衡量其評(píng)估的系統(tǒng)對(duì)無注釋無標(biāo)記的文檔是否也具有相同的性能。
現(xiàn)有的表格抽取技術(shù)性能評(píng)估框架主要集中在表格定位和表格結(jié)構(gòu)識(shí)別的過程[3],試圖分階段建立表格處理的輸出模型[37]和評(píng)價(jià)指標(biāo),而忽略了單元格數(shù)據(jù)的類屬關(guān)系是否被正確解釋。針對(duì)表格抽取的結(jié)果,文獻(xiàn)[38]提出了一種新的度量方法,稱為表格一致性,自動(dòng)生成計(jì)算關(guān)于單元格的數(shù)量、內(nèi)容、拓?fù)浣Y(jié)構(gòu)和索引結(jié)構(gòu)的查詢,用于識(shí)別器輸出和基本事實(shí)的邏輯表格結(jié)構(gòu)編碼,通過搜索其他表格編碼來驗(yàn)證或反駁查詢,定義已驗(yàn)證查詢的百分比。
Silva[39]基于召回率和精確度引入了一致性和純度的概念,作為定義所有分割任務(wù)的評(píng)價(jià)指標(biāo)。Shahab等[40]提出了分別在多個(gè)級(jí)別使用精確度和召回率測(cè)量的方法,包括單元格、行、列和區(qū)域。Hu等[41]提出基于編輯距離的方法,以“插入”“刪除”“替換”分別描述表格區(qū)域的誤識(shí)別、未識(shí)別、合并拆分錯(cuò)誤,用被操作的行數(shù)表示代價(jià)函數(shù)。但該方法的局限性在于最后的輸出只有唯一的代價(jià)值,不便體現(xiàn)各種錯(cuò)誤類型發(fā)生的情況。Li等[42]和Wang等[43]提出了相似的評(píng)估方法,通過比較檢測(cè)到的表格區(qū)域面積與文檔基準(zhǔn)中的表格區(qū)域面積,計(jì)算其重疊率或面積比率作為評(píng)價(jià)指標(biāo)。但是不同的表格抽取算法對(duì)表格區(qū)域的定義存在差異,比如是否包含表格標(biāo)題等,造成抽取的表格面積具有多樣性,會(huì)直接影響計(jì)算結(jié)果。房婧等[6]構(gòu)建了一個(gè)公開的等比例中英文數(shù)據(jù)集,并對(duì)數(shù)據(jù)集標(biāo)注基準(zhǔn)結(jié)果,建立了一套面向應(yīng)用的細(xì)粒度評(píng)估準(zhǔn)則。定量描述了6種表格定位錯(cuò)誤類型,計(jì)算新意義下的準(zhǔn)確度和召回率。但是該評(píng)估方法沒有考慮具體的表格物理和邏輯結(jié)構(gòu)。
總的來看,表格抽取還沒有標(biāo)準(zhǔn)的評(píng)價(jià)程序和方法,相關(guān)研究不夠系統(tǒng)和深入,也可以說是還沒有得到重視。更多的研究是停留在解決表格抽取的問題上,至于抽取性能的好壞帶有研究者較多的主觀意識(shí)。
3 現(xiàn)有表格抽取技術(shù)的發(fā)展需求分析 3.1 表格抽取的發(fā)展需求 (1) 急需全自動(dòng)化的表格抽取方法和系統(tǒng)。實(shí)現(xiàn)全自動(dòng)化PDF文獻(xiàn)表格提取是主要需求趨勢(shì)之一。“表格”沒有客觀的、確定的、唯一的定義,只是一種組織整理數(shù)據(jù)的手段,一種可視化的數(shù)據(jù)表達(dá)模型,無法用數(shù)字或公式來量化,這無疑增加了計(jì)算機(jī)“讀懂表格”的難度。而隨著大數(shù)據(jù)的構(gòu)建需求,需要高效地從大量的PDF文獻(xiàn)中提取表格,不可能對(duì)每一個(gè)PDF文獻(xiàn)的表格進(jìn)行手工定位、交互式選取和再提取,因此需要訴諸自動(dòng)化提取方法和系統(tǒng)。如Rastan等[44-46]推出了完全自動(dòng)化的表格處理系統(tǒng)TEXUS,該系統(tǒng)融合了一個(gè)端到端的表格處理框架,擴(kuò)展了傳統(tǒng)表格處理概念的范圍,增加了PDF包裝器模塊和表格理解模塊,以幫助語(yǔ)義上正確的數(shù)據(jù)抽取。
(2) 不同的表格抽取研究思路仍將并存發(fā)展。從目前的研究進(jìn)展來看,圖1提及的三種表格抽取研究思路各有優(yōu)劣,皆不能完美地解決所有的PDF表格抽取問題。尤其是在表格重構(gòu)的過程中,還沒有一個(gè)高效、成熟的算法或系統(tǒng)能夠?qū)崿F(xiàn)對(duì)所有單元格類型和結(jié)構(gòu)的正確還原。因此,從不同的研究角度出發(fā)(如標(biāo)記數(shù)據(jù)、轉(zhuǎn)為圖片或直接解碼PDF文件),應(yīng)用不同的工具和技術(shù)手段來解決表格抽取問題,多個(gè)研究思路仍將并存發(fā)展。受需求(1)的驅(qū)動(dòng),基于PDF文件元數(shù)據(jù)的抽取方式可能更適合自動(dòng)化,具有更大的發(fā)展前景。而第二種思路由于可與提取PDF文獻(xiàn)的主要文字內(nèi)容結(jié)合,也將被廣泛應(yīng)用。而無論哪種思路,如何提高提取的準(zhǔn)確性(數(shù)據(jù)正確、邏輯正確)仍然是主要需要解決的問題。
(3) 結(jié)合機(jī)器學(xué)習(xí)等人工智能算法是未來的發(fā)展趨勢(shì)。表格布局的多樣性:① 每一張表格的數(shù)據(jù)格式和結(jié)構(gòu)布局,并沒有統(tǒng)一確定的標(biāo)準(zhǔn);② 不同的數(shù)據(jù)類型,不同作者的表達(dá)習(xí)慣和不同受眾的需要,單元格存在不同級(jí)別的若干行或列合并,表格橫豎線可能任意缺失;③ 表頭的具體位置也不確定,可能是第一行或第一列,可能是復(fù)合表頭,也可能和表格內(nèi)容交替出現(xiàn)。對(duì)表格重構(gòu)和單元格間邏輯關(guān)系的理解增加了難度。用一般性來概述表格布局的任意性,其結(jié)果肯定差強(qiáng)人意,適應(yīng)性不強(qiáng)。為此,隨著與機(jī)器學(xué)習(xí)有關(guān)的科學(xué)研究空前活躍,相關(guān)算法日益成熟,結(jié)合機(jī)器學(xué)習(xí)等人工智能算法來提高表格抽取靈活性已成為趨勢(shì)和手段。比如:第一種研究思路通過無監(jiān)督學(xué)習(xí)或半監(jiān)督學(xué)習(xí)對(duì)PDF元數(shù)據(jù)進(jìn)行標(biāo)記和注釋[32,47],實(shí)現(xiàn)從標(biāo)記數(shù)據(jù)中抽取表格;第二種研究思路利用深度神經(jīng)網(wǎng)絡(luò)等算法模型直接作用于圖像,檢測(cè)表格;第三種研究思路以支持向量機(jī)為主要方法應(yīng)用于表格抽取過程中。接下來,通過合理改進(jìn)和優(yōu)化人工智能算法,結(jié)合表格獨(dú)有的顯示特征,以構(gòu)建更完善的表格抽取技術(shù)仍是未來的發(fā)展趨勢(shì)之一。
(4) 實(shí)現(xiàn)學(xué)科領(lǐng)域性的表格抽取是重要的技術(shù)需求。對(duì)同一張表格,不同人的理解并不相同,不同學(xué)科應(yīng)用背景下表格標(biāo)題、框線和內(nèi)容三部分不一定都完整存在。不同的算法中會(huì)限定不同需求的表格形式,如文獻(xiàn)[2]定義的表格區(qū)域包括表格標(biāo)題,文獻(xiàn)[29]不關(guān)心表格框線,而文獻(xiàn)[32]既不關(guān)心表格框線也不考慮表格標(biāo)題,只對(duì)滿足“稀疏線”特征的低密度文字行進(jìn)行標(biāo)記。故最后的表格抽取結(jié)果受限于學(xué)科背景和學(xué)者自身對(duì)表格的主觀理解和定義。
更為突出的是,隨著數(shù)據(jù)的積累和大數(shù)據(jù)技術(shù)的發(fā)展,行業(yè)(或者特定領(lǐng)域)大數(shù)據(jù)的復(fù)用和應(yīng)用將居首位,但各行業(yè)間的知識(shí)、數(shù)據(jù)特征等各不相同。而現(xiàn)有的表格抽取方法考慮的都是常規(guī)的表格特征和布局,顯然通用的表格抽取技術(shù)在特定的學(xué)科領(lǐng)域?qū)崿F(xiàn)表格抽取的效果并不好。因此,面向特定的學(xué)科領(lǐng)域和特定需求構(gòu)建有針對(duì)性的PDF表格抽取算法將是未來的研究方向。以制造行業(yè)為例,基于數(shù)據(jù)驅(qū)動(dòng)材料研發(fā),發(fā)展材料信息學(xué)(Materials Informatics)[48],助力先進(jìn)制造已成為重要的議題。材料信息學(xué)強(qiáng)調(diào)對(duì)材料科學(xué)中的知識(shí)和數(shù)據(jù),特別是對(duì)已有的計(jì)算數(shù)據(jù)和實(shí)驗(yàn)數(shù)據(jù)進(jìn)行系統(tǒng)管理,需要高效地從已有PDF材料研發(fā)文獻(xiàn)中獲取實(shí)驗(yàn)數(shù)據(jù)。在生物學(xué)、物理學(xué)、軍事、金融、通信互聯(lián)網(wǎng)等各行業(yè)同樣重視數(shù)據(jù)信息的管理,故表格數(shù)據(jù)的抽取是不可忽視的技術(shù)需求之一。
未來的研究可具體到某一個(gè)特定的學(xué)術(shù)領(lǐng)域或者基于學(xué)術(shù)領(lǐng)域知識(shí)的表格提取方法,結(jié)合其特定的理論知識(shí)和公理,設(shè)計(jì)領(lǐng)域內(nèi)的知識(shí)情景模型(如制造領(lǐng)域的工藝參數(shù)范圍可用于判斷提取數(shù)據(jù)的重構(gòu))、本體(可應(yīng)用于偵測(cè)表格的內(nèi)容)和表格抽取算法,增加語(yǔ)義,不但能提高效率,也能有效避免表格多樣性帶來的表格預(yù)定義不完全的問題、表格提取數(shù)據(jù)的邏輯正確性問題等。這相比通用的表格抽取技術(shù)也許會(huì)有更顯著的優(yōu)勢(shì)。
3.2 性能評(píng)估的發(fā)展需求 表格抽取的標(biāo)準(zhǔn)評(píng)價(jià)方法還沒有得到很好的發(fā)展[45],多年來應(yīng)用最為廣泛的是信息抽取中的召回率、精確度和F-measure來衡量系統(tǒng)的性能。但是單從以上指標(biāo)來比較兩個(gè)算法的優(yōu)劣并不恰當(dāng),因?yàn)楸砀癯槿〔粌H要求準(zhǔn)確獲得表格數(shù)據(jù),還涉及到單元格數(shù)據(jù)的對(duì)應(yīng)關(guān)系是否準(zhǔn)確,跨頁(yè)表格的提取是否完全等更多結(jié)構(gòu)上的細(xì)節(jié)內(nèi)容。特別是在單元格識(shí)別中,單元格的結(jié)構(gòu)和組織方式直接決定了表格的邏輯關(guān)系和數(shù)據(jù)之間的聯(lián)系,會(huì)出現(xiàn)各種需要單獨(dú)考慮的錯(cuò)誤。比如:?jiǎn)卧窨赡芟蛉我庖粋€(gè)方向拆分,也可能向另一個(gè)方向合并,錯(cuò)誤的識(shí)別和重構(gòu)會(huì)導(dǎo)致歧義[49]。 因此,構(gòu)建一套完整的、客觀的、適用于表格抽取的評(píng)價(jià)指標(biāo)體系是未來性能評(píng)估發(fā)展的迫切需求和研究熱點(diǎn)之一。
此外,不管是算法測(cè)試還是性能評(píng)估,各研究都是基于各不相同的PDF數(shù)據(jù)集,有的是掃描PDF圖像文件,有的是PDF早期的版本標(biāo)準(zhǔn)。沒有統(tǒng)一的數(shù)據(jù)集使得不同研究的實(shí)驗(yàn)結(jié)論無法直接用于比較不同算法之間的差別和優(yōu)劣。目前公開公用的數(shù)據(jù)集UW-3中包含一部分表格區(qū)域的基準(zhǔn)[6],但是該數(shù)據(jù)集是針對(duì)圖像頁(yè)面而設(shè)計(jì),適用于頁(yè)面布局分割領(lǐng)域,不適用于版式文檔的表格定位。北航和微軟亞洲研究院聯(lián)合創(chuàng)建了一個(gè)多達(dá)41.7萬(wàn)數(shù)據(jù)量的開源表格檢測(cè)和表格結(jié)構(gòu)識(shí)別數(shù)據(jù)集TableBank[50],但是該數(shù)據(jù)集是對(duì)Word文檔和LaTex文檔進(jìn)行弱監(jiān)督而建立的,主要針對(duì)從圖像中檢測(cè)和識(shí)別表。因此,構(gòu)建一個(gè)公開的標(biāo)準(zhǔn)數(shù)據(jù)集成為未來性能評(píng)估工作的基礎(chǔ)。
4 結(jié) 語(yǔ) 大數(shù)據(jù)時(shí)代是信息科學(xué)技術(shù)發(fā)展的必然。數(shù)據(jù)不僅僅是存儲(chǔ)在計(jì)算機(jī)中的一個(gè)符號(hào),它已經(jīng)完全滲透到了當(dāng)今社會(huì)的每一個(gè)行業(yè)和個(gè)人,與人們的生產(chǎn)生活息息相關(guān)。表格作為傳達(dá)數(shù)據(jù)的重要形式之一,存在于海量的PDF文件中,是大數(shù)據(jù)的重要數(shù)據(jù)來源。研究獲取PDF中的表格數(shù)據(jù)能有效地幫助學(xué)科構(gòu)建數(shù)據(jù)庫(kù)和實(shí)現(xiàn)數(shù)據(jù)系統(tǒng)管理,特別是對(duì)于科學(xué)研究方面更是如此。
現(xiàn)有的表格抽取技術(shù)主要形成了轉(zhuǎn)化為標(biāo)記語(yǔ)言格式,轉(zhuǎn)化為圖片和基于PDF元數(shù)據(jù)三種研究思路,但各有優(yōu)勢(shì),未來仍將并存發(fā)展,而基于PDF元數(shù)據(jù)更易實(shí)現(xiàn)自動(dòng)化。基于PDF元數(shù)據(jù)的方法主要是根據(jù)表格內(nèi)容布局設(shè)計(jì)篩選規(guī)則,或選擇表格特征設(shè)計(jì)啟發(fā)式算法,利用機(jī)器學(xué)習(xí)訓(xùn)練數(shù)據(jù)集?,F(xiàn)有方法在提取準(zhǔn)確性,尤其是科技文獻(xiàn)的表格數(shù)據(jù)邏輯性方面都還達(dá)不到要求,無法適應(yīng)多學(xué)科領(lǐng)域的專業(yè)的表格提取,而對(duì)于表格抽取算法的性能評(píng)估尚處于探索階段。
隨著復(fù)用PDF文件中的數(shù)據(jù)和基于PDF文獻(xiàn)來構(gòu)建大數(shù)據(jù)等需求的推動(dòng),未來更需要全自動(dòng)化的高效提取方法和系統(tǒng)。同時(shí),需要結(jié)合各學(xué)科領(lǐng)域的公理、知識(shí),構(gòu)建情景模型、學(xué)科背景的表格特定規(guī)則等方式來提高表格提取算法對(duì)學(xué)科語(yǔ)義的理解能力,滿足對(duì)學(xué)科領(lǐng)域的表格的提取需求,并將其模塊化,便可以靈活地更改應(yīng)用到其他的領(lǐng)域。輔之機(jī)器學(xué)習(xí)等人工智能方法加強(qiáng)不同領(lǐng)域情景知識(shí)的學(xué)習(xí),以提高其智能適應(yīng)性。在此基礎(chǔ)上,結(jié)合學(xué)科知識(shí)搭建語(yǔ)言兼容、性能穩(wěn)定、精確度高的人工智能PDF表格抽取系統(tǒng)。這對(duì)實(shí)現(xiàn)國(guó)內(nèi)外大量科技文獻(xiàn)中表格數(shù)據(jù)的重用和共享具有重要的現(xiàn)實(shí)意義和價(jià)值。
感谢您访问我们的网站,您可能还对以下资源感兴趣:
亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放
免费99视频
欧美日韩中文字幕久久伊人
欧美一区二区午夜福利在线yw
国产成人8x视频网站入口
538任你爽精品视频国产
AV成人午夜无码一区二区
久草国产视频
中文字幕在线观看国产双飞高清
囯产精品无码va一区二区
亚洲日韩欧美一区二区三区
午夜tv视频免费国产区4
亚洲精品成人av观看
97SE亚洲国产综合自在线不卡
永久无码在线观看
精品国产AⅤ一区二区三区4区
日日摸日日碰人妻无码老牲
97SE亚洲国产综合自在线不卡
国产妇女乱一性一交
中文字幕无码人妻丝袜
国产免费看网站v片不遮挡
国产精品自产拍在线观看免费
国产亚洲午夜精品
在线人妻无码一区二区
制服丝袜视频国产一区
欧洲亚洲第一区久久久
久久一区二区三区四区
久久精品无码一区二区三区不
日本污视频
精品国产高清一区二区广区
亚洲AV无码一区二区三区天堂网
欧美韩国精品另类综合
精品99在线黑丝袜
久久国产免费观看精品
国产激情视频在线观看首页
成人动漫久久
小12箩利洗澡无码视频网站
2021国产最新在线视频一区
欧美中文字幕在线看
国产一区二区精品久久凹凸
日韩欧美国产自由二区
国产综合久久久久影院
一区二区无码中出
极品 在线 视频 大陆 国产
久久国产亚洲高清观看5388
一本无码av一区二区三区
中文毛片无遮挡高潮
任你躁欧美一级在线精品免费
免费的一级毛片
亚洲色偷拍一区二区三区
51精品视频一区二区三区
丁香婷婷色
激情五月天伊人久久
亚洲国产香蕉视频欧美
亚洲熟妇在线视频观看
日韩永久免费无码AV电影
国产在线不卡视频
亚洲欧美日韩中文v在线
亚洲AV毛片无码成人区httP
亚洲国产精品久久久久秋霞1
亚洲福利天堂网福利在线观看
四虎影视久久久免费
久久99国产伦精品免费
全免费a级毛片免费看
在线视频一区二区日韩国产
亚洲性综合网
国产高清在线精品一区αpp
久久精品国产亚洲综合色
国产精品白浆一区二区免费看
无码在线观看123
av色综合网站
国产精品天堂avav在线
国产精品一区二区av片
亚洲VA欧美VA国产VA综合
亚洲tv精品一区二区三区
无码AV高潮喷水无码专区线
久久福利资源国产精品999
久久久国产精品福利免费
天天干夜夜躁
亚洲男女免费视频
久久国产亚洲AV无码麻豆
久久精品无码专区东京热
国产哟交泬泬视频在线播放
国产一区二区激情对白在线
99热这里有免费国产精品
国产成人久久蜜一区二区
男女一级毛片免费视频看
中文字幕一区二区三区在线不卡
91精品全国免费观看青青
久久国产影视免费精品
亚洲色欲大片AAA无码
精品国产av无码一道
97人妻视频妓女网
国产成人8x视频网站入口
国产成人美女AV
亚洲日韩中文字幕在线播放
欧美日韩国产在线观看免费
巨爆乳中文字幕爆乳区
色噜噜狠狠色综合中文字幕
国产精品嫩草影院午夜
亚洲制服无码一区二区三区
一本到无码AV专区无码
亚洲人成人一区二区三区
国产高清国内精品福利99久久
国产午夜亚洲精品理论片不卡
亚洲午夜福利精品久久
99热成人精品国产免
亚洲熟妇AV一区二区三区宅男
亚洲一区二区欧美色妞影院
精品国产亚洲一区二区三区演员表
一区二区无码中出
在线播放国产女同闺蜜
国产亚洲精品福利在线
亚洲婷婷丁香激情
91精品啪在线观看国产色
国内精品人妻无码久久久影院94
久久综合亚洲色社区
国产人澡人澡澡澡人碰视频
野外三级国产在线观看
91网站在线看
亚洲色欲大片AAA无码
综合91在线精品
无码一区东京热
国产精品大屁股1区二区三区
国产精品无码久久久一区蜜臀
精品中文字幕制服中文
久久青草国产精品一区
一本一道波多野结衣av中文
欧美在线成人午夜网站
久久精品无码一区二区2020
国产精品爆乳在线播放
97色噜噜
亚洲成AⅤ人在线观看无码
久久国产成人午夜av影院
97中文字幕在线观看
国产精品亚洲A∨天堂
9久久精品视香蕉蕉
国产 中文 制服丝袜 另类
欧美日韩精品一区二区三区高清视频
午夜精品一区二区三区无码不卡
亚洲AV无码成人网站久久精品
欧美人与禽交zozo
日韩欧美国产自由二区
亚洲高潮喷水中文字幕
国产精品高潮无码毛片
亚洲日韩图片专区小说专区
久久精品爱国产免费久久
国产免费人成视频在线播放播
久久久久欧洲AV成人无码国产
久久久久久一级毛片免费无遮挡
久久国产亚洲高清观看5388
国产高清a
久久无码高潮喷水免费看
熟妇无码AV
国产午夜精品一区二区三区不
美国黄色片一区二区三区
日韩爱爱视频
视频一区精品自拍
在线观看av手机网址
亚洲国产成人AⅤ片在线观看
国产精品爽爽va在线观看网站
久久精品无码一区二区2020
精品囯产成人国产在线观看
日韩女人毛片在线播放
超碰Av一区=区三区
美女一级毛片免费观看97
国产系列丝袜熟女精品视频
亚洲欧美日韩国产综合久
久久久久亚洲精品天堂
在线播放国产女同闺蜜
精品不卡久久久久久无码人妻
亚洲黄色尤物视频
国产精品自产拍在线18禁
欧美日韩亚洲一区二区精品
亚洲天堂资源网
久久精品国产亚洲AV成人公司
色欲AV无码久久精品有码
国产精品爆乳在线播放
中文字幕久热精品视频免费
免费成人福利视频
成人国产精品一区二区网站
欧美a在线播放
岛国大片在线免费观看
亚洲AV无码一区二区二三区我
亚洲欧洲国产日产国码无码
免费成人福利视频
国产91色在线|亚洲
亚洲不卡电影
国产精品高清视亚洲乱码有限公司
欧美成人a在线网站
久久av高潮av喷水av无码
香蕉国产人午夜视频在线观看
久久中文字幕日韩精品
国产午夜亚洲精品理论片不卡
亚洲AV伊人久久综合密臀性色
亚洲中文字幕无码二区在线
久久免费视亚洲无码视频
亚洲无码a∨在线视频
午夜亚洲AV成人无码国产
久久精品中文字幕极品
久久天堂av色综合
欧美人成在线播放网站免费
四虎成人精品国产一区a
人伦片无码中文字幕
午夜毛片午夜女人喷潮视频
国产亚洲高清不卡在线观看
国产自产精品露脸刺激91在线
亚洲 无码 制服 丝袜 自拍
精品无码AⅤ片
亚洲中文av一区二区三区
中文字幕avdvd
99久久综合九九亚洲
亚洲av日韩av综合aⅴxxx
2021国内精品久久久久精免费
久久国产成人亚洲精品影院老金
国产999视频
亚洲男女免费视频
亚洲AV无码精品呻吟
8av国产精品爽爽ⅴa在线观看
国产无码swag专区
国产aⅴ夜夜欢一区二区三区
麻豆AⅤ精品无码一区二区
久久精品国产亚洲5555
国产成人久久蜜一区二区
白浆出来无码视频在线
亚洲成av人片天堂网九九
亚洲VA中文字幕无码毛片春药
911香蕉视频
久久这里只精品国产2
尤物无码一区
国产系列丝袜熟女精品视频
久久成人永久免费播放
亚洲国产另类久久久精品小说
女的把腿张开男的猛戳出浆
久久福利青草精品资源
国产亚洲精品自在久久77
久久频精品99香蕉国产
小12箩利洗澡无码视频网站
亚洲成人观看
亚洲乱码一区二区三区成人小说
国产精品久久久久影视不卡
国产人成无码视频在线
大陆国产乱人伦
精品国偷自产在线不卡短视频
亚洲欧美日韩中文v在线
国产在线不卡免费播放
久久精品爱国产免费久久
免费一区二区三区视频狠狠
在线精品日韩一区二区三区
亚洲天堂资源网
久久久AV无码精品免费
狠狠躁夜夜躁AV网站中文字幕
国产高潮精品久久AV无码
2022Av天堂在线无码
麻豆国产av尤物网站尤物
人妻在线中文字幕
999久久66久6只有精品
欧美日韩国产成人综合在线影院
久久精品国产亚洲婷婷
丝袜欧美视频首页在线
久久精品国产91久久性色tv
亚洲色欲大片AAA无码
一本无码人妻在中文字幕
国产亚洲美女精品久久
亚洲欧美中文v日韩v在线
久久久久久亚洲AV成人无码国产
中文字幕人妻中文
正在播放淫亚洲
女高中生自慰污免费网站
91情侣视频
91亚洲国产成人aⅴ毛片大全
国产爆乳乱码女大生Av
无码Av在线一区二区三区
人妻无码AⅤ不卡中文字幕
手机看片国产日韩
中文字幕一区二区三区乱码不卡
啪啪无码人妻丰满熟妇
亚洲AV秘 无码二区在线
亚洲国产欧美日韩一区二区
國产AV天堂
欧美三级超在线视频
九色91精品国产网站
久久久久亚洲AV成人网毛片
热久久亚洲
在线视频中文字幕乱人伦
日韩五十路
免费高清日本中文
亚洲人妻无缓冲av不卡
亚洲制服无码一区二区三区
加勒比精品久久一区二区三区
99热最新在线观看
中文字幕不卡高清免费
啪啪视频一区二区三区入囗
国产成+人+综合+亚洲专
日韩精品国产自在欧美
偷亚洲偷国产欧美高清
无码人妻系列不卡免费视频
欧美中文字幕在线看
欧美综合区
亚洲国产cao
亚洲色成人网一二三区
亚洲欧美性另类春色
国产高清吃奶成免费视频网站
亚洲欧洲日产国产AV无码
精品国产福利久久久
国产成人77亚洲精品www
国产哟交泬泬视频在线播放
亚洲亚洲网站三级片在线
国产精品爆乳在线播放
久久精品爱国产免费久久
亚洲AV成人无码久久精品四虎
91福利国产在线观一区二区
538任你爽精品视频国产
久久99热精品免费观看欧美
香蕉视频免费在线
亚洲男女免费视频
99久久国内精品成人免费
国产99久久无码精品
无码AV高潮喷水无码专区线
国产成人啪精品午夜网站
亚洲精品亚洲人成在线下载
中文字幕巨乱亚洲
中文字幕在线日韩
精品囯产成人国产在线观看
精品无码av不卡一区二区三区
一本一本久久a久久
国产免费一级在线观看
亚洲制服无码一区二区三区
国产成人亚洲精品电影
精品国产av无码一道
久久免费观看国产精品
国产视频最新
亚洲日韩中文字幕在线播放
国产精品国产三级在线高清观看
亚洲另类激情综合偷自拍图
国产午夜福利精品
日韩成人无码v清免费
久久99国产伦精品免费
丝袜美女污污免费观看的网站
国产日韩欧美911在线观看
无码一区二区三区在线在看
精品国产品欧美日产在线
亚洲电影中文字幕
国产成人AV无码精品无毒
一本无码人妻在中文字幕
麻豆国产巨作AV剧情老师
国产人成无码视频在线
亚洲AV成人无码国产一区二区
亚洲一区二区婷婷久久
精品亚洲午夜久久久久
2021av在线
久久精品国产亚洲不av麻豆
亚洲国产A∨无码影院
久久天堂av色综合
成人午夜免费无码视频在线观看
亚洲男人的天堂精品一区二区
久久青青草原亚洲AV无码麻豆
亚洲国产一区在线二区三区
成人xx免费无码
欧洲一区在线观看
国产亚洲欧美精品一区
91产精品无码无套在线
国产一级免费黄片无码AV
九色91精品国产网站
久久精品免视看国产盗摄
亚洲A∨无码国产精品久久网
99ri国产在线观看
国产乱子伦精品免费女
狠狠躁夜夜躁人人爽天天
欧美成人a在线网站
亚洲精品亚洲人成在线下载
亚洲AV无码国产成人久久强迫
91爱爱视频
久久99国产亚洲高清
国产精品爽爽va在线观看网站
欧洲亚洲第一区久久久
91视频爱爱
亚洲a级片在线观看
亚洲熟妇一区无码
超碰Av一区=区三区
久久天堂av色综合
色综合久久无码中文字幕app
午夜a福利
亚洲国产成人AⅤ片在线观看
亚洲AV无码精品色午夜超碰
麻豆国产巨作AV剧情老师
亚洲aⅴ无码国精品中文字慕
久久久久久99精品
人妻久久999精品1024
无码人妻系列不卡免费视频
2021国产精品一区二区在线
国产精彩视频
视频一区精品自拍
加勒比无码专区中文字幕
亚洲两性视频一三区
亚洲成AⅤ人在线观看无码
亚洲精品aⅴ无码精品丝袜足
国产精品青草视频免费播放
亚洲国产A∨无码影院
久久精品性无码一区二区爱爱
亚洲一区sm无码
国产精品亚洲专区在线播放
丝袜欧美视频首页在线
久久男人av资源网站无码
国产成人精品日本亚洲专区6
亚洲人成人一区二区三区
亚洲V在线激情
国产精品自产拍在线18禁
国产国拍亚洲精品午夜不卡17
久久精品国产亚洲AV高清特级
精品少妇大屁股白浆无码
中文字幕亚洲综合久久菠萝蜜
午夜影视啪啪免费体验区入口
亚洲免费天堂
无码片久久久天堂中文字幕
伊人精品无码AV一区二区三区
久久久久久久98亚洲精品
曰韩精品无码一区二区三区
国产精品美女AV免费观看
精品亚洲国产探花在线播放
国产在线精品福利大全
亚洲aⅴ无码日韩av无码网站
美女一级毛片免费观看97
精品国产三级a
亚洲高潮喷水中文字幕
99国产精品丝袜久久久久
av无码精品一区二区乱子
国产成人午夜福利在线小电影
成人国产永久福利看片
亚洲国产欧美日韩一区二区
精品无码AⅤ片
国产亚洲欧美精品一区
亚洲成a人片在线网站
国产丝袜精品不卡
波多野结衣一区二区三区视频
亚洲色AV性色在线观看
精品国产一区二区三区AV小说
久久亚洲伊人
精品人伦一区二区三区蜜桃麻豆
国产成人综合久久久久久
日韩亚洲中文图片小说
久久精品国产91久久性色tv
9久9久女女热精品视频免费观看
亚州精品无码人妻久久
亚洲色成人网一二三区
无码精品一区二区三区超碰
一级呦女专区毛片
在线精品无码一区二区三区
久久精品无码一区二区三区不
乱人伦视频69
啪啪无码人妻丰满熟妇
www插插插无码视频网站
国产精品无码久久久久免费AV
婷婷第四色
樱花AV在线无码
av一区无码不卡毛片
91久久精品无码人妻系列
成黄色片视频日本秘书丝袜
国产免费一区二区三区最新不卡
国产成人77亚洲精品www
精品少妇大屁股白浆无码
精品国产亚洲一区二区三区演员表
亚洲日韩区在线电影
亚洲色大成网站www在线观看
亚洲片一区二区三区
欧洲亚洲第一区久久久
精品一精品国产一级毛片
欧美日本免费一区二
一级呦女专区毛片
久久精品国产亚洲婷婷
亚洲精品123区在线观看
亚洲制服无码一区二区三区
日韩女人毛片在线播放
久久福利资源国产精品999
免费国产黄线在线播放
亚洲欧洲日产国产AV无码
揄拍成人国产精品视频
国产综合自拍
级毛片免费看无码
日中文字幕在线
国产精彩视频
国产精品自产拍在线观看中文
亚洲精品美女久久久久久久
亚洲国产成人AV人片久久网站
一本大道久久精品 东京热
国产免费看网站v片不遮挡
国产农村三片免费网站
www插插插无码视频网站
久久久久久一级毛片免费无遮挡
一级一级毛片无码免费视频
AV教师一区高清
亚洲成a人片在线网站
欧美成人免费观看国产
最新精品国偷自产在线婷婷
中文字幕精品久久天堂一区
国产午夜精品久久久久99
深夜国产成人福利在线观看女同
无码中文av有码中文av
天天综合天天色
2021年国产精品每日更新
国产精品无码无片在线观看3D
98国产精品永久在线观看
欧美成人中文字幕
91精品国产91久久久无码95
97精品国产91久久久久久久
久久国产品野战
中字无码av电影在线观看网站
国产成人av综合亚洲色欲
a级福利毛片
99ri国产在线观看
99国产超薄丝袜足j在线播放
久久精品国产99久久丝袜
国产精品短视频
欧美成人免费看片一区
欧美精品aaa久久久影院
欧美日本免费一区二
日本一区二区啪啪视频
激情人妻在线视频
中文AV怡红院
国产aⅴ夜夜欢一区二区三区
一级呦女专区毛片
夜夜被公侵犯的美人妻
YW亚洲AV无码乱码在线观看
久久综合视频网站
高清无码精品一区二区三区
国产乱子伦精品免费女
色伊人国产高清在线
在线无码国产精品亚洲а∨
综合激情网站
久久精品国产免费观看99
国产一区二区三区小说
亚洲欧美日韩国产综合久
无码日韩人妻AV一区免费
亚洲AV成人无码久久精品在
亚洲精品美女久久久久久久
精品无码久久久久久久久粉色
色综合另类小说图片区
亚洲第一无码精品久久
国产精品欧美久久久久老妞
全免费a级毛片免费看
亚洲欧洲精品成人久久曰不卡
久久国产欧美日韩高清专区
午夜精品一区二区三区无码不卡
亚洲国产成人久久综合一区77
国产91 对白在线播放九色
欧美日本免费一区二
国产欧美va欧美va香蕉在线观
91久久国产精品视频
激情久久无码天堂
亚洲AV无码成人精品区网页
久久免费精品国产72精品剧情
国产亚洲女在线线精品
毛片无码高潮喷白浆视频
日本视频中文字幕一区在线
亚洲熟妇色xxxxx欧美老妇
久久久久亚洲精品美女
久久精品一品道久久精品9
亚洲av不卡电影在线网址最新
欧美色资源
产国语一级特黄aa大片
免费毛片性天堂
亚洲av无码成人网站www
国产91 对白在线播放九色
国产精品综合久久久久久久免费
天天躁日日躁狠狠躁一区
日中文字幕在线
国产国拍亚洲精品午夜不卡17
无码中文日韩Av
亚洲AV无码成人网站久久精品
亚洲欧美日韩中文v在线
国产福利片无码区在线观看
亚洲国产精品自产拍久久蜜AV
久久免费观看国产精品
成 人 网 站 在线 看 免费
中文亚洲爆乳av无码专区
中文人妻无码一区二区三区信息
国产婷婷丁香五月麻豆
日本丰满妇人成熟免费中文字幕
久久久久国产亚洲AV麻豆
аⅴ天堂国产最新版在线中文
无码一区久久久久久久绯色AV
一级片麻豆
成人国产永久福利看片
无码在线观看123
亚洲精品黄网在线观看
亚洲免费av电影一区二区三区
亚洲精品中国国产嫩草影院美女
国产精品网站夜色
国产高清吃奶成免费视频网站
在线免费欧美
丁香婷婷色
国产女人精品视频国产灰线
免费看奶头视频的网站
国产妇女乱一性一交
国产亚洲高清不卡在线观看
亚洲欧洲精品成人久久曰不卡
国产成人免费高清激情明星
91华人在线
麻豆AV免费网站
国产精品无码久久久久免费AV
中文字幕av一区二区三区
亚洲最大成av人网站
亚洲av无码专区在线亚
XXXXBBBB欧美
国产午夜无码视频免费网站
91亚洲国产成人aⅴ毛片大全
成黄色片视频日本秘书丝袜
连续高潮喷水无码
婷婷色综合成人成人网小说
午夜影视啪啪免费体验区入口
国产成人精品免费久久久久
香蕉国产人午夜视频在线观看
免费一区二区三区视频狠狠
亚洲视频99
亚洲高潮喷水中文字幕
99久久久精品免费香蕉
中文字幕AⅤ人妻一区二区
精品一区二区av天堂
亚洲AV秘 无码一区二区三区臀
国产成人AV无码精品无毒
久久中文字幕日韩精品
亚洲AV无码精品一区二区三区l
无码av免费永久免费永久专区
亚洲国产成人AⅤ片在线观看
99热国产在线
亚洲AV无码成人精品区天堂
国产成人77亚洲精品www
人妻无码Aⅴ中文系列
国产亚洲精品自在久久77
国产偷国产偷高清精品
国产精品偷伦免费观看的
亚洲AV无码秘 蜜桃1区
在线播放国产女同闺蜜
日韩欧美第一区二区三区
视频在线观看一区二区三区
久久se精品一区精品二区国产
亚洲国产精品线观看不卡
免费一区二区三区视频狠狠
亚洲中文字幕在线爆乳
日韩女人毛片在线播放
亚洲欧洲久久久精品
国产高清精品自在线看
99久久久无码国产精品动漫
91精品国产91久久久无码95
久久久国产精品福利免费
精品久久久久中文字幕APP
av无码天一区二区一三区
热久久这里只有
一区二区无码中出
国产成人国产在线观看
女高中生自慰污免费网站
手机看片福利日韩国产
无码Av在线一区二区三区
99热这里有免费国产精品
波多野结衣一区二区三区视频
久久99热精品免费观看欧美
2021国产精品久久
亚洲日韩图片专区小说专区
无码一区东京热
国内精品伊人久久久久av
日本激情网址
国产国语对白一区二区三区
亚州无线国产2021
亚州AV无码乱码精品国产
日韩爱爱视频
99国产精品丝袜久久久久
日韩精品成人无码AV片
亚洲精品成AV无在线观看
亚洲欧美日韩中文v在线
日韩欧美国产丝袜视频
夜夜爽无码一区二区三区
欧美日韩免费一区中文字幕
国产精品乱一区二区三区
伊人婷婷色香五月综合缴激情
亚洲国产一区在线二区三区
国产一区二区精品久久凹凸
av超碰在线免费观看
四虎精品国产一区二区三区
9久久精品视香蕉蕉
国产成人亚洲综合无码精品
国产va精品免费观看
91精品啪在线观看国产18
在线观看日本一区二区
亚洲一区二区欧美色妞影院
欧美视频第一页
国产精品无码久久久久免费AV
亚洲AV无码秘 蜜桃1区
久久久久久中文字幕有精品
国产妇女乱一性一交
国产精品无码无片在线观看3D
精品人妻中文av一区二区三区
亚洲欧美日韩国产一区二区精品
av无码天一区二区一三区
欧美日本免费一区二
51精品视频一区二区三区
国产免费看网站v片不遮挡
国内久久婷婷精品人双人
美国黄色片一区二区三区
亚洲国产麻豆综合一区
永久无码在线观看
8av国产精品爽爽ⅴa在线观看
日日爽日日操
免费99视频
色综合久久中文综合久久激情
国产一区二区牛影视
国产91 对白在线播放九色
中文 国产 无码免费
国产成人一区二区三区免费观看
国产一区二区精品久久凹凸
国产高清a
二区久久国产乱子伦免费精品
精品国产一区二区三区AV小说
久久这里只精品国产2
免费无码中文字幕A级毛片
无码成人片一区二区三区
制服丝袜视频国产一区
亚洲午夜久久久久中文字幕
亚洲tv精品一区二区三区
欧美人与禽交zozo
纯肉无遮挡H肉动漫在线观看国产
亚洲欧美日韩一区二区在线观看
亚洲天堂中文
丝袜欧美视频首页在线
乱伦一区二
白浆出来无码视频在线
无码天堂亚洲国产av麻豆
91天堂素人精品系列全集亚洲
亚洲欧美日韩中文v在线
免费精品美女久久久久久久久久
亚洲伊人久久成人综合网
在线精品无码一区二区三区
国产清品夜色一区二区三区不卡
无码国产精品第100页
专区亚洲欧洲日产国码AV
午夜短视频日韩免费
国产女人精品视频国产灰线
狠狠色狠狠色综合网老熟女
国内精品一区二区2021在线
久久精品国产99久久丝袜
国产香蕉尹人综合在线观
国产99久久无码精品
日韩欧美在线观看成人
国产一区二区牛影视
中文字幕亚洲综合久久菠萝蜜
婷婷综合缴情亚洲狠狠
久久中国国产Av秘 入口
无码之国产精品网址蜜芽
国产精品亚洲片夜色在线
国产精品女同一区二区久久
亚洲熟妇色xxxxx欧美老妇
欧美成人在线A免费观看
国产午夜精品一区二区三区视频
亚洲欧美日韩国产一区二区精品
日本视频中文字幕一区在线
久久精品国产6699国产精
国产成人拍精品免费视频
超碰Av一区=区三区
精品国产亚洲一区二区三区演员表
亚洲AV无码未成人网站久久精品
福利视频一二区
国产成人精品麻豆
国产福利片无码区在线观看
国产美女69视频免费观看
国产精品玖玖玖在线资源
精品国产三级a
久草午夜视频
免费无码又爽又刺激高潮的视频网站
欧美激情中文字幕在线一区二区
国产精品国产三级国产专区5o
亚洲精品国产品国语在线app
乱中年女人伦av三区
任你躁欧美一级在线精品免费
激情人妻在线视频
成人无码区免费AⅤ片WWW
国产成人精品午夜福利免费APP
亚洲精品亚洲人成在线下载
国产AV无码一区精品天堂
国产成人免费一区二区三区
无码午夜剧场
AV无码中文字幕不卡一二三区
高清无码精品一区二区三区
亚洲VA中文字幕无码毛片春药
国内精品一区二区2021在线
亚洲韩国在线
免费av在线国模
中文字幕一区二区三区在线不卡
人妻少妇不满足中文字幕
无码 制服 丝袜 国产 另类
亚洲色大成人一区二区
亚洲国产精品500在线观看
综合色天天久久
人妻无码一区二区在线影院
狠狠色综合播放一区二区
高清国产美女一级a毛片在线
国产午夜亚洲精品不卡福利
国产免费专区
欧美日韩性高爱潮视频
欧美a在线播放
夜夜被公侵犯的美人妻
亚洲αⅴ无码乱码在线观看性色
国产日韩久久久精品影院首页
四虎成人精品无码永久在线
国产91网
无码国产精品第100页
乱人伦中文字幕在线不卡网站
国产亚洲美女精品久久
国产AV无码专区亚洲AV桃花庵
亚洲熟妇乱子伦在线
国产精品一区二区av片
无码熟妇人妻AV影音先锋
无码电影在线观看一区二区三区
色综合久久加勒比高清88
一本大道久久精品 东京热
亚洲AV无码国产永久播放蜜芽
国产人澡人澡澡澡人碰视频
二区久久国产乱子伦免费精品
国产精品亚洲专区无码web
成人午夜免费无码视频在线观看
伊人亚洲综合网色AV另类
欧美在线成人午夜网站
欧美成人a在线网站
国产成人户外露出视频在线
a观看v视频网站入口免费
久久久久久一级毛片免费无遮挡
久久免费区一区二区三波多野在
国产成人免费a在线视频
欧美性一区
91精品啪在线观看国产18
欧美午夜精品久久久久久浪潮
97SE亚洲国产综合自在线不卡
女女同性黄网在线观看
久久精品国产99久久丝袜
日批视频免费在线观看
五月婷婷影视
中文字幕在线久热精品
亚洲aⅴ无码国精品中文字慕
麻豆国产巨作AV剧情老师
产国语一级特黄aa大片
丝袜美女污污免费观看的网站
91孕妇精品一区二区三区
免费国产黄线在线播放
日本韩国一区二区三区
久久久精品2019中文字幕之3
亚洲AV无码秘 蜜桃1区
999精品全免费观看视频
草草影院国产
国产精品久久久久尤物
国产伦精品一区二区三区四区
呦泬泬精品导航
91精品啪在线观看国产18
无码一区久久久久久久绯色AV
久久久久久久妓女精品免费影院
一级毛片不卡在线播放免费
精品一区二区三区免费爱
精选麻豆国产AV
国产精品白浆无码流出
最新国产精品亚洲二区
亚洲天堂中文
国产免费一级在线观看
国产一区二区三区啪
国产精品九九九久久九九
免费毛片视频网站
日韩欧美在线播放视频
97中文字幕在线观看
国内精品一区二区2021在线
亚洲AV秘 无码一区二区三区臀
国产精品无码专区综合网
九九九影院
国产福利片无码区在线观看
国产亚洲欧美精品一区
精品国产免费久久久久久
免费人成在线观看播放国产
亚洲乱码一区二区三区成人小说
亚洲AV秘 片一区二区三
无码电影在线观看一区二区三区
97在线视频免费
日本在线观看不卡
樱花AV在线无码
午夜视频网址
大陆国产乱人伦
国产午夜精品久久久久99
亚洲欧洲国产日产国码无码
亚洲AⅤ无码片一区二区三区
在线视频 亚洲精品
无码一区二区三区AV免费换脸
国产香蕉尹人综合在线观
九九九影院
麻豆国产乱人伦精品一区二区
亚洲国产香蕉视频欧美
亚洲AV无码专区国产H小说
加勒比无码专区中文字幕
91成人午夜性a一级毛片
亚洲黄色尤物视频
午夜tv视频免费国产区4
亚洲自拍愉拍
本道无码一区二区久久激情
日批视频免费在线观看
精品综合久久久久久8888
国产日韩精品一区二区在线观看播放
51精品视频一区二区三区
亚洲另类欧美综合久久图片区
加勒比黑人在线
久久无码高潮喷水免费看
无码中文日韩Av
亚洲色欲Aⅴ无码一区二区
色欲AV成人无码精品无码
欧美日韩性高爱潮视频
国产女高清在线看免费观看
亚州无线国产2021
亚洲AV无码精品一区二区三区l
久久国产国内精品对话对白
91亚洲人成手机在线观看
国产精品18久久久久久不卡中国
午夜无码一区二区三区在线
久久波多野结衣av
亚洲欧美日韩国产精品网
久久久久中文字幕无码少妇
国产白丝网站精品污在线入口
最新国产午夜福利
国产精品九九九久久九九
久久综合亚洲色社区
国产成人精品免费久久久久
欧美日本道免费二区三区
日本手机在线
中文不卡视频
一区二区免费电影
8av国产精品爽爽ⅴa在线观看
国产午夜亚洲精品不卡福利
精品18在线观看免费视频
精品国产福利久久久
国产自产c区
啪啪视频一区二区三区入囗
在线无码国产精品亚洲а∨
国产91色在线|亚洲
欧美日韩国产在线观看免费
亚洲VA不卡一区
免费中文熟妇在线影片
国产又色又爽又刺激视频
麻豆国产av尤物网站尤物
亚洲无码a∨在线视频
国产aⅴ天堂亚洲国产av
久久99热精品免费观看欧美
亚洲Va中文字幕久久无码一区
久久精品国产亚洲5555
亚洲一级电影在线观看
久久久99精品成人片中文字幕
亚洲国产成人精品福利在线观看
狠狠色狠狠色综合网老熟女
99国产超薄丝袜足j在线播放
亚洲V在线激情
亚洲婷婷丁香激情
国产免费人成视频在线播放播
色999欧美日韩
中文字幕乱偷乱码亚洲
亚洲VA中文字幕欧美VA丝袜
国产乱人伦偷精品视频免
精品国产av无码一道
欧美亚洲国产人妖系列视
2021国产最新在线视频一区
国产人成无码视频在线
亚洲AV秘 无码一区二区三区1
全免费a级毛片免费看
色综合久久无码中文字幕app
久久99国产亚洲高清
国产女高清在线看免费观看
91天堂素人精品系列全集亚洲
亚洲国产夜色在线观看
91美女片黄在线观看
精品国产av无码一道
久久国产成人午夜av影院
国产一区二区精品久久凹凸
国产精品九九九久久九九
国产成人免费一区二区三区
传媒在线无码
亚洲电影中文字幕
九九九影院
亚洲成a人片在线播放观看国产
妺妺窝人体色www聚色窝韩国
亚洲AV成人无码国产一区二区
久久国产热精品波多野结衣av
国产内射XXXXX在线
亚洲国产一区二区三区最新
国产女人91精品嗷嗷嗷嗷
亚洲午夜无码AV不卡
国产爆乳无码一区二区在线
亚洲 无码 制服 丝袜 自拍
久久半精品国产99精品国产
亚洲最大无码AV网站观看
日韩爱爱视频
精品18在线观看免费视频
制服丝袜视频国产一区
人妻少妇不满足中文字幕
亚洲精品国产品国语在线app
免费二级毛片在线播放
国产成人精品曰本亚洲
久久国产综合精品欧美
人妻无码中文专区久久综合
久久久久久亚洲AV成人无码国产
一本无码人妻在中文字幕
一区二区三区不卡在线
狠狠干视频网站
久久精品免费一区二区喷潮 |
爽爽影院免费观看 |
日韩av无码久久一区二区 |
奇米影视第四色首页 |
伊人狠狠色丁香婷婷综合 |
国产乱xxⅹxx国语对白 |
亚洲熟女少妇一区二区 |
日韩中文在线视频 |
天天做天天躁天天躁 |
美女视频黄的全免费的 |
国产精品久免费的黄网站 |
一区五码在线 |
国产美女胸大一区二区三区 |
亚洲国产高清一区av |
一区二区三区免费看日本 |
国产精品99精品久久免费 |
成人午夜视频精品一区 |
天堂8中文在线最新版在线 |
日韩一级特黄毛片在线看 |
精品国产乱码一区二区三区在线 |
亚洲成AV人久久 |
国产亚洲一区二区三区三州 |
久久久精品国产三级精品 |
亚洲国产色一区二区三区 |
日韩精品久久久久久免费 |
好大好深好猛好爽视频免费 |
久久综合成人网 |
久久久久亚洲AV无码去区首 |
日本中出熟女一区二区 |
激情都市亚洲一区二区 |
久久精品国产色蜜蜜麻豆国语版 |
成人爽a毛片免费视频 |
在线精品国产一区二区三区 |
久久国产成人亚洲精品影院老金 |
日本久久一区二区三区高清 |
日本一级特黄aa大片 |
性无码一区二区三区在线观看
|
中文字幕人妻av一区二区 |
99久久国产综合精品女乱人伦 |
亚洲aⅴ久久久噜噜噜噜 |
日韩精品一级在线视频 |