亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于流程控制的漢語篇章結(jié)構(gòu)語料協(xié)同標(biāo)注系統(tǒng)*

        2022-01-15 06:24:12徐宸涵顧宇浩張志昊褚曉敏
        關(guān)鍵詞:結(jié)構(gòu)系統(tǒng)

        徐宸涵 顧宇浩 張志昊 褚曉敏 蔣 峰

        (蘇州大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院 蘇州 215006)

        1 引言

        篇章分析是自然語言處理領(lǐng)域的一個(gè)重要研究方向。篇章分析的主要任務(wù)是對(duì)自然語言文本的內(nèi)在結(jié)構(gòu)和文本單元間的邏輯語義關(guān)聯(lián)進(jìn)行研究,從而挖掘出文本的結(jié)構(gòu)化和語義信息[1],為自然語言處理的應(yīng)用(如自動(dòng)文摘[2~4]、機(jī)器翻譯[5~7]、信息抽取[8~9]、問答系統(tǒng)等[10])提供幫助。構(gòu)建一定規(guī)模的篇章結(jié)構(gòu)分析語料資源庫是進(jìn)行科學(xué)有效的篇章結(jié)構(gòu)分析的基礎(chǔ)?,F(xiàn)有的篇章語料資源中,英文的主要包括賓州篇章樹庫(PDTB)[11]、修辭結(jié)構(gòu)理論篇章樹庫(RST-DT)等[12],中文的主要包括基于連接依存樹的漢語篇章樹庫(CDTB)[13]和借鑒RST標(biāo)注的漢語篇章語料庫(CJPL)[14]等。就中文語料來說,主要存在兩個(gè)問題。第一,絕對(duì)數(shù)量不足,相比英文語料的PDTB標(biāo)注的2304篇文章,CDTB由500個(gè)文檔組成,標(biāo)注了7310個(gè)關(guān)系,而CJPL僅完成了97篇篇章結(jié)構(gòu)標(biāo)注。第二,缺少篇章宏觀結(jié)構(gòu)語料,無論是哪一個(gè)中文語料庫都沒有篇章宏觀結(jié)構(gòu)語料資源。

        宏觀篇章結(jié)構(gòu)標(biāo)注任務(wù)的起點(diǎn)為扁平的文章段落(圖1中P1~P6葉子);需要標(biāo)注的內(nèi)容為段落之間的關(guān)系(圖1中內(nèi)點(diǎn))和主次(圖1中的箭頭指向主要單元);標(biāo)注任務(wù)的終點(diǎn)為只有一個(gè)根的篇章結(jié)構(gòu)樹。此外在標(biāo)注過程中,同時(shí)需要產(chǎn)出每個(gè)段落的主題句、全文主題等輔助數(shù)據(jù)。

        標(biāo)注任務(wù)要求標(biāo)注者對(duì)篇章的主旨和內(nèi)容有全面的理解。具體而言,標(biāo)注者需要首先自頂向下通讀文章,把握文章的整體結(jié)構(gòu),然后依據(jù)段落之間的相關(guān)性自底向上逐層組合,并判斷關(guān)系和主次,構(gòu)建上層結(jié)點(diǎn),并最終完成一棵完整的篇章結(jié)構(gòu)樹。

        根據(jù)上述分析,開展?jié)h語篇章宏觀結(jié)構(gòu)語料標(biāo)注(以下簡稱“語料標(biāo)注”)是必要且緊迫的。然而,現(xiàn)有的語料批量標(biāo)注流程模式主要有兩種,即純手工標(biāo)注[15]和單機(jī)輔助標(biāo)注[16]。在純手工標(biāo)注流程中,標(biāo)注主體為各標(biāo)注小組,標(biāo)注工具為傳統(tǒng)的紙筆,管理方式為人工控制。標(biāo)注小組各成員首先分別對(duì)一份篇章結(jié)構(gòu)生語料進(jìn)行獨(dú)立標(biāo)注,接著通過組內(nèi)討論的形式對(duì)有疑問的部分進(jìn)行意見統(tǒng)一,并將一輪標(biāo)注工作計(jì)算的一致率和討論成果交由標(biāo)注小組負(fù)責(zé)人進(jìn)行抽樣交叉檢查,對(duì)存有疑問的篇章還要進(jìn)行組間討論。在單機(jī)輔助標(biāo)注流程中,標(biāo)注主體仍然為各標(biāo)注小組,標(biāo)注工具升級(jí)為單機(jī)輔助標(biāo)注程序。使用該程序,通過對(duì)篇章結(jié)構(gòu)生語料進(jìn)行導(dǎo)入、預(yù)處理、標(biāo)注、導(dǎo)出的標(biāo)準(zhǔn)流程操作,基本將手工獨(dú)立標(biāo)注的部分轉(zhuǎn)移至計(jì)算機(jī)。剩余標(biāo)注流程與純手工標(biāo)注基本一致。

        結(jié)合以上兩種標(biāo)注模式可以發(fā)現(xiàn),篇章語料的篇幅長度、結(jié)構(gòu)復(fù)雜性、語義模糊性決定了語料標(biāo)注并不是單純的個(gè)人行為,而是綜合了個(gè)人行為、集體行為,并且嚴(yán)格遵循一套既定流程的、具有主觀性和特殊性的活動(dòng)。開展這樣的活動(dòng)僅依靠人力進(jìn)行流程控制有很大概率會(huì)在流程交接環(huán)節(jié)損失不小的效率,產(chǎn)生不可避免的主觀誤差,從而得到并不準(zhǔn)確的標(biāo)注成果評(píng)估。例如,小組進(jìn)行組內(nèi)、組間討論實(shí)際操作起來協(xié)作效率很差;對(duì)一輪標(biāo)注工作手工計(jì)算一致率時(shí)可能導(dǎo)致運(yùn)算失誤;將單機(jī)輔助標(biāo)注成果導(dǎo)入、導(dǎo)出計(jì)算機(jī)的過程同樣增加時(shí)間成本等。

        針對(duì)以上問題,本文提出并實(shí)現(xiàn)了一種基于流程控制的漢語篇章宏觀結(jié)構(gòu)語料協(xié)同標(biāo)注系統(tǒng)(以下簡稱系統(tǒng)),它綜合了標(biāo)注流程控制、用戶管理、語料庫管理三大模塊,對(duì)篇章語料標(biāo)注流程的各個(gè)部分進(jìn)行了針對(duì)性的設(shè)計(jì)和系統(tǒng)性的優(yōu)化。部分系統(tǒng)效果圖見圖2~圖3。

        基于本文設(shè)計(jì)的流程控制機(jī)制,該系統(tǒng)具有以下三種優(yōu)勢(shì):第一,語料集中管理:將生語料以任務(wù)的形式進(jìn)行管理標(biāo)注入庫,并為每一任務(wù)狀態(tài)維護(hù)一個(gè)標(biāo)志以實(shí)現(xiàn)進(jìn)展跟蹤和自動(dòng)控制。第二,系統(tǒng)權(quán)限分明:系統(tǒng)設(shè)立標(biāo)注員、審核員、管理員三角色,分權(quán)限分工協(xié)作,契合任務(wù)流程。第三,標(biāo)注過程易于控制:根據(jù)任務(wù)狀態(tài)準(zhǔn)確分配語料到各個(gè)角色,收集標(biāo)注成果數(shù)據(jù)及標(biāo)注流程中產(chǎn)生的行為數(shù)據(jù)優(yōu)化控制過程。基于上述設(shè)計(jì),系統(tǒng)簡化了語料在各個(gè)環(huán)節(jié)的交接過程,極大增強(qiáng)了協(xié)作性,提高了標(biāo)注效率,減輕了工作負(fù)擔(dān)。

        2 基于流程控制的漢語篇章宏觀結(jié)構(gòu)語料協(xié)同標(biāo)注系統(tǒng)

        相比于微觀結(jié)構(gòu)標(biāo)注(如句法結(jié)構(gòu)等),宏觀篇章結(jié)構(gòu)標(biāo)注由于其需要閱讀的內(nèi)容多、結(jié)構(gòu)界限較為模糊等固有特點(diǎn),導(dǎo)致標(biāo)注者的標(biāo)注結(jié)果帶有更多的主觀成分,不易取得完全相同的看法。為了消除主觀性對(duì)標(biāo)注結(jié)果質(zhì)量的影響,需要在標(biāo)注流程上采取協(xié)同的方式,從多個(gè)標(biāo)注者的主觀結(jié)果中尋找共性和客觀性。另外,為了解決在標(biāo)注實(shí)踐中出現(xiàn)的語料版本混亂、結(jié)果無法溯源、進(jìn)度難以監(jiān)控等問題,減少不必要的麻煩,提高標(biāo)注效率,亟需一個(gè)中心化的標(biāo)注系統(tǒng)協(xié)調(diào)所有語料標(biāo)注參與者的合作。

        圖4系統(tǒng)結(jié)構(gòu)與功能

        圖4 為本文設(shè)計(jì)的標(biāo)注系統(tǒng)的總體結(jié)構(gòu)與提供的功能。該系統(tǒng)以標(biāo)注流程控制為核心,結(jié)合用戶管理和標(biāo)注后的語料成品庫子系統(tǒng),提供進(jìn)度監(jiān)控、協(xié)同標(biāo)注、版本控制等多種服務(wù),提高工作效率,以期加速語料庫的建設(shè)。嚴(yán)格遵循一套完整的標(biāo)注流程規(guī)范是該系統(tǒng)解決傳統(tǒng)標(biāo)注問題的基本思想。對(duì)使用傳統(tǒng)手工標(biāo)注的小組工作時(shí)間進(jìn)行統(tǒng)計(jì),獨(dú)立標(biāo)注效率約為6.9篇/時(shí),小組討論效率約7.7篇/時(shí)[1],并且未包括數(shù)據(jù)統(tǒng)計(jì)、數(shù)據(jù)整合等中間步驟耗時(shí)。使用該系統(tǒng)進(jìn)行標(biāo)注,獨(dú)立標(biāo)注效率約為8.0篇/時(shí),中間步驟耗時(shí)幾乎可以忽略,效率有了一個(gè)顯著的提升。

        3 標(biāo)注流程控制

        純手工標(biāo)注和單機(jī)輔助標(biāo)注要面臨的最大問題就是標(biāo)注流程復(fù)雜,包括人員的分配、標(biāo)注內(nèi)容的提交與審核、績效評(píng)定等,而將這些流程規(guī)范化、系統(tǒng)化是本系統(tǒng)的首要任務(wù)。

        標(biāo)注流程控制設(shè)計(jì)是系統(tǒng)設(shè)計(jì)的核心,對(duì)生語料從上傳到標(biāo)注完成入庫進(jìn)行全面控制管理。流程分為生語料創(chuàng)建(包括生語料入批、人員分配)、標(biāo)注員標(biāo)注、一致性檢查及審核員審核、成果入庫幾個(gè)部分。

        圖5為標(biāo)注流程示例,圖中包含了3位標(biāo)注員,實(shí)際標(biāo)注人數(shù)可以視情況調(diào)整標(biāo)注環(huán)節(jié)的人員數(shù)量。對(duì)單個(gè)生語料直接進(jìn)行管理過于精細(xì),管理操作瑣碎,通常,生語料以批的形式進(jìn)行標(biāo)注入庫,可按批次分配標(biāo)注員、審核員。由于標(biāo)注任務(wù)繁重,實(shí)際標(biāo)注過程采用分組的形式進(jìn)行工作,為了避免小組之間產(chǎn)生風(fēng)格差異,還需要進(jìn)行經(jīng)常性的組員輪換。

        圖5 標(biāo)注流程的數(shù)據(jù)流轉(zhuǎn)

        標(biāo)注進(jìn)度的監(jiān)控將由生語料和生語料批次(即任務(wù))狀態(tài)來描述。具體來說,在標(biāo)注開始時(shí),一份新的生語料由管理員添加到一個(gè)任務(wù),并分配相應(yīng)的標(biāo)注員和審核員,此時(shí)這些生語料和任務(wù)都應(yīng)處于待標(biāo)注狀態(tài)。當(dāng)且僅當(dāng)一份生語料被分配到的所有標(biāo)注員都完成標(biāo)注,但未通過一致性檢查時(shí),該份生語料改變?yōu)榇龑徍藸顟B(tài);當(dāng)且僅當(dāng)任務(wù)所屬的所有生語料沒有處于待標(biāo)注狀態(tài)時(shí),任務(wù)改變?yōu)榇龑徍藸顟B(tài)。標(biāo)注完成的生語料通過了一致性檢查或?qū)徍藛T完成審核后,改變?yōu)橐淹瓿蔂顟B(tài);當(dāng)且僅當(dāng)任務(wù)所屬的所有生語料都處于已完成狀態(tài),任務(wù)改變?yōu)橐淹瓿蔂顟B(tài)。進(jìn)度監(jiān)控是實(shí)時(shí)的,對(duì)任務(wù)所屬生語料的增刪、標(biāo)注人員的增刪應(yīng)同步改變狀態(tài)。

        標(biāo)注任務(wù)創(chuàng)建到完成的過程類似工廠的流水線,以確保數(shù)據(jù)的規(guī)范和可控。當(dāng)生語料進(jìn)入標(biāo)注流程控制,無論是標(biāo)注員還是審核員,在提交了成果后都不能再修改,保證語料庫中所有的語料都有溯源記錄,同時(shí)也實(shí)現(xiàn)了最低程度的版本控制。

        根據(jù)上面的論述,設(shè)計(jì)的數(shù)據(jù)庫結(jié)構(gòu)如圖6所示,圖中省略了實(shí)體的標(biāo)識(shí)符主鍵屬性。中間結(jié)果表的主鍵為人員標(biāo)識(shí)符、任務(wù)批次、生語料標(biāo)識(shí)符,其中人員標(biāo)識(shí)符和任務(wù)批次是標(biāo)注分配表的復(fù)合外鍵,人員標(biāo)識(shí)符和生語料標(biāo)識(shí)符是語料分配表的復(fù)合外鍵,除此之外,還需通過存儲(chǔ)過程來保持中間結(jié)果為標(biāo)注分配和語料分配的笛卡爾積。狀態(tài)標(biāo)志用于跟蹤任務(wù)進(jìn)展和結(jié)果保護(hù)(例如當(dāng)入庫之后歷史記錄就不再允許改動(dòng)),在存儲(chǔ)過程中自動(dòng)維護(hù)、更新。

        圖6 數(shù)據(jù)庫ER圖

        通過這種設(shè)計(jì),可以實(shí)現(xiàn)對(duì)標(biāo)注各個(gè)環(huán)節(jié)的關(guān)鍵數(shù)據(jù)留檔備份,和對(duì)任務(wù)進(jìn)度的實(shí)時(shí)監(jiān)控。

        如果需要在下一批次的任務(wù)中輪換小組成員,只需在新建的任務(wù)批次記錄中設(shè)置不同的人員即可,所以,小組人員組成的概念實(shí)際上被任務(wù)批次的人員分配取代,并且容易實(shí)現(xiàn)對(duì)不同的任務(wù)批次分配不同數(shù)量的標(biāo)注人員的需求。

        對(duì)于多個(gè)標(biāo)注者標(biāo)注的不同結(jié)果,為發(fā)揮計(jì)算機(jī)的優(yōu)勢(shì),在將不同標(biāo)注結(jié)果提交審核員之前,系統(tǒng)計(jì)算這些成果的一致性,來側(cè)面衡量標(biāo)注結(jié)果的客觀性,驗(yàn)證標(biāo)注質(zhì)量。一致率不足的需要提交審核員審核。一致率的計(jì)算公式如式(1)所示,式中A、B分別代表兩名標(biāo)注者。

        為了避免偶然的標(biāo)注一致對(duì)指標(biāo)計(jì)算的干擾,還需使用式(2)進(jìn)行Kappa值的計(jì)算,式中P(A)表示標(biāo)注一致的比例,P(E)表示偶然一致的比例。

        系統(tǒng)還實(shí)現(xiàn)了把已標(biāo)注的生語料退回流程重標(biāo)的需求,為此,一個(gè)關(guān)鍵的設(shè)計(jì)是將生語料與熟語料統(tǒng)一到兼容的格式定義中。篇章結(jié)構(gòu)的構(gòu)建是自底向上進(jìn)行的,在標(biāo)注過程中,生語料從多根的樹林轉(zhuǎn)變到單根的篇章結(jié)構(gòu)樹,因而根據(jù)此點(diǎn)設(shè)計(jì)出兼容生語料與熟語料的文件格式。

        一個(gè)完整的標(biāo)注系統(tǒng)同時(shí)需要提供標(biāo)注、審核等工具,通過工具可以方便收集人員標(biāo)注過程的各種副產(chǎn)物數(shù)據(jù),如標(biāo)注時(shí)長等,可用于對(duì)標(biāo)注人員建立用戶畫像,這是手工管理不可能實(shí)現(xiàn)的。最后,系統(tǒng)還需要豐富的格式化轉(zhuǎn)換器以與其它系統(tǒng)一同工作。

        4 用戶管理

        用戶管理系統(tǒng)的設(shè)計(jì)充分考慮到了完整的標(biāo)注流程所涉及到的角色與權(quán)限,目標(biāo)是清晰區(qū)分標(biāo)注活動(dòng)的參與者,便于標(biāo)注活動(dòng)的管理,提高標(biāo)注效率。圍繞標(biāo)注流程控制設(shè)計(jì),在實(shí)現(xiàn)基礎(chǔ)的用戶創(chuàng)建、注銷等功能之上,系統(tǒng)為防止越級(jí)修改增設(shè)了權(quán)限控制功能,為對(duì)標(biāo)注活動(dòng)進(jìn)行更好的檢測(cè)增設(shè)了績效評(píng)定服務(wù)。

        權(quán)限控制分為動(dòng)態(tài)權(quán)限控制和靜態(tài)權(quán)限控制兩方面。動(dòng)態(tài)權(quán)限控制在標(biāo)注流程控制中已經(jīng)提到,即在存儲(chǔ)數(shù)據(jù)時(shí)使用人員標(biāo)識(shí)符作為中間結(jié)果的主鍵。靜態(tài)權(quán)限分成語料庫權(quán)限、用戶管理權(quán)限、使用格式化器的權(quán)限、生語料管理權(quán)限、任務(wù)管理權(quán)限五種共27個(gè)具體的權(quán)限。不同的角色擁有的權(quán)限大小有區(qū)別。一般地,標(biāo)注員和審核員禁止被賦予任務(wù)管理權(quán)限,管理員擁有大部分權(quán)限。

        績效評(píng)定針對(duì)標(biāo)注員,依賴于標(biāo)注成果的統(tǒng)計(jì)和行為分析數(shù)據(jù)的收集。標(biāo)注成果統(tǒng)計(jì)較為直接,通過該標(biāo)注員已標(biāo)注的生語料數(shù)、通過一致性檢查概率等數(shù)值體現(xiàn)。由于本系統(tǒng)基于的流程控制的特性,部分從標(biāo)注行為中收集的數(shù)據(jù)也將影響績效評(píng)定,故將統(tǒng)計(jì)量羅列在此。對(duì)單個(gè)標(biāo)注員標(biāo)注單份生語料的流程,系統(tǒng)主要關(guān)注標(biāo)注總時(shí)間、正操作次數(shù)、反操作次數(shù)及最大間隔時(shí)間這四個(gè)數(shù)據(jù)量。

        4.1 標(biāo)注總時(shí)間

        標(biāo)注總時(shí)間統(tǒng)計(jì)標(biāo)注員從進(jìn)入該份生語料的標(biāo)注頁面,到提交標(biāo)注成果離開之間的時(shí)間差。消除噪音數(shù)據(jù)后,一份生語料的標(biāo)注總時(shí)間明顯地與它的復(fù)雜程度呈正相關(guān)。標(biāo)注總時(shí)間將被計(jì)算入標(biāo)注員績效。

        4.2 正操作次數(shù)

        標(biāo)注員標(biāo)注一份生語料操作的次數(shù)與語料的復(fù)雜程度呈不嚴(yán)格的正相關(guān)。定義正操作次數(shù)為對(duì)建立一棵篇章結(jié)構(gòu)樹有促進(jìn)作用的操作,則正操作次數(shù)最后將得到粗略的對(duì)生語料的標(biāo)注起到促進(jìn)作用的操作次數(shù),或用于對(duì)一份生語料的篇幅長度和復(fù)雜程度進(jìn)行評(píng)估,得到相應(yīng)的反饋呈現(xiàn)給審核員。

        標(biāo)注一份生語料主要包括了以下操作:選擇關(guān)系類型,選擇關(guān)聯(lián)子節(jié)點(diǎn)個(gè)數(shù),選擇中心數(shù),創(chuàng)建新的關(guān)系,刪除關(guān)系,修改邊的權(quán)重和回退操作。由于創(chuàng)建新的關(guān)系的前提是正確配置關(guān)系,因此正操作次數(shù)為避免重復(fù),僅將創(chuàng)建關(guān)系節(jié)點(diǎn)的操作以及修改任意邊的權(quán)重的操作計(jì)算在內(nèi)。刪除已創(chuàng)建節(jié)點(diǎn)和回退操作不計(jì)入正操作,也不扣除正操作次數(shù)。

        4.3 負(fù)操作次數(shù)

        與正操作數(shù)不同,負(fù)操作次數(shù)統(tǒng)計(jì)了標(biāo)注員在進(jìn)行篇章標(biāo)注時(shí)對(duì)解構(gòu)一棵篇章結(jié)構(gòu)樹有促進(jìn)作用的操作,包括已有關(guān)系節(jié)點(diǎn)的移除和回退操作。負(fù)操作次數(shù)直觀地給出了在一篇語料標(biāo)注的過程中標(biāo)注員認(rèn)為自己標(biāo)注錯(cuò)誤的次數(shù),對(duì)評(píng)估該份生語料和負(fù)責(zé)此次標(biāo)注任務(wù)的標(biāo)注員的績效都能形成參考。

        4.4 最大間隔時(shí)間

        一份語料的標(biāo)注重心或難點(diǎn)能夠通過標(biāo)注的間隔時(shí)間有所體現(xiàn),因?yàn)橥ǔ碚f人思考得越久,就表明越不能很有把握得對(duì)此處如何標(biāo)注下結(jié)論。

        間隔時(shí)間用來描述標(biāo)注員在篇章標(biāo)注過程中兩次操作的間隔。系統(tǒng)統(tǒng)計(jì)標(biāo)注員標(biāo)注一份生語料所進(jìn)行的所有操作中,間隔時(shí)間最長的若干操作,并對(duì)應(yīng)到這些操作所關(guān)聯(lián)的節(jié)點(diǎn)。另外,設(shè)置間隔時(shí)間閾值,對(duì)小于閾值的間隔時(shí)間的操作忽略,判定為正常標(biāo)注??紤]到人的思考習(xí)慣和標(biāo)注習(xí)慣不同,有些標(biāo)注員的標(biāo)注習(xí)慣是仔細(xì)考慮之后再操作,并不會(huì)出現(xiàn)太多增刪的二次操作,使用最大間隔時(shí)間能夠在一定程度上彌補(bǔ)正負(fù)操作次數(shù)的局限性。

        隨著一份生語料任務(wù)被多個(gè)標(biāo)注員標(biāo)注,系統(tǒng)中行為數(shù)據(jù)會(huì)不斷豐富,在提交審核員審核時(shí),系統(tǒng)將對(duì)不同標(biāo)注員的上述數(shù)據(jù)量進(jìn)行均值計(jì)算,最終向?qū)徍藛T提交該份語料的整體難度、標(biāo)注重點(diǎn)段落的提示,以幫助審核員快速定位審核重點(diǎn),提高審核效率。

        5 語料庫管理

        語料庫管理系統(tǒng)最主要的功能是接收通過合法流程標(biāo)注完成的語料,并對(duì)其進(jìn)行管理。語料庫管理的方式如上文所述,以批的形式標(biāo)注入庫,同時(shí)保存帶有狀態(tài)標(biāo)記的中間結(jié)果。

        為了協(xié)助標(biāo)注人員更好地進(jìn)行標(biāo)注,語料庫管理系統(tǒng)提供部分輔助統(tǒng)計(jì)組件,即篇章語料統(tǒng)計(jì)功能。

        褚曉敏等提出[1],通過每個(gè)類別的篇章關(guān)系的數(shù)量以及主次關(guān)系,可以推斷某一類文章常用的篇章關(guān)系,以及常用寫作架構(gòu)。因此,系統(tǒng)參考建立了基本篇章語料統(tǒng)計(jì)功能,并實(shí)驗(yàn)性地進(jìn)行了一部分統(tǒng)計(jì),獲得了部分?jǐn)?shù)據(jù),而篇章語料統(tǒng)計(jì)分析數(shù)據(jù)對(duì)真實(shí)世界的反饋還有待進(jìn)一步研究。

        篇章語料統(tǒng)計(jì)主要分為兩個(gè)部分:生語料數(shù)據(jù)庫和熟語料統(tǒng)計(jì)分析。其中,生語料數(shù)據(jù)庫主要為生語料標(biāo)注流程控制提供基本數(shù)據(jù),包括生語料索引表、任務(wù)分配表、審核表等。熟語料統(tǒng)計(jì)分析主要分析已通過審核員審核并入庫的已標(biāo)注語料,具體熟語料統(tǒng)計(jì)項(xiàng)見表1。

        表1 熟語料統(tǒng)計(jì)條目

        系統(tǒng)數(shù)據(jù)庫采用實(shí)時(shí)更新策略,當(dāng)標(biāo)注流程的終端審核員通過審核時(shí),已標(biāo)注語料文件將被收錄至后端熟語料數(shù)據(jù)庫中,數(shù)據(jù)庫會(huì)根據(jù)熟語料統(tǒng)計(jì)項(xiàng),對(duì)新入庫熟語料進(jìn)行統(tǒng)計(jì)分析,并將結(jié)果更新。

        熟語料數(shù)據(jù)庫中已有1200篇已標(biāo)注語料,其中共有6763個(gè)段落,最長段落為34段,最短段落為兩段,平均篇章段落數(shù)為5.64,篇章段落分布見圖7。

        圖7 篇章段落分布

        在篇章關(guān)系方面,并列類關(guān)系數(shù)量為2150個(gè),占比44.12%;因果類關(guān)系數(shù)量為621個(gè),占比12.74%;解說類關(guān)系數(shù)量為2102個(gè),占比43.14%。具體關(guān)系及數(shù)量見表2。并列類關(guān)系和解說類關(guān)系數(shù)量相似,但因果類關(guān)系數(shù)量卻少許多,數(shù)據(jù)集存在不平衡。

        表2 熟語料統(tǒng)計(jì)條目

        在主次關(guān)系方面,主-次關(guān)系(PS)數(shù)量為3536個(gè),占比72.56%;次-主關(guān)系(SP)數(shù)量為156個(gè),占比3.20%;同等重要(EI)關(guān)系數(shù)量為1181,占比24.24%。具體關(guān)系類主次分布見表3。顯然數(shù)據(jù)集中存在不平衡。

        表3 篇章關(guān)系中主次分布

        同時(shí)統(tǒng)計(jì)了篇章以及段落功能語用,統(tǒng)計(jì)結(jié)果見表4。從數(shù)據(jù)來看,篇章語用以新聞報(bào)道和故事為主,段落語用以情景、補(bǔ)充和總述-導(dǎo)語為主,與已標(biāo)注語料中大部分為新聞報(bào)道語料的特征相符合。

        表4 語用分布

        6 結(jié)語

        本文針對(duì)手工標(biāo)注和單機(jī)輔助標(biāo)注漢語篇章宏觀結(jié)構(gòu)流程復(fù)雜、效率不高、標(biāo)注質(zhì)量欠缺的問題,提出一種基于流程控制的漢語篇章宏觀結(jié)構(gòu)語料協(xié)同標(biāo)注系統(tǒng)。它能夠通過本文設(shè)計(jì)的流程控制機(jī)制,消除了多余的可能產(chǎn)生誤差的中間環(huán)節(jié),提升了語料標(biāo)注質(zhì)量,減少了退回重標(biāo)的次數(shù),推動(dòng)了宏觀篇章語料庫的建設(shè)。在接下來的工作中,本文將充分利用系統(tǒng)內(nèi)收集的標(biāo)注行為數(shù)據(jù),開發(fā)智能流程控制系統(tǒng),進(jìn)一步優(yōu)化語料標(biāo)注流程,提高標(biāo)注效率和準(zhǔn)確度,最終實(shí)現(xiàn)一個(gè)智能化流程控制的漢語篇章宏觀結(jié)構(gòu)語料協(xié)同標(biāo)注系統(tǒng)。

        猜你喜歡
        結(jié)構(gòu)系統(tǒng)
        Smartflower POP 一體式光伏系統(tǒng)
        《形而上學(xué)》△卷的結(jié)構(gòu)和位置
        WJ-700無人機(jī)系統(tǒng)
        ZC系列無人機(jī)遙感系統(tǒng)
        基于PowerPC+FPGA顯示系統(tǒng)
        論結(jié)構(gòu)
        中華詩詞(2019年7期)2019-11-25 01:43:04
        新型平衡塊結(jié)構(gòu)的應(yīng)用
        模具制造(2019年3期)2019-06-06 02:10:54
        半沸制皂系統(tǒng)(下)
        連通與提升系統(tǒng)的最后一塊拼圖 Audiolab 傲立 M-DAC mini
        論《日出》的結(jié)構(gòu)
        狠狠综合久久av一区二区| japanese无码中文字幕| 亚洲学生妹高清av| 亚洲最大中文字幕无码网站 | 中国av一区二区三区四区| 一本色道久久88加勒比综合| 午夜一区二区视频在线观看| 亚洲av福利天堂一区二区三| 亚洲av网一区二区三区| 日本三级欧美三级人妇视频黑白配| 国产一品道av在线一二三区| 人妻av一区二区三区高| 漂亮人妻被强中文字幕乱码| 亚洲中文字幕人妻av在线| 少妇粉嫩小泬喷水视频| 国产一区二区三区av在线无码观看 | 精选二区在线观看视频| 神马不卡影院在线播放| 久久免费亚洲免费视频| 亚洲国产精品成人天堂| 国产丝袜无码一区二区三区视频 | 亚洲精品久久久久avwww潮水| 久久精品日韩av无码| 久久国产影视免费精品| 国产免费视频一区二区| 日本免费一区二区三区影院| 美国少妇性xxxx另类| 久久久国产一区二区三区四区小说 | 高潮内射主播自拍一区| 妺妺窝人体色www婷婷| 亚洲精品久久国产高清情趣图文| 99亚洲乱人伦精品| 中文字幕女同人妖熟女| 亚洲娇小与黑人巨大交| 又硬又粗又大一区二区三区视频 | 亚洲成人小说| 一本色道久久综合亚洲精品蜜臀| 少妇被躁到高潮和人狍大战| 日韩一区av二区三区| 日韩吃奶摸下aa片免费观看| 亚洲色偷偷色噜噜狠狠99|