亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于依存關(guān)系圖的漢語話語標(biāo)記可解釋性識別研究

        2023-11-16 06:10:00明,
        關(guān)鍵詞:例句貝葉斯語義

        肖 明, 肖 毅

        (1.華中師范大學(xué)語言與語言教育研究中心, 武漢 430079; 2.華中師范大學(xué)信息化辦公室, 武漢 430079;3.華中師范大學(xué)信息管理學(xué)院, 武漢 430079)

        話語標(biāo)記(discourse markers)是一種用來標(biāo)示話語連貫,傳遞話語互動信息和人際功能信息的語言范疇[1-3].它們在言談互動、話語理解和口語機器翻譯中有重要意義,可用于幫助聽話人預(yù)測即將出現(xiàn)的話語在會話中所發(fā)揮的關(guān)鍵作用.Fischer等[4]研究表明,此類語言成分在會話中的使用頻率相當(dāng)高.如,在非正式的德語人對人交際中,其使用頻率高達8.8%~9.8%,在人機交互中其重要性略有減弱,但在前150個高頻詞中也達到了6.6%.

        話語標(biāo)記成員數(shù)量多,類型復(fù)雜,因此,其自動識別是自然語言處理中的一個難題.從話語標(biāo)記的來源來看,涉及連詞、副詞、嘆詞、形容詞、動詞性短語等多種層級的語法成分,絕大多數(shù)的詞(或短語)在演變出話語標(biāo)記用法之后,一般還會保留原來的用法,因此,話語標(biāo)記自動識別的關(guān)鍵問題是分解歧義.國內(nèi)外不少學(xué)者就此做過一些研究,如Hirschberg等[5]利用話語標(biāo)記的拼寫環(huán)境對“now”和“well”進行歧義消解,Fischer等[6]依據(jù)話語標(biāo)記小品詞的句法位置和之前的對話行為這兩類信息描述探討歧義消解問題,在包含75個德語語篇的測試集中取得83%的準(zhǔn)確率.Litman[7]采用CGRENDEL規(guī)則庫和決策樹c4.5兩個機器學(xué)習(xí)的方法來改善對話語標(biāo)記的識別,提取韻律特征、文本特征、詞性特征和詞法特征,比手工方法更具有可擴展性和靈活性.Popescu-Belis等[8]利用詞匯、韻律/位置與社會語言學(xué)特征人工標(biāo)注話語標(biāo)記well和with,使用決策樹模型檢驗各個特征的顯著性,表明左側(cè)窗口對識別貢獻度最大.目前,國內(nèi)學(xué)者主要聚焦關(guān)系詞基于規(guī)則的自動識別、微博熱點主題挖掘、話語標(biāo)記語體分析和實體關(guān)系抽取,如胡金柱等[9-10]考察了基于規(guī)則的漢語復(fù)句關(guān)系詞自動識別,提出了12點約束條件;李源等[11]利用依存句法分析漢語結(jié)構(gòu)模型,得到語義和結(jié)構(gòu)融合的依存關(guān)系,提高了依存關(guān)系界定的性能;楊進才等[12]運用依存語法分析漢語復(fù)句中關(guān)系詞搭配,總結(jié)字面特征和語法特征規(guī)則用于自動識別復(fù)句關(guān)系詞;李艷翠等[13]采用清華漢語樹庫用于復(fù)句關(guān)系詞的識別分類,提取12種字面特征的模型獲得較高的復(fù)句關(guān)系詞識別率.復(fù)句關(guān)系詞與話語標(biāo)記詞不同,兩者有交集,弱化的關(guān)系詞具有話語標(biāo)記的屬性特征,這些方法為話語標(biāo)記的自動識別提供了思路.祁瑞華等[14-15]探討依存關(guān)系在中文微博作者性別中的應(yīng)用,采用支持向量機、樸素貝葉斯、最近鄰和決策樹等分類算法對作者性別進行識別區(qū)分,總體上依存關(guān)系特征集在中文微博數(shù)據(jù)集實驗中的準(zhǔn)確率、召回率和F值最高.孟曉亮等[16]提出話語標(biāo)記的語體度概念,認為話語標(biāo)記的語體特征對文本分類具有一定參考價值.陸亮等[17]探討了融入對話交互信息的實體關(guān)系抽取方法,在DialogRE數(shù)據(jù)集上得到F1值為54.1%.綜上所述,以上文獻有的基于規(guī)則方法對關(guān)系詞進行自動識別,有的利用句法依存關(guān)系進行微博熱點挖掘、用戶觀點抽取和作者性別識別,都未對話語標(biāo)記基于機器學(xué)習(xí)方法的自動識別進行相關(guān)研究.

        為了驗證本文所提方法的可行性和有效性,本文提出對話語標(biāo)記句法依存關(guān)系、語義依存關(guān)系、語法位置、語義功能等特征的挖掘,探究判定話語標(biāo)記的語言知識和語法規(guī)律.由于是首次分析話語標(biāo)記的自動識別實驗,語料庫規(guī)模較小,而基于深度學(xué)習(xí)人工智能的不可解釋性存在兩個方面,一是原理上的不可解釋性,因為深度神經(jīng)網(wǎng)絡(luò)模型和算法通常十分復(fù)雜,加上“黑盒”學(xué)習(xí)訓(xùn)練的性質(zhì),AI通常無法對預(yù)測的結(jié)果給出自我解釋,模型十分不透明;二是語義上的不可解釋性,深度學(xué)習(xí)用于挖掘數(shù)據(jù)中變量之間的關(guān)聯(lián)性,而數(shù)據(jù)關(guān)聯(lián)性產(chǎn)生于因果、混淆和樣本選擇偏差3種類型,混淆和樣本選擇偏差帶來的虛假關(guān)聯(lián)而做出的“解釋”,不是因果關(guān)系,一定是不穩(wěn)定和缺乏魯棒性的,降低受眾對模型的信任程度.而采用樸素貝葉斯、貝葉斯網(wǎng)絡(luò)等結(jié)構(gòu)化貝葉斯模型,既可以用來描述不確定性,又可用直觀、清晰的圖形描述變量之間的直接作用關(guān)系,刻畫變量之間的條件獨立性,從而學(xué)到可解釋的、用戶友好的特征[17].研究話語標(biāo)記融合依存語法特征的貝葉斯自動識別方法,以期為自然口語的自動理解和分析提供可解釋性理解知識.

        1 話語標(biāo)記的基本類型及其功能

        話語標(biāo)記是“語言成分、副語言成分或非言語成分通過它們的句法屬性、語義屬性以及在始發(fā)或終結(jié)位置切分話語單位的序列關(guān)系來標(biāo)記話語單位關(guān)系的”,這是Schiffrin[19]從功能的角度劃分出來的語用類別.從語法性質(zhì)來看,漢語的話語標(biāo)記來源于嘆詞、形容詞、連詞、副詞以及一些短語.例如:

        例句(1):女C:對..他們說最好的就是國產(chǎn)的這個宮燈跟大寶...其余的呢?

        女B:別的都不太好.

        女C:品牌啊--

        女B:添加劑你知道×××

        女C:嗯.

        例句(1)為自然對話,“對”與“你知道”分別是由形容詞與主謂結(jié)構(gòu)演變而來的話語標(biāo)記.

        如例句(1)所示,話語標(biāo)記來源于不同性質(zhì)的語法成分,因此,不少詞同時保留了非話語標(biāo)記與話語標(biāo)記兩種用法.我們這里以常見的不同詞長話語標(biāo)記為例,用具體數(shù)據(jù)描述它們的實際使用情況,統(tǒng)計樣本為100萬字的自然會話語料和300萬的中國傳媒大學(xué)有聲媒體語料(“鄉(xiāng)約”“魯豫有約”“鏘鏘三人行”欄目).相關(guān)數(shù)據(jù)如表1.

        表1 部分話語標(biāo)記兩種用法的用例數(shù)和占比

        表1說明,漢語中確實存在全職的話語標(biāo)記(如“嗯”),但是這類話語標(biāo)記極少.絕大多數(shù)是兼職的,它們除了有話語標(biāo)記用法之外,還有大量的非話語標(biāo)記用法(如“回頭”“完了”“你知道”“我告訴你”等).話語標(biāo)記用法主要表達程序性意義,而非話語標(biāo)記用法主要表達概念意義,兩種用法的顯著差異從側(cè)面說明了話語標(biāo)記的識別對會話含義理解的重要性.

        2 話語標(biāo)記的特征

        依存關(guān)系作為自然口語話語標(biāo)記文體特征具有三個優(yōu)勢:依存關(guān)系三元組結(jié)構(gòu)簡單,可計算性好,對主謂易位、疊連、重復(fù)的自然口語環(huán)境具有良好的適應(yīng)性[20];依存句法分析強調(diào)句子成分間的支配與從屬的依存關(guān)系,不限于句子成分順序的特性有利于分析句式靈活多變的口語文本,而且,依存關(guān)系提取深層句法結(jié)構(gòu)信息,具有內(nèi)容無關(guān)性.利用哈爾濱工業(yè)大學(xué)的LTP平臺對口語語料庫中的對話進行依存句法分析,構(gòu)建依存樹庫,提取依存樹中話語標(biāo)記的句法依存關(guān)系和語義依存關(guān)系.LTP平臺采用863詞性標(biāo)注,共14種句法依存關(guān)系和25種語義依存關(guān)系.

        2.1 支配詞詞性

        根據(jù)依存語法的五條公理,依存句法樹中僅有一個中心詞,稱為根節(jié)點,句中所有詞語僅有一個支配它的詞,中心詞除外,所以在依存樹中,詞之間只存在支配被支配、從屬被從屬的關(guān)系.在依存語法中,句子的支配詞詞性大多為動詞,因為動詞的支配能力比其他詞都強[21-22],如例句(2)和(3)中分別列舉了含有“回頭”的例句,其依存句法分析和詞性標(biāo)注的結(jié)果如圖1和圖2所示.

        圖1 例句2的依存句法分析Fig.1 Dependency syntax analysis of example 2

        圖2 例句3的依存句法分析Fig.2 Dependency syntax analysis of example 3

        例句(2):就在我背后,但是我還不能回頭看.

        例句(2)中“回頭”不是話語標(biāo)記時,其詞性標(biāo)注為v動詞,是支配詞.

        例句(3):可以加一下扣扣,回頭聊一下哈.

        例句(3)中“回頭”充當(dāng)話語標(biāo)記時,詞性標(biāo)注為d副詞,支配詞分別是“加”和“聊”,詞性標(biāo)注都是v動詞.

        2.2 話語標(biāo)記與支配詞之間的句法依存關(guān)系

        根據(jù)依存樹庫中詞與詞之間的14種句法依存關(guān)系,準(zhǔn)話語標(biāo)記與支配詞之間的關(guān)系一般根據(jù)準(zhǔn)話語標(biāo)記在句中是否充當(dāng)話語標(biāo)記而有所變化,因此可以把兩者之間的依存關(guān)系作為判斷準(zhǔn)話語標(biāo)記是否為話語標(biāo)記的條件.例如圖3、圖4是“回頭”在句中與其支配詞的依存關(guān)系.

        圖3 例句4中的依存句法分析Fig.3 Dependency syntax analysis of example 4

        圖4 例句5中的依存句法分析Fig.4 Dependency syntax analysis of example 5

        例句(4):你回頭留我們這兒吧,別回去了.

        例句(5):完了之后他就直接回頭一直看著我.

        如圖3所示,例句(4)中“回頭”充當(dāng)話語標(biāo)記,與其支配詞“留”之間的關(guān)系是ADV(狀中結(jié)構(gòu)).圖4例句(5)中的“回頭”依存于其前的“他”,構(gòu)成SBV主謂關(guān)系,“回頭”作為“他”的謂語,因此不作為話語標(biāo)記.

        2.3 話語標(biāo)記與支配詞之間的語義依存關(guān)系

        根據(jù)依存樹庫中詞與詞之間的25種語義依存關(guān)系,一個詞可以支配不同的詞,形成不同的語義依存關(guān)系,在依存樹中除去葉子節(jié)點的其他節(jié)點都至少有一個從屬詞,根據(jù)依存語法分析,口語句中的話語標(biāo)記在依存樹中屬于葉子節(jié)點,是不支配其他詞的,以“完了”為例,對例句(6)進行語義依存關(guān)系分析.

        例句(6):完了,這下沒情調(diào)了,曲子也就吹完了.

        為了區(qū)分例句(6)中出現(xiàn)的兩個“完了”,分別標(biāo)注為“完了1”和“完了2”,由于句子較長,分析的語義依存樹節(jié)點太多,此處只分析與“完了”直接相關(guān)的依存節(jié)點.圖5是依存樹的語義依存關(guān)系圖及簡圖.

        圖5 例句6兩個“完了”的語義依存分析及簡圖Fig.5 Example 6 semantic dependency analysis and diagram of two “wan le” words

        圖6 例句7中“完了”的語義依存分析Fig.6 Semantic dependency analysis of “wan le” in example 7

        圖5左分支是“完了1”的語義依存關(guān)系,第一個“完了”是話語標(biāo)記,在依存樹中為葉子節(jié)點,是支配詞“沒”的依附標(biāo)記;右分支是第二個“完了”的語義依存關(guān)系,與支配詞“吹”是后繼關(guān)系.

        例句(7):這下沒情調(diào)了,曲子也就吹完了.(自建)

        2.4 位置分布

        自然口語中,話語標(biāo)記在話輪中有經(jīng)常出現(xiàn)的位置,位置是判定話語標(biāo)記的重要參數(shù)之一.話語標(biāo)記在口語中可能出現(xiàn)的位置有五:話輪首、話輪中、話輪尾、其他標(biāo)記后(組合性話語標(biāo)記出現(xiàn)的位置)、獨立話輪.據(jù)此,筆者詳細統(tǒng)計了7個常用話語標(biāo)記在口語對話語料庫中的位置分布(詳見表2),發(fā)現(xiàn)它們各自有不同的位置分布格局,且存在明顯的位置分布偏向.

        表2 話語標(biāo)記的位置分布及比例

        表2數(shù)據(jù)顯示,“嗯”更常分布在獨立話輪和話輪尾;“回頭”“完了”“我告訴你”“說句不好聽的”主要分布在話輪中;“你知道”更常分布在話輪首和話輪尾;“不是我說你”的分布位置相對均衡.有些話語標(biāo)記不會出現(xiàn)在話輪尾、其他話語標(biāo)記之后或獨立話輪中.話語標(biāo)記有各自的位置分布偏向,所以位置分布可作為識別話語標(biāo)記的重要特征參數(shù).結(jié)合話語標(biāo)記詞表和位置分布來識別話語標(biāo)記,可以減少誤判.

        2.5 共現(xiàn)成分的主語/話題特征

        話語標(biāo)記共現(xiàn)成分的語義與功能特征主要包括是否有停頓性話語信息或連續(xù)性話語信息,前后話語是否有主語/主題、前后主語/主題的關(guān)系、前后話語內(nèi)容的關(guān)系等6個方面.這些語義與功能特征對話語標(biāo)記的判定具有重要的意義.比如,“完了”為話語標(biāo)記時,前面通常有停頓性話語信息(如例句(7)、(9)、(11)、(13)、(15),而它不為話語標(biāo)記時,前面通常沒有停頓性話語信息(如例句(8)、(10)、(12)、(14)、(16).這種現(xiàn)象說明了共現(xiàn)成分能夠作為話語標(biāo)記的判斷依據(jù).

        例句(8):我沒尋思整這一套,一串兒啊,整個玩意還繞老半天完了舉出一個這個,完了因為我推她一下子,完了,人家啊,我給你學(xué)一個,我說你別老逗你爸.

        例句(9):我補補補補補,然后就補完了.

        例句(10):它在2008年房價最高的時候,你知道嗎?它大概就是這么大,30平方厘米,就是一平方英尺,要賣到2 700美元.

        例句(11):你知道味道是怎么出來的嗎,你說有微波爐烤箱的味道,燒焦那種味道是吧?

        例句(12):我告訴你,別以為你有文化就可以欺負人啊,真沒見過你這號的!

        例句(13):小雨,我,我告訴你一個秘密.

        例句(14):不是我說你,別一天到晚只知道賺錢賺錢,賺那么多錢干嘛.

        例句(15):問題不是我說你正義,是法律上.

        例句(16):說句不好聽的話,還不是你教出來的嗎?

        例句(17):你不通過民政局,我跟你說句不好聽的話,我真的沒法跟你說,知道嗎?

        3 特征的析取與算法

        綜合以上的分析,話語標(biāo)記的句法依存關(guān)系、語義依存關(guān)系、位置分布、共現(xiàn)成分的語義與功能特征等都是作為識別話語標(biāo)記的重要參數(shù).以下為本文提取這些特征的方法.

        3.1 依存關(guān)系的提取

        本文基于話語標(biāo)記的依存關(guān)系特征研究,依據(jù)14種句法依存關(guān)系和25種語義依存關(guān)系,具體的依存關(guān)系類型描述如表3所示.

        表3 依存關(guān)系類型

        3.2 句法位置的提取

        會話中,不同話語標(biāo)記出現(xiàn)的位置是不一樣的,而這些位置信息可以作為分析話語標(biāo)記的一個重要參數(shù).比如,話語標(biāo)記“回頭”基本上不出現(xiàn)在獨立的話輪位置,在調(diào)查的語料庫中,該位置上出現(xiàn)的概率為0.這樣的位置特征對于判定“回頭”是不是話語標(biāo)記非常有價值.有些詞在某些位置上傾向于用作話語標(biāo)記,這樣的統(tǒng)計數(shù)據(jù)對話語標(biāo)記的自動識別同樣非常重要.關(guān)于語法位置的提取,本文的做法是利用訓(xùn)練語料查詢話語標(biāo)記的位置(記為“Pos”),計算公式如下:

        (1)

        3.3 主語/話題特征的提取

        會話中,說話人通常圍繞共同關(guān)心的人物或事件展開,所涉主語/話題多具有同一性或相關(guān)性,這些信息對話語標(biāo)記的判定具有參考價值.本文的具體做法是將認為的該特征分成6類,并在訓(xùn)練集中進行標(biāo)注,具體如表4所示[23].針對主語/話題的標(biāo)記邏輯,將話語中的所有名詞或代詞性成分作為主語/主題候選詞,然后利用候選詞分析前言后語所用主語/話題的關(guān)系.具體說來,在語料樣本中以潛在的話語標(biāo)記為切割點,分為兩個片段,以此為基礎(chǔ)比較前后兩個話語片段中主語/話題的同一性,通常使用的方法包括匹配法與刪除法.如前片段中主語/話題為“我”,后片段話語中主語/話題詞也為“我”,則二者匹配成功,表明主語/話題的同一性.或利用刪除法進行比較,如前片段中主語/話題詞為“公司的張經(jīng)理”,后片段話語中主語/話題詞也為“張經(jīng)理”,二者也是相同的.有些主語雖然字面上不同,但是在語義上具有回指等語法關(guān)系,二者是相同的,比如“市場經(jīng)濟”與“它”在前后句中做主語/話題時,大多數(shù)是同指關(guān)系.計算表層形式不同的主語/話題之間的語義關(guān)系需經(jīng)過兩個步驟,一是借助擴展的《同義詞林》分析二者的語義關(guān)系,二是通過語法上的共現(xiàn)計算二者的相關(guān)性.公式如下:

        表4 話語標(biāo)記共現(xiàn)成分的語義與功能特征

        Association=

        (2)

        3.4 詞性特征的提取

        基于窗口的概念對詞性特征進行提取,即只統(tǒng)計詞距離小于等于窗口大小的臨近詞語的分布情況.之所以引入窗口概念,主要有兩個原因,首先是降低系統(tǒng)開銷,設(shè)詞性分類一共有n種,窗口大小為w,那么詞性排列一共將出現(xiàn)nw.如果不對w加以限制,最終對排列結(jié)果的統(tǒng)計將占用很大的系統(tǒng)開銷,同時這樣的開銷也不能換來準(zhǔn)確率的提升,因為詞距離越遠,詞與詞的關(guān)聯(lián)性將越小.第二個原因數(shù)據(jù)稀疏問題,由于目前我們的數(shù)據(jù)集規(guī)模在千句和萬句之間,當(dāng)存在較多詞性排列時,由于數(shù)據(jù)集的規(guī)模不足,詞性排列將存在數(shù)據(jù)稀疏問題,從而使得統(tǒng)計得出的概率存在一定的偶然性,影響識別準(zhǔn)確率.計算公式如下:

        P(特定詞性排列|話語標(biāo)記)=

        N(話語標(biāo)記下的詞性排列)/N(特定詞性排列).

        (3)

        4 實驗及數(shù)據(jù)分析

        在基于依存關(guān)系圖的話語標(biāo)記可解釋性方面,算法和模型等可解釋性方法的采用是必需的.人工智能的可解釋性方法根據(jù)模型解釋的算法復(fù)雜度分成兩類,一類是事前解釋(ante-hoc),另一類是事后解釋(post-hoc).事前解釋適用于復(fù)雜度較低的模型,多采用傳統(tǒng)機器學(xué)習(xí)中的自解釋模型.例如,線性模型、K近鄰算法、決策樹、樸素貝葉斯模型、貝葉斯網(wǎng)絡(luò)等;事后解釋適用于復(fù)雜度較高的模型,多運用知識蒸餾、激活最大化方法、概念激活矢量測試、反向傳播、沙普利解釋模型等[24].盡管當(dāng)前人工智能的可解釋性方法種類較多,但每種方法都不夠完善,或多或少的存在一些缺點.例如:自解釋模型準(zhǔn)確性偏低,受到多種因素的限制,預(yù)測性能與可解釋性之間的矛盾較大;激活最大化方法僅適用視頻等連續(xù)型數(shù)據(jù),無法應(yīng)用于離散型數(shù)據(jù),且容易受到噪音的影響.因此,在不同場景下,應(yīng)當(dāng)根據(jù)各類方法充分利用其優(yōu)勢,避免其不足,選取合適的模型和算法來實現(xiàn)系統(tǒng)的可解釋性.

        綜上所述,為了驗證本文提出的多視角話語標(biāo)記特征模型的科學(xué)合理性,采用事前解釋方法的自解釋模型,以位置特征作為基準(zhǔn)特征集,依次增加詞性特征、話題特征和依存關(guān)系特征,依次遞增的對照識別實驗特征集如表5所示.實驗采用張華平研發(fā)的NLPIR-Parser[25]進行中文語料分詞和詞性標(biāo)注,分類算法實驗環(huán)境為scikit-learn.在對照實驗中運行十折交叉驗證,以話語標(biāo)記識別的準(zhǔn)確率(precision)、召回率(recall)和調(diào)和均值(F-measure)作為模型識別結(jié)果的評價標(biāo)準(zhǔn).正確率P=Ncorrect/Nprogressive×100%,召回率R=Ncorrect/Nall×100%,調(diào)和平均數(shù)F1=2×P×R/(P+R)×100%.Ncorrect表示識別正確的話語標(biāo)記個數(shù),Nprogressive表示識別為話語標(biāo)記的樣本個數(shù),Nrecg表示識別正確的話語標(biāo)記和非話語標(biāo)記個數(shù),Nall表示原樣本準(zhǔn)話語標(biāo)記個數(shù).對“回頭”[26]“完了”[27]“你知道”[28]“我告訴你”[29]“不是我說你”[30]“說句不好聽的(話)”[31]6個話語標(biāo)記進行標(biāo)注.

        表5 對照識別實驗特征集

        在各組對照實驗中分別應(yīng)用4種分類算法:樸素貝葉斯(NBC)、決策樹(C4.5)、大規(guī)模線性分類支持向量機(LIBLINEAR)[32]以及貝葉斯網(wǎng)絡(luò)(BN)[33-35].貝葉斯網(wǎng)絡(luò)是貝葉斯機器學(xué)習(xí)方法的一種,又稱信念網(wǎng)絡(luò).它是基于有向無環(huán)圖(directed acyclic graph,DAG)來刻畫特征之間依存關(guān)系的一種網(wǎng)絡(luò)結(jié)構(gòu),可以由變量節(jié)點和所有連接這些節(jié)點的有向邊組成.節(jié)點代表隨機變量(詞),節(jié)點間的連接邊代表節(jié)點(詞語)之間的依存關(guān)系,并可用條件概率來表達這些關(guān)系的強弱.可用下式表示.

        (4)

        其中,pa(xk)表示節(jié)點xk的父節(jié)點.依據(jù)公式4分析例句3的貝葉斯網(wǎng)絡(luò)模型可表示為:

        P(加)P(可以|加)P(一下|加)P(扣扣|加)P(聊|加)P(回頭|聊)P(一下|聊)P(哈|聊).

        表6反映了模型針對不同話語標(biāo)記詞的4種模型的分類準(zhǔn)確率、召回率和調(diào)和均值,各個特征集上的最高數(shù)值用加粗字體顯示.從模型分類效果的角度看:4種分類模型中,大規(guī)模線性分類支持向量機和貝葉斯網(wǎng)絡(luò)的話語標(biāo)記識別性能最好,尤其是,在4種特征組合對照實驗數(shù)據(jù)上準(zhǔn)確率、召回率和調(diào)和均值都是最高值;樸素貝葉斯分類性能最低,具體原因是樸素貝葉斯分類要求特征屬性之間相互獨立,而4種特征集合中詞與詞之間存在依存關(guān)系,不能滿足獨立性假設(shè),故而效果最差;決策樹的性能居中.

        表6 4種模型在不同話語標(biāo)記詞的識別實驗結(jié)果

        從特征組合對話語標(biāo)記識別的效果來觀察:1) 隨著特征依次的增加,4種分類模型實驗中話語標(biāo)記的準(zhǔn)確率、召回率和調(diào)和均值均有改善,在所有特征都輸入模型后,準(zhǔn)確率、召回率和調(diào)和均值到達最優(yōu)值,還說明每種特征集或多或少起到區(qū)分識別話語標(biāo)記的作用;2) 從依存關(guān)系特征的作用效果來觀察,表7中所示的是缺失依存關(guān)系特征后的準(zhǔn)確率變化情況,4種模型的識別實驗數(shù)據(jù)中,缺失依存關(guān)系特征后準(zhǔn)確率存在顯著降低.以貝葉斯網(wǎng)絡(luò)模型為例,在缺失依存關(guān)系特征后“回頭-完了-你知道-我告訴你-附帶說幾句-還是那句老話”識別準(zhǔn)確率分別下降13.6%、13.2%、12.9%、12.6%、12.1%和12.2%,進一步驗證了依存關(guān)系特征在話語標(biāo)記識別中的顯著作用;3) 從特征組合對準(zhǔn)確率的改善程度來觀察,特征組合逐步增加是貝葉斯網(wǎng)絡(luò)模型準(zhǔn)確率的變化狀態(tài),如圖7所示,在依次加入詞性特征、話題特征和依存關(guān)系特征的過程中,對照觀察,依存關(guān)系特征相對于其他特征能夠有效提升模型準(zhǔn)確率,反映出依存關(guān)系特征更有利于提取自然口語文本中蘊涵關(guān)聯(lián)信息.

        圖7 話語標(biāo)記識別增加特征組合對貝葉斯網(wǎng)絡(luò)模型準(zhǔn)確率的貢獻Fig.7 Contribution of feature combination to the accuracy of Bayesian network model by discourse marker recognition

        表7 缺失依存關(guān)系特征的四種模型在不同話語標(biāo)記詞的識別實驗結(jié)果

        從話語標(biāo)記詞語長度對自動識別的影響來分析:1) 從表7中的“回頭”和“我告訴你”全特征組合實驗數(shù)據(jù)可觀察出,貝葉斯網(wǎng)絡(luò)話語標(biāo)記識別平均準(zhǔn)確率為90.5%,平均召回率為91.2%,平均調(diào)和均值為91.3%,驗證本研究采用的特征組合模型較好適應(yīng)話語標(biāo)記識別,魯棒性較優(yōu);2) 總體上觀察,發(fā)現(xiàn)話語標(biāo)記依次從2字詞到6字詞時,話語標(biāo)記識別的準(zhǔn)確率逐步提升,特征組合模型對于詞的長度增加識別力逐步提升;3) 從話語標(biāo)記識別率最高的貝葉斯網(wǎng)絡(luò)模型來分析,表8所示為話語標(biāo)記字數(shù)增加貝葉斯網(wǎng)絡(luò)準(zhǔn)確率的變化情況,表明當(dāng)字數(shù)逐步增加時,貝葉斯網(wǎng)絡(luò)模型準(zhǔn)確率與話語標(biāo)記字詞長度是正相關(guān)的;4) 從特征組合對話語標(biāo)記字數(shù)的敏感度來觀察,圖7說明了依次增加特征集合時,從2字詞話語標(biāo)記到6字詞話語標(biāo)記上貝葉斯網(wǎng)絡(luò)模型準(zhǔn)確率的識別趨勢,可觀察到字詞越少,則導(dǎo)入依存關(guān)系特征后準(zhǔn)確率改善越明顯,分析原因是位置特征和詞性特征在2字詞等兼類詞上特征相對稀疏,使得依存關(guān)系特征對少字符的話語標(biāo)記識別的作用更加顯著.

        表8 話語標(biāo)記字數(shù)增加貝葉斯網(wǎng)絡(luò)準(zhǔn)確率的變化

        另外,當(dāng)不同候選詞統(tǒng)計概率相當(dāng)時,準(zhǔn)確率也出現(xiàn)了一定的波動.例如“回頭”包含兩種用法,即動詞用法和話語標(biāo)記用法.然而在部分情況下,兩種用法在上下文環(huán)境的區(qū)分非常不明顯,如“回頭一看”和“回頭一想”,顯然前者是動詞用法,后者是話語標(biāo)記用法.這種需要引入語義信息,甚至是固定搭配才能識別的情況一定程度上影響了最終的分類準(zhǔn)確率.

        5 結(jié)語

        目前針對中文話語標(biāo)記識別的研究相對較少,且中文話語標(biāo)記識別也存在著語料不足,話語標(biāo)記識別復(fù)雜度高的問題.本文將句法依存關(guān)系和語義依存關(guān)系表示自然口語的模型特征,與自然口語的話輪位置特征、詞性特征和主語話題特征相比,它可以有效地刻畫口語流水句易位、疊連、重復(fù)的特點.本文提出句法依存關(guān)系和語義依存關(guān)系,均能顯著提升4種模型對話語標(biāo)記的識別準(zhǔn)確率,對照觀察,依存關(guān)系特征相對于其他特征能夠有效提升模型準(zhǔn)確率,反映出依存關(guān)系特征更有利于提取自然口語文本中蘊涵關(guān)聯(lián)信息.進一步驗證了依存關(guān)系特征在話語標(biāo)記識別中具有較強的可行性和魯棒性.

        本文通過自建的漢語自然口語語料庫,針對當(dāng)前深度學(xué)習(xí)人工智能方法存在的原理上不可解釋性和語義上不可解釋性兩個方面難題,綜合分析后采用事前解釋類型的自解釋模型方法,具體為樸素貝葉斯、決策樹、大規(guī)模線性分類支持向量機以及貝葉斯網(wǎng)絡(luò)4種解釋性強的機器學(xué)習(xí)方法,完成自然口語話語標(biāo)記的識別對比實驗,得出最優(yōu)識別準(zhǔn)確率為92.3%.實驗結(jié)果還表明句法依存關(guān)系和語義依存關(guān)系對話語標(biāo)記識別貢獻更大,遠距離和跨句的語義依存關(guān)系是識別的難點.本研究的識別對比實驗例證了本方法的可行性和有效性,為今后研究提供基礎(chǔ)的準(zhǔn)確率指標(biāo)參照.

        下一步將在語義依存關(guān)系表示基礎(chǔ)上,引入更多語義信息,同時在擴充漢語自然口語標(biāo)注語料庫規(guī)模的基礎(chǔ)上,探索基于新一代無監(jiān)督預(yù)訓(xùn)練模型以及融合更多可解釋性潛在特征信息的知識,提高話語標(biāo)記識別準(zhǔn)確率.語言智能是人工智能的重要組成部分,是讓計算機擁有人類的語言智能[36].話語標(biāo)記與人工智能的“交叉融合”,對言談互動、話語理解、情感分析、人機問答和口語機器翻譯都具有重要意義.

        猜你喜歡
        例句貝葉斯語義
        語言與語義
        英聲細語
        貝葉斯公式及其應(yīng)用
        好詞好句
        基于貝葉斯估計的軌道占用識別方法
        “上”與“下”語義的不對稱性及其認知闡釋
        好詞好句
        一種基于貝葉斯壓縮感知的說話人識別方法
        電子器件(2015年5期)2015-12-29 08:43:15
        好詞好句
        認知范疇模糊與語義模糊
        中文有码亚洲制服av片| 国产真实伦在线观看| 狠狠色狠狠色综合久久第一次| 亚洲av永久无码精品水牛影视| 久久一二三四区中文字幕| 亚洲乱码中文字幕视频| 亚洲成a∨人片在线观看无码 | 国产自拍视频一区在线| 极品粉嫩嫩模大尺度无码视频 | 人妻少妇精品专区性色av| 中文字幕精品久久天堂一区| 中文字幕乱码在线婷婷| 高清午夜福利电影在线| 国产精品免费久久久久软件| 香蕉视频一级片| 亚洲免费人成网站在线观看| 免费在线观看av不卡网站| 亚洲中文字幕在线观看| AV永久天堂网| 亚洲成在人网站天堂日本| 亚洲av无码成h在线观看| 日本不卡在线视频二区三区| 91免费国产| 亚洲一区二区三区免费av| 国产精品亚洲精品日韩已方| 999国内精品永久免费视频| 人妻丰满熟妇av无码区hd| 日日噜噜夜夜狠狠久久av| 亚洲国产av一区二区三区天堂| 亚洲av鲁丝一区二区三区黄| 人人妻人人爽人人做夜欢视频九色| 视频二区精品中文字幕| 亚洲高清国产成人精品久久| 人妻 色综合网站| 亚洲国产无线乱码在线观看| 国产精品日日摸夜夜添夜夜添 | 亚洲av成人精品一区二区三区| 国内精品伊人久久久久影院对白| 毛片网站视频| 区无码字幕中文色| 精品国产一区二区三区性色|