李正華
(蘇州大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院 江蘇·蘇州 215006)
隨著深度學(xué)習(xí)的快速發(fā)展,人工智能已經(jīng)成為一個(gè)具有國(guó)家戰(zhàn)略意義的研究方向。國(guó)內(nèi)很多知名高校紛紛建立人工智能學(xué)院或研究院,并且面向本科生開(kāi)設(shè)了相應(yīng)的人工智能基礎(chǔ)課程。MSRA 副院長(zhǎng)周明老師講到,語(yǔ)言智能是人工智能皇冠上的明珠。自然語(yǔ)言處理無(wú)疑是真正實(shí)現(xiàn)強(qiáng)人工智能必須解決的難題。
英語(yǔ)文本中詞語(yǔ)之間由空格隔開(kāi),因此可以直接得到英語(yǔ)句子的詞序列。然而,中文文本則缺乏詞語(yǔ)分隔符,給中文信息處理帶來(lái)了很大的挑戰(zhàn)。由于詞語(yǔ)是信息表達(dá)的最基本單元,因此絕大部分上層任務(wù)或應(yīng)用均以詞序列、而非子序列作為輸入,如句法語(yǔ)義分析、搜索引擎(百度)、機(jī)器翻譯、客服機(jī)器人等。學(xué)術(shù)界在過(guò)去幾十年,針對(duì)分詞任務(wù),提出了一系列的方法,人工標(biāo)注了大規(guī)模的數(shù)據(jù)。但是,迄今為止分詞問(wèn)題還遠(yuǎn)沒(méi)有解決。
如上討論,中文分詞對(duì)于自然語(yǔ)言處理乃至人工智能的科學(xué)研究和產(chǎn)業(yè)化的重要意義不言而喻。事實(shí)上,本科生很多課程都涉及中文分詞問(wèn)題,如自然語(yǔ)言處理、中文信息處理、[1]信息檢索、數(shù)據(jù)挖掘等。
然而在課程授課中,大部分同學(xué)們很難理解分詞為什么很困難,為什么不可以通過(guò)簡(jiǎn)單的詞典匹配做好,為什么復(fù)雜的機(jī)器學(xué)習(xí)算法和模型也會(huì)輸出很多明顯的分詞錯(cuò)誤?
為此,筆者設(shè)計(jì)了一次眾包標(biāo)注形式的上機(jī)課。基于我們的標(biāo)注系統(tǒng),要求同學(xué)們根據(jù)自己對(duì)分詞任務(wù)的理解,標(biāo)注一定數(shù)量的句子。進(jìn)而,我們對(duì)標(biāo)注數(shù)據(jù)進(jìn)行了行為分析,并通過(guò)調(diào)查問(wèn)卷了解教學(xué)效果。通過(guò)這次上機(jī)課,同學(xué)們更深刻的了解了自動(dòng)分詞的難處,并且一小部分同學(xué)產(chǎn)生了自己實(shí)現(xiàn)分詞工具的興趣。
給定一個(gè)句子,如“這學(xué)期我主講信息檢索課”,中文分詞的目的是將漢字序列切分為詞序列,如“這/學(xué)期/我/主講/信息/檢索/課”。在英文中,詞語(yǔ)之間以空格符作為天然分解符,但是中文中只有字、句、段可以明顯區(qū)分。由于單個(gè)字的含義比較模糊,歧義較大,因此詞通常被認(rèn)為是語(yǔ)言表達(dá)的最基本單元,并在其基礎(chǔ)上開(kāi)展自然語(yǔ)言處理相關(guān)研究(如句法分析、語(yǔ)義分析),以及建立高層應(yīng)用系統(tǒng)如信息檢索系統(tǒng)。分詞主要需要解決兩種切分歧義。[2]第一種為交集型歧義,指三個(gè)連續(xù)的字“ABC”中,“AB”和“C”可以形成兩個(gè)詞,“A”和“BC”同樣也可以形成兩個(gè)詞。交集型歧義的例子如“和服裝”“表面的”等。另一種歧義為組合型歧義,指兩個(gè)(或多個(gè))連續(xù)的字“AB”,可以組合起來(lái)作為一個(gè)詞,也可以分開(kāi)單獨(dú)成詞。組合型歧義需要對(duì)整個(gè)句子整體把握,才能正確消解。以“把手”為例,“請(qǐng)把手拿開(kāi)”和“這個(gè)門把手壞了”的切法不同。同樣,“中將”在“將軍任命了一名中將”和“產(chǎn)量三年中將持續(xù)增長(zhǎng)”兩句中切法也不同。
過(guò)去十多年里,分詞技術(shù)得到了長(zhǎng)足發(fā)展。最簡(jiǎn)單并快速的方法是最大前向匹配和最大后向匹配;基于自動(dòng)機(jī)實(shí)現(xiàn)的基于規(guī)則的方法;將分詞任務(wù)看作基于字的分類問(wèn)題;基于字的序列標(biāo)注方法;基于詞的動(dòng)態(tài)規(guī)劃搜索算法。目前的分詞方法在規(guī)范的新聞?lì)I(lǐng)域文本上可以達(dá)到約98%的準(zhǔn)確率。[2-3]
近年來(lái),網(wǎng)絡(luò)用戶產(chǎn)生的海量網(wǎng)絡(luò)文本數(shù)據(jù),如微博、產(chǎn)品評(píng)論、郵件等,對(duì)中文分詞提出了新的挑戰(zhàn)。網(wǎng)絡(luò)文本和傳統(tǒng)新聞?lì)I(lǐng)域文本相比,主要有兩個(gè)特點(diǎn):新詞多(如“快男”)、舊詞新義(如“粉絲”)。新詞發(fā)現(xiàn)一直是中文分詞的一大困難。對(duì)于訓(xùn)練語(yǔ)料中沒(méi)有出現(xiàn)過(guò)的詞語(yǔ),分詞模型一般很難正確切分。[3]
目前,面向網(wǎng)絡(luò)文本的中文分詞才剛剛起步,缺乏適當(dāng)規(guī)模的標(biāo)注數(shù)據(jù)用以模型訓(xùn)練和評(píng)價(jià)。筆者也一直思考如何基于近年流行的眾包方式,快速有效的建立所需的標(biāo)注數(shù)據(jù)。眾包的基本思想是利用大量空閑網(wǎng)絡(luò)用戶,以有償或無(wú)償(無(wú)意)的形式,快速獲取標(biāo)注數(shù)據(jù)。但是眾包的應(yīng)用場(chǎng)景一般是很簡(jiǎn)單的標(biāo)注任務(wù),如對(duì)圖片中的物體打標(biāo)簽。[4]目前還很少看到對(duì)分詞這樣的復(fù)雜任務(wù)進(jìn)行眾包標(biāo)注。本文對(duì)此進(jìn)行了初步嘗試,并且利用一次教學(xué)上機(jī)課進(jìn)行了實(shí)際操作,獲得一些有趣的發(fā)現(xiàn)和結(jié)論。
由于目前的眾包平臺(tái)無(wú)法滿足需求,筆者開(kāi)發(fā)了一個(gè)基于瀏覽器的標(biāo)注系統(tǒng),支持百人以上同時(shí)在線標(biāo)注。我們將系統(tǒng)部署在云服務(wù)器上,網(wǎng)址為http://139.224.234.18/anno-sys。系統(tǒng)支持用戶注冊(cè)、任務(wù)分發(fā)、標(biāo)注、結(jié)果提交、標(biāo)注時(shí)間統(tǒng)計(jì)等基本功能。
標(biāo)注系統(tǒng)給出一個(gè)句子,同時(shí)給出一個(gè)詞(下劃線標(biāo)記)。用戶首先確定這個(gè)詞是否正確。如果正確,則直接提交答案。如果錯(cuò)誤,那么需要對(duì)分詞結(jié)果進(jìn)行修改,然后提交答案。左鍵單擊兩次確定一個(gè)詞,提交的結(jié)果中必須包含初始詞中的所有字,同時(shí)不允許一個(gè)詞中不包含任何初始詞中的字(即標(biāo)注出的詞要和初始詞相關(guān))。用戶對(duì)詞語(yǔ)修改的結(jié)果會(huì)展示在系統(tǒng)中,同時(shí)標(biāo)注系統(tǒng)中用不同顏色來(lái)區(qū)分不同詞。
上機(jī)課開(kāi)始后,筆者首先給學(xué)生說(shuō)明了一些分詞標(biāo)注的基本原則,演示了標(biāo)注系統(tǒng)的使用方法。然后學(xué)生開(kāi)始標(biāo)注。標(biāo)注過(guò)程大概持續(xù)兩個(gè)小時(shí),學(xué)生一共提交了17,357 個(gè)標(biāo)注結(jié)果,其中4,417 個(gè)是面向地雷任務(wù),剩余的12,940 個(gè)為有效標(biāo)注。通過(guò)分析我們發(fā)現(xiàn),這些標(biāo)注對(duì)應(yīng)4,787 個(gè)句子中的6,601個(gè)任務(wù),即每個(gè)句子平均標(biāo)注1.4 個(gè)任務(wù)。
從準(zhǔn)確率方面分析,我發(fā)現(xiàn)同學(xué)們的平均準(zhǔn)確率為84.70%。其中正確率90%以上的同學(xué)占總?cè)藬?shù)的26.7%;在80-90%的占43.3%;在70-80%之間的人數(shù)占30%。從這一點(diǎn)看出,同學(xué)們?cè)跇?biāo)注過(guò)程中是很認(rèn)真的,并且能夠達(dá)到一定的準(zhǔn)確率。
從標(biāo)注時(shí)間方面分析,我們發(fā)現(xiàn)同學(xué)們平均12.0 秒做一個(gè)任務(wù)。其中10 秒以內(nèi)的同學(xué)占總?cè)藬?shù)20%;10-15 秒的同學(xué)占63.3%;15 秒以上的同學(xué)占16.7%。這個(gè)分析結(jié)果可以很好的支持后期的大規(guī)模標(biāo)注工作,也為其他相關(guān)研究人員提供有用參考。
題目做完后,筆者做了一個(gè)問(wèn)卷調(diào)查,目的是想看看同學(xué)們是否對(duì)中文分詞有進(jìn)一步的認(rèn)識(shí),對(duì)分詞系統(tǒng)提出改進(jìn)建議,以便以后繼續(xù)完善標(biāo)注系統(tǒng)。問(wèn)卷包含5 道選擇題和2 道問(wèn)答題。從同學(xué)們的反饋中我們看到了很多有趣的信息。
86%的學(xué)生認(rèn)為計(jì)算機(jī)自動(dòng)分詞很困難;72%的學(xué)生認(rèn)為通過(guò)此次標(biāo)注,對(duì)漢語(yǔ)分詞任務(wù)有了更深的理解;72%的學(xué)生表示這個(gè)標(biāo)注系統(tǒng)本身實(shí)現(xiàn)起來(lái)復(fù)雜;17%的學(xué)生表示對(duì)標(biāo)注系統(tǒng)的實(shí)現(xiàn)感興趣;10%的學(xué)生表示有興趣實(shí)現(xiàn)一個(gè)自動(dòng)分詞程序。
另外,通過(guò)問(wèn)答題,同學(xué)們對(duì)標(biāo)注系統(tǒng)提出了很多改進(jìn)的需求,并且對(duì)計(jì)算機(jī)進(jìn)行自動(dòng)分詞可能遇到的困難和應(yīng)對(duì)措施提出了自己的思考和見(jiàn)解。
綜上,筆者認(rèn)為,通過(guò)這次標(biāo)注活動(dòng),同學(xué)們對(duì)分詞問(wèn)題的理解更加透徹,對(duì)后續(xù)課程的學(xué)習(xí)體現(xiàn)出了更強(qiáng)的興趣和主動(dòng)性。尤其是,部分同學(xué)在標(biāo)注過(guò)程中表現(xiàn)出對(duì)語(yǔ)言很敏感的特點(diǎn),筆者將引導(dǎo)其加入后續(xù)有償?shù)臄?shù)據(jù)標(biāo)注工作中;對(duì)于感興趣的同學(xué),筆者也將引導(dǎo)其繼續(xù)深入研究分詞算法和標(biāo)注系統(tǒng)實(shí)現(xiàn)。
本次眾包形式的標(biāo)注活動(dòng)共標(biāo)注了約5000 個(gè)微博句子,提交了約17,000 個(gè)標(biāo)注結(jié)果。通過(guò)這次教學(xué)活動(dòng),學(xué)生普遍對(duì)中文分詞有了更深入的理解,同時(shí)由于中文的復(fù)雜性和習(xí)慣性,大家都覺(jué)得分詞任務(wù)對(duì)計(jì)算機(jī)而言是有一定困難的。部分同學(xué)對(duì)標(biāo)注系統(tǒng)和分詞任務(wù)的實(shí)現(xiàn)產(chǎn)生了興趣,后續(xù)將加入實(shí)驗(yàn)室并繼續(xù)深入研究。根據(jù)課堂效果和反饋情況來(lái)看,筆者認(rèn)為,這種教學(xué)與科研相輔助的教學(xué)模式,既能提升學(xué)生的興趣,又能讓他們真正去重視這門課的學(xué)習(xí),而不再是為修學(xué)分而學(xué)習(xí)。以后筆者會(huì)將這種模式加以擴(kuò)大和推廣,讓學(xué)生在學(xué)好理論的同時(shí),增強(qiáng)實(shí)際動(dòng)手能力,養(yǎng)成學(xué)以致用的習(xí)慣,為未來(lái)工作打好基礎(chǔ)。