張新陽(yáng) 李輝
摘要:專業(yè)小型語(yǔ)料庫(kù)具有目標(biāo)明確、語(yǔ)料收集針對(duì)性強(qiáng)、語(yǔ)料可更新、標(biāo)注靈活等特點(diǎn),在各個(gè)專業(yè)領(lǐng)域的應(yīng)用日益增多。為了滿足電力行業(yè)單位在辦公、管理、決策等文本處理過(guò)程中的需求,建設(shè)一個(gè)電力語(yǔ)料庫(kù),提供各種語(yǔ)料檢索及應(yīng)用具有現(xiàn)實(shí)意義。給出了基于Web采集技術(shù)的語(yǔ)料收集、語(yǔ)料處理和語(yǔ)料代表性度量、語(yǔ)料增量更新及子語(yǔ)料庫(kù)抽取并離線應(yīng)用的設(shè)計(jì)實(shí)現(xiàn)過(guò)程。利用云南電網(wǎng)的文本語(yǔ)料進(jìn)行試驗(yàn),采用三種方法對(duì)語(yǔ)料的代表性進(jìn)行度量,利用距詞頻中心的距離指標(biāo)對(duì)度量結(jié)果進(jìn)行評(píng)價(jià),使用詞語(yǔ)覆蓋度、加權(quán)詞語(yǔ)覆蓋度、詞語(yǔ)重現(xiàn)度等度量方式來(lái)表達(dá)通過(guò)抽取語(yǔ)料形成的子語(yǔ)料庫(kù)與原始語(yǔ)料庫(kù)的差異。試驗(yàn)表明,電力專業(yè)語(yǔ)料庫(kù)具有特征較為集中的長(zhǎng)尾特征,即80%的語(yǔ)料特征可由20%的語(yǔ)料表達(dá),使用按需求抽取子語(yǔ)料庫(kù)離線應(yīng)用具有很好的實(shí)際效果。
關(guān)鍵詞:電力語(yǔ)料庫(kù);距離指標(biāo)度量;詞頻統(tǒng)計(jì);離線應(yīng)用
1 ?引言
利用計(jì)算機(jī)來(lái)搜集、整理和加工語(yǔ)料并形成語(yǔ)料庫(kù)是研究語(yǔ)言文字的常用方法[1]。目前,國(guó)內(nèi)外研究團(tuán)隊(duì)構(gòu)建了大量通用語(yǔ)料庫(kù),如Brown、Semcor、LOB、ICE等英文語(yǔ)料庫(kù)以及國(guó)家語(yǔ)委現(xiàn)代漢語(yǔ)語(yǔ)料庫(kù)、北大語(yǔ)料庫(kù)、臺(tái)北“中研院”語(yǔ)料庫(kù)等中文語(yǔ)料庫(kù)[2]。另有領(lǐng)域?qū)S谜Z(yǔ)料庫(kù)如學(xué)習(xí)者、FAO農(nóng)業(yè)英語(yǔ)語(yǔ)料庫(kù)、中介話語(yǔ)語(yǔ)料庫(kù)、學(xué)術(shù)語(yǔ)篇語(yǔ)料庫(kù)、法律語(yǔ)料庫(kù)[3]等應(yīng)用于特定行業(yè)。語(yǔ)料庫(kù)的建設(shè)大多采用基于通用詞典標(biāo)注的方式進(jìn)行,分為語(yǔ)料收集和預(yù)處理、標(biāo)注規(guī)范的制定、質(zhì)量監(jiān)控等過(guò)程[4]。收集的語(yǔ)料大多來(lái)源于組織發(fā)布的文獻(xiàn)或Web文本,其中來(lái)源于文獻(xiàn)的語(yǔ)料較為正式但信息錄入需耗費(fèi)大量人力,來(lái)源于網(wǎng)絡(luò)的語(yǔ)料采集成本低,目前被廣泛使用[5-7],但語(yǔ)料的代表性和準(zhǔn)確性與網(wǎng)站質(zhì)量有較大關(guān)系。
語(yǔ)料庫(kù)處理與應(yīng)用的核心問(wèn)題是從大量的語(yǔ)料中取得文本特征并表示及應(yīng)用。若將語(yǔ)料視為文本特征空間的樣本,則語(yǔ)料庫(kù)是一個(gè)樣本集,其在特征空間的分布狀態(tài)即為語(yǔ)料庫(kù)的重要特征。目前文本分類的研究目的即是希望通過(guò)建立單層或多層次的分類來(lái)表達(dá)文本集合的分布特征[8-15]。語(yǔ)料庫(kù)的分析、度量、約簡(jiǎn)等操作均與文本分類及文特征提取與表達(dá)有重要聯(lián)系。
行業(yè)語(yǔ)料庫(kù)通常只針對(duì)一個(gè)專業(yè)領(lǐng)域。主要應(yīng)用于行業(yè)知識(shí)庫(kù)建設(shè)、問(wèn)答系統(tǒng)開(kāi)發(fā)及機(jī)器學(xué)習(xí)系統(tǒng)訓(xùn)練等。目前,行業(yè)語(yǔ)料庫(kù)建設(shè)與應(yīng)用的難點(diǎn)問(wèn)題包括語(yǔ)料庫(kù)規(guī)模的確定,語(yǔ)料庫(kù)的更新及其復(fù)制應(yīng)用。語(yǔ)料庫(kù)規(guī)模過(guò)大會(huì)降低其應(yīng)用的效率,同時(shí)耗費(fèi)處理、存儲(chǔ)、網(wǎng)絡(luò)等資源,而規(guī)模過(guò)小,則無(wú)法有效地表達(dá)行業(yè)文本的主要特性。語(yǔ)料庫(kù)的離線應(yīng)用,即通過(guò)子集化操作取出語(yǔ)料庫(kù)中的一部分內(nèi)容進(jìn)行使用,如何提取復(fù)制的這部分內(nèi)容能夠最大可能地代表完整語(yǔ)料庫(kù)的特征也是應(yīng)用的難點(diǎn)問(wèn)題。本文面向電力行業(yè),圍繞電力用戶應(yīng)用需求,利用Web進(jìn)行語(yǔ)料收集,采用基于詞典的方式對(duì)預(yù)處理后的生語(yǔ)料進(jìn)行標(biāo)注,利用相似度計(jì)算模型對(duì)語(yǔ)料代表性進(jìn)行排序,通過(guò)增量方式對(duì)電力語(yǔ)料庫(kù)進(jìn)行更新,從而建立電力行業(yè)專用語(yǔ)料庫(kù),貼合專業(yè)領(lǐng)域用戶在辦公、管理、監(jiān)督、協(xié)調(diào)、決策等工作過(guò)程中對(duì)于文本搜索、文本處理等任務(wù)的需要,為專業(yè)用戶進(jìn)行文本分析、處理等任務(wù)開(kāi)展奠定基礎(chǔ)。
2基于Web的電力專業(yè)語(yǔ)料庫(kù)增量構(gòu)建方法
2.1基于Web采集的語(yǔ)料獲取及預(yù)處理
基于Web的語(yǔ)料采集是通過(guò)網(wǎng)絡(luò)獲取、分析、提取Web網(wǎng)頁(yè)內(nèi)容,并進(jìn)行處理以形成特定形式的文本語(yǔ)料既而建立語(yǔ)料庫(kù)的過(guò)程。Web語(yǔ)料采集過(guò)程通常以事先指定的種子URL列表開(kāi)始。當(dāng)采集工具訪問(wèn)這些網(wǎng)址時(shí),它會(huì)識(shí)別網(wǎng)頁(yè)中的所有超鏈接,并將其添加到要訪問(wèn)的網(wǎng)址列表中,稱為抓取邊界。根據(jù)一組策略來(lái)遞歸地訪問(wèn)邊界URL。如果采集程序獲取到頁(yè)面,它會(huì)復(fù)制并保存信息。頁(yè)面內(nèi)容通常被格式識(shí)別、編碼轉(zhuǎn)換并統(tǒng)一進(jìn)行保存。
2.2 語(yǔ)料庫(kù)的構(gòu)建與應(yīng)用
語(yǔ)料庫(kù)的構(gòu)建包括以下步驟:語(yǔ)料庫(kù)的設(shè)計(jì)、語(yǔ)料的輸入與存儲(chǔ)、語(yǔ)料庫(kù)的索引與處理、語(yǔ)料庫(kù)的應(yīng)用接口。其中語(yǔ)料庫(kù)的設(shè)計(jì)包括確定語(yǔ)料庫(kù)的規(guī)模、文本采樣的方案、文本分類/分層取樣的方法確定等。語(yǔ)料的輸入與存儲(chǔ)是把語(yǔ)料輸入文本庫(kù)的步驟,其間的主要工作包括通常包括格式識(shí)別、編碼轉(zhuǎn)換、基礎(chǔ)結(jié)構(gòu)的分割等等;語(yǔ)料的存儲(chǔ)則是由用戶選定特定的形式來(lái)存儲(chǔ)管理已收集的語(yǔ)料,通常采用文件或者數(shù)據(jù)庫(kù)的方法,其中采用文件的方法進(jìn)行管理具有結(jié)構(gòu)簡(jiǎn)單、易于實(shí)現(xiàn)、資源要求低等特點(diǎn),而數(shù)據(jù)庫(kù)管理方法則具有管理嚴(yán)密、查詢與操作功能豐富、數(shù)據(jù)安全等特點(diǎn)。語(yǔ)料索引與處理包括詞語(yǔ)自動(dòng)切分和詞性自動(dòng)標(biāo)注、未登錄詞的自動(dòng)識(shí)別,有效地識(shí)別并處理各種數(shù)字串、中西人名、中西地名、機(jī)構(gòu)名、后綴短語(yǔ)等,并為它們建立索引,以便于對(duì)語(yǔ)料庫(kù)的進(jìn)一步應(yīng)用操作。語(yǔ)料庫(kù)的應(yīng)用包括自動(dòng)語(yǔ)音識(shí)別、語(yǔ)言知識(shí)庫(kù)建立、信息抽取、信息檢索、文本分類和過(guò)濾、機(jī)器翻譯等方面,不同的應(yīng)用往往依賴于語(yǔ)料庫(kù)建立時(shí)所包括的語(yǔ)料附屬信息。
2.3 語(yǔ)料代表性度量與特征表達(dá)
語(yǔ)料在整個(gè)文本特征空間的分布通常是不均勻的,換言之,給定一個(gè)密度度量,語(yǔ)料的分布是稀疏的。這種不均勻性與稀疏性是語(yǔ)料庫(kù)的約簡(jiǎn)與特征選擇的前提,即可以通過(guò)提取一部分語(yǔ)料構(gòu)成子語(yǔ)料庫(kù)來(lái)盡可能保持原有語(yǔ)料庫(kù)的特征。這一抽取過(guò)程是語(yǔ)料庫(kù)離線應(yīng)用的首要操作步驟。
為了確定子集化語(yǔ)料庫(kù)時(shí)對(duì)于語(yǔ)料的選擇順序,需要事先建立起針對(duì)語(yǔ)料的度量方法。本文通過(guò)度量單條語(yǔ)料與整個(gè)語(yǔ)料集相似性程度來(lái)判斷用該條語(yǔ)料表達(dá)語(yǔ)料集的強(qiáng)度,即代表性度量。采用代表性度量值對(duì)語(yǔ)料進(jìn)行排序。首先,對(duì)分詞后的語(yǔ)料庫(kù)進(jìn)行詞頻統(tǒng)計(jì),獲取語(yǔ)料庫(kù)的整體信息;其次,分別對(duì)每篇文本內(nèi)容進(jìn)行詞頻統(tǒng)計(jì),獲取單篇文本內(nèi)容的整體信息,均按照“詞——詞數(shù)”的方式進(jìn)行整理,如表1、表2所示。
2.4 語(yǔ)料庫(kù)增量更新
語(yǔ)料庫(kù)內(nèi)容并非一成不變,當(dāng)有新的文本內(nèi)容添加至語(yǔ)料庫(kù)時(shí),需對(duì)語(yǔ)料庫(kù)進(jìn)行增量更新。語(yǔ)料庫(kù)增量更新亦采取代表性度量的方式進(jìn)行。首先對(duì)新增語(yǔ)料采取分詞、詞性標(biāo)注和去停用詞等過(guò)程,獲得新增的熟語(yǔ)料。然后對(duì)熟語(yǔ)料進(jìn)行詞頻統(tǒng)計(jì),對(duì)語(yǔ)料庫(kù)重新進(jìn)行詞頻統(tǒng)計(jì)。最后根據(jù)公式(1)或(2)或(3)對(duì)語(yǔ)料重要性進(jìn)行打分并對(duì)語(yǔ)料進(jìn)行重新排序,獲得增量更新后的語(yǔ)料序列。方法1、2、3的計(jì)算效果在試驗(yàn)部分論證。當(dāng)語(yǔ)料庫(kù)的更新速度很快,每次都重新進(jìn)行詞頻統(tǒng)計(jì)和所有語(yǔ)料庫(kù)代表性度量計(jì)算較影響更新效率時(shí),可以采取惰性更新的策略,即設(shè)定一個(gè)閾值,當(dāng)更新數(shù)量少于此閾值時(shí),只將新語(yǔ)料進(jìn)行必要的處理以入庫(kù),并不進(jìn)行語(yǔ)料庫(kù)中已有語(yǔ)料代表性度量的更新計(jì)算。當(dāng)更新數(shù)據(jù)積累到一定程度時(shí),可以進(jìn)行一次集中的更新操作,以重新計(jì)算各語(yǔ)料的代表性度量取值。惰性更新可以有效地?cái)偲絾未胃碌馁Y源耗費(fèi),提高更新性能。
3??方法流程
3.1方法描述
1、數(shù)據(jù)采集。本文數(shù)據(jù)來(lái)源于互聯(lián)網(wǎng),利用爬蟲(chóng)工具進(jìn)行數(shù)據(jù)采集過(guò)程,獲取云南電網(wǎng)官方網(wǎng)站新聞?wù)Z料1000篇。
2、數(shù)據(jù)清洗、數(shù)據(jù)轉(zhuǎn)換。直接爬取的數(shù)據(jù)存在冗余數(shù)據(jù)和編碼錯(cuò)誤等問(wèn)題,需先進(jìn)行數(shù)據(jù)清洗和數(shù)據(jù)轉(zhuǎn)換操作。
3、語(yǔ)料分詞和詞性標(biāo)注。由于本文構(gòu)建的語(yǔ)料庫(kù)為電力行業(yè)專業(yè)語(yǔ)料庫(kù),本文在基礎(chǔ)詞表的基礎(chǔ)上添加由電力常用詞匯、電工電氣、變壓器、電力設(shè)備企業(yè)名錄組成的專業(yè)詞表,對(duì)經(jīng)過(guò)清洗、轉(zhuǎn)換后的生語(yǔ)料進(jìn)行分詞和詞性標(biāo)注操作,獲得電力行業(yè)專業(yè)語(yǔ)料庫(kù)。
4、詞頻統(tǒng)計(jì)。對(duì)電力行業(yè)專業(yè)語(yǔ)料庫(kù)進(jìn)行詞頻統(tǒng)計(jì)。對(duì)單篇文本語(yǔ)料進(jìn)行詞頻統(tǒng)計(jì),得到每篇語(yǔ)料的詞頻統(tǒng)計(jì)結(jié)果。
5、語(yǔ)料代表性度量?;陔娏π袠I(yè)專業(yè)語(yǔ)料庫(kù)和單篇文本語(yǔ)料詞頻統(tǒng)計(jì)結(jié)果按照公式(1)、(2)、(3)進(jìn)行語(yǔ)料代表性度量值的計(jì)算。
6、語(yǔ)料代表性排序。將語(yǔ)料按代表性打分進(jìn)行排序。
從圖中可以看出盡管按三種方法計(jì)算的度量值分布曲線并不重合,但這三種度量值的分布情況較為相似,即度量值較高的語(yǔ)料占比不大,占語(yǔ)料庫(kù)多數(shù)比例的語(yǔ)料代表性度量值差異較小。這一特征暗示較少的部分語(yǔ)料即可以有效代表原始語(yǔ)料庫(kù)的詞語(yǔ)特性,而大多數(shù)語(yǔ)料代表原始語(yǔ)料庫(kù)的程度并不高。從上述圖中可以看出,三種方法分值曲線都是在開(kāi)始位置下降最快,從第200篇語(yǔ)料減慢。方法1與方法3語(yǔ)料分值下降較快,然后減慢。上圖表明三種方法均可以用于語(yǔ)料庫(kù)截取,構(gòu)建小型有代表性的語(yǔ)料庫(kù)。
對(duì)三種方法得到的排名前100的語(yǔ)料進(jìn)行重復(fù)性檢驗(yàn),方法1與方法2排名前100的語(yǔ)料相同個(gè)數(shù)為81。方法2與方法3排名前100的語(yǔ)料相同個(gè)數(shù)為82,三種方法總體上有較好的一致性。
基于前述三種方法所計(jì)算出的語(yǔ)料排序,分別構(gòu)造出規(guī)模遞增的子語(yǔ)料庫(kù)系列,對(duì)此子語(yǔ)料庫(kù)系列計(jì)算出詞語(yǔ)覆蓋度、詞語(yǔ)重現(xiàn)度、加權(quán)詞語(yǔ)覆蓋度的實(shí)驗(yàn)圖表如下所示:
圖5顯示了當(dāng)按照一個(gè)特定的語(yǔ)料排列的順序來(lái)選擇語(yǔ)料生成子語(yǔ)料庫(kù)以利于離線應(yīng)用時(shí),該子語(yǔ)料庫(kù)的詞語(yǔ)覆蓋度WCR與加權(quán)詞語(yǔ)覆蓋度WWCR的變化情況,其中四種排序方法所導(dǎo)致的WCR與WWCR遞增曲線的形狀差別并不明顯,特別是WWCR曲線幾乎重合。同時(shí)相比于WCR曲線,WWCR曲線的上升速度更快。這一圖形很直觀地表明只需要大約10%的語(yǔ)料,子語(yǔ)料庫(kù)即能包括原始語(yǔ)料庫(kù)中90%以上的權(quán)重詞;即使不考慮權(quán)重,只用原始語(yǔ)料庫(kù)30%規(guī)模的子語(yǔ)料庫(kù)也能覆蓋80%的詞語(yǔ),這一數(shù)據(jù)充分表明,使用子語(yǔ)料庫(kù)進(jìn)行離線應(yīng)用可以很好地代表原始語(yǔ)料庫(kù)的相關(guān)特征。
圖6顯示了WRR曲線與WCR曲線,其中WRR曲線的上升速度低于WCR與WWCR曲線,進(jìn)一步說(shuō)明少量的詞語(yǔ)即可代表整體的原始語(yǔ)料庫(kù)的很多特征。圖6中WRR與WCR曲線之間的距離代表著語(yǔ)料應(yīng)用的邊際效用增加值,當(dāng)兩者距離最大時(shí),表明增加單位語(yǔ)料所增加的應(yīng)用效果最多。
上述實(shí)驗(yàn)數(shù)據(jù)分析表明,從語(yǔ)料庫(kù)中選取10%的文本語(yǔ)料,即選擇100篇文檔,即可實(shí)現(xiàn)覆蓋全部語(yǔ)料庫(kù)中大約80%的詞語(yǔ),這一特征表明抽取少量詞語(yǔ)來(lái)形成一個(gè)子語(yǔ)料庫(kù),即可實(shí)現(xiàn)在某些基本度量上,子語(yǔ)料庫(kù)與原始語(yǔ)料庫(kù)的應(yīng)用效果差異不大。這一特點(diǎn)為語(yǔ)料庫(kù)的抽取及其離線應(yīng)用提供了數(shù)據(jù)支撐。
5 結(jié)束語(yǔ)
本文聚焦于通過(guò)Web訪問(wèn)作為語(yǔ)料采集的輸入方法,以文本數(shù)據(jù)庫(kù)的形式來(lái)管理語(yǔ)料庫(kù),對(duì)語(yǔ)料進(jìn)行清洗、轉(zhuǎn)換、分詞等過(guò)程,形成電力行業(yè)專用語(yǔ)料,并實(shí)現(xiàn)語(yǔ)料的增量更新。采用三種語(yǔ)料截取方法將語(yǔ)料庫(kù)子集化,選取最能代表語(yǔ)料庫(kù)整體的前Top k個(gè)關(guān)鍵語(yǔ)料。利用WCR、WWCR、WRR指標(biāo)對(duì)三種方法試驗(yàn)結(jié)果進(jìn)行評(píng)價(jià),結(jié)果表明上述方法均有較好的性能與適用性。
參考文獻(xiàn)
[1]李培峰,朱巧明,錢培德. 基于Web的大規(guī)模語(yǔ)料庫(kù)構(gòu)建方法[J]. 計(jì)算機(jī)工程,2008,34(7):41-43.
[2]金澎,吳云芳,俞士汶. 詞義標(biāo)注語(yǔ)料庫(kù)建設(shè)綜述[J]. 中文信息學(xué)報(bào),2008,22(3):16-23.
[3]鄭婧婧. 蔬菜種植信息語(yǔ)料庫(kù)構(gòu)建方法的分析與設(shè)計(jì)[D]. 河北科技師范學(xué)院,2017.
[4]徐琳宏,林鴻飛,趙晶. 情感語(yǔ)料庫(kù)的構(gòu)建和分析[J]. 中文信息學(xué)報(bào),2008,22(1):116-122.
[5]和鳳珍,石宜金.基于Web的漢日雙語(yǔ)平行語(yǔ)料庫(kù)系統(tǒng)的構(gòu)建[J].牡丹江師范學(xué)院學(xué)報(bào)(自然科學(xué)版),2018(01):25-27.
[6]季鐸,劉皓.基于WEB的警務(wù)多語(yǔ)言語(yǔ)料庫(kù)的構(gòu)建[J].中國(guó)刑警學(xué)院學(xué)報(bào),2017(05):118-120.
[7]韓雪華,王卷樂(lè),卜坤,王玉潔.基于Web文本的災(zāi)害事件信息獲取進(jìn)展[J].地球信息科學(xué)學(xué)報(bào),2018,20(08):1037-1046.
[8]黃棟,徐博,許侃,林鴻飛,楊志豪.基于詞向量和EMD距離的短文本聚類[J].山東大學(xué)學(xué)報(bào)(理學(xué)版),2017,52(07):66-72.
[9]嚴(yán)杰. 基于詞向量的文本距離計(jì)算及應(yīng)用研究[D].華中師范大學(xué),2017.
[10]李正宇. 一種基于統(tǒng)計(jì)流形學(xué)習(xí)的文本分類算法[D].中國(guó)科學(xué)技術(shù)大學(xué),2017.
[11]基于Hadoop云計(jì)算平臺(tái)的文本聚類并行化研究[D].沈陽(yáng)工業(yè)大學(xué),2018.
[12]文本分類及其相關(guān)技術(shù)研究[D].復(fù)旦大學(xué),2005.
[13]聚類分析中的相似性度量及其應(yīng)用研究[D].北京交通大學(xué),2012.
[14]文本聚類分析效果評(píng)價(jià)及文本表示研究[D].中國(guó)科學(xué)院研究生院(計(jì)算技術(shù)研究所),2005
[15]王彬宇,劉文芬,胡學(xué)先,魏江宏.基于余弦距離選取初始簇中心的文本聚類研究[J].計(jì)算機(jī)工程與應(yīng)用,2018,54(10):11-18
作者簡(jiǎn)介:張新陽(yáng)(1988-),男,碩士,工程師,長(zhǎng)期從事電力信息化項(xiàng)目的規(guī)劃與研究,研究領(lǐng)域包括大型信息化項(xiàng)目管理、數(shù)據(jù)可視化與輔助決策、數(shù)據(jù)分析與挖掘。
李輝(1991-),男,碩士,工程師。
(作者單位:云南電網(wǎng)有限責(zé)任公司信息中心)