孫麗萍,戴玉剛
(西北民族大學 中國民族語言文字信息技術教育部重點實驗室,甘肅 蘭州 730030)
在信息化時代,隨著藏語言文字的信息資源日益豐富,相關的藏文數(shù)據(jù)信息不斷增加,藏族人民對信息獲取的需要不斷增強,傳統(tǒng)的搜索方法已不能滿足用戶需求,這極大影響了用戶獲取信息的快捷性和正確性。藏文問題分類對藏文信息抽取具有重要意義。目前,關于中文問題分類已經有很多學者對此進行了研究以及更深層次的探討,卻少有學者進行對藏文問題分類的研究。
藏文問題分類在少數(shù)民族公共信息服務領域有著重要的研究意義和應用價值。針對民族院校的公共信息服務平臺,學校應該不僅僅是局限于采用中文,而是應該多增加少數(shù)民族語言,方便少數(shù)民族學生。同時,此舉更能彰顯民族院校的特色。文章是面向公共信息服務的藏文問題分類,采用西北民族大學“校園百事通”的問題集進行分類。
對于問題分類的研究,最早是采用基于規(guī)則的方法[1],分類的準確率較低,在所定義的7個類別上的準確率只達到了57.57%?,F(xiàn)在主要采用基于統(tǒng)計的機器學習方法。其中代表性的是Dell等[2]提出的采用支持向量機(Support Vector Machine,SVM)算法對英文問題進行分類[3],該方法采用tree kernel提取特征,最終達到6個大類的90.0%精度。另一個是層次分類思想,把詞匯、詞性、語塊、命名實體、中心語塊和相關詞作為特征,達到6個大類91%的精度和50個小類84.2%精度。由于英文問題通常把疑問詞放在句首,且不存在分詞問題,而中文問題相對復雜,處理起來相對困難。對于中文問題,有代表性的是張宇等[4]提出的基于改進貝葉斯模型的問題分類,達到72.4%精度。文勖等[5]提出的基于句法結構分析的中文問題分類,將問題的主干和疑問詞以及附屬成分作為特征,大類和小類的精度分別達到了86.62%和71.92%。
作為一門少數(shù)民族語言,藏語方面的自然語言處理沒有像中文那樣被廣泛關注。但是作為一個多民族國家,大力發(fā)展少數(shù)民族語言是勢在必行的。關于藏文問題分類少有研究。柔特[6]提出了基于藏文疑問虛詞的問句分類方法,該方法首先提取問句中的藏文虛詞,然后根據(jù)所得虛詞進行問句分類。
文章采用西北民族大學“校園百事通”的問題集,該數(shù)據(jù)集包含902條校園問題和答案。主要是對西北民族大學的公共信息服務平臺進行問題分類,進而提高校園服務平臺的執(zhí)行效率,方便新老學生查詢學校信息。
不同的語言,提問的方式也各有不同。關于校園公共信息服務領域是相對比較窄的一個面,所提問的有關問題也只于學校和學生切身利益有關。該領域的用戶問題與開放領域問答系統(tǒng)中的用戶問題是不一樣的。主要區(qū)別在以下方面。
(1)開放領域是面向所有領域的問題,因此不對處理的用戶有任何限制。但是面向公共信息服務領域的問題分類首先要區(qū)分用戶提交的問題是否在該領域范圍之內,在系統(tǒng)處理范圍之內。
(2)開放領域的問題分類主要分為人物、時間、地點、數(shù)字等問題類型,而校園公共信息服務領域的問題有其特殊性,主要關注的是校園概況,師資隊伍、校園服務、科學研究等問題類型。
文章采用西北民族大學“校園百事通”問題集,結合領域知識對語料庫進行分析,建立了滿足校園公共信息服務的問題分類體系。將該問題分類體系劃分為兩類,大類7個和小類39個(見表1)。
由于該藏文問題分類主要針對校園百事通,采用的藏文訓練文本量小。通過分析各個分類器的優(yōu)缺點,文章選擇貝葉斯分類器。貝葉斯分類方法以貝葉斯定理為理論基礎,采用了概率推理方法。貝葉斯分類的原理就是通過計算給定樣本在各個類別上的后驗概率,然后把該樣本判定為最大后驗概率所對應的類別。而在計算后驗概率的過程中,需要知道數(shù)據(jù)集中每個類別的先驗概率,以及屬性的條件概率。類別的先驗概率可以通過統(tǒng)計的手段預先知道,而屬性的條件概率也可以通過統(tǒng)計的方法或者假定的分布模型來估計。
表1 面向公共信息服務的問題分類體系
樸素貝葉斯分類原理:
(1)設x={a1,a2,…,am}為一個待分類項,而每個a為x的一個特征屬性。
(2)有類別集合C={y1,y2,…,yn}。
(3)計算P(y1|x),P(y2|x),…,P(yn|x)。
(4)如果,P(yk|x)=max{P(y1|x),P(y2|x),…,P(yn|x)},則x∈yk。
根據(jù)上述分析,樸素貝葉斯分類流程如圖1所示。
2.4.1 藏文分詞
藏文是由30個輔音字母和4個元音字母組成的一種拼音文字,由這些字母組成音節(jié),由音節(jié)構成詞,音節(jié)之間用音節(jié)點“.”作為分隔符來進行區(qū)分。因此沒有明顯的分隔符進行區(qū)分。分詞是藏文預處理的一個重要階段。詞在漢語和藏語中都是最小的語義單位,詞與詞之間不像英文那樣有空格。藏文分詞是將句子切分成單獨的詞,也就是通過一定的方法使得在計算機上能自動地將藏文文本的詞與詞之間加上空格。文章采用TIP-LAS開源的藏文分詞詞性標注系統(tǒng)[7]。該系統(tǒng)能夠提供藏文分詞、詞性標注功能。
2.4.2 去停用詞
停用詞是指在信息檢索中,為節(jié)省存儲空間和提高搜索效率,在處理自然語言數(shù)據(jù)(或文本)之前或之后會自動過濾掉某些字或詞,這些字或詞即被稱為Stop Words(停用詞)。在問題分類中去停用詞目的是提高分類速度。文章所用到的藏文停用詞都是人工輸入、非自動化生成的,得到的停用詞組成一個停用詞表。通過停用詞表把這些詞在預處理階段去除。
2.4.3 命名實體識別
命名實體識別(Named Entity Recognition,NER)其目的是識別語料中人名、地名、組織機構名等命名實體,識別文本中具有特定意義的實體。通常包括實體邊界識別和確定實體類別兩部分。命名實體識別是自然語言處理領域的基礎問題[8]。
對藏文問題分類體系的大類和小類的分類準確率對系統(tǒng)進行評價。其分類精度定義如下:
目前,面向公共信息服務的藏文問題分類的研究尚處于初級階段,可供參考的資料不多。文章結合中英文的分類體系以及藏文自身特點設計了藏文問題分類體系,簡要介紹自然語言處理方面的藏文問題分類的研究,進而能有效提高藏文問題分類的準確率。
因為該藏文問題分類主要針對校園百事通,采用的藏文訓練文本量小,該藏文問題分類系統(tǒng)會存在一定缺陷,但通過增加訓練文本,會有效改善情況。研究可知,問答系統(tǒng)已經成為當前自然語言處理的一個熱門方向。問題分類作為問答系統(tǒng)的關鍵組成部分,也必然是一個值得研究的方向。
圖1 樸素貝葉斯分類流程