艾孜爾古麗,艾孜海爾江,2 ,玉素甫·艾白都拉,祖力克爾江,2,米爾夏提
(1. 新疆師范大學(xué) 計(jì)算機(jī)科學(xué)技術(shù)學(xué)院,新疆 烏魯木齊 830054;2. 新疆師范大學(xué) 文學(xué)院,新疆 烏魯木齊 830054;3. 新疆大學(xué) 信息科學(xué)與工程學(xué)院,新疆 烏魯木齊 830046)
維吾爾文初中數(shù)學(xué)教材詞干分析研究
艾孜爾古麗1,艾孜海爾江1,2,玉素甫·艾白都拉1,祖力克爾江1,2,米爾夏提3
(1. 新疆師范大學(xué) 計(jì)算機(jī)科學(xué)技術(shù)學(xué)院,新疆 烏魯木齊 830054;2. 新疆師范大學(xué) 文學(xué)院,新疆 烏魯木齊 830054;3. 新疆大學(xué) 信息科學(xué)與工程學(xué)院,新疆 烏魯木齊 830046)
該文將初中數(shù)學(xué)維吾爾文教材作為研究對(duì)象,根據(jù)維吾爾語(yǔ)的特點(diǎn)和統(tǒng)計(jì)學(xué)原理理論,從計(jì)算語(yǔ)言學(xué)角度調(diào)查初中數(shù)學(xué)維吾爾文教材用詞干情況。該文主要研究維吾爾語(yǔ)詞干、教材概貌、數(shù)據(jù)處理技術(shù)相關(guān)概念及其算法及現(xiàn)代維吾爾語(yǔ)語(yǔ)料處理工具,獲取教材中詞干基本情況、新增詞干、初中數(shù)學(xué)教材高頻詞干,開(kāi)展了初中數(shù)學(xué)維吾爾文教材詞干調(diào)查,為維吾爾語(yǔ)研究、維吾爾文數(shù)學(xué)教學(xué)與教材編纂等提供參考依據(jù),從而更加積極有效地促進(jìn)維吾爾語(yǔ)語(yǔ)言本身研究及其信息處理的發(fā)展。
現(xiàn)代維吾爾語(yǔ);詞干;分析;方法
詞干是語(yǔ)義最小單位。詞干提取是把一個(gè)詞的不同形式統(tǒng)一為一種具有代表性的標(biāo)準(zhǔn)形式(詞干),主要處理對(duì)象是語(yǔ)言中的詞,需要了解語(yǔ)言詞匯的結(jié)構(gòu),因而必須理解維吾爾語(yǔ)形態(tài)學(xué)[2]。語(yǔ)言形態(tài)學(xué)是一個(gè)關(guān)注詞匯內(nèi)在結(jié)構(gòu)和構(gòu)詞規(guī)則的語(yǔ)言領(lǐng)域,研究如何從比較小的意義單位( 語(yǔ)素——語(yǔ)素是語(yǔ)言中負(fù)荷意義的最小單元)構(gòu)成詞[2]。提取的詞干能夠減少詞的數(shù)量,縮減索引文件所占空間,降低重復(fù)率,從而提高效率。
本文利用現(xiàn)代維吾爾語(yǔ)語(yǔ)料預(yù)處理技術(shù)、現(xiàn)代維吾爾語(yǔ)多策略語(yǔ)料統(tǒng)計(jì)技術(shù)、現(xiàn)代維吾爾語(yǔ)多技術(shù)融合詞干提取技術(shù)、現(xiàn)代維吾爾語(yǔ)多特征詞性標(biāo)注技術(shù)、現(xiàn)代維吾爾語(yǔ)多維度數(shù)據(jù)分析技術(shù)等關(guān)鍵技術(shù),提取、分析維吾爾文初中數(shù)學(xué)教材中的詞干。
為了科學(xué)地調(diào)查教學(xué)教材用詞情況,本文利用信息處理技術(shù)手段處理維吾爾語(yǔ)語(yǔ)料,完成維吾爾語(yǔ)語(yǔ)料預(yù)處理、維吾爾語(yǔ)語(yǔ)料統(tǒng)計(jì)、統(tǒng)計(jì)數(shù)據(jù)的自動(dòng)分析工作。
2.1 相關(guān)概念及其算法
(1) 詞次(頻次)。抽取一定數(shù)量的語(yǔ)料,計(jì)算不同詞語(yǔ)在語(yǔ)料中出現(xiàn)的次數(shù)。假設(shè)詞語(yǔ)作為調(diào)查對(duì)象,頻次是每一調(diào)查對(duì)象的頻次同其前調(diào)查對(duì)象頻次的累加和。頻次是一個(gè)具體的數(shù)字,它直觀地反映了某個(gè)詞語(yǔ)在語(yǔ)料中真實(shí)、原始的使用情況[3],算法如式(1)所示。
其中,Ai為調(diào)查對(duì)象i的累加頻次,ni為調(diào)查對(duì)象i的出現(xiàn)次數(shù)。
(2) 頻率。每一調(diào)查對(duì)象的詞次的累加和,與所有語(yǔ)料中調(diào)查對(duì)象總次數(shù)的比值,即[4]:
其中,Bi為調(diào)查對(duì)象i的累加頻率,ni為調(diào)查對(duì)象i的出現(xiàn)次數(shù),N為所有語(yǔ)料中調(diào)查對(duì)象出現(xiàn)的總次數(shù)。
(3) 文本數(shù)。如果把語(yǔ)料看成由若干個(gè)文本組成,一個(gè)詞在多少個(gè)文本里出現(xiàn)(不管出現(xiàn)次數(shù)),也就是該詞語(yǔ)出現(xiàn)的文本數(shù):
其中,Di為表示文本數(shù),i表示字母的累加數(shù),ni為表示第i個(gè)文本次數(shù)。
2.2 現(xiàn)代維吾爾語(yǔ)語(yǔ)料處理工具
(1) 維吾爾語(yǔ)語(yǔ)料預(yù)處理系統(tǒng)。本系統(tǒng)由語(yǔ)料格式調(diào)整模塊、語(yǔ)料代碼統(tǒng)一轉(zhuǎn)換模塊、語(yǔ)料調(diào)整、語(yǔ)料校對(duì)模塊四個(gè)模塊組成。維吾爾語(yǔ)語(yǔ)料預(yù)處理模塊把現(xiàn)代維吾爾語(yǔ)語(yǔ)料庫(kù)中非標(biāo)準(zhǔn)的語(yǔ)詞進(jìn)行噪聲過(guò)濾后,再進(jìn)行語(yǔ)料格式轉(zhuǎn)換、語(yǔ)料自動(dòng)調(diào)整、非規(guī)范詞規(guī)范、語(yǔ)料自動(dòng)校對(duì)等,保證每一個(gè)詞語(yǔ)的正字正確性,同時(shí)正確處理非維吾爾語(yǔ)詞語(yǔ),確保獲取正確數(shù)據(jù)分析結(jié)果。
(2) 維吾爾語(yǔ)語(yǔ)料統(tǒng)計(jì)系統(tǒng)。本系統(tǒng)較為成熟,統(tǒng)計(jì)功能強(qiáng),主要統(tǒng)計(jì)包括詞次、頻率、詞種、詞長(zhǎng)和文本數(shù)等項(xiàng)目[5]。
(3) 維吾爾語(yǔ)詞干提取系統(tǒng)。提取詞干時(shí)利用基于詞尾切分技術(shù)以及詞典和人機(jī)交互結(jié)合的方法。在提取詞干過(guò)程中,通過(guò)現(xiàn)代維吾爾語(yǔ)詞干詞典維護(hù)模塊發(fā)現(xiàn)在提取詞干過(guò)程中出現(xiàn)的新詞干,并對(duì)機(jī)器詞典中新詞干進(jìn)行補(bǔ)充,增加了機(jī)器學(xué)習(xí)功能[3]。
(4) 融合形態(tài)特征的最大熵維吾爾文詞性標(biāo)注系統(tǒng)。
① 現(xiàn)代維吾爾語(yǔ)詞性標(biāo)記集
現(xiàn)代維吾爾語(yǔ)是黏著性語(yǔ)言,語(yǔ)法、語(yǔ)義、語(yǔ)用三位一體構(gòu)詞結(jié)構(gòu),是三個(gè)范疇融合在一起的復(fù)雜語(yǔ)言[6]。
(今天的討論會(huì)艾買提參加了)。
(今天的討論會(huì)牛參加了)。
只有語(yǔ)法、語(yǔ)義特征相結(jié)合,才能正確地表達(dá)詞語(yǔ)的有關(guān)信息?!冬F(xiàn)代維吾爾語(yǔ)詞性標(biāo)記集》由新疆師范大學(xué)計(jì)算機(jī)應(yīng)用重點(diǎn)學(xué)科、國(guó)家語(yǔ)言資源監(jiān)測(cè)中心少數(shù)民族分中心維吾爾文基地提供。
② 現(xiàn)代維吾爾語(yǔ)詞性標(biāo)注模型
本文提出一種融合維吾爾文形態(tài)變形特征的最大熵維吾爾文詞性標(biāo)注模型。首先,根據(jù)維吾爾文構(gòu)詞特點(diǎn),定義上下文特征模板,并從訓(xùn)練語(yǔ)料中提取大量特征集,再通過(guò)人工設(shè)置一些規(guī)則篩選模板。然后,訓(xùn)練最大熵概率模型參數(shù)。在最大熵概率模型特征的選擇上,根據(jù)維吾爾文的特點(diǎn),選取詞內(nèi)部詞干和詞綴、詞前后信息及混合信息等形態(tài)信息作為特征,構(gòu)建標(biāo)注系統(tǒng)[4]。
最大熵原理的主要思想為: 將已知事實(shí)作為制約條件,求得可使熵最大化的概率分布作為正確的概率分布[7]。該模型的形式是
其中,Zλ(x)為歸一化函數(shù);fi(x,y)∈(0,1)為特征函數(shù);λi是特征函數(shù)的權(quán)重,代表每個(gè)特征函數(shù)的重要性,每個(gè)λi對(duì)應(yīng)于一個(gè)特征函數(shù)[7]。
特征選擇依據(jù): 使用最大熵模型對(duì)維吾爾語(yǔ)名詞進(jìn)行識(shí)別,是根據(jù)當(dāng)前詞的上下文特征確定的。本文的模型特征選擇依據(jù)維吾爾語(yǔ)名詞本身的構(gòu)詞特點(diǎn)[4]。
特征模板定義: 根據(jù)維吾爾語(yǔ)構(gòu)詞特點(diǎn)和統(tǒng)計(jì)結(jié)果,本文設(shè)計(jì)了詞內(nèi)部特征、前后依存詞特征[4]。
(5) 維吾爾語(yǔ)數(shù)據(jù)分析系統(tǒng): 本系統(tǒng)主要統(tǒng)計(jì)功能包括詞次、頻率、詞種、詞干種和文本數(shù)等項(xiàng)目的統(tǒng)計(jì)。
3.1 語(yǔ)料概貌
本文選取了由新疆維吾爾自治區(qū)課程教材研究所、中學(xué)數(shù)學(xué)課程教材研究開(kāi)發(fā)中心與人民教育出版社聯(lián)合出版的九年義務(wù)教育數(shù)學(xué)課程標(biāo)準(zhǔn)實(shí)驗(yàn)教科書(數(shù)學(xué)維吾爾文版本)。電子語(yǔ)料和處理技術(shù)由國(guó)家語(yǔ)言資源監(jiān)測(cè)中心少數(shù)民族分中心維吾爾語(yǔ)研究基地和新疆師范大學(xué)計(jì)算機(jī)應(yīng)用重點(diǎn)學(xué)科提供,其中包括初中一年級(jí)到初中三年級(jí),共六冊(cè)教材的生語(yǔ)料庫(kù)。對(duì)初中數(shù)學(xué)教材書中的各冊(cè)的圖片、公式、表格、定義、文本等進(jìn)行統(tǒng)計(jì),統(tǒng)計(jì)情況如表1所示。
表1 初中數(shù)學(xué)維吾爾文教材基本信息統(tǒng)計(jì)表
說(shuō)明: 文本數(shù)指在教材中文本數(shù)量;定義數(shù)指在教材中出現(xiàn)的數(shù)學(xué)定義的數(shù)量;表格數(shù)指在教材中出現(xiàn)的表格數(shù)量;公式數(shù)指在教材中使用的數(shù)學(xué)公式數(shù)量;圖片數(shù)指在教材中使用的數(shù)學(xué)幾何圖片數(shù)量。
3.2 教材中詞干基本情況
首先構(gòu)建初中數(shù)學(xué)教材電子語(yǔ)料庫(kù),然后用維吾爾語(yǔ)料預(yù)處理系統(tǒng)對(duì)初中數(shù)學(xué)教材電子語(yǔ)料庫(kù)進(jìn)行預(yù)處理。預(yù)處理工作結(jié)束后使用維吾爾語(yǔ)語(yǔ)料統(tǒng)計(jì)系統(tǒng)對(duì)初中數(shù)學(xué)教材電子語(yǔ)料進(jìn)行統(tǒng)計(jì),統(tǒng)計(jì)內(nèi)容包括詞干的頻次、詞干長(zhǎng)度、文本數(shù)等。經(jīng)維吾爾語(yǔ)數(shù)據(jù)分析系統(tǒng)對(duì)詞干進(jìn)行統(tǒng)計(jì)分析,在初中維吾爾文初中數(shù)學(xué)教材六冊(cè)書中統(tǒng)計(jì)出總詞干頻次58 284次,總詞干種數(shù)6 682個(gè)。
現(xiàn)代維吾爾文初中數(shù)學(xué)教材中的詞干基本分布情況如表2所示。
表2 詞干每?jī)?cè)分布情況表
續(xù)表
從表2可見(jiàn),對(duì)比同一年級(jí)上、下兩冊(cè)的詞次所占比例,上冊(cè)詞次數(shù)量所占的比率高于下冊(cè),說(shuō)明教材的編寫符合初中生認(rèn)知規(guī)律,也符合問(wèn)題描述規(guī)律和有效提高詞匯利用率的要求。從詞干種數(shù)在各冊(cè)分布情況來(lái)看,每?jī)?cè)詞干種數(shù)分布比較均勻,新詞干的增加比較緩慢,與初中生學(xué)習(xí)數(shù)學(xué)知識(shí)的需求相吻合。表3中更能體現(xiàn)此特點(diǎn)。
表3 詞干學(xué)年分布情況表
本研究把第一、二學(xué)期合并為學(xué)年,初一叫作第一學(xué)年,初二叫作第二學(xué)年,初三叫作第三學(xué)年。在初中數(shù)學(xué)教材中每一學(xué)年詞次變化趨勢(shì)與詞干種數(shù)變化趨勢(shì)同步,具有年級(jí)增加詞干種數(shù)減小的趨勢(shì)。內(nèi)容組織安排符合初中生的認(rèn)知能力,與心理成熟能力相適應(yīng)。
從詞干在文本中分布角度考察,結(jié)果如表4所示。
表4 詞干在文本中分布情況表
文本數(shù)指該詞語(yǔ)或詞干出現(xiàn)的文本次數(shù)。在表4中可以看出,文本數(shù)為201~300的詞干種數(shù)是8個(gè),占詞干種數(shù)比例為0.12%;文本數(shù)為101~200的詞干種數(shù)是41個(gè),占詞干種數(shù)比例為0.61%。
3.3 新增詞干
新增詞干以第一學(xué)期教材為基礎(chǔ),第一學(xué)期與第二學(xué)期教材進(jìn)行比較產(chǎn)生新詞干,前兩學(xué)期教材與第三學(xué)期教材比較產(chǎn)生的新詞干,以此類推產(chǎn)生的新詞干叫作新增詞干。本研究用維吾爾語(yǔ)數(shù)據(jù)分析系統(tǒng)對(duì)統(tǒng)計(jì)數(shù)據(jù)進(jìn)行分析,獲得新增詞干,如表5 所示。
表5 新增詞干統(tǒng)計(jì)分析表
由表5可見(jiàn),由于在七年級(jí)上冊(cè)教材里詞干種數(shù)為1 665,由于學(xué)生第一次接觸, 定義新增詞干種數(shù)為1 665,比例認(rèn)定為100%。圖1表示每?jī)?cè)詞干種數(shù)與每?jī)?cè)新增詞干變化關(guān)系。
圖1 每?jī)?cè)詞干種數(shù)與每?jī)?cè)新增詞干變化圖
從圖1可以看出,每學(xué)期的詞干種數(shù)變化不大,特別是七年級(jí)上、下冊(cè)詞干種數(shù)差距最小,相對(duì)穩(wěn)定。第三學(xué)期開(kāi)始詞干種數(shù)開(kāi)始平穩(wěn)減少,每學(xué)期新增詞干種數(shù)呈快速減少趨勢(shì),說(shuō)明數(shù)學(xué)教材是以學(xué)習(xí)數(shù)學(xué)知識(shí)為主、學(xué)習(xí)新詞干為輔的特點(diǎn)。這符合該教材強(qiáng)化學(xué)生數(shù)學(xué)功底和以培養(yǎng)思維能力為主的教學(xué)目標(biāo)要求。
3.4 初中數(shù)學(xué)教材高頻詞干
本文從數(shù)學(xué)教材中提取了《基礎(chǔ)教育數(shù)學(xué)常用詞1000條》,并給出了樣例, 前12個(gè)高頻詞干情況如表6所示。
表6 初中數(shù)學(xué)高頻詞干情況表
從表6可以看出,出現(xiàn)高頻詞干是數(shù)學(xué)用詞為主,生活用詞為輔。為解釋某一個(gè)具體的數(shù)學(xué)現(xiàn)象,一些普通詞干會(huì)有較高頻率。
本文利用信息處理技術(shù)手段處理維吾爾語(yǔ)語(yǔ)料,提取分析維吾爾文初中數(shù)學(xué)教材詞干,完成維吾爾語(yǔ)語(yǔ)料預(yù)處理、維吾爾語(yǔ)語(yǔ)料統(tǒng)計(jì)、統(tǒng)計(jì)數(shù)據(jù)的自動(dòng)分析工作, 提出了基于多策 略的現(xiàn)代維吾爾語(yǔ)數(shù)據(jù)處理技術(shù),為科學(xué)調(diào)查維吾爾文數(shù)學(xué)教材用詞情況提供理論基礎(chǔ)和技術(shù)支撐。初中數(shù)學(xué)教材所使用的詞干在很大程度上與語(yǔ)文教材所使用的普通詞干的情況形成對(duì)比。該數(shù)學(xué)教材特色用詞干總量都不大,與承擔(dān)著語(yǔ)言文字學(xué)習(xí)任務(wù)的語(yǔ)文教材相比,詞干種數(shù)及總詞次較少,復(fù)現(xiàn)率較低。在教學(xué)過(guò)程中,數(shù)學(xué)課程教授學(xué)生自然科學(xué)知識(shí)的同時(shí),在語(yǔ)言能力培養(yǎng)上不容低估,應(yīng)引起教材編纂者和教學(xué)工作者的重視。
[1] 哈密提.鐵木爾.現(xiàn)代維吾爾語(yǔ)語(yǔ)法[M]. 北京: 北京民族出版社,1987.
[2] 吳思竹,錢慶,胡鐵軍,等.詞干提取方法及工具的對(duì)比分析研究[J],《圖書情報(bào)工作》,2012,56(15):109-115+142.
[3] 艾孜爾古麗,努爾艾合買提,玉素甫·艾白都拉.現(xiàn)代維吾爾語(yǔ)常用詞統(tǒng)計(jì)關(guān)鍵技術(shù)研究[J],中文信息學(xué)報(bào), 2014,28(5):192-197.
[4] 艾孜爾古麗,阿力木·木拉提,玉素甫·艾白都拉. 基于形態(tài)分析的現(xiàn)代維吾爾語(yǔ)名詞詞干識(shí)別研究 [J],中文信息學(xué)報(bào),2015,37(12):2318-2323.
[5] 艾孜爾古麗,阿里木·木拉提,蘇國(guó)平. 現(xiàn)代維吾爾語(yǔ)語(yǔ)言資源監(jiān)測(cè)中數(shù)據(jù)分析技術(shù)研究[J],計(jì)算機(jī)應(yīng)用與軟件,2013,30(04)36-39.
[6] 艾孜爾古麗,米爾夏提,玉素甫·艾白都拉.現(xiàn)代維吾爾語(yǔ)詞干詞類標(biāo)注標(biāo)記集驗(yàn)證性研究 [J], 計(jì)算機(jī)工程與科學(xué),2015(6):45-48.
[7] 張貫虹,斯·勞格勞,烏達(dá)巴拉.融合形態(tài)特征的最大熵蒙古文詞性標(biāo)注模型[J],計(jì)算機(jī)研究與發(fā)展,2011,48(12):2385-2390.
[8] 魏順平,傅騫,何克抗.低年級(jí)小學(xué)生用字情況調(diào)查與分析——以廣東、北京兩地6所小學(xué)為例[J],語(yǔ)言文字應(yīng)用,2008(03):81-89.
艾孜爾古麗(1987—),博士,講師,主要研究領(lǐng)域?yàn)橛?jì)算語(yǔ)言學(xué)、自然語(yǔ)言處理。
E-mail:Azragul2010@126.com
艾孜海爾江(1991—),碩士研究生,主要研究領(lǐng)域?yàn)橛?jì)算語(yǔ)言學(xué)、自然語(yǔ)言處理。
E-mail: Azhar110@126.com
玉素甫·艾白都拉(1958—),通信作者,學(xué)士,教授,主要研究領(lǐng)域?yàn)橛?jì)算語(yǔ)言學(xué)、自然語(yǔ)言處理。
E-mail:ysp2002@126.com
TheStudyofModernUyghurStemsinMathsTextbookofJuniorMiddleSchool
Azragul1, Azharjan1,2, Yusup Abaydula1, Zulkarjan1,2, Mirxat3
(1. School of Computer Science and Technology, Xinjiang Normal University, Urumqi, Xinjiang 830054, China;2. School of Liberal Arts, Xinjiang Normal University, Urumqi, Xinjiang 830054, China; 3. School of Information Science and Engineering, Xinjiang University, Urumqi, Xinjiang 830046,China)
In this study, focused on the Uyghur mathematics textbooks in junior high school, the Uyghur stem are studied. This paper studies the basic stems in the textbooks, the new stems, and the high frequency stems. This provides reference materials for the Uighur language study, Uighur Mathematics Teaching and codification.
modern Uygur language;word stem;analysis;method
1003-0077(2017)05-0108-06
TP391
A
2015-08-16定稿日期2016-04-26
國(guó)家自然科學(xué)基金(61662081,61463048);自治區(qū)自然科學(xué)基金(2017D01A58);自治區(qū)青年科技創(chuàng)新人才培養(yǎng)工程(QN2016BS0365);國(guó)家社科基金(14AZD11);國(guó)家語(yǔ)委重點(diǎn)項(xiàng)目(ZD1135-28);新疆維吾爾自治區(qū)社會(huì)科學(xué)基金(2016CYY067);國(guó)家語(yǔ)言資源監(jiān)測(cè)與研究中心少數(shù)民族語(yǔ)言分中心項(xiàng)目(NMLR201602);新疆師范大學(xué)計(jì)算機(jī)應(yīng)用重點(diǎn)學(xué)科、新疆師范大學(xué)數(shù)據(jù)安全重點(diǎn)實(shí)驗(yàn)室資助項(xiàng)目