穆妮熱?穆合塔爾 玉素甫?艾拜都拉
摘 要
本文解決的核心問題是運(yùn)用數(shù)據(jù)庫(kù)軟件對(duì)維吾爾語句子進(jìn)行分析與研究、解決文本中對(duì)句子進(jìn)行批處理等一系列問題,要解決這些問題、首先必須得了解維吾爾語和維吾爾語句子的概念以及特點(diǎn)并且對(duì)于數(shù)據(jù)庫(kù)以及數(shù)據(jù)庫(kù)的主要的特點(diǎn)進(jìn)行探討。
【關(guān)鍵詞】維吾爾語句子 數(shù)據(jù)庫(kù) 編程
1 引言
維吾爾語句法分析是維吾爾文信息處理領(lǐng)域一個(gè)重要的基礎(chǔ)性課題、同時(shí)也是一個(gè)公認(rèn)的難題、在機(jī)器翻譯、文本摘要、信息過濾、自動(dòng)問答中都有廣泛的應(yīng)用、該論文通過研究國(guó)內(nèi)外相關(guān)句法分析算法與理論、再結(jié)合維吾爾語自身的特點(diǎn)對(duì)計(jì)算語言學(xué)中的句子分析進(jìn)行了討論、由于維吾爾語作為一種自然語言、具有自然語言所共有的一些規(guī)則、發(fā)現(xiàn)國(guó)內(nèi)外的經(jīng)典句法分析方法同樣適合于維吾爾語的句法分析。
2 維吾爾語句子特點(diǎn)
維吾爾文指維吾爾族使用的拼音文字。維吾爾族在歷史上使用過突厥文、回鶻文、察合臺(tái)文。中國(guó)維吾爾族在二十一世紀(jì)使用的維吾爾文是在晚期察合臺(tái)文基礎(chǔ)上形成的以阿拉伯字母為基礎(chǔ)的拼音文字。20世紀(jì)30年代以后維吾爾文經(jīng)過幾次改進(jìn)、最近的一次是在1983年?,F(xiàn)行維吾爾文有32個(gè)字母、自右至左橫書。每個(gè)字母按出現(xiàn)在詞首、詞中、詞末的位置有不同的形式。
維吾爾語中句子表示說話人一定的思想和思維的語言單位、句子平常由兩個(gè)或者兩個(gè)以上的短語相連接構(gòu)成的、有時(shí)候一個(gè)詞語也可以表達(dá)一定的意義組成一個(gè)句子、維吾爾語中句子分為簡(jiǎn)單句和復(fù)合句兩種。
3 數(shù)據(jù)庫(kù)技術(shù)特點(diǎn)
數(shù)據(jù)庫(kù)(Database)是按照數(shù)據(jù)結(jié)構(gòu)來組織、存儲(chǔ)和管理數(shù)據(jù)的倉(cāng)庫(kù)、它產(chǎn)生于距今50年前、隨著信息技術(shù)和市場(chǎng)的發(fā)展、特別是20世紀(jì)90年代以后、數(shù)據(jù)管理不再僅僅是存儲(chǔ)和管理數(shù)據(jù)、而轉(zhuǎn)變成用戶所需要的各種數(shù)據(jù)管理的方式。數(shù)據(jù)庫(kù)有很多種類型、從最簡(jiǎn)單的存儲(chǔ)有各種數(shù)據(jù)的表格到能夠進(jìn)行海量數(shù)據(jù)存儲(chǔ)的大型數(shù)據(jù)庫(kù)系統(tǒng)都在各個(gè)方面得到了廣泛的應(yīng)用。數(shù)據(jù)庫(kù)主要特點(diǎn):數(shù)據(jù)結(jié)構(gòu)化、數(shù)據(jù)的共享性高、數(shù)據(jù)獨(dú)立性高、數(shù)據(jù)有DBMS同意管理和控制。
3.1 Access數(shù)據(jù)庫(kù)概述
Microsoft Access是一種關(guān)系式數(shù)據(jù)庫(kù)、它是單機(jī)版的數(shù)據(jù)庫(kù)管理系統(tǒng)。關(guān)系式數(shù)據(jù)庫(kù)由一系列表組成、表又由一系列行和列組成、每一行都是一個(gè)記錄、每一列是一個(gè)字段。Access數(shù)據(jù)庫(kù)有很多優(yōu)點(diǎn)比如說存儲(chǔ)方式簡(jiǎn)單、易于維護(hù)管理、面向?qū)ο?Access是一個(gè)面向?qū)ο蟮拈_發(fā)工具、利用面向?qū)ο蟮姆绞綄?shù)據(jù)庫(kù)系統(tǒng)中的各種功能對(duì)象化、將數(shù)據(jù)庫(kù)管理的各種功能封裝在各類對(duì)象中、界面友好、易操作、集成環(huán)境、處理多種數(shù)據(jù)信息、Access支持ODBC(開發(fā)數(shù)據(jù)庫(kù)互連、Open Data Base Connectivity)、利用Access強(qiáng)大的DDE(動(dòng)態(tài)數(shù)據(jù)交換)和OLE(對(duì)象的聯(lián)接和嵌入)特性、可以在一個(gè)數(shù)據(jù)表中嵌入位圖、聲音、Excel表格、Word文檔、還可以建立動(dòng)態(tài)的數(shù)據(jù)庫(kù)報(bào)表和窗體等、支持廣泛、易于擴(kuò)展、彈性較大 能夠?qū)⑼ㄟ^鏈接表的方式來打開EXCEL文件、格式化文本文件等。
3.2實(shí)例分析
句法分析本身并不解決使內(nèi)容分析困難的模糊問題、除此以外、還必須考慮上下文的關(guān)系。因此、人們都普遍認(rèn)為要考慮新方法、包括從現(xiàn)存詞表和詞典中抽取的詞定義信息及從反應(yīng)具體學(xué)科語義特性的知識(shí)庫(kù)中獲取的信息。我們不管是一個(gè)一個(gè)處理或者是批處理一些文本文件里面的句子、本文中先得把文本文件導(dǎo)入Access數(shù)據(jù)庫(kù)中、然后用所使用的計(jì)算機(jī)語言平臺(tái)下進(jìn)行連接、(就是說正對(duì)本文中使用的計(jì)算機(jī)語言比如C#等跟數(shù)據(jù)庫(kù)進(jìn)行綁定)這樣可以一下子處理多個(gè)文件。圖1是處理維吾爾語句子時(shí)運(yùn)行的文本的處理過程、比如說本文在處理很多文本、然后從中再進(jìn)一步處理句子整體和構(gòu)成句子的有些結(jié)構(gòu)、這個(gè)過程總共建立了4個(gè)數(shù)據(jù)庫(kù)表、就是在文本中查找所需要的詞匯、查找成功的放在一個(gè)數(shù)據(jù)庫(kù)表(found word)中、查找未成功的存放在另一個(gè)數(shù)據(jù)庫(kù)表(no found word)中、然后提供一個(gè)規(guī)則數(shù)據(jù)庫(kù)表(sheet1)、還有一個(gè)word數(shù)據(jù)庫(kù)表、其作用是要把處理的文本內(nèi)容以空格為準(zhǔn)分裂成單個(gè)的詞匯以便處理。為了更好地描述數(shù)據(jù)庫(kù)的作用我還插入了表word。(圖2)
4 總結(jié)
綜上述說、目前應(yīng)用于現(xiàn)代漢語句法分析的語法以短語結(jié)構(gòu)語法、范疇語法和依存語法為代表。所有應(yīng)用于漢語句法分析的語法當(dāng)中、短語結(jié)構(gòu)語法(Phrase Structure Grammar、 PSG) 是可行的方法之一、本文中運(yùn)用Access數(shù)據(jù)庫(kù)系統(tǒng)對(duì)維吾爾語句子進(jìn)行了研究和分析、因?yàn)楝F(xiàn)代維吾爾語句法分析是時(shí)尚未深入研究的一個(gè)難點(diǎn)、在多個(gè)文本中處理不管是句子邊界定義問題或者是相似度算法應(yīng)用中、首先解決的問題就是怎么樣才從文本中抽取我們需要的句子然后進(jìn)行處理、在這一過程中數(shù)據(jù)庫(kù)應(yīng)用的作用是非常大的、就像上述所提講述的一樣、Access數(shù)據(jù)庫(kù)的靈活應(yīng)用實(shí)現(xiàn)了維吾爾語句子在研究中比較快的、有效地方法、當(dāng)然也可以用傳統(tǒng)語言學(xué)的人工識(shí)別來處理這些問題也可以解決的。
句法分析的難點(diǎn)之一是歧義問題、同一個(gè)句子因?yàn)樵~的多義性或者句法結(jié)構(gòu)上的歧義性可能存在不同的句法分析結(jié)果。要完全消除歧義問題到目前還沒有可行的方法、但是可以利用數(shù)據(jù)庫(kù)的主鍵、外鍵功能可以減少歧義問題的出現(xiàn)率、維吾爾語的32字母構(gòu)成相同詞匯的可能性比較大、在多個(gè)文本中抽取詞匯中為了避免相同的詞匯的再次出現(xiàn)使系統(tǒng)再次運(yùn)行、降低系統(tǒng)的運(yùn)行速度、可以借助數(shù)據(jù)庫(kù)主鍵的無重復(fù)性特點(diǎn)來達(dá)到維吾爾語詞匯的重復(fù)性的歧義。通過主外鍵、非空、限制、唯一索引等保證數(shù)據(jù)的健壯、提高數(shù)據(jù)的查詢效率、通過合理表結(jié)構(gòu)、安排物理存儲(chǔ)分區(qū)、增加索引等方式、提高數(shù)據(jù)的讀取速度、提高查詢效率。
參考文獻(xiàn)
[1]謝新洲,陳睿.文本自動(dòng)分析中句法分析應(yīng)用述評(píng)[J].情報(bào)理論與實(shí)踐 , 1992(3).
[2]張峰嶺. 數(shù)據(jù)庫(kù)應(yīng)用的需求分析研究[J]. 計(jì)算機(jī)工程與應(yīng)用,2002(18).
[3]張磊,杜小勇,王珊. 文本數(shù)據(jù)庫(kù)中的擴(kuò)展短語挖掘[J]. 計(jì)算機(jī)科學(xué),2001(8).
[4]張磊,杜小勇,王珊. 文本數(shù)據(jù)庫(kù)中的擴(kuò)展短語挖掘[J]. 計(jì)算機(jī)科學(xué),2001(8).
[5]馮秋香. 基于數(shù)據(jù)庫(kù)語義學(xué)的古漢語句法語義分析研究[J]. 計(jì)算機(jī)科學(xué),2011(11).
作者簡(jiǎn)介
穆妮熱·穆合塔爾(1989-),女,現(xiàn)為新疆師范大學(xué)碩士研究生。研究方向?yàn)橛?jì)算語言學(xué)。
導(dǎo)師簡(jiǎn)介
玉素甫·艾白都拉,男,現(xiàn)為新疆師范大學(xué)教授,主要從事計(jì)算語言學(xué)、自然語言處理。
作者單位
新疆師范大學(xué) 新疆維吾爾自治區(qū)烏魯木齊市 830054endprint
摘 要
本文解決的核心問題是運(yùn)用數(shù)據(jù)庫(kù)軟件對(duì)維吾爾語句子進(jìn)行分析與研究、解決文本中對(duì)句子進(jìn)行批處理等一系列問題,要解決這些問題、首先必須得了解維吾爾語和維吾爾語句子的概念以及特點(diǎn)并且對(duì)于數(shù)據(jù)庫(kù)以及數(shù)據(jù)庫(kù)的主要的特點(diǎn)進(jìn)行探討。
【關(guān)鍵詞】維吾爾語句子 數(shù)據(jù)庫(kù) 編程
1 引言
維吾爾語句法分析是維吾爾文信息處理領(lǐng)域一個(gè)重要的基礎(chǔ)性課題、同時(shí)也是一個(gè)公認(rèn)的難題、在機(jī)器翻譯、文本摘要、信息過濾、自動(dòng)問答中都有廣泛的應(yīng)用、該論文通過研究國(guó)內(nèi)外相關(guān)句法分析算法與理論、再結(jié)合維吾爾語自身的特點(diǎn)對(duì)計(jì)算語言學(xué)中的句子分析進(jìn)行了討論、由于維吾爾語作為一種自然語言、具有自然語言所共有的一些規(guī)則、發(fā)現(xiàn)國(guó)內(nèi)外的經(jīng)典句法分析方法同樣適合于維吾爾語的句法分析。
2 維吾爾語句子特點(diǎn)
維吾爾文指維吾爾族使用的拼音文字。維吾爾族在歷史上使用過突厥文、回鶻文、察合臺(tái)文。中國(guó)維吾爾族在二十一世紀(jì)使用的維吾爾文是在晚期察合臺(tái)文基礎(chǔ)上形成的以阿拉伯字母為基礎(chǔ)的拼音文字。20世紀(jì)30年代以后維吾爾文經(jīng)過幾次改進(jìn)、最近的一次是在1983年?,F(xiàn)行維吾爾文有32個(gè)字母、自右至左橫書。每個(gè)字母按出現(xiàn)在詞首、詞中、詞末的位置有不同的形式。
維吾爾語中句子表示說話人一定的思想和思維的語言單位、句子平常由兩個(gè)或者兩個(gè)以上的短語相連接構(gòu)成的、有時(shí)候一個(gè)詞語也可以表達(dá)一定的意義組成一個(gè)句子、維吾爾語中句子分為簡(jiǎn)單句和復(fù)合句兩種。
3 數(shù)據(jù)庫(kù)技術(shù)特點(diǎn)
數(shù)據(jù)庫(kù)(Database)是按照數(shù)據(jù)結(jié)構(gòu)來組織、存儲(chǔ)和管理數(shù)據(jù)的倉(cāng)庫(kù)、它產(chǎn)生于距今50年前、隨著信息技術(shù)和市場(chǎng)的發(fā)展、特別是20世紀(jì)90年代以后、數(shù)據(jù)管理不再僅僅是存儲(chǔ)和管理數(shù)據(jù)、而轉(zhuǎn)變成用戶所需要的各種數(shù)據(jù)管理的方式。數(shù)據(jù)庫(kù)有很多種類型、從最簡(jiǎn)單的存儲(chǔ)有各種數(shù)據(jù)的表格到能夠進(jìn)行海量數(shù)據(jù)存儲(chǔ)的大型數(shù)據(jù)庫(kù)系統(tǒng)都在各個(gè)方面得到了廣泛的應(yīng)用。數(shù)據(jù)庫(kù)主要特點(diǎn):數(shù)據(jù)結(jié)構(gòu)化、數(shù)據(jù)的共享性高、數(shù)據(jù)獨(dú)立性高、數(shù)據(jù)有DBMS同意管理和控制。
3.1 Access數(shù)據(jù)庫(kù)概述
Microsoft Access是一種關(guān)系式數(shù)據(jù)庫(kù)、它是單機(jī)版的數(shù)據(jù)庫(kù)管理系統(tǒng)。關(guān)系式數(shù)據(jù)庫(kù)由一系列表組成、表又由一系列行和列組成、每一行都是一個(gè)記錄、每一列是一個(gè)字段。Access數(shù)據(jù)庫(kù)有很多優(yōu)點(diǎn)比如說存儲(chǔ)方式簡(jiǎn)單、易于維護(hù)管理、面向?qū)ο?Access是一個(gè)面向?qū)ο蟮拈_發(fā)工具、利用面向?qū)ο蟮姆绞綄?shù)據(jù)庫(kù)系統(tǒng)中的各種功能對(duì)象化、將數(shù)據(jù)庫(kù)管理的各種功能封裝在各類對(duì)象中、界面友好、易操作、集成環(huán)境、處理多種數(shù)據(jù)信息、Access支持ODBC(開發(fā)數(shù)據(jù)庫(kù)互連、Open Data Base Connectivity)、利用Access強(qiáng)大的DDE(動(dòng)態(tài)數(shù)據(jù)交換)和OLE(對(duì)象的聯(lián)接和嵌入)特性、可以在一個(gè)數(shù)據(jù)表中嵌入位圖、聲音、Excel表格、Word文檔、還可以建立動(dòng)態(tài)的數(shù)據(jù)庫(kù)報(bào)表和窗體等、支持廣泛、易于擴(kuò)展、彈性較大 能夠?qū)⑼ㄟ^鏈接表的方式來打開EXCEL文件、格式化文本文件等。
3.2實(shí)例分析
句法分析本身并不解決使內(nèi)容分析困難的模糊問題、除此以外、還必須考慮上下文的關(guān)系。因此、人們都普遍認(rèn)為要考慮新方法、包括從現(xiàn)存詞表和詞典中抽取的詞定義信息及從反應(yīng)具體學(xué)科語義特性的知識(shí)庫(kù)中獲取的信息。我們不管是一個(gè)一個(gè)處理或者是批處理一些文本文件里面的句子、本文中先得把文本文件導(dǎo)入Access數(shù)據(jù)庫(kù)中、然后用所使用的計(jì)算機(jī)語言平臺(tái)下進(jìn)行連接、(就是說正對(duì)本文中使用的計(jì)算機(jī)語言比如C#等跟數(shù)據(jù)庫(kù)進(jìn)行綁定)這樣可以一下子處理多個(gè)文件。圖1是處理維吾爾語句子時(shí)運(yùn)行的文本的處理過程、比如說本文在處理很多文本、然后從中再進(jìn)一步處理句子整體和構(gòu)成句子的有些結(jié)構(gòu)、這個(gè)過程總共建立了4個(gè)數(shù)據(jù)庫(kù)表、就是在文本中查找所需要的詞匯、查找成功的放在一個(gè)數(shù)據(jù)庫(kù)表(found word)中、查找未成功的存放在另一個(gè)數(shù)據(jù)庫(kù)表(no found word)中、然后提供一個(gè)規(guī)則數(shù)據(jù)庫(kù)表(sheet1)、還有一個(gè)word數(shù)據(jù)庫(kù)表、其作用是要把處理的文本內(nèi)容以空格為準(zhǔn)分裂成單個(gè)的詞匯以便處理。為了更好地描述數(shù)據(jù)庫(kù)的作用我還插入了表word。(圖2)
4 總結(jié)
綜上述說、目前應(yīng)用于現(xiàn)代漢語句法分析的語法以短語結(jié)構(gòu)語法、范疇語法和依存語法為代表。所有應(yīng)用于漢語句法分析的語法當(dāng)中、短語結(jié)構(gòu)語法(Phrase Structure Grammar、 PSG) 是可行的方法之一、本文中運(yùn)用Access數(shù)據(jù)庫(kù)系統(tǒng)對(duì)維吾爾語句子進(jìn)行了研究和分析、因?yàn)楝F(xiàn)代維吾爾語句法分析是時(shí)尚未深入研究的一個(gè)難點(diǎn)、在多個(gè)文本中處理不管是句子邊界定義問題或者是相似度算法應(yīng)用中、首先解決的問題就是怎么樣才從文本中抽取我們需要的句子然后進(jìn)行處理、在這一過程中數(shù)據(jù)庫(kù)應(yīng)用的作用是非常大的、就像上述所提講述的一樣、Access數(shù)據(jù)庫(kù)的靈活應(yīng)用實(shí)現(xiàn)了維吾爾語句子在研究中比較快的、有效地方法、當(dāng)然也可以用傳統(tǒng)語言學(xué)的人工識(shí)別來處理這些問題也可以解決的。
句法分析的難點(diǎn)之一是歧義問題、同一個(gè)句子因?yàn)樵~的多義性或者句法結(jié)構(gòu)上的歧義性可能存在不同的句法分析結(jié)果。要完全消除歧義問題到目前還沒有可行的方法、但是可以利用數(shù)據(jù)庫(kù)的主鍵、外鍵功能可以減少歧義問題的出現(xiàn)率、維吾爾語的32字母構(gòu)成相同詞匯的可能性比較大、在多個(gè)文本中抽取詞匯中為了避免相同的詞匯的再次出現(xiàn)使系統(tǒng)再次運(yùn)行、降低系統(tǒng)的運(yùn)行速度、可以借助數(shù)據(jù)庫(kù)主鍵的無重復(fù)性特點(diǎn)來達(dá)到維吾爾語詞匯的重復(fù)性的歧義。通過主外鍵、非空、限制、唯一索引等保證數(shù)據(jù)的健壯、提高數(shù)據(jù)的查詢效率、通過合理表結(jié)構(gòu)、安排物理存儲(chǔ)分區(qū)、增加索引等方式、提高數(shù)據(jù)的讀取速度、提高查詢效率。
參考文獻(xiàn)
[1]謝新洲,陳睿.文本自動(dòng)分析中句法分析應(yīng)用述評(píng)[J].情報(bào)理論與實(shí)踐 , 1992(3).
[2]張峰嶺. 數(shù)據(jù)庫(kù)應(yīng)用的需求分析研究[J]. 計(jì)算機(jī)工程與應(yīng)用,2002(18).
[3]張磊,杜小勇,王珊. 文本數(shù)據(jù)庫(kù)中的擴(kuò)展短語挖掘[J]. 計(jì)算機(jī)科學(xué),2001(8).
[4]張磊,杜小勇,王珊. 文本數(shù)據(jù)庫(kù)中的擴(kuò)展短語挖掘[J]. 計(jì)算機(jī)科學(xué),2001(8).
[5]馮秋香. 基于數(shù)據(jù)庫(kù)語義學(xué)的古漢語句法語義分析研究[J]. 計(jì)算機(jī)科學(xué),2011(11).
作者簡(jiǎn)介
穆妮熱·穆合塔爾(1989-),女,現(xiàn)為新疆師范大學(xué)碩士研究生。研究方向?yàn)橛?jì)算語言學(xué)。
導(dǎo)師簡(jiǎn)介
玉素甫·艾白都拉,男,現(xiàn)為新疆師范大學(xué)教授,主要從事計(jì)算語言學(xué)、自然語言處理。
作者單位
新疆師范大學(xué) 新疆維吾爾自治區(qū)烏魯木齊市 830054endprint
摘 要
本文解決的核心問題是運(yùn)用數(shù)據(jù)庫(kù)軟件對(duì)維吾爾語句子進(jìn)行分析與研究、解決文本中對(duì)句子進(jìn)行批處理等一系列問題,要解決這些問題、首先必須得了解維吾爾語和維吾爾語句子的概念以及特點(diǎn)并且對(duì)于數(shù)據(jù)庫(kù)以及數(shù)據(jù)庫(kù)的主要的特點(diǎn)進(jìn)行探討。
【關(guān)鍵詞】維吾爾語句子 數(shù)據(jù)庫(kù) 編程
1 引言
維吾爾語句法分析是維吾爾文信息處理領(lǐng)域一個(gè)重要的基礎(chǔ)性課題、同時(shí)也是一個(gè)公認(rèn)的難題、在機(jī)器翻譯、文本摘要、信息過濾、自動(dòng)問答中都有廣泛的應(yīng)用、該論文通過研究國(guó)內(nèi)外相關(guān)句法分析算法與理論、再結(jié)合維吾爾語自身的特點(diǎn)對(duì)計(jì)算語言學(xué)中的句子分析進(jìn)行了討論、由于維吾爾語作為一種自然語言、具有自然語言所共有的一些規(guī)則、發(fā)現(xiàn)國(guó)內(nèi)外的經(jīng)典句法分析方法同樣適合于維吾爾語的句法分析。
2 維吾爾語句子特點(diǎn)
維吾爾文指維吾爾族使用的拼音文字。維吾爾族在歷史上使用過突厥文、回鶻文、察合臺(tái)文。中國(guó)維吾爾族在二十一世紀(jì)使用的維吾爾文是在晚期察合臺(tái)文基礎(chǔ)上形成的以阿拉伯字母為基礎(chǔ)的拼音文字。20世紀(jì)30年代以后維吾爾文經(jīng)過幾次改進(jìn)、最近的一次是在1983年?,F(xiàn)行維吾爾文有32個(gè)字母、自右至左橫書。每個(gè)字母按出現(xiàn)在詞首、詞中、詞末的位置有不同的形式。
維吾爾語中句子表示說話人一定的思想和思維的語言單位、句子平常由兩個(gè)或者兩個(gè)以上的短語相連接構(gòu)成的、有時(shí)候一個(gè)詞語也可以表達(dá)一定的意義組成一個(gè)句子、維吾爾語中句子分為簡(jiǎn)單句和復(fù)合句兩種。
3 數(shù)據(jù)庫(kù)技術(shù)特點(diǎn)
數(shù)據(jù)庫(kù)(Database)是按照數(shù)據(jù)結(jié)構(gòu)來組織、存儲(chǔ)和管理數(shù)據(jù)的倉(cāng)庫(kù)、它產(chǎn)生于距今50年前、隨著信息技術(shù)和市場(chǎng)的發(fā)展、特別是20世紀(jì)90年代以后、數(shù)據(jù)管理不再僅僅是存儲(chǔ)和管理數(shù)據(jù)、而轉(zhuǎn)變成用戶所需要的各種數(shù)據(jù)管理的方式。數(shù)據(jù)庫(kù)有很多種類型、從最簡(jiǎn)單的存儲(chǔ)有各種數(shù)據(jù)的表格到能夠進(jìn)行海量數(shù)據(jù)存儲(chǔ)的大型數(shù)據(jù)庫(kù)系統(tǒng)都在各個(gè)方面得到了廣泛的應(yīng)用。數(shù)據(jù)庫(kù)主要特點(diǎn):數(shù)據(jù)結(jié)構(gòu)化、數(shù)據(jù)的共享性高、數(shù)據(jù)獨(dú)立性高、數(shù)據(jù)有DBMS同意管理和控制。
3.1 Access數(shù)據(jù)庫(kù)概述
Microsoft Access是一種關(guān)系式數(shù)據(jù)庫(kù)、它是單機(jī)版的數(shù)據(jù)庫(kù)管理系統(tǒng)。關(guān)系式數(shù)據(jù)庫(kù)由一系列表組成、表又由一系列行和列組成、每一行都是一個(gè)記錄、每一列是一個(gè)字段。Access數(shù)據(jù)庫(kù)有很多優(yōu)點(diǎn)比如說存儲(chǔ)方式簡(jiǎn)單、易于維護(hù)管理、面向?qū)ο?Access是一個(gè)面向?qū)ο蟮拈_發(fā)工具、利用面向?qū)ο蟮姆绞綄?shù)據(jù)庫(kù)系統(tǒng)中的各種功能對(duì)象化、將數(shù)據(jù)庫(kù)管理的各種功能封裝在各類對(duì)象中、界面友好、易操作、集成環(huán)境、處理多種數(shù)據(jù)信息、Access支持ODBC(開發(fā)數(shù)據(jù)庫(kù)互連、Open Data Base Connectivity)、利用Access強(qiáng)大的DDE(動(dòng)態(tài)數(shù)據(jù)交換)和OLE(對(duì)象的聯(lián)接和嵌入)特性、可以在一個(gè)數(shù)據(jù)表中嵌入位圖、聲音、Excel表格、Word文檔、還可以建立動(dòng)態(tài)的數(shù)據(jù)庫(kù)報(bào)表和窗體等、支持廣泛、易于擴(kuò)展、彈性較大 能夠?qū)⑼ㄟ^鏈接表的方式來打開EXCEL文件、格式化文本文件等。
3.2實(shí)例分析
句法分析本身并不解決使內(nèi)容分析困難的模糊問題、除此以外、還必須考慮上下文的關(guān)系。因此、人們都普遍認(rèn)為要考慮新方法、包括從現(xiàn)存詞表和詞典中抽取的詞定義信息及從反應(yīng)具體學(xué)科語義特性的知識(shí)庫(kù)中獲取的信息。我們不管是一個(gè)一個(gè)處理或者是批處理一些文本文件里面的句子、本文中先得把文本文件導(dǎo)入Access數(shù)據(jù)庫(kù)中、然后用所使用的計(jì)算機(jī)語言平臺(tái)下進(jìn)行連接、(就是說正對(duì)本文中使用的計(jì)算機(jī)語言比如C#等跟數(shù)據(jù)庫(kù)進(jìn)行綁定)這樣可以一下子處理多個(gè)文件。圖1是處理維吾爾語句子時(shí)運(yùn)行的文本的處理過程、比如說本文在處理很多文本、然后從中再進(jìn)一步處理句子整體和構(gòu)成句子的有些結(jié)構(gòu)、這個(gè)過程總共建立了4個(gè)數(shù)據(jù)庫(kù)表、就是在文本中查找所需要的詞匯、查找成功的放在一個(gè)數(shù)據(jù)庫(kù)表(found word)中、查找未成功的存放在另一個(gè)數(shù)據(jù)庫(kù)表(no found word)中、然后提供一個(gè)規(guī)則數(shù)據(jù)庫(kù)表(sheet1)、還有一個(gè)word數(shù)據(jù)庫(kù)表、其作用是要把處理的文本內(nèi)容以空格為準(zhǔn)分裂成單個(gè)的詞匯以便處理。為了更好地描述數(shù)據(jù)庫(kù)的作用我還插入了表word。(圖2)
4 總結(jié)
綜上述說、目前應(yīng)用于現(xiàn)代漢語句法分析的語法以短語結(jié)構(gòu)語法、范疇語法和依存語法為代表。所有應(yīng)用于漢語句法分析的語法當(dāng)中、短語結(jié)構(gòu)語法(Phrase Structure Grammar、 PSG) 是可行的方法之一、本文中運(yùn)用Access數(shù)據(jù)庫(kù)系統(tǒng)對(duì)維吾爾語句子進(jìn)行了研究和分析、因?yàn)楝F(xiàn)代維吾爾語句法分析是時(shí)尚未深入研究的一個(gè)難點(diǎn)、在多個(gè)文本中處理不管是句子邊界定義問題或者是相似度算法應(yīng)用中、首先解決的問題就是怎么樣才從文本中抽取我們需要的句子然后進(jìn)行處理、在這一過程中數(shù)據(jù)庫(kù)應(yīng)用的作用是非常大的、就像上述所提講述的一樣、Access數(shù)據(jù)庫(kù)的靈活應(yīng)用實(shí)現(xiàn)了維吾爾語句子在研究中比較快的、有效地方法、當(dāng)然也可以用傳統(tǒng)語言學(xué)的人工識(shí)別來處理這些問題也可以解決的。
句法分析的難點(diǎn)之一是歧義問題、同一個(gè)句子因?yàn)樵~的多義性或者句法結(jié)構(gòu)上的歧義性可能存在不同的句法分析結(jié)果。要完全消除歧義問題到目前還沒有可行的方法、但是可以利用數(shù)據(jù)庫(kù)的主鍵、外鍵功能可以減少歧義問題的出現(xiàn)率、維吾爾語的32字母構(gòu)成相同詞匯的可能性比較大、在多個(gè)文本中抽取詞匯中為了避免相同的詞匯的再次出現(xiàn)使系統(tǒng)再次運(yùn)行、降低系統(tǒng)的運(yùn)行速度、可以借助數(shù)據(jù)庫(kù)主鍵的無重復(fù)性特點(diǎn)來達(dá)到維吾爾語詞匯的重復(fù)性的歧義。通過主外鍵、非空、限制、唯一索引等保證數(shù)據(jù)的健壯、提高數(shù)據(jù)的查詢效率、通過合理表結(jié)構(gòu)、安排物理存儲(chǔ)分區(qū)、增加索引等方式、提高數(shù)據(jù)的讀取速度、提高查詢效率。
參考文獻(xiàn)
[1]謝新洲,陳睿.文本自動(dòng)分析中句法分析應(yīng)用述評(píng)[J].情報(bào)理論與實(shí)踐 , 1992(3).
[2]張峰嶺. 數(shù)據(jù)庫(kù)應(yīng)用的需求分析研究[J]. 計(jì)算機(jī)工程與應(yīng)用,2002(18).
[3]張磊,杜小勇,王珊. 文本數(shù)據(jù)庫(kù)中的擴(kuò)展短語挖掘[J]. 計(jì)算機(jī)科學(xué),2001(8).
[4]張磊,杜小勇,王珊. 文本數(shù)據(jù)庫(kù)中的擴(kuò)展短語挖掘[J]. 計(jì)算機(jī)科學(xué),2001(8).
[5]馮秋香. 基于數(shù)據(jù)庫(kù)語義學(xué)的古漢語句法語義分析研究[J]. 計(jì)算機(jī)科學(xué),2011(11).
作者簡(jiǎn)介
穆妮熱·穆合塔爾(1989-),女,現(xiàn)為新疆師范大學(xué)碩士研究生。研究方向?yàn)橛?jì)算語言學(xué)。
導(dǎo)師簡(jiǎn)介
玉素甫·艾白都拉,男,現(xiàn)為新疆師范大學(xué)教授,主要從事計(jì)算語言學(xué)、自然語言處理。
作者單位
新疆師范大學(xué) 新疆維吾爾自治區(qū)烏魯木齊市 830054endprint