胡 萍
(銅仁學(xué)院 信息工程學(xué)院,貴州 銅仁 554300 )
閃存數(shù)據(jù)庫磨損均衡控制中數(shù)據(jù)元模型設(shè)計研究
胡萍
(銅仁學(xué)院 信息工程學(xué)院,貴州 銅仁 554300 )
Web閃存數(shù)據(jù)庫磨損數(shù)據(jù)元是信息提取與優(yōu)化研究的重要內(nèi)容。本文主要從閃存數(shù)據(jù)庫磨損切分技術(shù)和磨損特征提取與特征表示兩方面入手,對最大閃存磨損匹配法和閃存磨損向量空間模型(VSM)進(jìn)行研究改進(jìn),以實現(xiàn)閃存磨損均衡控制中數(shù)據(jù)元模型的優(yōu)化設(shè)計。
閃存數(shù)據(jù)庫;磨損;均衡控制;數(shù)據(jù)元
隨著信息技術(shù)的發(fā)展,Web數(shù)據(jù)信息的利用率越來越高,越來越多團(tuán)體、機(jī)構(gòu)和個人利用Web路徑獲取信息。從Web自身特點看,其具有動態(tài)化、無結(jié)構(gòu)的特點。因此人們在通過Web獲取信息的過程中,很難準(zhǔn)確得到,有時像大海撈針一樣。為解決這一問題,需要Web技術(shù)和數(shù)據(jù)元技術(shù)結(jié)合在一起,對閃存數(shù)據(jù)庫磨損數(shù)據(jù)信息進(jìn)行優(yōu)化提取,提高數(shù)據(jù)信息獲取效率。
從目前看,人們對數(shù)據(jù)信息的數(shù)據(jù)元越來越重視。因 Internet呈現(xiàn)數(shù)據(jù)信息的多樣化,一個 Web數(shù)據(jù)信息里面包括多種數(shù)據(jù)類型,比如文章、詞匯、數(shù)據(jù)、歌詞、數(shù)字圖書館、新聞報道、微博、郵件等。對此類非結(jié)構(gòu)化的數(shù)據(jù)信息挖掘非常重要,此類數(shù)據(jù)信息的信息源都是數(shù)據(jù)元。數(shù)據(jù)元在Web系統(tǒng)中表達(dá)了豐富的數(shù)據(jù)信息,同時也包含了很多文本信息之外的知識。面對豐富多彩的數(shù)據(jù)信息,傳統(tǒng)文本數(shù)據(jù)信息提取方式無法滿足需求,需要通過Web技術(shù)和數(shù)據(jù)元工具結(jié)合在一起,滿足用戶數(shù)據(jù)信息獲取需要。
Web閃存數(shù)據(jù)庫磨損數(shù)據(jù)元是信息提取與優(yōu)化研究的重要內(nèi)容,可以發(fā)現(xiàn)Web中各種數(shù)據(jù)信息知識。Web閃存數(shù)據(jù)庫磨損數(shù)據(jù)元主要利用一些智能算法對數(shù)據(jù)信息進(jìn)行優(yōu)化,主要包括案例推理算法、蜂群算法、神經(jīng)網(wǎng)絡(luò)、可能性推理等。把此類算法和數(shù)據(jù)元提取技術(shù)結(jié)合在一起,對大量非結(jié)構(gòu)化數(shù)據(jù)信息進(jìn)行優(yōu)化,建立關(guān)鍵詞和文字之間的關(guān)系,同時對文檔內(nèi)容進(jìn)行分類,滿足不同用戶需求,提取有價值的閃存數(shù)據(jù)庫磨損。Web閃存數(shù)據(jù)庫磨損數(shù)據(jù)元流程設(shè)計如圖1所示。
通過Web閃存數(shù)據(jù)庫磨損數(shù)據(jù)元過程分析,可以對文本數(shù)據(jù)信息進(jìn)行初步提取。因此Web閃存數(shù)據(jù)庫磨損數(shù)據(jù)信息優(yōu)化預(yù)處理流程設(shè)計如圖2所示。
Web閃存數(shù)據(jù)庫磨損數(shù)據(jù)信息特征提取過程中,需要對閃存數(shù)據(jù)庫磨損數(shù)據(jù)信息進(jìn)行預(yù)處理,主要是對的詞條進(jìn)行模式優(yōu)化,實現(xiàn)對的詞條切分。
閃存數(shù)據(jù)庫磨損切分過程中,需要對中文句子中各個分隔符進(jìn)行分析;設(shè)計過程中需要對詞頻進(jìn)行計算。分詞在計算過程中需要從分隔符開始,在各個文本之間加上相應(yīng)的分隔符,保證文本數(shù)據(jù)信息符合數(shù)據(jù)元格式要求。閃存數(shù)據(jù)庫磨損數(shù)據(jù)信息處理過程中需要從連續(xù)和離散兩種形式出發(fā)。
圖1 Web閃存數(shù)據(jù)庫磨損數(shù)據(jù)元流程設(shè)計
圖2 Web閃存數(shù)據(jù)庫磨損數(shù)據(jù)信息的預(yù)處理
Web閃存數(shù)據(jù)庫磨損數(shù)據(jù)信息處理領(lǐng)域,需要對中文自動分詞設(shè)計方法進(jìn)行研究,提出了一種閃存數(shù)據(jù)庫磨損分詞方法。通過對最大分詞匹配算法的研究,可以優(yōu)化數(shù)據(jù)信息數(shù)據(jù)元。最大閃存數(shù)據(jù)庫磨損匹配法的思想有:從中文數(shù)據(jù)信息流中取最大字符串(本文取8個字符串),在Web中文字典中查找,如果匹配成功產(chǎn)生數(shù)據(jù)輸出,繼續(xù)進(jìn)行數(shù)據(jù)信息提取,獲取后返回,繼續(xù)在文本中查找,直到數(shù)據(jù)信息的長度為1,此種情況下需要在輸入流中前進(jìn)一格,直到整個數(shù)據(jù)信息流輸入完畢。
通過對此算法進(jìn)行分析,可以看出需要不斷地進(jìn)行數(shù)據(jù)庫訪問,導(dǎo)致數(shù)據(jù)信息提取效率低下?,F(xiàn)對方法進(jìn)行以下改進(jìn):
Step1:對閃存數(shù)據(jù)庫磨損數(shù)據(jù)信息庫建索引,并且把數(shù)據(jù)信息輸入到相應(yīng)的字符串fstr中。
Step2:按照數(shù)據(jù)元設(shè)計方法,在數(shù)據(jù)信息記錄集rs中進(jìn)行數(shù)據(jù)信息匹配,確保數(shù)據(jù)信息匹配能夠進(jìn)行合理搭配,進(jìn)入輸入流進(jìn)行移動。
Step3:按照最大匹配算法,在記錄集rs中進(jìn)行數(shù)據(jù)信息匹配,按照數(shù)據(jù)信息集的要求進(jìn)行匹配,產(chǎn)生相應(yīng)輸入流進(jìn)行流動。
Step4:重復(fù)第二步,輸入流結(jié)束之后,整個循環(huán)退出。
面向Web閃存數(shù)據(jù)庫磨損分詞算法分割的因素中,需要對信息庫進(jìn)行優(yōu)化,信息庫對整個數(shù)據(jù)元分解會產(chǎn)生重要的影響。
閃存數(shù)據(jù)庫磨損主要是針對Web文檔,有的時候是計算機(jī)文檔。技術(shù)文檔需要對其特征進(jìn)行綜合分析,識別專業(yè)詞匯,因此不需要對普通詞匯進(jìn)行詞頻統(tǒng)計和切分。系統(tǒng)設(shè)計過程中需要解決系統(tǒng)運行效率和實時性問題,需要避免大型通用詞典的使用,需要建立相應(yīng)的專業(yè)詞條庫,對Web文本進(jìn)行切分。專業(yè)詞典設(shè)計過程中需要利用本領(lǐng)域的詞條,比如說“雖然”、“的”、“但是”等。
Web閃存數(shù)據(jù)庫磨損特征提取需要對每個特征項進(jìn)行分析,特征項可以代表文檔,用詞條或者描述方式進(jìn)行分析。特征項處理過程中可以采取文本分類和聚類模式處理,實現(xiàn)對非結(jié)構(gòu)化Web閃存數(shù)據(jù)庫磨損進(jìn)行處理。系統(tǒng)設(shè)計中聚類和分類是核心,Web閃存數(shù)據(jù)庫磨損數(shù)據(jù)信息提取算法的優(yōu)劣對文檔聚類和分類會產(chǎn)生直接的效果。Web閃存數(shù)據(jù)庫磨損特征提取模型有多種,常見的有概率型、布爾邏輯型、向量空間型等。本文將對向量空間模型(VSM)進(jìn)行研究。
Web閃存數(shù)據(jù)庫磨損的優(yōu)點可實現(xiàn)文本內(nèi)容的轉(zhuǎn)化,最終通過數(shù)學(xué)手段對向量進(jìn)行表述,按照各種相似預(yù)算的規(guī)則進(jìn)行計算,保證閃存數(shù)據(jù)庫磨損排序成為可能。閃存數(shù)據(jù)庫磨損檢索、文本摘要提取、文本過濾都會用到文本向量,當(dāng)前已經(jīng)取得良好效果。
Web閃存數(shù)據(jù)庫磨損向量空間模型設(shè)計中需要對詞間關(guān)系進(jìn)行設(shè)定,形成正交假設(shè),此種方式在實際處理中很難滿足多樣性文本需求,因此文本中各種詞之間存在相關(guān)性,即會出現(xiàn)“斜交”現(xiàn)象。比如說“電腦”、“微機(jī)”、“計算機(jī)”三個詞可以表示成一個概念。如果不能從這個角度進(jìn)行詞條分析,那么提取過程中會造成特征不明顯現(xiàn)象,甚至出現(xiàn)特征集龐大的問題。Web閃存數(shù)據(jù)庫磨損信息提取過程中為了解決語言多樣性問題,需要在信息庫上進(jìn)行設(shè)置。
Web閃存數(shù)據(jù)庫磨損提取過程中設(shè)置 3個信息庫,分別為同義詞信息庫、主詞信息庫、蘊含信息庫,同時需要對信息庫詞頻進(jìn)行統(tǒng)計,根據(jù)詞頻特征進(jìn)行信息提取,按照主詞信息庫中詞條進(jìn)行信息優(yōu)化。詞條頻率統(tǒng)計公式為:
其中Tf表示信息庫中主詞條f的詞頻;TM f表示信息庫中主詞條f的詞頻權(quán)值;TTfi表示信息庫中同義詞條f的詞頻權(quán)值,通過設(shè)計其共有m1個同義詞;TIfi表示信息庫中蘊含詞條f的詞頻權(quán)值,通過設(shè)計其共有m2個蘊含詞; e表示加權(quán)值。該公式表示W(wǎng)eb中文詞條在數(shù)據(jù)文檔中出現(xiàn)的頻數(shù)由三部分之和組成,即為同義詞詞條、主詞條、蘊含詞詞條三個部分詞頻數(shù)的權(quán)值相加獲取。
在VSM中,將文本文檔視為由一組詞條(T1,T2,……,Tn)構(gòu)成,每一詞條都賦以一定的權(quán)值Wi,通過對Web閃存數(shù)據(jù)庫磨損文檔數(shù)據(jù)映射,可以對某一個組詞的矢量結(jié)構(gòu)進(jìn)行分析,同時產(chǎn)生相應(yīng)的向量空間。Web閃存數(shù)據(jù)庫磨損匹配過程中需要對向量空間進(jìn)行處理,確保向量空間符合數(shù)據(jù)元信息優(yōu)化的要求。
Web閃存數(shù)據(jù)庫磨損設(shè)計中需要對詞、詞組、短語進(jìn)行分析,形成文檔的基本元素,確保元素在中文文檔中出現(xiàn)的頻率具有規(guī)律性,以適應(yīng)Web文檔特征項的要求。Web文檔中不同的詞條在文檔中表示不同的功能,比如“的”、“和”等虛詞在文檔中出現(xiàn)的頻數(shù)較多,而稀有詞在整個訓(xùn)練文檔中出現(xiàn)的次數(shù)很少,這些詞在文檔中計算頻數(shù)是有一定難度的,通常把其稱為不確定特征項,設(shè)計系統(tǒng)時把其濾除。
[1] 湯顯,孟小峰,梁智超,盧澤萍.基于代價的閃存數(shù)據(jù)庫緩沖區(qū)置換算法[J].軟件學(xué)報,2011,22(12):2951-2964.
[2] 邢玉鋼,王曼麗,王翰虎,陳梅.基于列式存儲的閃存數(shù)據(jù)庫查詢優(yōu)化策略[J].計算機(jī)技術(shù)與發(fā)展,2011,21(12):131-134.
[3] 鮑程鋒,楊小虎.基于影子頁面和混合日志的MMDB恢復(fù)方法[J].計算機(jī)工程與設(shè)計,2011,32(7):2373-2376.
[4] 邵璐,費洪曉.內(nèi)存數(shù)據(jù)庫技術(shù)在移動實時累加系統(tǒng)中的應(yīng)用[J].計算機(jī)系統(tǒng)應(yīng)用,2011,20(8):169-173.
[5] 邢玉鋼,王翰虎,馬丹,陳梅.一種改進(jìn)的閃存數(shù)據(jù)庫Sort-Merge-Join算法[J].計算機(jī)應(yīng)用研究,2012,29(2):614-616,620.
Research on Design of Data Element Model in Flash Memory Database Wear Balanced Control
HU Ping
( School of Information, Tongren University, Tongren, Guizhou 554300, China )
Web flash memory database wear data element is the important content of research on information extraction and optimization. From two aspects: flash memory database wear segmentation technology and wear characteristic extraction and characteristic presentation, research is made on maximum flash memory wear matching method and flash memory wear vector space model (VSM) to optimize the data element model in flash memory database wear balanced control.
flash memory database,wear,balanced control,data element
TP301
A
1673-9639 (2015) 04-0114-03
(責(zé)任編輯 毛志)(責(zé)任校對 徐松金)(英文編輯 田興斌)
2014-12-12
胡萍(1983-),女,貴州江口人,講師,碩士,研究方向:閃存數(shù)據(jù)庫、計算機(jī)應(yīng)用技術(shù)。