亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        陶瓷行業(yè)博客文本矩陣的建立方法

        2018-12-05 09:08:50胡小麗
        電腦與電信 2018年9期
        關(guān)鍵詞:單詞文本信息

        胡小麗

        (景德鎮(zhèn)陶瓷大學(xué)信息工程學(xué)院,江西 景德鎮(zhèn) 333403)

        1 引言

        在有著幾千年歷史且名揚(yáng)海外的中國陶瓷行業(yè),網(wǎng)絡(luò)中有大量關(guān)于陶瓷藝術(shù)、陶瓷文獻(xiàn)、陶瓷企業(yè)、陶瓷產(chǎn)品、陶瓷技術(shù)、陶瓷原料、燃料以及行業(yè)資訊等陶瓷方面的有價(jià)值的博客信息資源。為了提高陶瓷行業(yè)聚類的精度,陶瓷信息詞典的建立與博客文本矩陣建立方法尤為重要,對(duì)提取陶瓷行業(yè)博客文本特征有著重大意義。

        2 陶瓷信息詞典建立

        本文從各知名陶瓷網(wǎng)站中收集信息,進(jìn)行預(yù)處理,再進(jìn)行人工分類,創(chuàng)建了以下11個(gè)類別,分別是:陶瓷藝術(shù)、日用陶瓷、建筑陶瓷、衛(wèi)浴陶瓷、功能陶瓷、工業(yè)陶瓷、陶瓷燃料、陶瓷原料、陶瓷商貿(mào)、陶瓷文獻(xiàn)和陶瓷技術(shù)。收集的信息主要來自全國陶瓷行業(yè)排名前十位的陶瓷網(wǎng)站服務(wù)商,如中國陶瓷信息資源網(wǎng)http://www.ccisn.com.cn、中國陶瓷網(wǎng)http://www.taoci163.com/、中華陶瓷網(wǎng) http://www.chinaceram.cn/、中陶網(wǎng)http://www.ccenn.com/等等。這些網(wǎng)站相對(duì)來說是比較權(quán)威的,其信息內(nèi)容比較全面,信息來源也都是可靠的,能夠很好地滿足創(chuàng)建陶瓷信息語料庫的要求。創(chuàng)建的陶瓷信息詞典以文本格式保存到相應(yīng)的文件中。

        3 陶瓷信息詞獲取方法

        陶瓷行業(yè)的博客文本的特征詞與陶瓷信息密切相關(guān)。提取陶瓷信息的方法有多種,例如,基于陶瓷信息詞典的方法、基于語料庫的方法等等。本文選用的是基于陶瓷信息詞典的方法。

        提取一篇文章中的陶瓷信息詞的方法:先為選用的陶瓷信息詞典建立一個(gè)表,然后通過查表的方式判斷進(jìn)行過分詞處理的文章(詞串)中的詞是不是陶瓷信息詞。如果能在表中查找到,則是陶瓷信息詞,將其輸出;否則,不是陶瓷信息詞,判斷下一個(gè)。這樣,最后得到一個(gè)陶瓷信息詞串(該串可以是空串)??紤]到陶瓷信息詞表的長度較長,加之需要頻繁查找,為降低開銷,我們采用了索引技術(shù)。先對(duì)無序的陶瓷信息詞語表排序,按字長由短到長,然后對(duì)排好序的陶瓷信息詞表,根據(jù)詞的字長建立了一個(gè)索引表。因此,查找陶瓷信息詞時(shí),可以先查索引表,然后查陶瓷信息詞表。具體算法如下所示:

        提取陶瓷信息詞的算法:

        輸入:陶瓷信息詞典CIC,詞串S1

        輸出:陶瓷信息詞串S2

        方法:

        1)創(chuàng)建一個(gè)表存放陶瓷信息詞典CIC;

        2)將CIC按陶瓷信息詞字長以升序排列;

        3)根據(jù)詞的字長在CIC上創(chuàng)建一個(gè)方便查找的索引表Index;

        4)Loop1

        5)判斷S1是否為空,如果是,執(zhí)行第(13)步,否則,繼續(xù);

        6)取S1中的第一個(gè)單詞視為當(dāng)前單詞W;

        7)Loop2

        8)判斷W是否標(biāo)點(diǎn)符號(hào),如否,繼續(xù)執(zhí)行判斷;否則,讀串S1的下一個(gè)單詞作為當(dāng)前單詞W,并執(zhí)行第(4)步;

        9)計(jì)算W的字長;

        10)在索引表Index中查詢單詞W,如果查找到,繼續(xù)執(zhí)行;否則,讀串S1的下一個(gè)單詞視為當(dāng)前單詞W,并執(zhí)行第(4)步;

        11)在CIC中查詢單詞W,如果查找到,執(zhí)行第(8)步;否則,讀串S1的下一個(gè)單詞視為當(dāng)前單詞W,并執(zhí)行第(4)步;

        12)W進(jìn)入串S2,并從S1中去掉W,執(zhí)行第(4)步;

        13)輸出詞串S2。

        在具體實(shí)現(xiàn)程序過程中,我們可以隊(duì)列的形式存儲(chǔ)詞串S1和S2,采用二維數(shù)組存儲(chǔ)陶瓷信息詞。

        4 陶瓷博客文本矩陣建立

        從Web獲取到的博客文本經(jīng)預(yù)處理后仍然屬于半結(jié)構(gòu)化數(shù)據(jù),需要將數(shù)據(jù)結(jié)構(gòu)化,即轉(zhuǎn)換為數(shù)據(jù)庫中的結(jié)構(gòu)化數(shù)據(jù)形式,才能用于后續(xù)的聚類分析處理。從Web頁面中獲取的文本必須表示成計(jì)算機(jī)可讀取的形式,常用的表示形式:向量空間、布爾模型、基于圖的文本表示、概率模型和潛在語意索引等。本文采用向量空間模型的建立方法。

        向量空間模型是將一篇文檔表示成一個(gè)特征值向量。同樣一個(gè)文檔數(shù)據(jù)集合中所有不重復(fù)出現(xiàn)的詞(除了停用詞)組成該向量的各分量,每一個(gè)不同的特征項(xiàng)對(duì)應(yīng)向量的一個(gè)維度,維數(shù)和詞的數(shù)目相同。也就是說,在向量空間模型中,每一個(gè)文本都被轉(zhuǎn)換為一個(gè)n維的向量,n為特征項(xiàng)的個(gè)數(shù),形式為V(T1,W1;T2,W2;…;TV,WV),Tk為特征項(xiàng),Wk為特征項(xiàng)權(quán)重。向量中的Wk的值表示Tk在此文檔中的中的權(quán)值,即Tk對(duì)于描述此文檔所起作用的程度。Wk越大,則Tk對(duì)于描述V(T1,W1;T2,W2;…;TV,WV)也越重要;Wk越小,Tk就越不能反映V(T1,W1;T2,W2;…;TV,WV)的內(nèi)容。

        本文選取的文本表示方法是基于向量空間模型的方法,該方法是將文本映射成為一個(gè)特征向量,把博客看作一個(gè)文本,每個(gè)博客都有對(duì)應(yīng)的特征項(xiàng)(也叫索引詞),V={T1,T2,…,TV}表示相關(guān)博客的一組特征項(xiàng),每一個(gè)Tk都是一個(gè)索引詞,集合V稱為詞匯表,v表示它的大小,代表V中所包含的特征項(xiàng)個(gè)數(shù),對(duì)于博客Bj中的每個(gè)特征項(xiàng)Tk,都有一個(gè)權(quán)值Wkj,這樣對(duì)于每個(gè)博客Bj都可以被表示成一個(gè)詞向量Wj={W1j,W2j,…,Wvj},這個(gè)詞向量就是該博客的特征向量。從而對(duì)于一個(gè)有M個(gè)博客的博客集,可以構(gòu)造相應(yīng)的文本特征項(xiàng)矩陣:

        5 結(jié)束語

        基于向量空間模型的矩陣建立方法是目前較為常用的文本表示方法。該方法較布爾模型包含了更多的信息,對(duì)陶瓷行業(yè)博客文本的聚類研究非常有幫助。

        猜你喜歡
        單詞文本信息
        單詞連一連
        在808DA上文本顯示的改善
        基于doc2vec和TF-IDF的相似文本識(shí)別
        電子制作(2018年18期)2018-11-14 01:48:06
        看圖填單詞
        訂閱信息
        中華手工(2017年2期)2017-06-06 23:00:31
        看完這些單詞的翻譯,整個(gè)人都不好了
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        展會(huì)信息
        如何快速走進(jìn)文本
        單詞拾趣
        海外英語(2006年8期)2006-09-28 08:49:00
        亚洲夜夜骑| 日本熟妇人妻xxxx| 蜜桃日本免费看mv免费版| 久久久久国色av免费观看性色| 性欧美暴力猛交69hd| 亚洲另在线日韩综合色| 国产成人自拍视频视频| 国产内射爽爽大片| 国产真人性做爰久久网站| 亚洲成av人片天堂网九九| 热门精品一区二区三区| 色视频网站一区二区三区| 丰满人妻熟妇乱又伦精品软件| 欧美黑人疯狂性受xxxxx喷水| 国产精品久久久久亚洲| 免费av网址一区二区| 大陆老熟女自拍自偷露脸| 国产精品亚洲欧美大片在线看| 在线欧美精品二区三区| 国产一级一片内射视频在线| 午夜视频在线瓜伦| 欧美尺寸又黑又粗又长| 日韩久久av电影| 网站在线观看视频一区二区| 色欲色香天天天综合网www| 国产乱xxⅹxx国语对白| 91av手机在线观看| 视频一区中文字幕亚洲| 亚洲国产色一区二区三区| 成人欧美一区二区三区的电影| 久久久久久久一线毛片| 丝袜美腿在线观看视频| 丰满熟女高潮毛茸茸欧洲视频| 极品尤物高潮潮喷在线视频| 精品久久杨幂国产杨幂| 中文字幕av素人专区| 国产成人亚洲综合无码品善网| 色噜噜狠狠色综合成人网| 国产亚洲精品日韩香蕉网| 91亚洲免费在线观看视频| 欧美丰满熟妇bbbbbb|