亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        Web文本挖掘在藥商興趣提取中的應用

        2014-12-14 07:00:22孫士新
        邵陽學院學報(自然科學版) 2014年3期
        關(guān)鍵詞:藥商中藥材文檔

        孫士新

        (1.亳州職業(yè)技術(shù)學院信息工程系,安徽亳州236800;2.北京師范大學職業(yè)與成人教育研究所,北京100875)

        中藥材信息網(wǎng)站主要是圍繞安徽亳州中藥材交易市場所進行的,有中藥材信息收集、市場行情分析、用戶供求信息收集、中藥材經(jīng)營技術(shù)在線學習等功能,收錄了中藥材交易價格、中藥材供求信息、中藥材交易記錄、中藥材解析、中藥材產(chǎn)地介紹等信息,網(wǎng)站信息瀏覽者主要是藥商、藥農(nóng)、中藥材相關(guān)客戶.根據(jù)對網(wǎng)站注冊信息統(tǒng)計數(shù)據(jù)顯示,以藥商身份注冊的網(wǎng)站用戶占總用戶的67%,以藥商身份注冊的用戶個體日均訪問量為3.57人次.藥商作為網(wǎng)站的VIP用戶主要群體,以藥商為單位挖掘藥商的藥材興趣領(lǐng)域,把中藥材信息配對推送給相應的藥商對網(wǎng)站運營至關(guān)重要.本文所涉及藥商興趣提取,是基于網(wǎng)站注冊信息、網(wǎng)站日志、市場交易數(shù)據(jù)庫等存在的文本信息的挖掘而進行的.

        1 藥商興趣提取

        1.1 藥商興趣及興趣提取

        1.1.1 藥商興趣

        藥商,即中藥材經(jīng)營者,是從事中藥材買賣的人,包括中藥材供應者、中藥材采購者和與中藥材供求工作相關(guān)的從業(yè)者.藥商興趣,是藥商對中藥材感興趣的種類、感興趣的中藥材屬性.藥商對中藥材感興趣的種類包括野生類、家種類、家野兼有類、礦石及其他加工類、動物及其制品類、草類、花類、葉類等;感興趣的中藥材屬性包括今日價格、熱點追蹤、產(chǎn)地信息、歷史價格、漲落排行、產(chǎn)地供應、產(chǎn)地分布、市場動態(tài)、品種分析、市場分析等.

        圖1 藥商興趣提取模型Fig.1 The druggist's interests extraction model

        1.1.2 藥商信息提取

        藥商信息提取是通過Web數(shù)據(jù)挖掘技術(shù)對網(wǎng)站中藥商信息進行抽取、分析、建模、表示的過程,如圖1所示,藥商興趣提取模型包括用戶興趣提取、用戶興趣更新、用戶興趣表示三個部分.用戶興趣提取是根據(jù)用戶注冊信息中用戶興趣選取、用戶介紹;網(wǎng)站日志中用戶瀏覽網(wǎng)頁記錄、市場交易記錄數(shù)據(jù)庫中用戶在買賣數(shù)據(jù)中出現(xiàn)的情況等信息而進行的.用戶興趣更新,是把用戶提取環(huán)節(jié)所形成的臨時用戶興趣與原用戶興趣進行匹配整理,重新形成當前用戶興趣.用戶興趣表示是把當前用戶興趣表示成系統(tǒng)容易識別和量化的過程,如{{草類,3},{家種類,5},{市場動態(tài),7},…,…}.

        1.2 Web文本挖掘關(guān)鍵技術(shù)

        1.2.1 Web 文本挖掘

        Web文本是網(wǎng)站信息中以文本形式存放部分,具有非結(jié)構(gòu)性、半結(jié)構(gòu)性、自述性、動態(tài)可變性、異構(gòu)數(shù)據(jù)庫環(huán)境等特點[1].文本挖掘又稱為文本數(shù)據(jù)挖掘,文本知識發(fā)現(xiàn),是指以發(fā)現(xiàn)知識為目的,從大規(guī)模文本庫中抽取隱含的、未知的、潛在有價值的模式的過程[2].按照 Oren Etzioni的定義:Web文本挖掘是使用數(shù)據(jù)挖掘技術(shù),自動地從Web文檔、服務中發(fā)現(xiàn)并提取信息和知識的技術(shù)[3].文本挖掘的主要處理過程是對大量文檔集合的內(nèi)容進行預處理、特征提取、結(jié)構(gòu)分析、文本摘要、文本分類、文本聚類、管理分析等[4].

        1.2.2 Web 文本挖掘流程

        如圖2所示基于Web文本挖掘的藥商興趣提取流程分為網(wǎng)站文本采集、文本處理、文本特征分析、文本特征提取、文本分類、文本聚類、挖掘結(jié)果處理等七個階段[5].文本采集是從海量文本源中根據(jù)需要采集相關(guān)文本信息的過程,文本采集的信息一般為一些非結(jié)構(gòu)化、不完整性信息.文本預處理是把文本采集中所得到的非結(jié)構(gòu)、不完整信息進行信息完整性、可用性處理,把非結(jié)構(gòu)化、半結(jié)構(gòu)化信息處理成可用的、計算機方便處理的結(jié)構(gòu)化信息的過程.預處理包括數(shù)據(jù)過濾、用戶身份識別、用戶會話識別三個主要過程:數(shù)據(jù)過濾階段需要移除和過濾掉冗余及不相關(guān)的數(shù)據(jù),預測填充數(shù)據(jù)中丟失的值;用戶身份識別通過Cookies、擴展日志、合并站點拓樸結(jié)構(gòu)進行日志推斷等方法進行;用戶會話識別方法分為基于時間和上下文啟發(fā)式方法[6].文本特征表示是在預處理階段,將文本表示成計算機容易存儲的格式,文本的表示方法大多數(shù)是從信息檢索領(lǐng)域借鑒過來的[7].文本特征提取,是在文本表示的基礎(chǔ)上從文本庫中提取權(quán)值較高的詞條作為文檔的特征項,以達到對特征項進行降維的目的[1].文本分類按照一定的標準建立若干文本類別,在目標文檔集里為所有文檔確立所屬相應類別,并按照文檔類別對文檔進行文檔歸類的過程.文本聚類是把一組個體按照相似性歸成若干類別,即“物以類聚”,它的目的是使得屬于同一類別的個體之間的聚類盡可能地小,而不同類別上的個體間的距離盡可能地大[8].挖掘結(jié)果處理是對以上各步驟對文檔集進行的挖掘結(jié)果進行合理性、可用性分析,并對不同方案所挖掘的結(jié)果進行比較、評價、選擇.

        圖2 Web文本挖掘流程圖Fig.2 Web text mining process chart

        1.2.3 文本特征提取中幾個構(gòu)造函數(shù)

        (1)信息增益.信息增益是依照文本的特征項在文本中出現(xiàn)頻次而推斷該特征項所包含的信息量,是用來衡量文本信息的一個屬性值標準.把文本特征用t表示,類別用c表示,目標文本類集用Ci表示,第i類出現(xiàn)的概率用表示為P(Ci),t出現(xiàn)與否的條件Ci下出現(xiàn)概率表示為則表示為P(Ci|t)和 P(Ci|).信息增益表示為:

        (2)互信息.表示變量之間的相互關(guān)聯(lián)度,即表示兩個變量的相關(guān)性,一個文本特征t相對于類別c的互信息表示為:

        (3)表示兩個變量之間的相關(guān)性,還可以用χ2統(tǒng)計,依然表示的是某個詞與某個類之間的關(guān)系,用P(t|C)表示文本中包含詞語t和屬于類c的概率,用P(t|ˉC)表示文本包含t和不屬于C的概率,對于C,t的χ2估計表示為:

        1.2.4 相似度[9]

        向量內(nèi)積公式為:

        三種相似度比較公式中,向量內(nèi)積是按照兩文本之間詞的相同個數(shù)量來判斷相似度,忽略文本中詞語之間的關(guān)聯(lián)關(guān)系,判斷效果不明顯;向量夾角余弦與量相似度與Jaccard相似度判斷效果基本一致,可以講結(jié)果歸入[0,1]范圍內(nèi),判斷效果明顯.

        2 基于Web文本挖掘的藥商興趣提取流程

        如圖3所示,基于Web文本挖掘的藥商興趣提取流程分為網(wǎng)站文本采集、文本處理、文本特征分析、文本特征提取、文本分類、文本聚類、挖掘結(jié)果處理等七個階段.

        圖3 基于Web文本挖掘的藥商興趣提取流程Fig.3 The druggist's interest extraction process based on the Web text mining

        2.1 文本采集

        圖4 網(wǎng)站訪問日志Fig.4 Network access log

        用戶興趣主要從網(wǎng)站日志文件、市場交易記錄數(shù)據(jù)庫、用戶注冊信息中提取,如圖2-2所示.

        ①網(wǎng)站日志文件是網(wǎng)站在運營過程中所產(chǎn)生的記錄性文件,其內(nèi)容包括訪問者IP地址、訪問者ID、訪問時間、離開時間、訪問次數(shù)、被訪問頁面地址等.對日志文件的采集主要是讀取訪問者IP地址、訪問者ID、停留時間、被訪問頁面主題、被訪問頁面內(nèi)容等,其中文本采集的主要內(nèi)容為訪問頁面主題、搜索關(guān)鍵詞、訪問頁面內(nèi)容文本.對注冊用戶主要以用戶ID來確定訪問者身份,對非注冊用戶主要通過訪問者IP地址來認定用戶身份.

        ②交易記錄數(shù)據(jù)庫記錄著買方ID、買方ID、藥材名稱、藥材產(chǎn)地、交易價格、交易數(shù)量、交易時間等信息.對交易記錄數(shù)據(jù)庫詞條的采集主要包括買方ID、買方ID、藥材名稱、藥材產(chǎn)地等,其中文本采集的主要對象為藥材名稱和藥材產(chǎn)地.

        ③用戶注冊信息包括用戶ID、用戶名、性別、所在地、電話、E-mail、感興趣中藥材品種、感興趣藥材信息、個人說明等.對注冊信息的數(shù)據(jù)采集包括用戶ID、用戶所在地、用戶興趣藥材種類、用戶興趣藥材信息、個人說明等,其中文本采集主要內(nèi)容為用戶所在地、用戶興趣藥材種類名稱、用戶興趣藥材信息文本、個人說明文本.

        2.2 文本預處理

        文本處理面對想對象是網(wǎng)頁主題、網(wǎng)頁內(nèi)容、中藥材名稱、中藥材介紹、中藥材分析等非結(jié)構(gòu)化信息,在對文本進行標示和提取前應進行詞匯分析,把對象中的文本轉(zhuǎn)換為詞,中文文本的分詞可以采用基于統(tǒng)計的分詞方法和基于詞庫的分詞方法,也可以兩者結(jié)合.

        (1)基于統(tǒng)計的分詞方法.是對詞的判斷,在一個預處理文本中,統(tǒng)計相鄰的兩個或兩個以上的字,在同一文本處理單元中出現(xiàn)的次數(shù),出現(xiàn)次數(shù)達到一定閥值,系統(tǒng)則認定為該字串為詞,則進行該詞的提取.一次進行,對文本單元中各達到閥值的字串進行提取,形成該文本單元的量化詞條.如,在產(chǎn)地信息白芍頁面中提取詞條為:{{上貨量,1},{增多,3},{理想,1}{價格,4},{保持,3},{交易價,5},{黑白芍,6}},若設(shè)置閥值為3,則該頁面的詞條為{增多,價格,保持,交易價,黑白芍}.

        (2)基于詞庫的分詞方法.首先應建立詞庫,對給定的文本單元,從第一個字開始把文本單元中的每一個字與詞庫中詞的字進行比較,當連續(xù)的兩個或兩個以上的字與詞庫中的某詞所有字相同時,則認為該連續(xù)字串與某次匹配,進行該詞的提取,依次重復進行.本系統(tǒng)的詞庫以中藥材名稱、中藥材價格屬性、中藥材介紹屬性、中藥材分析屬性等進行分類,如中藥材價格屬性詞庫為{元,斤,上漲,下調(diào),…,持平}.

        2.3 文本特征表示

        文本特征表示可以用布爾邏輯模型、概率模型、向量空間模型等,本系統(tǒng)采用向量空間模型(VSM)法,具體步驟為:

        (1)將文本看做一組詞條的集合,表示為(T1,T2,T3,…,Tn);

        (2)依據(jù)詞條在文檔中的出現(xiàn)頻次為集合中的每一詞條Ti賦予一個權(quán)值Wi,集合T的權(quán)值集合W可以表示為(W1,W2,W3,…,Wn);

        (3)該文本集合則映射為一個由詞條和權(quán)值組成的向量空間組合,每一個待挖掘文檔都可以表示為(T1,W1,T2,W2,T3,W3,…,Tn,Wn)的詞條特征矢量形式.

        2.4 文本特征提取

        文本的特征提取是對文本中出現(xiàn)詞條Ti及其權(quán)值Wi的選取,特征提取的單位是特征項,特征提取分為一般特征項和專業(yè)特征項.在藥商興趣信息提取中,一般特征項是某些出現(xiàn)頻次高的名詞,如{價格,銷售,上升,…,回落,產(chǎn)地};專有特征項主要為藥材名稱、銷售日期、數(shù)量數(shù)字、產(chǎn)地等,如{甘草,當歸,白芍,柴胡,…,2014-4-2,2014-4-5,…,50,98,,…,湖北利川市,貴州施秉縣,…}.文本特征項提取可以采用信息增益、互信息、χ2統(tǒng)計等構(gòu)造函數(shù):

        (1)信息增益.是用來衡量中藥材信息的一個屬性值標準.一種中藥材信息的信息增益值可以用公式(1-1)表示.

        (2)互信息.在本系統(tǒng)中,t表示藥材信息屬性,c則表示藥材類別;t表示藥材信息種類,c則表示藥材信息大類.則一個文本特征t相對于類別c的互信息可以用公式(1-2)計算.

        (3)χ2統(tǒng)計.用 t表示詞語,如中藥材名稱、價格、產(chǎn)地等信息;c可以表示中藥材大類、中藥材類別、中藥材屬性類別等.t的χ2估計表示為公式(1-3).

        2.5 文本分類

        方便用戶瀏覽文檔和簡化文檔查找,文本分類階段是按照既定分類模型,在文檔集合范圍內(nèi)為各文檔確立一個類別,文本分類分為建立分類模型和根據(jù)分類模型進行分類兩個階段:

        2.5.1 建立分類模型

        (1)設(shè)類別集合為C,集合中各層次為并列式,則有:

        (2)設(shè)訓練文檔集合為S,則有:

        (3)在S中提取各個文檔的特征矢量V(sj),然后確定代表C中各個類別的特征矢量V(ci).

        2.5.2 根據(jù)分類模型進行分類:

        (1)設(shè)測試文檔集為D,則有D=(d1,d2,d3,…,di-1,dk,dk+1,…,dk-1,dt),對 D中任何一個待分文檔dk計算V(dk)與V(ci)之間的相似度,用兩特征矢量之間的夾角余弦,表示為:

        2.6 文本聚類

        在該階段是把一組文本對象按照相似性歸納成相關(guān)類別,可以用K-緊鄰參照聚類法、基于概念的文本聚類、層次聚類法、平面劃分法、簡單貝葉斯聚類法等,本系統(tǒng)考慮到藥材種類與各屬性、藥材類別與各種類、用戶與屬性等之間關(guān)系,采用層次聚類法,具體過程為:

        對象文檔為 T,T 表示為{d1,d2,d3,…,di-1,di,di+1,…,dn}.

        (1)把給定文檔集合T中的每一個文檔di作為一個由一個單一成員的簇,即ci={di},這些單個成員的簇構(gòu)成T的一個聚類,表示為:C={c1,c2,c3,…,ci-1,ci,ci+1,…,cn};

        (2)逐次計算C中每對簇ci和cj之間的相似度:sim(ci,cj);

        (4)重復步驟①②③,直到C中僅剩下一個簇時結(jié)束.

        3 應用實例

        本文采用亳州藥通網(wǎng)2014年3月份網(wǎng)站日志、供求信息數(shù)據(jù)庫、用戶注冊信息作為挖掘?qū)ο?,采用SQLServer 2005中的SQL Server Business Intelligence Development Studio工具進行挖掘.部分實例如下:

        從中藥材信息網(wǎng)所采集的原始數(shù)據(jù)如表1所示,包括用戶IP地址、用戶ID、用戶訪問時間、用戶離開時間、訪問方式、訪問內(nèi)容、訪問頁面標題等.

        表1 中藥材網(wǎng)站用戶興趣提取來源Tab.1 Traditional Chinese Medicinal Materials that the user's interest extraction source

        如表2所示,為以用戶08005為檢索關(guān)鍵詞所得到的用戶訪問網(wǎng)站記錄,包括用戶IP地址、訪問網(wǎng)頁內(nèi)容、訪問時間、網(wǎng)頁名稱等內(nèi)容.

        表2 某用戶瀏覽網(wǎng)站記錄Tab.2 Some user's browsing the website record

        如表3,為文本分類階段后,各文本提取的中藥材名稱,及所屬中藥材大類對應表部分,其中包括每種中藥材所屬大類.

        表4為經(jīng)過文本聚類后,用戶與興趣所屬中藥材大類、中藥材屬性對應列表.其中包括用戶ID、中藥材大類、中藥材屬性等信息.

        表3 中藥材大類及中藥材種類對應Tab.3 The broad category of the Traditional Chinese Medicinal Materials and the comparison of the Traditional Chinese Medicinal Materials category

        表4 用戶興趣中藥材大類及屬性Tab.4 The user's interest the broad category of the Traditional Chinese Medicinal Materials and the nature

        4 結(jié)論

        Web文本的特征決定著文本的不確定性、歧義性和內(nèi)涵豐富性,從網(wǎng)站注冊信息、訪問日志、交易記錄數(shù)據(jù)庫中自動提取文本,并對文本進行分析,以文本特征標志用戶興趣,實現(xiàn)了用戶興趣評價,排除了認為評價用戶興趣的主觀性.本文借助文本挖掘流程,并改進文本挖掘流程,借助中藥材信息網(wǎng)數(shù)據(jù),實現(xiàn)了用戶興趣挖掘,為網(wǎng)站的個性化服務奠定了基礎(chǔ).

        [1]鄒臘梅,肖基毅,龔向堅.Web文本挖掘技術(shù)研究[J].情報雜志,2007,(2):53-55.

        [2]諶志群,張國煊.文本挖掘與中文文本挖掘模型研究[J].情報科學,2007,25(7):1046-1051.

        [3]Oren Etzioni.The world wide web:Quagmire or gold mine?[J].Communication of the ACM,1996,39(11):65-68.

        [4]袁軍鵬,朱東華,李毅,等.文本挖掘技術(shù)研究進展[J].計算機應用研究,2006,(2):1-4.

        [5]馬剛.基于語義的Web數(shù)據(jù)挖掘[M].大連:東北財經(jīng)大學出版社,2014.

        [6]蔣濤,張彬.一個集成Web語義和使用挖掘的個性化模型[J].長沙大學學報,2006,20(5):63-66.

        [7]王興起,王維才,謝宗曉,等.文本挖掘技術(shù)在信息安全風險評估系統(tǒng)中的應用研究[J].情報理論與實踐,2013,36(4):107-110.

        [8]王偉.基于語義挖掘的智能競爭情報系統(tǒng)研究[J].情報理論與實踐,2008,31(5):773-776.

        [9]劉恒文.基于網(wǎng)絡(luò)語義挖掘的輿情監(jiān)測預警研究[D].武漢:武漢理工大學,2010.

        猜你喜歡
        藥商中藥材文檔
        夏季中藥材田間管理做好這五點
        中藥材促農(nóng)增收
        有人一聲不吭向你扔了個文檔
        秦藥新生態(tài)之二 萬壽路的那些藥商
        當代陜西(2020年15期)2021-01-07 09:23:22
        宋四清:種植中藥材 托起致富夢
        基于RI碼計算的Word復制文檔鑒別
        DNA提取4種中藥材方法的篩選
        中成藥(2016年8期)2016-05-17 06:08:28
        Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
        天問
        中國儲運(2015年4期)2015-11-21 02:53:52
        安徽 蕪湖藥品零差率動“藥商奶酪”
        国产亚洲精品hd网站| 午夜视频一区二区三区四区| 穿着白丝啪啪的av网站| 毛片免费视频在线观看| 欧美大屁股xxxx| 国产在视频线精品视频www666| 日本一区二区三区小视频| 精品中文字幕久久久人妻| 麻豆精品国产av在线网址| 天美传媒一区二区| 久久九九有精品国产尤物 | 精品蜜桃在线观看一区二区三区| 国产精品一区二区三区专区| 无码人妻av一二区二区三区 | 女女同性黄网在线观看| 亚洲人成绝费网站色www| 日韩精品免费在线视频一区| 亚洲日韩欧美一区、二区| 麻豆精品久久久久久久99蜜桃| 麻豆精产国品| 中文字幕一区二区三区人妻精品| 熟女丝袜美腿亚洲一区二区三区| 日本午夜理论片在线观看| 国产三级在线观看完整版| 国产又黄又猛又粗又爽的a片动漫| 中文亚洲AV片在线观看无码| 中文字幕一区二区综合| 2018天天躁夜夜躁狠狠躁| 18禁美女裸身无遮挡免费网站| 亚洲AV无码国产成人久久强迫| 后入少妇免费在线观看| 国产suv精品一区二区四| 伊在人天堂亚洲香蕉精品区| 国产精品九九热| 美女被躁到高潮嗷嗷免费观看| 中文字幕隔壁人妻欲求不满| 亚洲色婷婷一区二区三区| 日日摸日日碰人妻无码老牲| 风流少妇一区二区三区91| 亚洲精品中文字幕乱码影院| 国产麻豆剧传媒精品国产av|