亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于標簽聚類的電子商務網站分類目錄改善研究

        2012-04-29 00:44:03張紅甘利人薛春香
        現(xiàn)代情報 2012年1期

        張紅 甘利人 薛春香

        〔摘 要〕本研究針對電子商務網站用戶對商品概念認知與網站實際分類目錄不匹配,導致檢索效率低下的問題,提出了基于用戶標簽的電子商務網站分類目錄改善方案,即將用戶標簽進行多層聚類,將聚類結果以層級結構的形式展示,并實現(xiàn)標簽聚類結果和網站分類目錄的映射,從而提高電子商務網站的分類檢索效率和分類導航性能。

        〔關鍵詞〕網站分類目錄;用戶標簽;標簽聚類;標簽映射

        DOI:10.3969/j.issn.1008-0821.2012.01.001

        〔中圖分類號〕G250.7 〔文獻標識碼〕A 〔文章編號〕1008-0821(2012)01-0003-05

        Research on the Improvement to Categories of

        E-commerce Sites Based on Tag ClusteringZhang Hong Gan Liren Xue Chunxiang

        (School of Economics and Management,Nanjing University of Science and Technology,Nanjing 210094,China)

        〔Abstract〕The study proposed a method to improve the categories of e-commerce site which based on tags to solve the problem of users concept does not match the actual categories.The method is that making the user tags clustered,then making the clustering results in the form of hierarchy,and mapping it to web site categories to improve e-commerce sites categories search efficiency and category navigation performance.

        〔Key words〕web site categories;user tags;tag clustering;tag mapping

        南京理工大學信息管理系用戶行為課題組2009年曾做過一項調查發(fā)現(xiàn):在電子商務網站中,有近80%的用戶傾向使用網站分類目錄來查找商品,但有部分用戶通過網站分類目錄查找不到指定的商品或用時過長(超過3分鐘)。由此可見,當前電子商務網站的商品分類目錄面臨著一個突出問題,即用戶對商品的概念認知與網站實際分類架構組織體系的不匹配。其實質是一種用戶心智模型與網站分類架構師心智模型差異的體現(xiàn)[1],這種差異無疑會在很大程度上增加用戶對網站分類的認知負荷,從而降低網站信息傳遞效率。因此基于用戶認知來探索網站分類目錄改善的可能途徑就變得十分有意義。

        目前基于用戶認知的網站分類目錄改善思路主要有以下兩個方向:一是依據(jù)用戶認知改善并調整網站現(xiàn)有分類目錄,比如對產品進行多重歸屬。但是用戶需求總是處在不斷變化中,直接依據(jù)用戶需求調整網站分類目錄會為網站后臺分類目錄動態(tài)調整帶來很大的壓力和工作量。因此,有學者提出第二條思路,即直接按照用戶認知來構建“商品分類目錄”。用戶標簽就是當下在網絡環(huán)境中用戶認知和用戶參與的一個重要體現(xiàn),這也是本研究采用的主要思路。

        1 研究背景

        1.1 相關概念

        早在1998年美國人約舒亞?沙科特(Joshua Schachter)就提出了用戶標簽(Tag)這一概念。為方便檢索和信息管理,由網絡信息的提供者或者用戶自發(fā)為某類信息賦予一定數(shù)量的標識,這種標識就稱為用戶標簽[2]。它顯著的特點就是用戶可根據(jù)自己的認知、理解與想法,以自由詞匯作為標簽對資源進行組織和利用[3]。

        伴隨用戶標簽發(fā)展的是一種新型的網站信息組織方式——folksonomy(公眾分類法)。它的基本思想是:根據(jù)標簽被使用的頻次,選用高頻標簽作為該類信息類名的一種網絡信息分類方法。與一般分類方法不同的是,它向社群參與者提供一種協(xié)同構建與共享各自網絡資源標簽的開放式平臺,通過用戶自身制定分類標準和提交標簽來實現(xiàn)[4]。但由于標簽是由不同用戶根據(jù)自己的理解提出的,因此隨意性大,與網站一般分類目錄相比科學性明顯不足。所以用戶標簽與網站一般分類目錄的關系不應該是相互替代或是并行,在后期探討網站分類目錄改善方案中,可以在充分考慮用戶心智模型的基礎上兼顧網站建設的科學性,將兩者予以整合。

        1.2 基于用戶標簽的電子商務網站分類改善研究現(xiàn)狀

        目前,一些電子商務網站開始采用公眾分類法為用戶提供標簽服務。本研究在對著名電子商務網站——亞馬遜和淘寶網的考察中發(fā)現(xiàn):用戶標簽在電子商務網站中的主要功能是通過標簽云圖的形式為用戶提供商品推薦,同時方便用戶查找其他具有相同特性的商品,并對自己感興趣的商品進行組織。在這些網站中,標簽云圖與網站一般分類目錄形成了兩大并行體系,其目的都是為了方便用戶檢索相關產品。

        可以說與電子商務網站一般分類目錄相比,網站使用標簽云圖為用戶展示熱門商品已經完全考慮到了用戶的心智模型,且標簽管理也已相當成熟,但是當下的標簽云圖仍存在很多的問題:(1)用戶標簽所組成的類目是非等級平面結構,難以揭示信息之間復雜的關系。(2)缺乏對語義尤其是同義詞的控制。(3)通過標簽云圖檢索到的產品不是五花八門就是不夠全面。

        對此,國內外學者提出了一些改進措施,試圖改善電子商務網站中標簽云圖存在的不足。Heymann P等人提出將大量的標簽轉化為可導航的層次結構的分類目。將標簽按其所標注的資源的次數(shù)表示成向量的形式,同時用余弦相似性計算得到標簽的相似圖,最后得到潛在層級的分類法[5]。國內也有學者提出可以通過標簽聚類技術,將標簽進行層級處理。西安電子科技大學的竇永香等利用著名的Porter算法對英文標簽進行詞根提取,然后根據(jù)用戶的精確度要求對相關標簽進行聚類[6]。廣東商學院的王翠英在對標簽進行共現(xiàn)分析的基礎上,提出基于共現(xiàn)信息的標簽聚類算法[7]。此外,武漢大學的曹高輝等提出通過凝聚式層次聚類算法,利用相關標簽的權重,計算標簽之間的相關度,從而實現(xiàn)標簽聚類[8]。

        對于目前基于用戶標簽的電子商務網站改善方案,研究大多集中在標簽聚類的問題上,由于在實際復雜的電子商務網站中,無論是用戶、標簽還是資源都是海量的,這導致了用戶標簽的隨意性和不科學性,也給基于用戶標簽的電子商務網站分類目錄改善從理論走向實際應用帶來了許多困難。此外,對于用戶而言僅依靠用戶標簽和標簽云圖是無法滿足網站分類搜索這一需求的,而當前的改善思路很少考慮到將網站一般分類目錄與標簽云圖整合起來研究。

        本研究嘗試利用網站現(xiàn)有分類目錄的科學性,同時考慮用戶的心智模型,在用戶標簽聚類的基礎上,將網站一般分類目錄與用戶標簽系統(tǒng)兩者進行有機結合,從而改善電子商務網站分類目錄的現(xiàn)狀。

        2 基于用戶標簽的電子商務網站分類目錄改善方案設計

        本研究擬采用如下方法來改善電子商務網站分類目錄:對基于用戶認知所提出的標簽進行聚類,形成具有層級關系可導航的標簽云圖,同時在網站現(xiàn)有分類目錄與具有層級關系的標簽云圖之間建立映射,使用戶可以直接依據(jù)用戶標簽云圖實現(xiàn)商品的分類搜索。整個系統(tǒng)實現(xiàn)思路包括:標簽預處理、標簽聚類、標簽與網站分類映射3個部分,如圖1所示。

        2.1 標簽預處理

        主要目的是通過構建同義詞表來達到同義詞控制。

        2.2 標簽聚類

        通過對用戶標簽同義詞的控制,我們提出了對用戶標簽進行層級聚類的構想。標簽聚類基本思想是通過對用戶標簽數(shù)據(jù)的詞頻統(tǒng)計以及共現(xiàn)分析(與tag璱共現(xiàn)次數(shù)最多的tag璲被認為與tag璱強相關),將用戶標簽聚類成一個符合用戶個人認知習慣的商品分類體系。根據(jù)該思想,標簽的聚類過程如圖2所示:

        圖2 標簽聚類流程圖

        2.3 標簽映射

        主要目的是將用戶標簽聚類結果與網站現(xiàn)有分類目錄之間建立映射關系,通過點擊標簽云圖上的用戶標簽能夠迅速定位到網站現(xiàn)有分類目錄相應類別上。具體用戶標簽映射實現(xiàn)思路如圖3所示。

        圖3 用戶標簽映射網站分類目錄算法

        3 實驗驗證與系統(tǒng)實現(xiàn)

        在上文論述的基于用戶標簽電子商務網站分類改善總體方案設計的基礎上,本研究還模擬了實際用戶對商品添加標簽的情景,進行實驗探索。

        3.1 實驗設計

        由于不同用戶背景、知識、經驗各不相同,導致添加標簽的結果存在一定差異。因此本研究選取了經管院和計算機院大三和大四2個年級共188名學生參與我們的實驗。由被試對本實驗中提出的4種商品(本實驗主要指定了電子詞典和U盤類目下的4種具體產品,分別是“諾亞舟NH6080電子詞典”、“名人牛津搜索王”、“金士頓U盤”、“憶捷優(yōu)盤U5”)進行標注,分別提交3個標簽。

        實驗共回收有效問卷185份,涉及到的標簽概念355個。將用戶提交的標簽輸入到專門為本實驗模擬建立的電子商務網站用戶標簽平臺上。如圖4所示:

        圖4 電子商務網站用戶標簽添加實驗平臺

        3.2 用戶標簽預處理實驗探索

        本研究從實驗標簽集合中隨機抽取142個概念作為建立同義詞表的數(shù)據(jù)集。按照一定的同義詞表構建依據(jù),手工構建同義詞表,并選用同義詞組中使用頻次較高的詞作為標準詞。然后通過設計計算機程序利用字面匹配和字面相似度計算的方法,將用戶標簽與同義詞表中的詞進行匹配,并用標準詞對該標簽進行表征。

        3.3 用戶標簽聚類實驗探索

        在用戶標簽預處理的基礎上,本研究通過計算機編程嘗試實現(xiàn)用戶標簽的層級聚類。具體標簽聚類步驟如下:

        3.3.1 將每個商品下的標簽進行聚類,取出使用頻次最高的標簽作為初始的聚類中心

        例如產品“名人牛津搜索王”的所有標簽中,“名人”的使用頻次最高,“名人”就是該商品的聚類中心。

        3.3.2 將從屬于每個聚類中心點的最底層標簽進行兩兩相似度判斷

        相似度判斷依據(jù)有兩點:首先,根據(jù)兩聚類中心的最底層標簽的字面匹配度來確定聚類中心是否相似。其次,根據(jù)最底層相似的個數(shù),如果兩聚類中心下相似標簽的個數(shù)達到一定的閾值,那么這兩聚類中心所代表的商品即為同類商品,它們會有一個共同的上層目錄(父目錄)。

        3.3.3 上層目錄(父目錄)的確定

        我們結合兩個方面來確定上層目錄:該標簽在同類商品中出現(xiàn)的概率,以及在每個商品中出現(xiàn)的頻次。對于同類商品,標簽A都被標注或標注的概率很大,且出現(xiàn)的頻次非常高,通過權重計算,我們可以判定A是該同類商品的上層目錄。例如,對于“諾亞舟NH6080電子詞典”以及它的同類商品“商品A“商品B”“商品C”……來說,標簽“電子產品”“電子詞典”在上述4中產品中出現(xiàn)的頻率非常高(分別為75%、100%),且使用頻次也比較大(分別為65次、70次)。經過權重計算,最終結果是電子詞典>電子產品,那么電子詞典就是該同類商品的共同上層目錄。按該方法繼續(xù)由下往上聚類,即可形成多層類目體系。

        按照上述算法步驟,最終程序實現(xiàn)聚類效果如圖5所示。圖5 用戶標簽聚類結果界面

        3.4 用戶標簽映射實驗探索

        按照上節(jié)標簽映射的基本思想,我們按照一定的映射規(guī)則將用戶標簽聚類結果與網站現(xiàn)有分類目錄之間建立了映射關系。實驗中具體實現(xiàn)步驟是:

        3.4.1 建立標簽樹

        根據(jù)網站自身分類目錄和標簽聚類結果分別建立網站分類目錄樹(如圖6)和聚類標簽樹(如圖7)。其中聚類結果將以具有層級結構樹狀結構(僅顯示兩層結構)在云圖中展現(xiàn)。

        電腦產品電子詞典存儲產品諾亞舟名 人金士頓憶 捷圖6 網站分類目錄樹樣圖

        子電子詞典存儲設備諾亞舟名 人金士頓憶 捷圖7 聚類結果標簽樹樣圖

        3.4.2 建立映射規(guī)則

        我們將兩個樹中的每一個目錄標簽作為一個實體,建立了4條映射規(guī)則。①如果描述兩個數(shù)據(jù)項語義的語義樹(就是它所處的目錄列別的層級以及其子孫節(jié)點,兄弟節(jié)點,父親節(jié)點)完全相同,則兩個數(shù)據(jù)項語義相等,可直接映射,即實體間的一對一映射(如我們實驗網站用戶標簽層級結構下的“電子詞典”到網站分類目錄下“電子詞典”的映射)。②標簽通常被人們用來作為實體的惟一標識(名字),因此若待比較的兩個實體的標簽相等,則認為兩實體相等。③同樣地,若兩個待比較實體擁有相同的URI(即層級目錄中所指的相對應的商品展示頁面相同),則認為兩實體相等。④擁有相同實例的兩個實體,被認為相等。

        3.4.3 標簽映射

        在聚類效果達到比較好的基礎上,參照上述映射規(guī)則,我們分別采用字面匹配的方法計算兩棵樹中的各節(jié)點(父節(jié)點、子孫節(jié)點)的相似程度,相似度最大的作為其在另一棵樹中的映射節(jié)點,例如:當用戶在用戶標簽分類目錄中選擇“U盤”這一標簽時,系統(tǒng)通過對標簽分類體系中“U盤”目錄的父節(jié)點和子孫節(jié)點標簽所對應的具體商品進行統(tǒng)計,發(fā)現(xiàn)這些商品在網站傳統(tǒng)分類目錄中屬于“電腦產品”目錄下的“存儲產品”目錄,那么就可將用戶標簽分類目錄中“U盤”與網站分類體系中“存儲產品”目錄相映射。當用戶點擊標簽“U盤”時,其返回的結果為網站分類體系中“存儲產品”目錄下的產品。

        本研究最終希望達到的效果是:實驗建立一個電子商務用戶標簽平臺,實現(xiàn)標注功能,標簽聚類結果以層級結構(兩層)的形式作為用戶構建的“商品目錄”展示在標簽云圖上,并實現(xiàn)標簽聚類結果和網站一般分類目錄的映射,從而改善電子商務網站檢索效果。最終程序實現(xiàn)映射效果如圖8:圖8 用戶標簽與網站分類目錄映射效果圖

        4 結 語

        本研究提出了一種基于用戶標簽聚類的電子商務網站分類目錄改善方案,并通過實驗驗證了在電子商務平臺上該方案的可行性。但是由于時間和人力有限,本研究在實驗驗證中只選取了4種產品、3個層級、2類產品,這與電子商務網站實際情況還存在很大差距。尤其是在真實情境下,面對大規(guī)模用戶標簽以及成千上萬種商品時用戶標簽如何進行更好的語義控制、產品邊界概念如何界定、標簽云圖展示哪些標簽及如何合理的分布等問題還有待進一步研究。

        參考文獻

        [1]朱晶晶.電子商務網站分類體系理解的用戶心智模型研究[D].南京理工大學,2010.

        [2]Thomas Vander Wal.Folksonomy Explanations[EB/OL].http:∥www.vanderwal.Net/random/entrysel.php?blog=1622,2006-11-02.

        [3]樂慶玲.基于協(xié)同機制的Tag資源自動分類研究[J].現(xiàn)代圖書情報技術,2007,155(9):58-61.

        [4]周榮庭,鄭彬.公眾分類:網絡時代的新型信息分類方法[J].現(xiàn)代圖書情報技術,2006,(3):72-75.

        [5]Heymann P,Garcia-MolinayH.Collaborative creation of communal hierarchical taxonomies in social Tagging systems[R].Technical Report Info-Lab.Department of Computer Science,Stanford:StanfordUniversity,2006.

        [6]竇永香,蘇山佳,趙捧未.基于Porter算法的英文標簽聚類方法研究[J].現(xiàn)代圖書情報技術,2009,(9):40-44.

        [7]王翠英(編譯).標簽的聚類分析研究[J].現(xiàn)代圖書情報技術,2008,(5):67-71.

        [8]曹高輝,焦玉英,成全.基于凝聚式層次聚類算法的標簽聚類研究[J].現(xiàn)代圖書情報技術,2008,(4):67-71.

        亚洲av日韩aⅴ无码电影| 日本一区二区三级在线观看| 91久久精品国产综合另类专区| 大肉大捧一进一出好爽视频动漫| 尤物在线精品视频| 亚洲中文字幕无码永久在线| 成人欧美在线视频| 91日本在线精品高清观看| 国产精品成人久久a级片| 不卡视频在线观看网站| 337p日本欧洲亚洲大胆色噜噜| 国产免费一区二区三区免费视频 | 国模无码一区二区三区| 亚洲色欲色欲www在线播放| 青草热久精品视频在线观看| 国产成人精品无码一区二区老年人 | 国产亚洲精品久久久ai换| 婷婷丁香社区| 久久久9色精品国产一区二区三区 国产三级黄色片子看曰逼大片 | 天堂一区人妻无码| 亚洲综合伦理| 精品国产乱子伦一区二区三| 久久婷婷国产综合精品| 国产精品久久久久久久妇| 国产成人无码精品午夜福利a| 国产艳妇av在线出轨| 一区二区三区熟妇人妻18| 久久亚洲中文字幕精品二区| 国产极品粉嫩福利姬萌白酱| 天天天天躁天天爱天天碰2018| 精品亚洲aⅴ在线观看| 99精品视频69v精品视频免费| 美女被搞在线观看一区二区三区 | 色av综合av综合无码网站| 久久婷婷色香五月综合激情| 中文字幕一区二区三区97| 成人av一区二区三区四区| 色噜噜亚洲男人的天堂| 中国国语毛片免费观看视频| 日本午夜精品理论片A级APP发布| 国产av大片在线观看|