亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于認知廣度和深度的個性化信息檢索模型*

        2011-09-29 11:27:44郇秀花
        關(guān)鍵詞:認知結(jié)構(gòu)本體文檔

        鄒 海 ,郇秀花

        (1.教育部智能計算與信號處理重點實驗室,安徽 合肥 230039;2.安徽大學(xué) 計算機科學(xué)與技術(shù)學(xué)院,安徽 合肥 230039)

        隨著信息的急劇膨脹,人們希望借助信息檢索工具如搜索引擎來獲取自己需要的信息顯得尤為迫切。然而,傳統(tǒng)的基于關(guān)鍵詞匹配的信息檢索技術(shù)往往只是得到“千人一面”的檢索結(jié)果,難以理解用戶檢索目的和區(qū)別用戶的需求。造成這種情況的主要原因有兩方面:一是當前的互聯(lián)網(wǎng)不能恰當?shù)奶幚碚Z義;二是缺乏對用戶的理解。針對第一個原因,Tim Berners-Lee提出了語義Web(Semantic Web)的概念[1]。其引入了以本體(Ontology)來表示概念和語義關(guān)聯(lián)信息這一思想,來實現(xiàn)不同系統(tǒng)之間的信息共享,提高網(wǎng)絡(luò)服務(wù)的智能化與自動化。語義Web通過把當前Web上無序的信息變?yōu)橛行虻闹R,為解決數(shù)據(jù)管理有序性與Web上信息無序性相矛盾,搜索引擎的查全查準要求與數(shù)據(jù)缺乏語義相矛盾等問題指明了方向[2]。針對第二個原因,許多學(xué)者引入了用戶上下文信息,如用戶工作內(nèi)容、專業(yè)背景、興趣、愛好、生活習(xí)慣、經(jīng)驗、點擊反饋、用戶認知(Cognition)、理解水平等因素都屬于用戶上下文信息。這些上下文信息都是理解用戶個性化需求的關(guān)鍵信息。

        隨著語義Web的研究,人們紛紛在本體的基礎(chǔ)上對上下文信息進行分析和描述[3],這些研究具有以下特點:

        (1)研究對象僅僅只是用戶的興趣,缺乏從多角度對用戶個性化需求,如理解水平、認知結(jié)構(gòu)等的理解和挖掘。

        (2)分析只是集中于利用上下語義關(guān)系,缺乏精確的分析和表示。這些研究工作大都基于WordNet、dmoz ODP(Open Directory Project)之類的通用本體,只在概念間的父子關(guān)系基礎(chǔ)上進行分析,而不能從細粒度上對用戶的興趣進行精確分析和表示。

        (3)研究方法多集中在定性的分析,缺乏定量分析和描述。這些研究大部分從父子語義關(guān)系入手來描述用戶興趣范圍,缺乏對用戶興趣深度的描述和表示。如文獻[4]的正例/反例擴展向量和文獻[5]中的個性化層次樹,只要描述的關(guān)鍵詞相同,那么用戶的個性化模型也必然相同。

        心理學(xué)上認為,人們的興趣、認識和情感密切聯(lián)系。認識越深刻,情感就越豐富,興趣也就越濃厚。用戶的愛好、理解水平、表達等都和用戶認知結(jié)構(gòu)緊密相關(guān)[6]。因此,從用戶的認知結(jié)構(gòu)入手可以更好地理解用戶的個性化需求。尤其在專業(yè)領(lǐng)域范圍內(nèi),用戶的檢索目標往往和自身在該領(lǐng)域的認知結(jié)構(gòu)相適應(yīng)。

        受認知心理學(xué)上激活-擴散模型(spreading-activation model)的啟發(fā),本文提出了一種基于領(lǐng)域本體來描述用戶認知結(jié)構(gòu)的模型ObSAM(Ontology based Spreading-Activation Model)。激活-擴散模型是認知心理學(xué)領(lǐng)域里一種表征個體知識的模型,它認為個體內(nèi)部知識不是按照層次組織的,而是根據(jù)概念間的語義關(guān)系或者語義之間的距離來組織和表示的。當概念在用戶大腦里出現(xiàn)時,用戶語義記憶中相對應(yīng)的概念節(jié)點會被激活,被激活了的概念節(jié)點就開始擴散到其他的概念上,尤其會擴散到那些在語義上有緊密聯(lián)系的概念。根據(jù)這個模型,本文提出了用戶認知結(jié)構(gòu)模型,依據(jù)用戶給出的認知中心概念,一方面,根據(jù)領(lǐng)域本體中概念之間的語義相關(guān)性推導(dǎo)出用戶認知范圍;另一方面,通過概念之間的語義相關(guān)度刻畫出用戶認知深度,從這兩個方面描述用戶對某領(lǐng)域知識的認知結(jié)構(gòu)。

        1 激活-擴散模型

        1968年Quillian提出了最早的語義記憶模型。在這個模型中,他用type來描述概念,用 token描述詞語,用帶有標簽說明的激活擴散行為來描述兩個節(jié)點之間關(guān)聯(lián)時涉及到的中間節(jié)點。1975年Collins和Loftus最早提出了激活-擴散模型。他們認為個體內(nèi)部知識不是按層次組織的,而是根據(jù)語義關(guān)系或語義之間的距離來組織和表示的,并提出了描述人類認知的激活-擴散模型。

        激活-擴散模型認為,個體頭腦里所存儲的知識是一種組織巨大的概念網(wǎng)絡(luò),概念之間是通過語義關(guān)系相關(guān)聯(lián)。激活-擴散模型有兩個關(guān)于知識結(jié)構(gòu)的假設(shè):(1)連接節(jié)點的線段表示概念之間的聯(lián)系,連線越短,表明兩個概念之間的聯(lián)系越緊密;(2)語義的距離是知識組織的基本原則,即概念的內(nèi)涵是由它相關(guān)聯(lián)的其他概念,特別是聯(lián)系密切的概念來確定的。它認為,當概念出現(xiàn)時,認知中相應(yīng)的概念節(jié)點會被激活,被激活了的概念節(jié)點就開始擴散到其他的概念,特別是那些在語義上有緊密聯(lián)系的概念。而激活-擴散的遠近主要由以下因素決定:最初被激活節(jié)點的激活強度、從最初被激活的節(jié)點到目前節(jié)點的語義距離、擴散時間等。

        20世紀80年代,激活-擴散模型已經(jīng)被應(yīng)用到信息檢索領(lǐng)域,主要運用在文檔和詞匯查詢過程中用以擴展詞匯和文檔集。F.Crestani曾經(jīng)綜述了激活-擴散模型在信息檢索領(lǐng)域中的應(yīng)用,指出了激活-擴散模型中典型的四點約束:扇出約束、路徑約束、距離約束以及激活約束。本文試圖在信息檢索領(lǐng)域直接按照激活-擴散模型的本意來描述用戶的認知結(jié)構(gòu),并把它應(yīng)用到個性化信息檢索中。

        2 基于領(lǐng)域本體的認知模型

        2.1 基本定義

        定義1 領(lǐng)域本體:一個領(lǐng)域本體是關(guān)于領(lǐng)域知識的概念以及概念之間的關(guān)系集合,用二元組定義O={C,S},C表示概念的集合,S表示概念之間的語義關(guān)系集合。

        要構(gòu)建用戶的認知結(jié)構(gòu),需要用戶先給出若干個描述其認知結(jié)構(gòu)的中心概念。

        定義2 認知中心概念:由用戶u指定的,描述在該領(lǐng)域內(nèi)比較關(guān)注和掌握的領(lǐng)域本體概念,稱為用戶u認知中心概念。由用戶的認知中心概念構(gòu)成的集合被稱為用戶的認知中心Vu。

        定義3 概念認知深度 DOC(Degree Of Cognition):用戶u對概念Cj賦予一個數(shù)值DOCu(Cj),描述對該概念的掌握程度,0

        定義4基于領(lǐng)域本體的認知結(jié)構(gòu)模型ObSAM(Ontology based Spreading-Activation Model):給定一個領(lǐng)域本體 O={C,S},θ為用戶認知結(jié)構(gòu)擴展的閾值,Vu是用戶給定的認知中心,用戶u在領(lǐng)域本體上的認知結(jié)構(gòu)模型 ObSAM Ou={C′,S}定義如下:

        (1)C′={Ci|DOCu(Ci)≥θ}

        (2)S′={(Ci,Cj)|(Ci,Cj)∈S,Ci∈C′,Cj∈C′}

        2.2 語義相關(guān)度

        由于ObSAM模型中,需要根據(jù)概念之間的語義相關(guān)度刻畫用戶的認知深度,下面引出關(guān)于本體中語義關(guān)系和語義相關(guān)度的形式化定義。

        (1)語義等價關(guān)系:如果x被定義為y的owl:equivalentClass,則稱 x和 y語義等價,表示為 x≡y或y≡x。

        owl:equivalentClass意味著兩個概念有相同的概念外延(即它們包括同樣的實例集合)。

        (2)語義父子關(guān)系:若x被定義為y的rdfs:subClassOf,則表示 x被y語義包含,忽略概念包含它自身的情況,表示為 x?y。

        rdfs:subClassOf意味著屬于x概念外延實例的集合是y概念外延的實例集合的子集。

        (3)若 x被定 義為 y的 owl:ObjectProperty或 rdf:Property,則稱 x和 y語義關(guān)聯(lián),表示為 y∝x。

        Owl:ObjectProperty或 rdf:Property表示 x和 y通過屬性關(guān)聯(lián),其中x是域概念,y是范圍概念。

        (4)語義相關(guān)度(DSA):如果領(lǐng)域本體中從概念 x到概念y存在一種語義關(guān)系r,則存在一條從概念x到概念y的有向邊,并且定義wx(y;r)為這條邊上的權(quán)值,它表示概念x經(jīng)r語義關(guān)系到概念y的語義關(guān)聯(lián)程度。

        根據(jù)本體上兩個相鄰概念之間的語義關(guān)系,給出MDSA(Macro Degree of Semantic Association): 領(lǐng) 域 本 體中任意概念之間的語義相關(guān)度。定義如下:

        其中,Ci==Cj表示Ci和 Cj是同一個概念。根據(jù)式(1),對間接相鄰的概念 Cj和 Ci,若 Cj到 Ci只有一條同向可達的路徑,則路徑上的語義相關(guān)度乘積便為從Cj到Ci的語義相關(guān)度;若Cj到Ci有多條同向可達的路徑,則路徑上的最大MDSA便為從Cj到Ci的語義相關(guān)度;若Cj到 Ci不存在同向可達的路徑,則Cj到 Ci的語義相關(guān)度為0。

        2.3 基本思想

        由于用戶指定的認知中心概念數(shù)目不會太多,所以用戶可以給出每個認知中心概念的認知深度。設(shè)用戶為認知中心概念指定的概念認知深度為 λi,0≤λi≤1。 但是用戶不能給出所有概念的認知深度,下面給出用戶u對任意概念Ci的概念認知深度:

        認知中心概念是由用戶指定的,它相對應(yīng)的概念認知深度也是由用戶給定的。對領(lǐng)域本體中其他的概念,通過式(2)推導(dǎo)出用戶對這些概念的認知深度,即概念認知深度是隨著它們和認知中心概念關(guān)聯(lián)強度的變化而變化。這種推導(dǎo)方式來源于認知心理學(xué)中的激活-擴散模型,即激活擴散的遠近一般由最初被激活節(jié)點的激活強度、從最初被激活的節(jié)點到目的節(jié)點的相關(guān)程度等因素影響。

        對用戶給定一個深度閾值 θ,0≤θ≤1,并且 0≤θ≤min(λi)(其中 λi為用戶對認知中心概念 Ci給定的概念認知深度)。以用戶的認知中心Vu為中心,可以依據(jù)概念相關(guān)度在領(lǐng)域本體內(nèi)進行概念擴展,形成用戶認知結(jié)構(gòu)模型ObSAM,ObSAM從廣度和深度兩個方面描述出用戶在對領(lǐng)域知識的認知程度。

        例如,假設(shè)用戶u給出認知中心概念為(經(jīng)濟危機,金融危機),給定相應(yīng)的認知深度為(1,0.9),指定的深度閾值為0.5。結(jié)果在生成的ObSAM中,共有概念為15個(包括2個認知中心概念)。圖1顯示了該用戶關(guān)于經(jīng)濟方面的認知結(jié)構(gòu)。

        圖1 用戶的認知結(jié)構(gòu)

        根據(jù)認知心理學(xué)上的激活-擴散模型,基于對領(lǐng)域本體精確豐富的語義關(guān)系的分析和利用,ObSAM從深度和廣度入手描述了用戶對領(lǐng)域知識的認知結(jié)構(gòu)。傳統(tǒng)關(guān)鍵詞列表在描述用戶個性化需求時,缺乏從完整的體系中考慮并利用關(guān)鍵詞之間的語義相關(guān)性,因此不能準確地定性分析;而近年來發(fā)展的基于本體用戶個性化表示方式,往往是基于大型的概念層次結(jié)構(gòu)如WordNet、Yahoo!等,一方面缺乏對語義關(guān)系的精細分析與利用,另一方面由于過于龐大而很難從定量的角度分析利用。利用ObSAM描述用戶個性化需求,一方面從領(lǐng)域知識定性的角度分析用戶對領(lǐng)域知識的認知范圍,另一方面從定量角度分析用戶對領(lǐng)域知識的概念認知深度。表1中列出了ObSAM和其他表示方式的異同。

        表1 ObSAM和其他模型的比較

        3 實驗

        3.1 實驗設(shè)置

        為了表現(xiàn)出在領(lǐng)域本體上構(gòu)建模型ObSAM比通用本體有優(yōu)勢,實驗中采用了2個本體進行對比,一個是通用本體WordNet,另一個是經(jīng)濟學(xué)領(lǐng)域本體EO(economic ontology)(假設(shè)該領(lǐng)域本體包含所有的經(jīng)濟領(lǐng)域詞匯)。WordNet的讀取采用了SourceForge開放源碼社區(qū) 提 供 的 JWNL接 口(http://sourceforge.net/projects/jwordnet);EO是NSFC資助項目 “通用網(wǎng)上知識編輯器及示范主題語義網(wǎng)研究”的一部分成果,基本包含了經(jīng)濟學(xué)領(lǐng)域的重要概念和關(guān)系。

        對應(yīng)于兩種不同的本體,相應(yīng)采用的測試數(shù)據(jù)集是:一個是美國國家標準技術(shù)局NIST(National Institute of Standards and Technology)與2004年公開發(fā)布的TREC2001 Filtering Track中使用的 REuters數(shù)據(jù)集(http://www.jmlr.org/papers/volume5/lewis04a/lyrl2004_rcv1v2_README.htm),另一個是中國人民大學(xué)數(shù)字圖書館個性化服務(wù)系統(tǒng)DLPers V2.0中的數(shù)字資源作為測試數(shù)據(jù)集。

        3.2 實驗評測標準和實驗結(jié)果分析

        實驗主要從查詢準確率方面進行評價,查準率采用Precision@n和AP@k來衡量。Precision@n是前n個結(jié)果文檔中查詢準確率,用來衡量大多數(shù)用戶關(guān)注的前n個結(jié)果文檔的準確率。AP@k用來衡量前n個結(jié)果文檔中相關(guān)文檔的排序情況。Precision@n和AP@k在一起能更全面對top-k檢索結(jié)果進行評價,因為大多數(shù)用戶習(xí)慣在檢索過程中主要關(guān)注top-k檢索結(jié)果[7]。

        Precision@n的計算方式是:Precision@n=#of relevant docs in top-n retrieved/n,其中n表示前n個結(jié)果文檔;AP的計算方式是:其中,r表示前 k個結(jié)果文檔中相關(guān)文檔的個數(shù),j表示前k個結(jié)果文檔中第j個文檔;rankj表示第j個相關(guān)文檔在結(jié)果文檔中的排序。通常用戶只關(guān)注前20個檢索結(jié)果,這里取n=k=20。實驗結(jié)果如表2所示。

        表2 兩種本體上的查詢準確率對比

        本文以認知心理學(xué)上的“激活-擴散模型”為基礎(chǔ),提出了一種基于用戶認知結(jié)構(gòu)的ObSAM模型。它具有以下優(yōu)點:(1)它是基于領(lǐng)域本體而不是通用本體。由于人類知識的構(gòu)建本身是分領(lǐng)域進行的,所以基于領(lǐng)域本體更有利于表達用戶的認知結(jié)構(gòu),可以提供更精確和細致的分析。(2)基于概念之間的概念相關(guān)度來合理刻畫出用戶的認知深度,對用戶的個性化需求增加了定量分析,從認知廣度和認知深度兩個方面,加深對用戶個性化需求的理解。

        [1]Berners-Lee T, Hendler J, Lassila O.The Semantic Web-A New Form Of Web Content That is Meaningful to Computers Will Unleash a Revolution of New Possibilities[J].Scientific American, 2001, 284(5):34-43.

        [2]Berners-Lee T,Hendler J.Publishing On The Semantic Web-the Coming Internet Revolution Will Profoundly Affect Scientific Information[J].Nature 2001,410(6832):1023-1024.

        [3]Middleton S, Shadbolt N, De Roure D.Ontological user profiling in recommender systems[J].ACM Transactions on Information Systems 2004,22(1):54-88.

        [4]Sieg A, Mobasher B, Burke R, et al.Representing User Information Context with Ontologies[C].In:Proceedings of 11thInternational Conference on Human-Computer Interaction(HCII2005); Las Vegas, Nevada, USA,2005.

        [5]Chaffee J, Gauch S. Personal Ontologies for Web Navigation[C].In:Proceedings of the ninth international conference on Information and knowledge management;McLean,Va.,USA,2000, P.227-234.

        [6]梁寧建.當代認知心理學(xué)[M].上海:上海教育出版社,2003.

        [7]田萱,杜小勇,李海華.語義查詢擴展中詞語-概念相關(guān)度的計算[J],軟件學(xué)報,2008,19(8):2043-2053.

        猜你喜歡
        認知結(jié)構(gòu)本體文檔
        Abstracts and Key Words
        有人一聲不吭向你扔了個文檔
        對姜夔自度曲音樂本體的現(xiàn)代解讀
        負遷移與語文認知結(jié)構(gòu)的“千絲萬縷”
        教育(2017年41期)2017-11-19 15:59:52
        構(gòu)建認知結(jié)構(gòu)培養(yǎng)解題能力
        教育(2017年30期)2017-08-31 06:19:33
        基于RI碼計算的Word復(fù)制文檔鑒別
        托馬斯·阿奎那的人類認知結(jié)構(gòu)
        《我應(yīng)該感到自豪才對》的本體性教學(xué)內(nèi)容及啟示
        Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
        Care about the virtue moral education
        卷宗(2013年6期)2013-10-21 21:07:52
        丁香婷婷在线成人播放视频| 久热re在线视频精品免费| 婷婷开心五月综合基地| 亚洲av成人一区二区| 国模冰莲自慰肥美胞极品人体图| 国产乱子乱人伦电影在线观看| 亚洲 无码 制服 丝袜 自拍| 日本顶级片一区二区三区| 国产一区二区三区精品免费av| 女人被男人躁得好爽免费视频| 亚洲美女影院| 亚洲中文有码一区二区| 最新国产不卡在线视频| a级毛片免费完整视频| 国产亚洲精品bt天堂| 中文字幕一区二区三区在线乱码| 日本a级特级黄色免费| 在熟睡夫面前侵犯我在线播放| 欧美中文在线观看| 日本高清一区二区三区色| 欧美乱妇高清无乱码免费| 一区二区三区国产亚洲网站| 亚洲国产精品久久九色| 久久精品人妻一区二三区| 丰满少妇作爱视频免费观看| 236宅宅理论片免费| 国产对白刺激在线观看| 亚洲精品国产一区二区免费视频| 女人被狂躁c到高潮视频| 色窝窝在线无码中文| 成人黄网站免费永久在线观看 | 无码AⅤ最新av无码专区| 日韩少妇人妻精品中文字幕| 国产白嫩护士被弄高潮| 亚洲人成网站在线播放观看| 大红酸枝极品老料颜色| 亚洲人成网站18禁止| 亚洲爱婷婷色婷婷五月| 中文字幕亚洲精品人妻| 亚洲精品第一页在线观看 | 国产午夜影视大全免费观看|