亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

時態(tài)信息的語義抽取與排序方法研究及系統(tǒng)實現(xiàn)*

2014-09-13 12:44:11舒忠梅左亞堯張祖?zhèn)?/span>

計算機工程與科學 2014年8期

關鍵詞：搜索引擎時態(tài)表達式

舒忠梅,左亞堯,張祖?zhèn)?/p>

(1.中山大學教育學院，廣東廣州 510275；2.廣東工業(yè)大學計算機學院，廣東廣州 510006)

時態(tài)信息的語義抽取與排序方法研究及系統(tǒng)實現(xiàn)*

舒忠梅1,左亞堯2,張祖?zhèn)?

(1.中山大學教育學院，廣東廣州 510275；2.廣東工業(yè)大學計算機學院，廣東廣州 510006)

針對通用搜索引擎缺乏對網頁內容的時態(tài)表達式的準確抽取及語義查詢支持，提出時態(tài)語義相關度算法(TSRR)。在通用搜索引擎基礎上添加了時態(tài)信息抽取和時態(tài)信息排序功能，通過引入時態(tài)正則表達式規(guī)則，抽取查詢關鍵詞和網頁文檔中的時態(tài)點或時態(tài)區(qū)間等時態(tài)表達式，綜合計算網頁內容的文本相關度和時態(tài)語義相關度，從而得到網頁的最終排序評分。實驗表明，應用TSRR算法可以準確而有效地匹配與時態(tài)表達式相關的關鍵詞查詢。

時態(tài)語義；信息抽?。慌判?；搜索引擎

1 引言

在互聯(lián)網技術迅猛發(fā)展的今天，網絡信息成幾何倍數(shù)遞增，百度、Google、Bing等搜索引擎工具為人們在網上查找信息提供了便捷。時間是信息的重要屬性之一，許多網頁的內容與時態(tài)信息密切相關，如新聞報道、出版信息、網店商品折扣等。用戶常常需要根據時態(tài)檢索請求準確地找到相應的網頁，因此時態(tài)信息是搜索引擎系統(tǒng)必須考慮的重要因素之一。

學者們逐漸開始關注時態(tài)給Web信息處理帶來的問題，Alonso O等[1]從時態(tài)信息的意義出發(fā)，認為將抽取出的時態(tài)信息應用于當前的搜索引擎，將會大大提升搜索引擎產品的性能，肯定了時態(tài)信息在檢索領域的研究意義。Whiting S、Choi J等學者[2,3]從Web頁面的發(fā)布時間或最后更新時間進行研究，嘗試將時態(tài)偽關聯(lián)反饋應用到微博檢索，分別基于提取出的前N個關聯(lián)反饋的時態(tài)配置文件和用戶行為，通過偽關聯(lián)反饋改進初始檢索，以提升檢索的有效性，但是缺乏對網頁內容的時態(tài)語義檢索支持。因此，Strotgen J、Kuzey E、Dakka W等學者[4～6]從Web頁面內容中抽取時態(tài)信息，Strotgen J、Kuzey E[4,5]分別通過函數(shù)計算和時態(tài)本體構建方式，探索了識別文檔中高相關時態(tài)表達式和從維基百科中抽取時態(tài)信息的方法；Dakka W等人[6]提出了一個自動檢索文本中用戶感興趣的時間點或時態(tài)區(qū)間的通用框架；而Kage T等[7]則探討了時間粒度限制在小時級別的一個商用的時間搜索系統(tǒng)，但不支持如“圣誕節(jié)”、“國慶節(jié)”這類具體時間的查詢。

另一方面，學者們希望搜索引擎不僅能夠意識到嵌入在文檔中的時態(tài)信息，也能根據時態(tài)上下文返回時態(tài)排序的搜索結果。Li F等[8]提出一種SEB-tree的簡單索引結構支持時態(tài)排序檢索，但并未充分考慮Web頁面內容的時態(tài)語義相關度。為此，Campos R等學者[9]提出一種將查詢與相關日期結合起來的時態(tài)相似性度量方法；Kanhabua N等學者[10]基于學習排名技術提出了時間感知的排名模型。

綜上所述，現(xiàn)有的研究多限于從時態(tài)信息的某一個側面進行探討，缺乏較為系統(tǒng)的應用。本文則從兩方面入手，研究時態(tài)信息的抽取與排序問題?，F(xiàn)有的搜索引擎通常提供針對網頁更新時間的查詢，缺乏對網頁內容的時態(tài)語義檢索支持，往往基于鏈接進行網頁分析并針對網頁文本相關度進行排序，未充分考慮網頁內容的時態(tài)語義相關度。另一方面，現(xiàn)有的搜索系統(tǒng)在處理時態(tài)相關查詢時不能完全地抽取時態(tài)表達式，如將“上午9點”分解為“上午”、“9點”，將“5月9日至12日”分解為“5月9日”、“12日”等進行一般文本的搜索匹配，割裂并丟失了原有表達式的時態(tài)語義。

為解決上述問題，引入時態(tài)正則表達式規(guī)則，提出時態(tài)語義相關度算法TSRR(Temporal Semantic Relevancy Ranking)，抽取查詢關鍵詞和網頁文檔中的時態(tài)點或時態(tài)區(qū)間等時態(tài)表達式，并在搜索排序階段通過TSRR算法對搜索結果進行二次處理，計算網頁的時態(tài)語義相關度，使返回結果按時態(tài)語義相關度與文本相關度的綜合排序后再顯示給用戶。

2 時態(tài)語義相關度排序算法

搜索引擎為響應用戶提交的檢索需求，從互聯(lián)網上搜集信息，并對所收集的信息進行處理，將用戶檢索的相關信息作為檢索結果返回給用戶。在進行網頁內容時態(tài)信息的擴展檢索時，TSRR算法采用兩階段設計方法：第一階段抽取出網頁中包含的所有時態(tài)信息；第二階段為所有的網頁計算最終排序分數(shù)。

2.1 網頁內容時態(tài)信息的抽取

2.1.1 時態(tài)表達式及其模板規(guī)則

現(xiàn)實生活中的時態(tài)信息表達形式靈活多樣，有時間、日期、時態(tài)區(qū)間和“今天”、“后天”、“前天”等時間詞，以及通過時態(tài)定位詞和介詞等組合形成復雜的時間短語，如“昨天晚上11點30分”、“自2010年8月1日起至2011年8月1日止”等。將網頁中的時態(tài)表達式分為時態(tài)點和時態(tài)區(qū)間兩大類，為表述方便，這里將時間Time、日期Date、時間詞TW(Temporal Word)和時間短語TP(Temporal Phrase)等表達的時態(tài)點和時態(tài)區(qū)間統(tǒng)稱為時態(tài)表達式(Temporal Equation)，如模板規(guī)則中的規(guī)則1所示。

現(xiàn)有的分詞系統(tǒng)不能完全地抽取時態(tài)表達式，如將“上午9點”分解為“上午”、“9點”，將“5月9日至12日”分解為“5月9日”、“12日”，割裂并丟失了原有的時態(tài)語義。為準確而完整地識別較為復雜的時態(tài)表達式，基于規(guī)則匹配方法，采用正則表達式形式，預先定義好符合漢語時間表達習慣的模板規(guī)則，如下所示：

時間正則表達式的模板規(guī)則：

(1)TE→t|I;

(2)t→Time|Date|TW|TP;

(3)I→[t,t]TP+TPr+TP;

(4)Time→(Digits+時){Digits+時}*+{Digits+分}*+{Digits+秒}*|{Digits+時}*+{Digits+分}{Digits+分}*+{Digits+秒}*|{Digits+時}*+{Digits+分}*+{Digits+秒}{Digits+秒}*;

(5)Date→{Digits+年}{Digits+年}*+{Digits+月}*+{Digits+日}*|{Digits+年}*+{Digits+月}{Digits+月}*+{Digits+日}*|{Digits+年}*+{Digits+月}*+{Digits+日}{Digits+日}*;

(6)Digits→(1|2|3|4|5|6|7|8|9)+(1|2|3|4|5|6|7|8|9)*;

(7)TW→去年|今年|夏天|勞動節(jié)|昨晚|…;

(8)TP→Date+(TW|Time)|(Date|Time|TW|Dur)+TL|TW+(Date|Time|TW|Dur)+TL|TPr+(Date|Time|TW|Dur)+TL|TPr+Date+TW|TPr+{TW}++Time|TPr+TW+Date+TL;

(9)Dur→{Digits+年}*+{Digits+月}*+{Digits+天}*{Digits+小時}*+{Digits+分鐘}*+{Digits+秒}*;

(10)TL→前|之前|以前|后|之后|以后|期間|…;

(11)TPr→到|于|在|自|從|…。

正則表達式表述的規(guī)則中，符號“|”表示“或”關系，標號“{}*”表示括號中的內容可以出現(xiàn)零次或多次，“{}+”表示括號中的內容至少出現(xiàn)一次或多次；Dur表示時態(tài)跨度，TPr表示時態(tài)介詞；TL表示時態(tài)定位詞，據統(tǒng)計在漢語中總共有105個位置名詞，其中六個可以引入時間表示：末、末期、以來、之際、前夕和期間，此外還有21個具有時間和地點的雙重含義：前、后、之前、之后等，為此建立相應的時態(tài)表達式詞典。

2.1.2 時態(tài)表達式的識別

要找到網頁中所包含的時態(tài)信息，使用時態(tài)正則表達式和中文分詞相結合的方式將網頁的時態(tài)表達式識別出來。段落是由句子組成的，確定時間描述的具體內容，分詞和詞性標注是時態(tài)表達式識別的基礎。首先基于開源軟件IKAnalyzer分詞系統(tǒng)[11]，對網頁正文文本進行詞性標注；同時，采用時態(tài)正則表達式識別并修正，盡可能準確而完整地發(fā)現(xiàn)頁面文本中所包含的時態(tài)信息。

通常，一個網頁包含多個TE，需要從中選擇一個準確的參考時間，其他參照該參考時間進行推理計算?？梢愿鶕W頁內容的發(fā)布時間來確定網頁參考時間，進而對網頁內容的“昨天”、“去年”等隱性或非規(guī)范的時態(tài)點和時態(tài)區(qū)間推理規(guī)范為標準化格式時間，其形式為：“×年×月×日”、“×時×分×秒”。為方便時態(tài)語義相關度計算和排序，將從網頁中抽取的時態(tài)表達式分為時態(tài)點集合{t1,t2,…,tn}和時態(tài)區(qū)間集合{I1,I2,…,Im}，其中Ij=[Ij,s,Ij,e]，Ij,s、Ij,e分別表示時態(tài)區(qū)間Ij的起點和終點，Ij的長度表示為|Ij|=Ij,e-Ij,s+1。

2.2 時態(tài)語義相關度的確定

基于網頁內容的時態(tài)語義相關度TSRR算法根據查詢關鍵字返回的查詢結果，綜合考慮網頁內容的文本相關度和時態(tài)語義相關度計算網頁的最終排序得分。網頁的文本相關度指用戶的查詢關鍵字和網頁關鍵字的相關度。網頁的時態(tài)語義相關度根據用戶查詢中的時態(tài)信息和網頁內容中的時態(tài)信息計算得到。

TSRR算法和其他現(xiàn)有的排序算法的不同之處在于結合了網頁內容的時態(tài)語義和發(fā)布時間進行排序，其關鍵是計算網頁內容的時態(tài)語義相關度，記為TSR(q,D)，計算步驟如下所示：

Step1計算查詢時態(tài)點tq與網頁文檔D的時態(tài)語義相關度R(tq,D)。

對于一個輸入的查詢時態(tài)點tq和根據文本相關度搜索返回的一個網頁內容D，tq與D的時態(tài)語義相關度表示為R(tq,D)：

(1)

其中，num(tq)是查詢時態(tài)點tq在D中出現(xiàn)的次數(shù)；[Ij,s,Ij,e]是D中包含查詢時態(tài)點tq的時態(tài)區(qū)間Ij，tq∈[Ij,s,Ij,e]當且僅當Ij,s≤tq≤Ij,e；|Ij|=Ij,e-Ij,s+1；{I1,I2,…,Im}是D中所有包含查詢時態(tài)點tq的時態(tài)區(qū)間集合。

Step2計算查詢時態(tài)區(qū)間Iq與網頁文檔D的時態(tài)語義相關度R(Iq,D)。

令Iq為用戶輸入的查詢時態(tài)區(qū)間，Iq=[Iq,s,Iq,e]，Id為返回結果集中D所包含的時態(tài)區(qū)間，Id=[Id,s,Id,e]。Iq與D的時態(tài)語義相關度表示為R(Iq,D)：

(2)

Step2.1比較Iq和Id的起始端點Iq,s和Id,s判斷Iq和Id相交：(Iq,s≥Id,s)∧(Iq,e≥Id,s)∨(Iq,s≤Id,s)∧(Id,e≤Iq,s)?Iq∩Id≠?；否則,Iq和Id不相交，|Iq∩d|=0。

Step2.2根據Iq和Id的相交關系計算Iq∩d的長度：(Iq,s≥Id,s)∧(Iq,e≥Id,s)∧(Iq,e

Step2.3根據Iq和Id的包含關系計算Iq∩d的長度：(Iq,s≥Id,s)∧(Iq,e≥Id,s)∧(Iq,e≥Id,e)?|Iq∩d|=Id,e-Id,s+1;(Iq,s≤Id,s)∧(Id,e≥Iq,s)∧(Id,e

Step3計算查詢q與網頁文檔D的時態(tài)語義相關度TSR(q,D)。

一個查詢q與網頁文檔D的時態(tài)語義相關度TSR(q,D)為該查詢q中時態(tài)點tq和時態(tài)區(qū)間Iq在返回結果集中與D的時態(tài)語義相關度之和，計算公式為：

(3)

2.3 基于文本相關度和時態(tài)語義相關度的網頁排序

當用戶提交查詢后，搜索引擎動態(tài)計算網頁最終排序分數(shù)后進行網頁排序。網頁文本相關度排序分數(shù)采用公式(4)所表示的Lucene評分機制，該公式組合使用了信息檢索的向量空間模型和布爾模型計算[12]。

Score(q,D)=coord(q,D)*queryNorm(q)*

d.getBoost()*norm(d,D)

(4)

其中，coord(q,D)為評分因子，是文檔D中出現(xiàn)查詢q的個數(shù)；queryNorm(q)為q的標準查詢形式；freq(dinD)為項頻率，d∈q，指項d在文檔D中出現(xiàn)的次數(shù)；docFreq為文檔頻率，指出現(xiàn)項d的文檔數(shù)；d.getBoost()為查詢時為項d指定的權值；norm(d,D)返回建索引時的參數(shù)計算值，封裝了一些索引權值和長度數(shù)值。

根據公式(3)和公式(4)，給定查詢〈q,tq,Iq〉，網頁D的最終排序得分計算方式為：

TSRR(q,D)=Score(q,D)*TSR(q,D)=

(5)

3 基于TSRR的搜索引擎系統(tǒng)實現(xiàn)

3.1 系統(tǒng)架構

基于文本相關度和時態(tài)語義相關度的搜索引擎系統(tǒng)TTSRR(TextsandTemporalSemanticsRelevancyRanking)架構如圖1所示。實現(xiàn)了信息采集、信息抽取、信息索引和信息檢索等基本功能，并添加了時態(tài)信息抽取模塊和時態(tài)信息排序模塊。TTSRR系統(tǒng)基于網絡爬蟲工具Nutch和搜索應用服務器Solr，采用Java語言設計開發(fā)。其中，爬蟲模塊和預處理模塊由Nutch提供，索引模塊和檢索模塊由Solr提供，系統(tǒng)重點實現(xiàn)時態(tài)信息抽取模塊和時態(tài)信息排序模塊。

Figure 1 Architecture of TTSRR system圖1 基于時態(tài)語義的搜索引擎系統(tǒng)架構圖

時態(tài)信息抽取模塊針對預處理后的網頁發(fā)布時間和內容時間進行分析，提取其中的時態(tài)信息，抽取時態(tài)點集合{t1,t2,…,tn}和時態(tài)區(qū)間集合{I2,I2,…,Im}。此外，時態(tài)信息抽取模塊還對用戶的查詢請求進行分析，提取其中的查詢時態(tài)點tq和時態(tài)區(qū)間Iq，供時態(tài)信息排序模塊使用。

時態(tài)信息排序模塊按照TSRR算法計算、返回結果網頁內容D和查詢q的時態(tài)語義相關度TSR(q,D)，對搜索結果按文本相關度和時態(tài)語義相關度計算網頁的最終排序得分TSRR(q,tq,Iq)，按新的分數(shù)排序后返回給用戶，實現(xiàn)基于時態(tài)語義排序的搜索功能。

3.2 搜索結果示例

TTSRR系統(tǒng)搜索界面和通用搜索引擎類似，分為三個部分：查詢輸入框和搜索按鈕、搜索結果數(shù)目顯示及搜索結果列表，下面列舉了分別在TTSRR系統(tǒng)和百度輸入查詢關鍵詞搜索的實驗示例。

(1)q=“訪問5月10日”，查詢時態(tài)點tq=“5月10日”，搜索結果表明TTSRR系統(tǒng)能夠進行tq與網頁文檔D中時態(tài)區(qū)間Id的匹配，如圖2和圖3所示。

Figure 2 Results of searching “Visiting Tenth, May” in TTSRR圖2 TTSRR系統(tǒng)搜索“訪問5月10日”結果

Figure 3 Results of searching “Visiting Tenth, May” in Baidu圖3 百度搜索“訪問5月10日”結果

從圖2可以看到TTSRR系統(tǒng)返回一個結果，“5月9日至12日”被標紅，說明與輸入的時態(tài)點tq=“5月10日”匹配成功，在時態(tài)信息抽取時“5月9日至12日”被轉換成時態(tài)區(qū)間Id=“[2013年5月9日，2013年5月12日]”；而查詢時態(tài)點tq=“5月10日”被轉換成規(guī)范形式“2013年5月10日”，正好落在時態(tài)區(qū)間，因此該網頁被作為搜索結果返回。而圖3搜索結果表明，百度只是簡單匹配“5月10日”，而沒有出現(xiàn)“5月9日至12日”這種時態(tài)區(qū)間的匹配。

(2)q=“地震 2009年到2013年”，搜索結果表明TTSRR系統(tǒng)能夠進行查詢時態(tài)區(qū)間Iq與網頁文檔D中時態(tài)點td及時態(tài)區(qū)間Id的匹配，如圖4和圖5所示。

Figure 4 Results of searching “Earthquake from Year 2009 to Year 2013” in TTSRR圖54 TTSRR系統(tǒng)搜索“地震2009年到2013年”

Figure 5 Results of searching “Earthquake from Year 2009 to Year 2013”in Baidu圖5 百度搜索“地震2009年到2013年”

從圖4可以看到，TTSRR系統(tǒng)搜索返回五個結果，“2013年4月20日”、“ 2013年4月20日到2013年4月21日”、“2011年10月23日”、“1月12日”被標紅，說明與輸入的時態(tài)區(qū)間Iq=“2009年到2013年”匹配成功?！?013年4月20日”、“2011年10月23日”和“1月12日”等時態(tài)點td都落在時態(tài)區(qū)間Id中。特別地，“1月12日”之所以落在時態(tài)區(qū)間Iq中，是因為第五個網頁的網頁發(fā)布時間是“2010-01-15”，該時間是在時態(tài)信息抽取模塊從網頁源代碼中得到的網頁發(fā)布時間，并以此做為該網頁的參考時間，進而對網頁內容D的時態(tài)點td=“1月12日”進行時態(tài)推理得到規(guī)范時間“2013年1月12日”。“ 2013年4月20日到2013年4月21日”時態(tài)區(qū)間Id也落在時態(tài)區(qū)間Iq中。根據TSRR算法，第一個網頁的時態(tài)語義相關度為4，第二個網頁的時態(tài)語義相關度為3.5，第三個網頁的時態(tài)語義相關度為3，分別乘上各自的文本相關度分數(shù)，按從大到小順序顯示。而從圖5中可以看出，百度只是把“2009年到2013年”當成普通文本進行搜索，返回結果也只是與2009年或2013匹配成功，沒有出現(xiàn)和“2010年”、“2011年”或“2012年”等匹配成功的情形。

3.3 系統(tǒng)性能

TTSRR系統(tǒng)對Nutch搜索引擎的返回結果進行二次開發(fā)，查全率、查準率都與Nutch一致，TTSRR系統(tǒng)暫未對其進行具體測試，Nutch的索引文檔數(shù)量在100萬以下時，查詢響應快速，不超過0.5秒，因而適合專業(yè)的垂直搜索引擎應用領域。以網易新聞(http:∥news.163.com/)網站數(shù)據進行了測試，分別用不同關鍵詞和相同時態(tài)信息進行檢索，統(tǒng)計結果如表1所示。從表1可以看出，返回結果并沒有影響查詢時間，查詢響應的平均時間為320ms。

Table 1 Statistics of response time for searching表1 檢索響應時間統(tǒng)計

4 結束語

時態(tài)屬性，作為刻畫事物的一個重要維度，對時態(tài)信息檢索、時態(tài)數(shù)據庫、時態(tài)知識推理、時態(tài)數(shù)據挖掘等研究領域均有深遠的影響[13～15]。針對通用搜索引擎缺乏對網頁內容中時態(tài)表達式的準確抽取及語義查詢支持，在通用搜索引擎架構基礎上添加了時態(tài)信息抽取和時態(tài)信息排序功能，引入時態(tài)正則表達式規(guī)則結合分詞系統(tǒng)準確而完全地抽取網頁中的時態(tài)表達式；并提出時態(tài)語義相關度算法，綜合計算網頁內容的文本相關度和時態(tài)語義相關度，按網頁的最終排序得分對搜索結果進行二次處理。實驗表明，應用TSRR算法可以準確而有效地匹配與時態(tài)表達式相關的關鍵詞查詢。

[1] Alonso O, Gertz M, Baeza-Yates R. On the value of temporal information in information retrieval[J]. ACM SIGIR Forum, 2007, 41(2):35-41.

[2] Whiting S, Klampanos I A, Jose J M. Temporal pseudo-relevance feedback in microblog retrieval [C]∥Proc of the 34th European Conference on Advances in Information Retrieval,2012:522-526.

[3] Choi J, Croft W B. Temporal models for microblogs[C] ∥Proc of the 21st ACM International Conference on Information and Knowledge Management, 2012:2491-2494.

[4] Strotgen J, Alonso O, Gertz M. Identification of top relevant temporal expressions in documents [C]∥Proc of the 2nd ACM Temporal Web Analytics Workshop, 2012:33-40.

[5] Kuzey E, Weikum G. Extraction of temporal facts and events from Wikipedia [C]∥Proc of the 2nd ACM Temporal Web Analytics Workshop, 2012:25-32.

[6] Dakka W, Gravano L, lpeirotis P G. Answering general time sensitive queries[C]∥Proc of the 17th ACM Conference on Information and Knowledge Management, 2008:1437-1438.

[7] Kage T, Sumiya K. A Web search method based on the temporal relation of query keywords[C]∥Proc of the 7th International Conference on Web Information Systems Engineering, 2006:5-15.

[8] Li F, Yi K, Le W. Top-kqueries on temporal data [J]. The VLDB Journal, 2010, 19(5):715-733.

[9] Campos R, Dias G, Jorge A, et al. Enriching temporal query understanding through date identification:How to tag implicit temporal queries?[C] ∥Proc of the 2nd ACM Temporal Web Analytics Workshop, 2012:41-48.

[11] Zhang Qi-yu,Zhu Ling,Zhang Ya-ping.Summing-up of studies on Chinese segmentation arithmetic[J].Information Resea-

rch,2008(11):53-56.(in Chinese)

[12] McCandless M, Hatcher E, Gospodnetic O. Lucene in action[M].2nd ed. USA:Manning Publications Co.,2010.

[13] Zuo Ya-yao, Tang Yong, Shu Zhong-mei. Method of the subtraction operation between temporal points with granularities based on granularity hierarchy mapping[J]. Journal of Computer Research and Development, 2012,49(11):2320-2327.(in Chinese)

[14] Zuo Ya-yao, Shu Zhong-mei, Tang Yong. Exploration into granularity constraints and standardization of temporal primitives[J]. Journal of Chinese Computer Systems,2013,34(5):1070-1075.(in Chinese)

[15] Zuo Ya-yao,Shu Zhong-mei,Tang Yong.Research on qualitative relationship among temporal elements with temporal granularities constraint[J]. Computer Engineering and Science,2013,35(2):34-40.(in Chinese)

附中文參考文獻：

[11] 張啟宇,朱玲,張雅萍.中文分詞算法研究綜述[J].情報探索,2008(11):53-56.

[13] 左亞堯,湯庸,舒忠梅.基于粒度層次映射轉換的時態(tài)粒點差運算方法[J].計算機研究與發(fā)展,2012,49(11):2320-2327.

[14] 左亞堯,舒忠梅,湯庸.時態(tài)原語的粒度約束與規(guī)范化問題探討[J].小型微型計算機系統(tǒng),2013,34(5):1070-1075.

[15] 左亞堯,舒忠梅,湯庸.時態(tài)粒度約束下的時態(tài)元素定性關系探討[J].計算機工程與科學,2013,35(2)：34-40.

SHUZhong-mei,born in 1974,PhD,lecturer,her research interests include data warehouse, business intelligence, and institutional intelligence.

左亞堯(1974-),男,湖北荊州人，博士，副教授,CCF會員(E200011215M),研究方向為數(shù)據倉庫與數(shù)據挖掘，Web信息處理。E-mail:13808815212@139.com

ZUOYa-yao,born in 1974,PhD,associate professor,CCF member(E200011215M),his research interests include data warehouse and data mining,web information processing.

Studyonextractionandrankingoftemporalsemanticsandsystemimplementation

SHU Zhong-mei1,ZUO Ya-yao2,ZHANG Zu-chuan2

(1.School of Education,Sun Yat-Sen University,Guangzhou 510275；2.Faculty of Computer,Guangdong University of Technology,Guangzhou 510006,China)

General search engine lacks of extraction and retrieval of temporal semantic from the text content of the Web pages. To address the temporal query problem, the Temporal Semantic Relevancy Ranking (TSRR) algorithm is proposed by integrating the temporal information extraction and ranking functions. Firstly, the rule of the temporal regular expression is introduced to extract the temporal points or temporal intervals from the query keywords and the text content of the web pages. Secondly, the scores of web pages are re-evaluated and the returned results are ranked according to the text relevancy and the temporal semantic relevancy. Experiments show that the TSRR algorithm precisely and effectively matches the keywords queries related to the temporal expression.

temporal semantic;information extraction;ranking;search engine

1007-130X(2014)08-1609-06

2013-05-28;

：2013-09-29

國家自然科學基金資助項目(60970044)；廣東省自然科學基金資助項目(S2011040004281)

TP391.3

：A

10.3969/j.issn.1007-130X.2014.08.033

舒忠梅(1974-),女,湖北荊門人，博士，講師，研究方向為數(shù)據倉庫、商業(yè)智能和院校智能。E-mail:issszm@mail.sysu.edu.cn

通信地址：510275 廣東省廣州市中山大學大鐘樓312

Address:Room 312,Dazhong Building,Sun Yat-Sen University,Guangzhou 510275,Guangdong,P.R.China