面向大數(shù)據(jù)基于知識的決策信息需求動態(tài)生成方法

2015-12-23 00:55:52金欣宗士強李友江吳姍姍閆晶晶

計算機工程與設計 2015年7期

金欣，宗士強，李友江，吳姍姍，閆晶晶

（南京電子工程研究所信息系統(tǒng)工程重點實驗室，江蘇南京210007）

0 引言

在軍事、公安、交通、銀行、通信等大型企業(yè)機構(gòu)中，通常都有一套用于企業(yè)決策制定的數(shù)據(jù)系統(tǒng)，其中的數(shù)據(jù)通常都經(jīng)過了良好的組織、嚴格的定義和規(guī)范的表達。因而當決策者產(chǎn)生信息需求時，相應的信息服務能夠自動地從相應地數(shù)據(jù)來源處獲取信息，并提供給決策者。這是一種 “固定信息服務模式”，即在用戶的信息需求和對應的信息來源之間存在某種固定的映射關系，需要時即可從固定來源處直接 “取”信息。這種模式在過去［1，2］工作得很好。

大數(shù)據(jù)時代的到來引起了學術界、工業(yè)界乃至政府的廣泛關注［3－5］。大型企業(yè)紛紛轉(zhuǎn)向互聯(lián)網(wǎng)上的大數(shù)據(jù)，希望能夠從中挖掘到有價值的信息用于制定更加高明的企業(yè)決策。然而，大數(shù)據(jù)環(huán)境下，信息來源多樣、種類繁多、內(nèi)容冗余、表達異構(gòu)，決策者在產(chǎn)生信息需求時通常無法預知提供相應信息的來源位置，只能到大數(shù)據(jù)環(huán)境中去 “找”信息。因此，固定信息服務模式在大數(shù)據(jù)環(huán)境下幾無用武之地，取而代之的是一種動態(tài)信息服務模式——搜索。

使用搜索的前提是對信息需求進行建模，描述信息需求的特征。常用的信息需求建模語言有搜索關鍵詞、數(shù)據(jù)庫查詢語言、實時信息訂閱請求等。然而，面對大數(shù)據(jù)環(huán)境精確建立信息需求模型殊非易事，用戶需要耗費大量的時間在信息需求的表達上，包括仔細斟酌關鍵詞以避免跨領域的歧義，估計信息的可能來源類型，從而決定使用哪種需求建模語言（事實上，在結(jié)構(gòu)化數(shù)據(jù)庫、非結(jié)構(gòu)化網(wǎng)頁和實時信息系統(tǒng)之間存在嚴重的內(nèi)容交疊，很多情況下難以確定所需信息的來源類型）。信息需求表達不準確的結(jié)果就是要不斷地修改。所有這些工作嚴重分散了決策者的精力，從而導致決策效率低下。

針對上述問題，一種直接的解決思路是將信息需求表達的過程做成自動化的，而實現(xiàn)這種自動化的前提是基于一種新型的領域知識。通過研究發(fā)現(xiàn)，當企業(yè)決策者在制定同一類決策時，他們所需的信息不論在內(nèi)容上、粒度上，還是范圍上都存在較高的相似性，也就是說，在決策事務類型和用戶信息需求之間很可能存在某種潛在的關聯(lián)關系，而這種關聯(lián)關系就是前面所述的領域知識。

基于該原理提出了一種方法，發(fā)掘決策事務與信息需求間的潛在關聯(lián)關系并固化為知識，進而依據(jù)該知識及動態(tài)感知到的用戶當前決策事務類型和要素，自動地生成信息需求，將大數(shù)據(jù)環(huán)境中符合需求的信息自動地提供給決策者。實驗結(jié)果表明，該方法能有效減少決策者的信息需求表達耗時，能夠保證一定的準確度，提高決策效率。

1 相關研究

在互聯(lián)網(wǎng)搜索領域，有很多幫助用戶完善需求表達的方法，如關鍵詞生成（keyword generation）［6］和查詢推薦（query recommendation）［7］等。其中運用的知識包括用戶搜索記錄的分析［8］、詞匯關聯(lián)關系［9］等。這些方法在基于知識優(yōu)化用戶搜索需求表達的同時，也為搜索引擎廣告的植入提供了便利，在巨大商業(yè)利益的驅(qū)動下發(fā)展得很快。然而，所有這些方法都需要用戶輸入初始的關鍵詞，作為優(yōu)化和推薦的依據(jù)。而在本文提出的方法中，信息需求是根據(jù)動態(tài)感知到的用戶決策事務自動生成的，無需輸入任何初始關鍵詞。

在基于知識的方法應用上，谷歌和IBM 走在了世界前列。其中，谷歌的知識圖譜［10］能夠依據(jù)領域知識結(jié)構(gòu)，根據(jù)用戶的輸入定位到結(jié)構(gòu)上相關聯(lián)的一組知識片段；而IBM 的沃森機器人［11］能理解用戶使用自然語言表述的問題，并從一套龐大的知識庫中快速、準確地定位到正確答案。其中大量運用了從詞典、百科全書、新聞報刊等公共渠道中獲得的通用型知識（常識）。眾所周知，領域內(nèi)的問題比普適性問題更容易解決，利用領域知識提升領域系統(tǒng)能力效果會更好。例如在一些決策支持系統(tǒng)中［12－14］，領域知識的應用很好地提升了一些算法的性能。然而，在運用領域知識處理面向大數(shù)據(jù)的決策信息需求生成方面，尚未發(fā)現(xiàn)相關研究成果。

其實企業(yè)決策系統(tǒng)中的用戶信息需求帶有明顯的領域特征，與其處理的決策事務有很大的關聯(lián)性。利用這種關聯(lián)性能夠根據(jù)用戶的決策事物準確估計并自動生成信息需求表達。本文基于的就是這種理念。

2 信息需求建模語言

如上文所述，要從大數(shù)據(jù)環(huán)境中獲得決策所需的信息，首先要對信息需求進行建模。因此需要一種強大的建模語言，能夠描述所需信息的各方面期望特征，包括內(nèi)容特征、范圍限定、時效性限定、載體類型限定、優(yōu)先來源限定、排序方式限定等。另一方面，該建模語言應當足夠精確，能夠描述信息需求的語義內(nèi)涵，從而避免發(fā)布出去的信息需求被各類信息來源錯誤地理解和轉(zhuǎn)換。

作為建議，設計了一種信息需求建模語言TIRML（task info－req modeling language）。其語法規(guī)范見表1，包含7個主要部分。

表1 TIRML語法規(guī)范

LABEL是對信息需求的一段自然語言描述，為的是方便人工閱讀理解。

USER、OPERATION、MISSION 從3 個維度定義決策事務類型。USER 用于描述決策者的角色類型，如指揮員，參謀等。OPERATION 用于描述用戶當前的決策作業(yè)類型，如態(tài)勢分析、任務規(guī)劃等。MISSION 用于描述用戶當前受領的任務類型，如襲擊某機場，組織某救援行動等。不同用戶角色類型、決策作業(yè)類型、受領任務類型對應的信息需求有較大的區(qū)別。

SELECT 和WHERE字段沿襲于SQL語言。不同的是將其后面所跟的數(shù)據(jù)表字段改為了 “主體－屬性”的描述形式。邏輯上一個主體可以有一個或多個屬性，SELECT 后面跟的是一個主體的未知屬性，WHERE 后面跟的是其已知屬性，用于限定主體類型。“主體－屬性”的形式賦予SELECT 和WHERE 以一種淺層的語義表達能力，其相比SPARQL的語義表達能力較弱，但適用面更廣，不一定是純?nèi)M形式的數(shù)據(jù)。在關系數(shù)據(jù)庫中，可以將表格的一行當作一個主體，一列當作一個屬性。在P／S （發(fā)布／訂閱）系統(tǒng)中，訂閱請求中包含了主體的已知屬性，返回的報文中包含了其未知屬性。在非結(jié)構(gòu)化文本中，主體和屬性隱藏在文字中，例如“北京是中國的首都”變?yōu)槿问郊礊椤埃贾袊锥?，北京＞”。因此，“主體－屬性”在各類信息組織形式中都有對應的解釋，可以通過各種方法被轉(zhuǎn)換成相應地搜索／查詢／訂閱請求格式，并保持語義不變。

有些時候決策者對所需信息有較為傾向的信息來源，例如信任等級較高的來源、更加穩(wěn)定、更容易訪問的來源等。用戶可以將這些優(yōu)先來源列在FROM 字段之后，以縮小搜索范圍，提高搜索精度。

每個信息都有其載體類型，如文本、圖像、視頻、音頻、數(shù)據(jù)庫、格式化消息等，可以用MEDIATYPE 進行限定。

WHEN 字段用于描述對所需信息的時效性要求，分持續(xù)性和一次性兩種。持續(xù)性需求表示在一個時間段內(nèi)需要持續(xù)的更新?？梢杂肧TART、END 來描述這個時間段，用PERIOD 和REPEAT 分別描述針對實時信息的更新時間間隔和對非實時信息的定期搜索查新時間間隔。一次性需求表示當?shù)谝粋€搜索結(jié)果返回時該需求就失效了。分別用EARLIEST 和LATEST 來描述所需信息的最后更新時間的范圍。REALTIME則用來表示所需信息是實時信息還是非實時信息。

ORDERBY 字段用于描述對搜索結(jié)果的排序要求。可以使用 “｜－”連接符來表達綜合排序的要求。例如 “相關度｜－來源信任等級”表示先按相關度排序，當兩條結(jié)果的相關度相等時再按來源信任等級排序。

3 信息需求生成方法

不像人們?nèi)粘g覽互聯(lián)網(wǎng)那樣隨意，企業(yè)決策者的信息需求有一定規(guī)律性，與其正在處理的決策事務是相對應的。分析決策者的信息查詢操作記錄不難發(fā)現(xiàn)，同一類用戶在處理同一類決策事務時所需的信息類型是基本相同的，只是根據(jù)涉及到不同對象及時空上下文時會有細微差別。以軍事領域為例，指揮員在針對某個目標制定打擊方案時，通常要了解目標的防御能力及運動狀態(tài)等信息，只是具體的目標和打擊時間、地域不同而已。如圖1 所示，在用戶決策事務類型與信息需求之間存在某種潛在的關聯(lián)映射關系，目前還是一個黑盒子，有待開發(fā)。

圖1 事信映射原理

基于上述原理，對企業(yè)領域中的用戶決策事務分門別類，然后將每一類事務所需信息類型寫成一個模板（稱為“事信映射模板”），對其中變化的因素留出空來，待遇到實際事務時，選調(diào)相應的模板并根據(jù)實際變量數(shù)值填空，從而生成實際的信息需求，進而根據(jù)領域術語的表達方式，對需求進行準確描述，以上便是本方法的核心思想。方法如圖2所示，分為準備和使用兩個階段。接下來從領域知識構(gòu)建、用戶決策事務感知、信息需求生成、需求語義描述、需求發(fā)布管理5個方面展開說明。

圖2 方法概述

3.1 領域知識構(gòu)建

（1）區(qū)分領域內(nèi)的用戶決策事務類型。區(qū)分的依據(jù)是兩類事務所需信息之間的差別無法用變量表示。例如打擊敵方目標和防御敵方進攻所需信息類型截然不同，而打擊兩個同類目標所需信息的差別則可以體現(xiàn)為一個變量。變量的粗細粒度可以靈活把握。

（2）確定事務類型判別要素，即依據(jù)哪些要素判別一個事務屬于哪個類型。不同事務類型的判別要素可以不同。作為一種建議，提出了6個常用要素，分為兩組：一是＜用戶類型（UserType），決策作業(yè)類型（OperationType），作業(yè)對象類型（ObjectType）＞，描述決策作業(yè)；二是＜執(zhí)行者類型（ActorType），行為類型（ActionType），目標對象類型（TargetType）＞，描述決策所關注的背景任務／事件。幾乎任何一個決策事務都可以理解為針對一個背景任務／事件執(zhí)行某個決策作業(yè)。因此，＜U，O，O，A，A，T＞6元組可以從兩個維度上唯一地刻畫一個用戶決策事務類型，可作為其全局唯一的標識。

（3）建立事信映射模板庫，將用戶決策事務類型與所需信息類型之間的映射關系寫成模板。發(fā)掘事信映射關系的方法有兩種：一是依據(jù)經(jīng)驗，即邀請領域?qū)＜?，尤其是長期從事某類決策事務的用戶，根據(jù)經(jīng)驗列出處理每類事務所需的信息類型；二是通過學習，即對用戶決策過程進行記錄，包括其每次執(zhí)行的決策事務要素和相應的信息查詢操作，通過自動挖掘與人工分析相結(jié)合的方式，學習可能的事信映射關系。對于模板的編寫語法規(guī)范這里并不做限定，可以參考TIRML語法規(guī)范，一種能夠為各類信息資源解析轉(zhuǎn)換的統(tǒng)一需求描述語言。一個例子如圖3所示。

圖3 事信映射模板

（4）建立關于領域術語的本體知識。眾所周知，領域術語可用來規(guī)范領域內(nèi)的信息表達，使得領域內(nèi)的用戶或系統(tǒng)能夠在語義一致的基礎上進行交流。本體是對領域術語的概念和關系的嚴格定義，通過RDF、OWL等本體語言可描述為機器能夠理解的形式。因此，建議定義企業(yè)領域本體，并采用本體中的術語來描述事信映射模板，以便用戶端描述的需求能夠為資源端正確理解。然而，用戶端和資源端往往不在同一個領域，所采用的領域本體也很難統(tǒng)一。可以借助于本體匹配技術，實現(xiàn)不同領域本體之間的關聯(lián)映射。企業(yè)可以利用已有的本體匹配工具［15］建立本領域和其它相關領域本體之間的映射關系。

事信映射模板、領域本體及本體映射關系是本方法中用到的領域知識。接下來將詳細介紹如何使用這些知識來實現(xiàn)決策信息需求的自動生成。

3.2 用戶決策事務感知

用戶端程序要實現(xiàn)對上述用戶決策事務要素的感知功能。具體的，包括以下幾類：

感知用戶身份：可以通過用戶登錄操作識別用戶身份，判別用戶類型，為UserType賦值；

感知作業(yè)過程：監(jiān)聽用戶界面操作，包括切換作業(yè)界面、使用作業(yè)工具、操作作業(yè)對象等。預先定義這些操作對應的作業(yè)類型碼，根據(jù)實際監(jiān)聽到的操作對Operation－Type和ObjectType賦值；

感知背景任務／事件：背景任務／事件通常會通過某種方式導入到?jīng)Q策作業(yè)軟件中，例如在軍事領域可以是作戰(zhàn)任務文書的形式，其中說明了任務的執(zhí)行者、行為和行為目標對象，可以解析其數(shù)值并賦給ActorType、ActionType和TargetType；

感知實體和時空上下文變化：實時采集決策中涉及的各類實體對象標識、地理區(qū)域標識，以及時間信息，用于為模板中設定的各種變量賦值。

由于具體的感知功能實現(xiàn)方法與具體應用相關，這里不做限定，只要能夠?qū)崟r采集上述信息即可。

3.3 信息需求生成

將實時感知到的用戶決策事務要素與事信映射模板的標識進行匹配。由于模板標識是全局唯一的，不會出現(xiàn)同時匹配上多個模板的情況。另一方面，如果在模板設計時全面考慮了所有可能的要素取值組合，也不會出現(xiàn)匹配不上任何一個模板的情況。

模板選調(diào)與模板填空如圖4所示。

圖4 模板選調(diào)與模板填空

將匹配上的模板選調(diào)出來，將感知到的實體、時空上下文等信息的取值賦給模板中的變量，即模板填空。當模板中所有的留空都被填滿時，一個實際信息需求的模型就建立出來了。

3.4 需求語義描述

此時生成的信息需求可以直接提交給信息資源，轉(zhuǎn)換成各類信息資源支持的查詢語法。但為了獲得精準地信息反饋，還要依據(jù)領域本體對需求的語義進行準確描述。

在TIRML的語法中，支持 “主體－屬性”形式的語義描述，即將每一條信息需求描述為對某個主體的某個屬性值的需求，而其中的主體和屬性都是在相關本體中定義過的，通過名字空間保證標識的唯一性，如 “wp：林肯”。基于前面建立的領域本體之間的映射關系，能夠保證跨領域的信息資源對其內(nèi)在含義的一致理解，從而在解析轉(zhuǎn)換時不改變、不減損信息需求的語義內(nèi)涵。例如，“林肯（航母）”不會被錯誤的理解為“林肯（汽車）”或“林肯（總統(tǒng)）”。

在實際使用過程中經(jīng)常出現(xiàn)這樣的情況，即在編寫模板時，所設變量的粒度較粗，取值范圍較寬，導致 “主體－屬性”的描述難以細化。例如 “飛機－對地打擊能力”是一個較為寬泛的概念，不能直接用于查詢或搜索，需要轉(zhuǎn)換成更具體的屬性。但根據(jù)機型不同，對地打擊能力可以細化為不同的屬性參數(shù)，如對轟炸機細化為 “空地導彈射程范圍”，對直升機則細化為 “機槍掃射最大頻率”等?？傊?，當主體作為變量而其取值可以是多類對象時，屬性本身也是不確定的。解決方法定義如圖5 所示的領域本體。這樣，當 “飛機”的實際取值為 “轟炸機”時，“對地打擊能力”屬性就會自動轉(zhuǎn)變?yōu)?“空地導彈射程范圍”，對 “直升機”則自動轉(zhuǎn)變?yōu)?“機槍掃射最大頻率”。

圖5 基于本體的語義擴展

在實際使用過程中往往還會遇到這樣的情況，即同一個主體有多種不同的標識名稱，如 “F－18”與 “大黃蜂”指的是同一類機型。如果單使用 “F－18”進行搜索，會漏掉一部分關于 “大黃蜂”的信息，反之亦然。為了保證需求描述的全面性，要對需求描述中的主體進行共指擴展。維護一張 “實體標識共指擴展表”，對每一類實體的所有可能的共指標識進行窮舉性擴展，可以在平時使用中不斷積累形成。這樣，就可以將 “F－18－最大航程”擴展為 “（F－18－最大航程）or（大黃蜂－最大航程）”進行搜索，以避免遺漏。類似的，對屬性也可以進行同義詞擴展，例如 “林肯號航母－排水量”可以擴展為 “（林肯號航母－排水量）or（林肯號航母－噸位）”。

3.5 需求發(fā)布管理

需求生成的最后一步，是將需求模型發(fā)布出去，提交給各類信息資源解析轉(zhuǎn)換。除了需求模型內(nèi)容的準確性外，生成時機的準確性也很重要。不夠適時的需求生成對用戶不但不能提高效率，反而是負擔。

用戶決策事務感知的靈敏性是保證 “適時”的一方面，另一方面可以將對信息需求的時效性要求寫在模板中。在TIRML 的語法中提供了START、END、PERIOD、REPEAT、EARLIEST、LATEST、REALTIME 這7 個字段表達時效性要求。

一般而言，將需求分為持續(xù)性和一次性兩種。持續(xù)型需求指用戶在一段時間內(nèi)需要獲得持續(xù)更新。START 和END 用于描述持續(xù)時間段，PERIOD 和REPEAT 用于描述實時信息的更新頻率和非實時信息查新周期。實時信息資源會將START、END、PERIOD 分別轉(zhuǎn)換成訂閱請求中的起始時間、結(jié)束時間、發(fā)送間隔；而對于非實時信息資源，則需要按照REPEAT 中設定的周期從START 到END期間，定期向非實時信息資源提交重復的需求模型以捕獲新發(fā)布的信息。這要求信息資源支持增量搜索／查詢，否則需要對每次返回的結(jié)果做去重處理。一次型需求指從用戶提交一次需求到獲得一次結(jié)果為止，就完成一次信息搜集的過程。EARLIEST 和LATEST 字段可以描述信息的新舊程度，例如1個月內(nèi)或1天內(nèi)發(fā)布的信息。非實時信息資源會依據(jù)此字段值對結(jié)果進行篩選，取決于其是否支持按更新時間搜索／查詢。最后，依據(jù)REALTIME 的取值決定將信息發(fā)送給實時或非實時信息來源。

關于7個字段取值的設定依據(jù)，可以依據(jù)領域?qū)＜业慕?jīng)驗，也可以通過統(tǒng)計分析學習的方法獲得。

4 實現(xiàn)

為了驗證上述方法的可行性和有效性，選取軍事領域中的典型應用背景開展了軟件實現(xiàn)工作。

（1）對防空作戰(zhàn)應用領域中的用戶決策事務進行了分類，將決策作業(yè)過程分為搜集情況判斷、航路規(guī)劃、打擊進入方向分析、打擊行動監(jiān)控、戰(zhàn)后總結(jié)評估5 類事務，將背景任務／事件分為航空兵攔截敵機、防空火力攔截敵機、航空兵打擊敵方基地、航空兵打擊敵方航母編隊等11類事務，通過兩兩組合構(gòu)成了55類用戶決策事務，并分別編寫事信映射模板，建立了模板庫。其中，模板內(nèi)容的填寫遵循了TIRML規(guī)范，依據(jù)的是領域?qū)＜业慕?jīng)驗，涉及到實時戰(zhàn)場動態(tài)、非實時戰(zhàn)場環(huán)境、結(jié)構(gòu)化裝備數(shù)據(jù)、非結(jié)構(gòu)化情報數(shù)據(jù)等各種類型的信息需求。對領域中的術語建立了包含共計84個概念，28 個關系，約2000 個實例的4套相互異構(gòu)的領域本體，并利用本體匹配方法Falcon－AO［15］建立了映射關系。其中定義了25條實體共指關系和10條屬性共指關系。

（2）對現(xiàn)有的防空作戰(zhàn)指揮軟件進行了改進，加入了包括用戶登錄身份識別、文書導入解析處理、階段轉(zhuǎn)進操作監(jiān)控、行動更替變化監(jiān)聽、作業(yè)工具操作監(jiān)控、圖上軍標操作監(jiān)控、系統(tǒng)時間采集、區(qū)域選定操作監(jiān)控等功能在內(nèi)的用戶決策事務感知模塊，實現(xiàn)了對用戶決策事務要素的動態(tài)采集和賦值。

（3）在企業(yè)決策系統(tǒng)服務器上設計開發(fā)了需求生成和過程管理等功能模塊，實現(xiàn)了從感知用戶決策事務到生成信息需求模型的全過程，如圖6所示。

圖6 系統(tǒng)實現(xiàn)

5 實驗

為了驗證方法的可行性和有效性開展了實驗。針對55類用戶決策事務中的每一個實例，請一名決策者手工輸入信息需求表達式，并與自動生成的需求表達式進行比較，一方面比較完成需求建模的耗時，另一方面通過搜集的信息結(jié)果比較需求表達的準確度。

5.1 信息需求建模耗時

測試結(jié)果如圖7所示，手工完成表達式的平均耗時約半分鐘（還是保守計算，減去了用戶依據(jù)搜索結(jié)果修改表達式的耗時），而自動生成需求的平均耗時約為0.5s（2.8 GHz，2GB）。很明顯，自動生成需求的方法能夠有效縮短需求建模的耗時。

圖7 信息需求建模耗時比較

以作戰(zhàn)參謀針對航空兵攔截來襲敵機任務進行航路規(guī)劃為例，需求生成過程如圖8所示。其中，戰(zhàn)斗機 “機動能力”信息依據(jù)領域本體被細化為 “最大機動過載”、 “最大飛行速度”、“最大爬升角度”3個屬性，“F－18”的共指標識 “大黃蜂”也得到了擴展。通過該實例不難發(fā)現(xiàn)，即便“戰(zhàn)斗機機動能力”這樣一條簡單的信息需求，都需要很長的篇幅去精確描述。這樣的工作如果手工完成，需要耗費相當多的時間和精力。而基于預先構(gòu)建的領域知識，機器能夠在極短的時間內(nèi)完成上述工作。更大的好處在于，需求生成的自動化，帶動了信息服務的整體自動化，即伴隨著用戶的決策作業(yè)過程，系統(tǒng)后臺會適時自動地搜集適當?shù)男畔⑻峁┙o決策者，因而更加便于將決策者的注意力集中在處理決策問題本身上。

5.2 信息需求建模準確度

通過比較自動生成的和手工建立的需求模型，不難發(fā)現(xiàn)，自動生成的需求表達式往往比較復雜，因為在模板中設定了很多限定條件，并基于領域本體自動進行了共指標識擴展，表達式中包含的信息量比較大。相比之下，不論經(jīng)驗多么豐富的決策者，要在短時間內(nèi)全面考慮各種因素是很難的，要根據(jù)搜索結(jié)果反復修正表達式才能達到同等復雜度。

不過，就搜索結(jié)果而言，自動的方法在結(jié)果的查全、查準率上并沒有非常顯著的提升。通過分析認為，主要原因在于目前建立的領域知識還不夠成熟，尤其是不夠精細，對一些信息需求的細節(jié)刻畫不夠精密，相比人工描述還顯得 “笨拙”。而且，實驗中也發(fā)現(xiàn)，一些決策者的個性化需求在自動生成的表達式中沒有體現(xiàn)。這是因為領域知識是依據(jù)大眾共識建立的，不包含個性化的成分，因此生成的需求往往不能十分貼切地滿足每個用戶的個性化需求。

針對上述問題，在系統(tǒng)實現(xiàn)中增加了一道確認機制：自動生成的信息需求可以選擇要求經(jīng)過用戶確認，之后再發(fā)布出去。這樣，用戶可以通過修改自動生成的表達式來保證其準確地反映了自己的真實需求。而另一方面，機器記錄下用戶的每一次修改操作，挖掘分析其中的規(guī)律，以促進領域知識的不斷完善。雖然上述機制在某種程度上增加了人工參與的工作量，但相對于純手工方式仍然具有優(yōu)勢。而且隨著領域知識的不斷完善，手工修改的工作量會逐漸減少，優(yōu)勢的體現(xiàn)會更加明顯。

圖8 需求生成實例

6 結(jié)束語

大數(shù)據(jù)改變了企業(yè)決策系統(tǒng)中的信息服務模式，但也為用戶獲取決策信息帶來了困難。為了獲得精確的結(jié)果，用戶需要花費大量時間和精力在信息需求的表達上。應用領域知識能夠有效解決這個問題。提出了一種主動感知用戶決策事務，依據(jù)領域知識自動生成精準的信息需求語義描述的方法，能夠有效減少用戶消耗在信息需求表達上的時間和精力。但生成信息需求內(nèi)容和時機的準確性取決于領域知識的完備性，因此使用該方法的主要難度在于領域知識的構(gòu)建，是一個需要長期積累和反復驗證的過程。

下一步的研究工作將重點針對領域知識的構(gòu)建展開。事信映射模板是領域知識的一種初級表現(xiàn)形式，在用戶決策事務和信息需求之間的映射是有規(guī)律可循的。下一步擬通過實驗數(shù)據(jù)分析挖掘這種規(guī)律，建立事信映射規(guī)則，以取代目前的事信映射模板，目的是提高領域知識的表達和應用能力。

［1］CHEN Zhixin，TAN Xingqiu.Technology on C2system flow control［J］.Command Information System and Technology，2013，4 （3）：20－24 （in Chinese）. ［陳志新，談興秋.指揮信息系統(tǒng)流程控制技術［J］.指揮信息系統(tǒng)與技術，2013，4（3）：20－24.］

［2］ZHANG Jian，CHEN Zhaobing.Intelligence delivery control system for joint intelligence support system ［J］.Command Information System and Technology，2013，4 （2）：33－36 （in Chinese）.［張堅，陳召兵.聯(lián)合情報保障體系情報信息分發(fā)控制系統(tǒng) ［J］.指揮信息系統(tǒng)與技術，2013，4 （2）：33－36.］

［3］Agrawal D，Bernstein P，Bertino E，et al.Challenges and opportunities with big data－a community white paper developed by leading researchers across the united states［EB／OL］.［2012－10－15］.http：／／cra.org／ccc／docs／init／bigdata／whitepaper.pdf.

［4］Manyika J，Chui M，Brown B，et al.Big data：The next frontier for innovation，competition and productivity ［R］.Technical Report，McKinsey Global Institute，2011.

［5］Office of science and technology policy.fact sheet：Big data across the federal government［EB／OL］.［2012－03－29］.http：／／digital－scholarship.org／digitalkoans／2012／03／29／fact－sheet－big－data－across－the－federal－government／.

［6］Hao W，Guang Q，Xiaofei H，et al.Advertising keyword generation using active learning ［C］／／Proceedings of WWW MADRID.Madrid，Spain：ACM Press，2009：1095－1096.

［7］Aris A，Luca B，Carlos C，et al.An optimization framework for query recommendation ［C］／／Proceedings of the 3rd ACM International Conference on Web Search and Data Mining.New York，USA：ACM Press，2010：161－170.

［8］Marco G，Carlo S，Oliviero S.Ecological evaluation of persuasive messages using Google AdWords ［C］／／Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics，Stroudsburg.PA，USA：ACM Press，2012：988－996.

［9］Abhishek V，Hosanagar K.Keyword generation for search engine advertising using semantic similarity between terms［C］／／Proc of the 9th International Conference on Electronic Commerce.Minnesota，USA：ACM，2007：94.

［10］Singhal A.Introducing the knowledge graph：Things，not strings ［EB／OL ］. ［2012－05－24］. http：／／googleblog.blogspot.com／2012／05／introducing－knowledge－graph－thingsnot－strings.html.

［11］Ferrucci D，Brown E，Chu－Carroll J，et al.Building watson：An overview of the DeepQA project ［J］.AI Magazine，2010，31 （3）：59－79.

［12］Samuel W，James F.A text－based decision support system for financial sequence prediction ［J］.Decision Support Systems，2011，52 （1）：189－198.

［13］Calabrese F，Corallo A，Margherita A，et al.A knowledgebased decision support system for shipboard damage control［J］.Expert Systems with Applications，2012，39 （9）：8204－8211.

［14］Iftikhar U S.Knowledge－based spatial decision support systems：An assessment of environmental adaptability of crops［J］.Expert Systems with Applications，2009，36 （3）：5341－5347.

［15］Wei H，Yuzhong Q.Falcon－AO：A practical ontology matching system ［J］.Web Semantics：Science，Services and Agents on the World Wide Web，2008，6 （3）：237－239.

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放