周紅煒
(惠州學院圖書館,廣東 惠州 516007)
學科視域下的網(wǎng)絡(luò)信息粒度表達研究
周紅煒
(惠州學院圖書館,廣東 惠州 516007)
粒度理論借鑒物理學的“粒子”概念,融合了計算科學、信息科學和認知科學,著眼于運用信息粒及粒度分析方法,從認知科學角度解析和模擬人腦對復雜信息的處理和加工過程,為機器智能信息處理找到模擬人類信息思維自然過程的計算分析方法。文章將信息粒及粒度理論引入體育這一特定學科領(lǐng)域,針對體育網(wǎng)絡(luò)信息的不同類型及需求,運用相應的信息粒度分析法探索研究該學科網(wǎng)絡(luò)信息的粒度表達方式,為開展網(wǎng)絡(luò)學科信息人工智能計算提供粒度分析支持。
學科信息;網(wǎng)絡(luò)信息;信息粒;粒度;粒計算
近年來,隨著互聯(lián)網(wǎng)上的信息和數(shù)據(jù)日益增多,知識激增已成為時代特征,對龐大信息進行基于自然語言的分析和基于人類思維的重組提出了挑戰(zhàn),網(wǎng)絡(luò)信息和數(shù)據(jù)進行快速地定向處理和有效分析成為熱門研究領(lǐng)域。融合計算科學和信息科學,讓計算機模擬人類思維和解決復雜問題的理念和方法受到人們更多的重視,谷歌人工智能“阿爾法”(AlphaGo)正是當前的佼佼代表。然而,由于人類思維的載體是自然語言,而且語言載體的形式多樣,并不能用純數(shù)學的方式實現(xiàn)完全表達。為了充分模擬人類智能和思維進行復雜系統(tǒng)信息處理,人們從物理學中借用了“粒”的概念,創(chuàng)造了“信息粒”概念引入信息科學,通過對不同層次的信息粒的分析來簡化并求解復雜的系統(tǒng)信息問題,從而形成信息科學中的粒度理論。
文章在探尋信息粒及粒度分析特性的基礎(chǔ)上,嘗試在體育這一特定學科中運用信息粒和粒度理論,針對該學科的網(wǎng)絡(luò)信息和數(shù)據(jù)資源展開粒度表達方式的探索性研究。
粒度理論的研究從上世紀60年代開始,圍繞粒度概念和理論、粒計算等領(lǐng)域,學者們?nèi)〉昧嗽S多研究成果。
關(guān)于信息粒及粒度的理論研究,1979年美國著名數(shù)學家Zadeh第一次提出并討論了模糊信息粒度的概念[1]2,這是信息科學中的首次提出“?!钡母拍?。1982年美國Hobbs教授提出了?;碚摷捌浠咎卣鳎J為以不同的粒度來刻畫世界,以粒子間的交換來處理問題;1985年又進一步提出了粒度(Granularity)的概念,討論粒的分解和合成[1]2。1997年Zadeh和Lin正式提出粒計算(granular computing)的概念[2]2。自此粒度理論的概念體系基本建立。
粒度理論的主要研究集中在人工智能學科的粒計算研究領(lǐng)域。二十世紀六十年代Zadeh提出模糊集合理論[2]2。1985年Hobbs提出了產(chǎn)生不同粒的方法和模型。1988年Lin提出了基于鄰域系統(tǒng)的擴展粗糙集粒計算模型。1990年張錢和張玲提出了基于商空間的粒計算模型。1998-2001年,Skowron以包含度概念來研究粒近似空間上的Rough下近似和Rough上近似,用模糊集合論的方法描述了信息粒及其粒計算[1]2。2002年,姚一豫用基于邏輯的方法定義一個基本粒[1]2;苗奪謙等研究了知識的粒計算模型,定義了屬性的重要度。2009年,李鴻給出了粒的四元組形式化表示[1]2。2012年,苗奪謙,徐菲菲等用集合論表述粒計算[1]2。還有一些粒度理論在知識管理應用的研究成果。
信息粒和粒度是信息科學粒度理論研究領(lǐng)域的兩個基本概念。
(一)信息粒
在物理學研究中,大的物體可以被分解為不同大小的粒子進行分析和重組。信息科學引入物理粒子的理念,提出了“信息?!备拍?,并將其定義為人類認知過程中最基本的知識單元,是一些信息元素的個體通過不分明關(guān)系、相似關(guān)系、鄰近關(guān)系或功能關(guān)系等關(guān)聯(lián)因素形成的信息或知識塊[2]9。一個包含特定的概念事物的集合就形成了一個信息粒,因此信息粒也可以被認為是滿足一定的描述條件的元素的集合,構(gòu)成粒計算模型的基本元素。
隨著認知科學對人類思維過程認識的不斷加深,透過模糊邏輯理論,信息科學對于信息粒的研究與計算應用,從精確信息粒已經(jīng)推廣到模糊信息粒,從而通過不同側(cè)面和角度對事物的觀察來了解事物的本質(zhì)性質(zhì)和結(jié)論,求解人類認識復雜的系統(tǒng)問題。因此,信息粒的表現(xiàn)形式既有真實粒,也有可能粒及概率粒。
(二)粒度
粒度是度量粒子大小的概念,是粒的一個基本屬性,表示粒子進行?;潭葧r的量化指數(shù)。從集合論的觀點理解,粒度是集合的勢;從分層理論的觀點來看,粒度是表示粒之間的順序、包含關(guān)系和控制關(guān)系。根據(jù)所研究的實際情況,可以表述為:復雜度、詳細程度和抽象度等。在人類認知過程中,往往根據(jù)復雜事物的性質(zhì)和特征將整體分解為不同的信息粒,一般先通過對事物粗略、總體的判斷之后,再進行個體的分析,從全局去分析和處理時會抽象并歸納成比較簡單的概念,即對研究的對象取較粗的粒度;反之,從細節(jié)角度則會提取更為精確的、甚至復雜的概念,即意味著對研究對象取較細的粒度。
信息的粒度表達是在信息粒化過程中對于信息粒之間存在和關(guān)系的描述。在實際問題求解中,粒度的劃分是動態(tài)的,針對不同的問題,人們需要對不同的信息粒度世界進行描述;當人們在求解同一問題時,也可能使用不同的方法描述不同信息粒度世界,因此,信息的粒度表達會隨著研究對象和求解問題或方法的不同而呈現(xiàn)動態(tài)。目前信息粒度表達方法主要是在粗糙集理論基礎(chǔ)上發(fā)展起來的,包括問題歸約、狀態(tài)空間、頻數(shù)約集等方法。
體育學科是一門與我們每個人的生活、健康、娛樂都密不可分的學科,對于它的研究在不斷深入和廣泛,交叉性、融合性研究尤為突出,其學科網(wǎng)絡(luò)信息數(shù)量大、類型多,既包括一般信息(即新聞報道、競賽直播(錄播)聲視頻、活動報道等),也包括專業(yè)信息(即賽事分析、競技體育教學、學術(shù)研究論文、科研立項和成果等)。下文探究使用不同的粒度表達方法描述和表達不同類型的體育學科網(wǎng)絡(luò)信息。
(一)信息粒度的問題歸約表達法
數(shù)理邏輯認為,信息粒子是所研究問題的一個子集,可以用邏輯的方法來形式化表示粒,用對象、特征、關(guān)系和約束條件四元要素集合來進行粒的內(nèi)部結(jié)構(gòu)描述。如果用G用來表示一個粒子,那么粒子G=(O,F(xiàn),R,J),圖1反映了四元要素構(gòu)成的信息粒。
圖1 信息粒的四維要素構(gòu)成
在圖1中,O表示所研究信息粒的對象集,可以是普通的集合或模糊集,其特性也許是有限的或是無限的;F代表信息粒的所有特征集合,體現(xiàn)了粒的內(nèi)在、外在、環(huán)境等基本特征;R表示信息粒中所有關(guān)系的集合,既包括各元素(對象)之間的關(guān)系,也包括特征之間的各種關(guān)系,還包括對象與特征之間的各種關(guān)系等;J則是所有如時間、距離、空間、規(guī)則等不同方面的約束條件的集合,用來描述信息粒的動態(tài)性和統(tǒng)一性。[3]22這四個要素互為向量,無論對象O、特征F、關(guān)系R、約束條件J中某一個向量發(fā)生變化,不僅G的論域和所屬關(guān)系會因此進行粒度變化,而且G所屬問題空間的結(jié)構(gòu)也會一并發(fā)生粒度變化。
信息粒G=(O,F(xiàn),R,J)的四元要素表達是一種問題歸約方法。這個四元組具體運用于分析某體育學科信息的粒的形式化過程的形態(tài)呈現(xiàn)將是如何?選取體育學科中最為人熟悉的體育賽事作為分析對象,根據(jù)體育賽事的特性列出如下信息表:
表1 體育賽事信息表
設(shè)這8個體育賽事構(gòu)成了一個對象集合O,記為:O=(X1,X2,X3,X4,X5,X6,X7,X8)。每個體育賽事都具有5種特征,每一特征記為A,A={賽事名稱,類型,舉辦周期,規(guī)模,參賽主體};賽事的特征構(gòu)成一個特征集K,在表1中每一個體育賽事各個特征項的值,則可記為KA,所有體育賽事的KA值并不完全相同,各自具有區(qū)別與其它體育賽事的特征。體育賽事的特征集合F,標記為:F=A×KA。那么根據(jù)給定的約束條件J將元素集合O中的元素進行分類,選取相應的特征和特征值,從而映射R:F→O信息?;?/p>
例如,按賽事名稱來粒化原始粒,可以得到R1={奧運會,大運會,世界杯足球賽,全國田徑錦標賽,CBA,全國青少年足球聯(lián)賽,***馬拉松邀請賽,全球電子競技邀請賽},這其中還可按區(qū)域細分為世界、中國和跨國三個更細的集合;按類型粒化:R2={綜合,單項};按舉辦周期?;篟3={周期性,聯(lián)賽,臨時性};按規(guī)模?;篟4={超大,大型,一般};按參賽主體?;篟5={成人,青年,青少年,未限定}。通過以上分析,可以得到一組用四元組G=(O,F(xiàn),R,J)來表示的?;剑?/p>
以上是對粒子單一特征的?;问竭^程,每一組劃分就表達了一種屬性的分類,可視為一種粒度分析結(jié)果的描述。不同組別的屬性分類,代表著不同粒度選擇的結(jié)果。同組屬性分類序列組合,則代表著粒度選擇的粗細屬性。粒度選擇越粗,粒子包含的元素就越多;反之,粒度選擇越細,粒子包含的元素就越少。
然而在現(xiàn)實問題求解時,往往不會僅限定一個或一種約束條件,例如求解“世界級單項超大型成人周期性體育賽事”,就需要在粒度分析的基礎(chǔ)上運用集合論,通過采用O/R1∩O/R2∩O/R3∩O/R4∩O/R5運算來解決。這個問題求解過程,就是一個人工智能對人類思維和解決復雜問題的簡化模擬過程。上述實例,同樣也從一方面說明用粒子的四元組G=(O,F(xiàn),R,J)不僅可以來表述粒,而且可以從全局和部分、精確和模糊等不同角度來分析粒,用以表述粒子的四元組G=(O,F(xiàn),R,J)是符合人類智能思維和運作特點的。
(二)信息粒度的狀態(tài)空間表達法
體育學科中的許多信息是聲視頻信息,在當前人工智能尚不能僅利用聲波和畫面就能完整標記聲視頻信息,因此,對體育聲視頻信息的標記還需要借助狀態(tài)空間法來進行信息分解和表達。首先對視頻進行一定的編輯,通過融合視覺、聽覺和文本等多模態(tài)信息來表征特定的故事情節(jié),再從語義、內(nèi)容和層次三類因素的去粒度分解、組合為每一個模態(tài)。而語義、內(nèi)容和層次則又分別可分為不同的粒度元素。通過建立一個融合多模態(tài)信息的通用體育視頻分析框架(見圖2),就可以對任意視頻從結(jié)構(gòu)化、內(nèi)容和語義上進行粒度分析,從而建立視頻的有效索引。
圖2 通用體育視頻分析框架
以一段體育教學視頻為例,從結(jié)構(gòu)化、內(nèi)容和語義上進行粒度分析。通過提取通用特征對視頻片段實現(xiàn)語義粒度標注:目的——教學,類別——球類,子類——籃球,邏輯單元——中學體育籃球教學單元,事件——校園體育教育;在進行視頻內(nèi)容粒度分析和表達時,可綜合利用一些視覺特征(如參與人物、場地、設(shè)施、廣告、海報等)和音頻特征(如口令、解說、音樂等)進行分析和理解:場景——某中學籃球場,目標——三步上籃動作訓練,人物——某中學體育教師和初中學生;根據(jù)視頻編輯手法進行視頻結(jié)構(gòu)層次的粒度分析,基本結(jié)構(gòu)單元——環(huán)行句型,物理結(jié)構(gòu)單元——全景+中景+近景+特寫,鏡頭的過渡——多角度動作重現(xiàn)+動作要領(lǐng)解說過渡,特效編輯手法——不同角度多次展示同一動作+減速錄播等。整個分解過程如圖3所示:
圖3 體育視頻空間狀態(tài)粒度分析與一般表達
(三)信息粒度的頻數(shù)約集表達法
在上文信息粒度的問題歸約表達和狀態(tài)空間表達中,不同粒度之間都會存在著某種邏輯關(guān)聯(lián)。而運用頻數(shù)約集表達法的粒度間的關(guān)系聯(lián)接則表現(xiàn)為頻率問題,同一頻數(shù)的對象歸為同一粒度。通過測算不同粒度的占比,以判定信息粒度所具有的類別區(qū)別力。
例如,當人們需要了解某網(wǎng)絡(luò)媒體對NBA和CBA在中國發(fā)展的喜好和傾向性時,就可以采取粒度的頻數(shù)約集表達法,選取該網(wǎng)媒某時間區(qū)間內(nèi)與主題相關(guān)的報道,計算關(guān)鍵詞“NBA”、“CBA”、“中國”在文中的詞頻,通過對比不同頻數(shù)粒度的占比從而判別網(wǎng)媒態(tài)度。假定分別以兩篇1000個字匯的報道(分別標記為A文、B文)和一篇2000個字匯的報道(標記為C文)為樣本,析出三個關(guān)鍵詞在文中的詞量和詞頻占比(如表2)。
表2 信頻息粒度的數(shù)約集表達詞頻模擬
表2數(shù)據(jù)顯示,在三個樣本報道中詞頻最高的分別是NBA、CBA、NBA,詞頻最低的分別是中國、中國、CBA,詞頻居中的分別是CBA、NBA、CBA。假設(shè)這三組詞分別構(gòu)成粒度α、δ、β,則:在高頻粒度α中關(guān)鍵詞“NBA”出現(xiàn)頻率多于其它關(guān)鍵詞,說明該網(wǎng)媒對“NBA”的關(guān)注度很高;低頻粒度δ中關(guān)鍵詞多是“中國”,說明該網(wǎng)媒比較單純關(guān)注NBA,而并不太關(guān)注NBA與中國之間的關(guān)系發(fā)展。
當然在實際的信息粒度求解時,如此的信息關(guān)鍵詞選取法是不完全的,還應包括“美國籃球聯(lián)賽”、“中國籃球聯(lián)賽”等關(guān)聯(lián)詞匯。
學科網(wǎng)絡(luò)信息的粒度表達形式與信息類型、分析需求等主客觀因素有密切關(guān)聯(lián)。筆者做了下述表3中的實例研究。
表3 學科網(wǎng)絡(luò)信息粒度表達樣本表
國家體育總局在這十年間,共立項1356個體育哲學社會科學研究項目,對這些信息進行粒度分析時,可從立項時間、項目類型、項目承擔單位性質(zhì)、項目負責人來自地區(qū)等要素進行不同粒度集約,分別形成“時間粒度(S)”、“類型粒度(X)”、“單位粒度(T)”、“地區(qū)粒度(L)”等粗分信息粒子,粗分信息粒子中則可遵循一定規(guī)劃進行層層細分,形成不同粒度的細分粒度信息粒子。圖4選取“單位粒度”進行了三次粒度細分,視情況還可作更進一步的粒度細分,獲得更細粒度的信息粒子。
圖4 信息粒度細分示意簡圖
每一種粗分信息粒子都可以如圖4所示,進行一次、二次、三次……乃至N次的細分,從而獲得Sn、Xn、Tn、Ln細信息粒度集約,Sn、Xn、Tn、Ln中每個信息粒度集約都可能存在交叉的邏輯關(guān)系,由一定邏輯關(guān)系交叉存在的信息粒子就是滿足粒度分析需求的結(jié)果。
在人類的思維過程中,會采用概括的多粒度分析法,將復雜的或是難于準確把握的問題進行由粗到細地分解,通過不斷地嘗試去求得問題的最佳解[4]1611,而且能從極不相同的粒度上觀察和分析同一問題,擁有處理不同粒度世界的能力。目前,雖然人們對信息粒度理論和表達方式的研究在不斷深入,但如上文對特定學科網(wǎng)絡(luò)信息的粒度表達一樣,大多仍是尚處于單一粒度世界中的研究探索,對人腦思維活動和認知過程模仿處理存在著不精確、不確定和不完全信息的缺陷。因此,信息粒度的研究應突破單一粒度的局圄,更深入地融合認知科學和信息科學,研究多粒度世界轉(zhuǎn)換的思維特征和性能,發(fā)展模擬人類智能在不同的粒度世界上進行問題求解的理論和應用工具。
[1]王昆.基于邏輯方法的?;碚摚跠].北京:首都師范大學,2014:2-10.
[2]賈秀芳.基于粒計算模型的知識推理理論與方法[D].合肥:中國科學技術(shù)大學,2014:2-9.
[3]李鴻.粒的形式化表示研究[J].宿州學院學報,2011,26(5):21-24.
[4]周軍,林慶,胡瑞瑞.基于動態(tài)粒度商的屬性約簡算法[J].計算機應用,2009,29(6):1608-1611.
【責任編輯:趙佳麗】
The Granularity Expression of Subject Network Information
ZHOU Hongwei
(Library,Huizhou University,Huizhou 516007,Guangdong,China)
Based on the"particle"concept of theory of particle physics,the granularity theory integrates the computing science and information science with cognitive science.It focuses on using information granules and granularity analysis method from the perspective of cognitive science,which is for the analysis and simulation of the complex information processing of human brain.The paper elaborated the basic concepts of granularity theory,the properties of information granules,and introduced the information granularity and granularity theory into the field of sports disciplines.It further explored the use of the corresponding information granularity analysis method for the study of the sports network information granularity expression for different types of sports network information and needs.
subject information;network information;information granule;granularity;granular computing
G353
A
1671-5934(2017)01-0101-05
2016-06-22
廣東省哲學社會科學規(guī)劃項目(GD13XTS03)
周紅煒(1970-),女,湖南長沙人,副研究館員,管理學碩士,研究方向為情報分析與文獻信息處理。