崔雪梅,李鳳月,Seung Kee Han
(1.延邊大學師范學院學科教育教研部,吉林 延吉 133002;2.韓國忠北大學校物理系,清州361- 763)
物理知識網絡的特性分析
崔雪梅1,李鳳月1,Seung Kee Han2
(1.延邊大學師范學院學科教育教研部,吉林 延吉 133002;2.韓國忠北大學校物理系,清州361- 763)
為了研究由物理用語組成的物理知識網絡的特性,利用復雜網絡理論構建了物理知識的二元網絡,通過分析發(fā)現(xiàn)物理知識二元網絡具有復雜網絡的特點:物理用語間的平均距離較短;物理知識網絡的度分布滿足冪律分布;物理知識網絡具有層次性模塊結構。因此,通過分析物理知識的二元網絡特性,可以理解物理教科書所隱含的抽象的物理知識的結構特征。
物理用語;物理知識網絡;冪律分布;層次性模塊結構
人類發(fā)明文字和印刷術后,書在各個領域作為記錄和傳遞信息的載體,發(fā)揮著重要的作用。隨著計算機和網絡技術的飛速發(fā)展,書以多樣的形式和更加系統(tǒng)化的建構方式,發(fā)展成為讓讀者更加易于理解的學習媒體。經過人類長時間經驗的積累,寫書的模式逐漸固定了下來。在書中,為了描述指定的內容,作者有目的、有意圖地選擇詞語,之后將這些詞語系統(tǒng)地羅列,將知識從簡單的水平推向更高水平。雖然書中所使用的詞語是由作者選擇的,但還是受內容的限制,并且也受前人經常使用的或規(guī)定的詞語的影響,為的是通俗易懂。某個行業(yè)或專業(yè)的專門術語稱為用語,這些用語是人類為了表示相同知識而做的約定。描述一個現(xiàn)象只用一個用語是遠遠不夠的,要用相關的若干個用語,而且有些特定的用語使用次數(shù)還特別多。關系最密切的用語在書的基本單位(句子)中同時出現(xiàn),說明簡單的現(xiàn)象,句子構成段落、段落構成節(jié)、節(jié)構成單元、單元構成書,并形成最大單位的知識。從這種觀點看,在書中使用的用語,互相有聯(lián)系,并共同產生新的知識??梢哉f,知識是由組成這些知識的用語和用語間的關系構成的。因此,可以基于復雜網絡理論建立物理用語間的連接圖,這個連接圖又稱網絡。通常,網絡是由有關聯(lián)的要素間的連接來構成,要素越多就越復雜。為了解釋自然現(xiàn)象或社會現(xiàn)象的復雜性,近年來學者們進行了非常多的研究[1-9],計算機和網絡技術的發(fā)展為社會網絡、生物網絡、Internet網絡等各個領域的復雜性研究提供了可能性。
在本研究中,著眼于書中的知識是以物理用語之間的關系組成的觀點,對3本普通物理教科書構建了物理知識網絡,并進行了網絡特性的分析。在這里,知識網絡的節(jié)點是物理用語,網絡的連邊是物理用語間的關系。
本研究的研究對象為 Griffith[10]、Hewittt[11]和 Knight[12]編寫的3本普通物理教科書,物理用語的界定是以牛津的物理用語詞典[13]中定義的物理用語為依據(jù)。提取物理用語時將單數(shù)和復數(shù)形式的英文單詞視為相同的物理用語,由兩個以上單詞組成的物理用語以合成詞提取,組成合成詞的單詞不再作為物理用語提取。比如“magnetic force”只提取合成詞用語,“force”就不再提取。有多種語義的用語,比如“second”在提取物理用語后,人工進行核對后將未以物理用語的意思使用的部分予以刪除。
將一個物理用語在整個書中出現(xiàn)的次數(shù)稱為該物理用語的使用頻率,以f表示。表1中列出了3本教科書中有關物理用語的基本數(shù)據(jù)。3本教科書的系統(tǒng)大小不同,這有助于發(fā)現(xiàn)與系統(tǒng)大小無關的物理知識網絡的固有特性。
表1 3本教科書的基本統(tǒng)計數(shù)據(jù)Tab.1 Basic statistical data for 3textbooks
物理教科書中的物理知識由最基本的物理用語構成句子,由多個句子組成段落、小單元,依此類推進行有關自然現(xiàn)象的說明。因此,可以認為出現(xiàn)在同一段落中的物理用語是相互聯(lián)系的,而且出現(xiàn)在同一句子中的物理用語間的關系更為密切?;谶@種觀點,按照如下假定構建知識網絡:1)將教科書中出現(xiàn)的物理用語作為網絡的節(jié)點;2)兩個物理用語在同一句子中出現(xiàn),則認為兩個物理用語間有連邊,并且連邊沒有權值;3)形成知識網絡時連邊不考慮方向。以這種方式建構的知識網絡是連邊沒有權值、沒有方向的二元網絡,構建知識網絡的具體方式如圖1所示。圖1中force的度為5,mass的度為3,vector的度為2。
表2中列出了3本教科書中使用頻率最大的前20個物理用語。
根據(jù)教科書的側重點不同,各個教科書中使用的物理用語會有區(qū)別,但從表2中可以發(fā)現(xiàn),在3本教科書中使用頻率最大的都是“force”,另外“energy”,“l(fā)ight”,“time”,“mass”,“charge”,“motion”,“speed”,“wave”,“current”,“atom”等物理用語在3本教科書中使用頻率都比較大,這說明這些物理用語在物理知識體系中占據(jù)著比較重要的地位。
為了了解教科書中物理用語使用頻率的分布情況,圖2中列出了物理用語使用頻率的分布圖。雖然有使用頻率超過1 000的物理用語,但使用頻率大的物理用語個數(shù)不多,大部分物理的使用次數(shù)在1~10之間,物理用語使用頻率的分布呈現(xiàn)典型的冪律分布P(f)~f-α,而且3本教科書的指數(shù)α都約為1.0,這表明3本教科書在物理用語使用頻率特性上具有相似性。
圖1 構建物理知識二元網絡示例圖Fig.1 Illustration of binary network of physics knowledge
表2 3本教科書中使用頻率最大的20個物理用語Tab.2 20most frequent physics terms in 3textbooks
哈佛大學的語言學專家Zipf通過研究發(fā)現(xiàn),在一個有相當長度的語篇中如果把單詞出現(xiàn)的頻率(f)按由大到小的順序排列,則每個單詞出現(xiàn)的頻率與它的名次(rank)的常數(shù)次冪存在簡單的反比關系,這種分布就稱為Zipf定律,又稱頻分布定律。這個定律后來在很多領域得到了同樣的驗證,包括網站的訪問者數(shù)量、不同姓氏人數(shù)的數(shù)量和每個國家公司的數(shù)量等等[14]。為了確認物理教科書中的物理用語是否滿足Zipf定律,圖3中畫出了3本物理教科書中的物理用語的頻率與其名次間的關系,因為3本教科書的物理用語數(shù)有限,所以將其結果以冪律指數(shù)截止函數(shù)f(r)~r-ηe-rδ擬合,冪指數(shù)η=0.5,時間常數(shù)δ=0.002,r在1~1/δ(約500)之間呈現(xiàn)冪律分布,r大于1/δ的區(qū)間內由于數(shù)據(jù)量有限,所以呈現(xiàn)指數(shù)分布。因此,總體上3本教科書的物理用語也滿足Zipf定律。
圖4是借助于Pajek[15]軟件畫出的對Griffith教科書建構的二元網絡,由于教科書中出現(xiàn)的物理用語較多,所以把所有的物理用語都顯示在圖中,將無法看清網絡的特性,為此在圖中只列出了同時在相同句子中出現(xiàn)10次以上的114個物理用語。從圖中看出,存在使用頻率大的物理用語,相應地這些物理用語的度也大,并且組成了模塊結構。物理知識網絡以教科書的各個單元為單位組成了模塊,在模塊中充當中心的是那些使用頻率較大的物理用語,也說明使用頻率較大的物理用語在物理知識網絡的形成中發(fā)揮重要的作用。成為各個單元中心的物理用語分別是:“force”,“velocity”,“time”,“charge”,“current”,“heat”,“temperature”,“l(fā)ight”,“wave”,“atom”,“electron”等,可以說這些物理用語是代表該單元的核心用語,因此可以用知識網絡的形式把隱含在教科書背后的知識結構呈現(xiàn)出來。
表3中列出了代表物理知識二元網絡特性的統(tǒng)計數(shù)據(jù)。
3本教科書的二元網絡的節(jié)點個數(shù)N分別為654,562和772,Knight書的系統(tǒng)大小比其他兩本大,所以網絡的節(jié)點數(shù)也更多。平均度〈k〉的大小分別為17.6,15.9和20.1,3本教科書的平均度比較大,說明3本教科書的二元網絡是節(jié)點間連邊較多的網絡,也表示說明一個物理概念時有很多相關的物理用語參與其中。度分布特性的分析是分析網絡結構特性的典型的方法,在1999年BA萬維網結構研究和網絡模型[16-17]中出現(xiàn)的一般的特性是度k的分布函數(shù)P(k)以冪函數(shù)的形式隨著k的增加而減小,即P(k)~k-β,這里指數(shù)β是呈現(xiàn)網絡特性的標度指數(shù)。度分布滿足冪律分布的網絡稱為無標度網絡。萬維網[17]、internet[18]、代謝網絡[2]等很多種網絡的度都呈現(xiàn)冪律分布。圖5中列出了3本教科書的二元網絡的度分布函數(shù),在本研究中3本教科書的度分布更接近于漂移冪律分布P(k)~(k+a)-β[19],并且a=10,β=2.0,度分布接近于冪律分布,這說明3本教科書的二元網絡具有無標度網絡的特性。
圖3 3本物理教科書中的物理用語頻率(f)與其名次(r)間的關系(雙對數(shù)坐標)Fig.3 Relation between physics term using frequency(f)and its rank(r)for 3textbooks(log-log plot)
圖4 Griffith教科書的二元網絡Fig.4 Binary network for textbook by Griffith
關于度分布滿足冪律分布的內部機制,Barabási和 Albert提出了兩條原則[20],一是網絡的增長性;二是偏好連接機制。但冪律度分布的來源不只是BA生長網絡的偏好連接機制,還有很多機制也將會導致冪律度分布[21]。比如,經濟網絡的冪率長尾的原因是成本,地震網絡中由于一次強力地震可以引發(fā)一系列強度較弱的余震,因此呈現(xiàn)地震強度的冪率分布,在這些網絡中似乎看不到偏好連接的特征[22]。對物理知識網絡的冪律度分布的起源要進行更加深入的研究,并在后續(xù)研究中揭示其內在機制,這對進一步了解物理知識網絡的特性、提高物理學習效果、提高物理教科書編寫水平都會有積極的推進作用的。
網絡中兩個節(jié)點之間的距離定義為連接這兩個節(jié)點的最短路徑上的邊數(shù),在表3中可看到3本教科書的節(jié)點間的平均距離〈D〉在2.7~2.9之間,即節(jié)點之間的平均距離在3.0以內。聚集系數(shù)是表示一個網絡中的節(jié)點的聚集程度的系數(shù),代謝網絡(C=0.7)[2]和演員網絡(C=0.79)[23]等網絡的聚集系數(shù)較大,說明這些網絡中節(jié)點之間聚集程度較高。表3中的〈C〉在0.2~0.3之間,說明3本教科書的二元網絡也具有一定的聚集程度。從3本教科書的平均距離〈D〉小于3.0,并且聚集系數(shù)〈C〉在0.2~0.3之間,可以看出教科書的二元網絡具有小世界網絡的特性。
表3 3本教科書的二元網絡的統(tǒng)計數(shù)據(jù)Tab.3 Statistical data for the binary networks of 3textbooks
圖5 3本教科書知識網絡的度的分布圖(雙對數(shù)坐標)Fig.5 Degree distribution for knowledge networks of 3textbooks(log-log plot)
圖6的聚集系數(shù)分布圖中聚集系數(shù)C(k)與度k之間呈現(xiàn)冪律分布關系C(k)~k-γ,并且γ在0.4~0.5之間,雖然比代謝網絡的γ(≈1)值小,但也可以說3本教科書的二元網絡具有層次性模塊結構,即,由若干個有密切聯(lián)系的物理用語組成小規(guī)模的概念模塊,由這些小規(guī)模概念模塊再組成更大規(guī)模的概念模塊,以這種層次性模塊結構建構整個物理知識網絡。
圖6 3本教科書知識網絡的聚集系數(shù)分布圖(雙對數(shù)坐標)Fig.6 Clustering coefficient distribution for knowledge networks of 3textbooks(log-log plot)
以牛津物理用語辭典中定義的物理用語為依據(jù),對3本英文版的普通物理教科書進行了分析。物理用語的使用頻率分布滿足冪律分布P(f)~f-α,α≈1.0,表明存在“force”、“energy”等多次重復使用的物理用語,但其個數(shù)不多,大多數(shù)物理用語的使用頻率是較小的,這與對普通生活用語分析的結果相一致[24]。對3本教科書構建的二元網絡中,度分布滿足P(k)~k-β,0.8<β<1.0,表明教科書的二元網絡具有無標度網絡的特性,并且具有生長網絡的特性[15]。3本教科書的二元網絡的節(jié)點間的平均距離小于3.0、并且聚集系數(shù)在0.2~0.3之間,表明網絡具有小世界網絡的特性。另外,聚集系數(shù)的分布滿足冪律分布C(k)~k-γ,0.4<γ<0.5,還表明網絡具有層次性模塊結構特性。這說明,物理知識與相關的物理用語緊密連接,并且這些物理知識間又有聯(lián)系。
本研究提供了將教科書中出現(xiàn)的物理用語收集到數(shù)據(jù)庫后構建基本統(tǒng)計資料的方法,利用知識網絡的建構發(fā)現(xiàn)了物理用語間的基本關系。這種收集數(shù)據(jù)和分析數(shù)據(jù)的方法,在其他學習領域中也可以廣泛利用,具有借鑒意義。
[1]Barabási A-L,Albert R,Jeong H,et al.Power-law distribution of the world wide web[J].Science,2000,287(5461):2115.
[2]Jeong H,Tombor B,Albert R,et al.The large-scale organization of metabolic networks[J].Nature,2000,407(6804):651-655.
[3]Jeong H,Mason S P,Barabási A-L,et al.Lethality and centrality in protein networks[J].Nature,2001,411(6833):41-42.
[4]SoléR V,Montoya J M.Complexity and fragility in ecological networks[J].Proc R Soc Lond B,2001,268(1480):2039-2045.
[5]Barabási A-L,Jeong H,Neda Z,et al.Evolution of the social network of scientific collaborations[J].Physica A,2002,311(34):590-614.
[6]Goh K-I,Cusick M E,Valle D et al.The human disease network[J].PNAS,2007,104(21):8685-8690.
[7]Hidalgo C A,Rodriguez-Sickert.The dynamics of a mobile phone network[J].Physica A,2008,387(12):3017-3024.
[8]周濤.在線電影點播中的人類動力學模式[J].復雜系統(tǒng)與復雜性科學,2008,5(1):1-5.
Zhou Tao.Human activity pattern on on-line movie watching[J].Complex Systems and Complexity Science,2008,5(1):1-5.
[9]王福生,楊洪勇.圖書管理系統(tǒng)中的借閱行為分析[J].復雜系統(tǒng)與復雜性科學,2012,9(1):55-58.
Wang Fusheng,Yang Hongyong.Books-borrowing behavior in library management system[J].Complex Systems and Complexity Science,2012,9(1):55-58.
[10]Griffith W T.The Physics of Everyday Phenomena[M].New York:McGraw-Hill,1998.
[11]Hewitt P G.Conceptual Physics[M].New York:Addison-Wesley,1997.
[12]Knight R D.Physics[M].New York:Addison-Wesley,2003.
[13]Daintith J.Oxford Dictionary of Physics[M].New York:Oxford University Press,2005.
[14]百度百科.Zipf定律[DB/OL].[2010-09-10].http://baike.baidu.com/view/1519158.htm.
[15]Batagelj V,Mrvar A.Pajek:program for large networks analysis[DB/OL].[2010-09-10].http://vlado.fmf.uni-lj.si/pub/networks/pajek/.
[16]Barabási A-L,Albert R,Jeong H.Mean-field theory for scale-free random networks[J].Physica A,1999,272(3/4):173-187.
[17]Albert R,Jeong H,Barabási A-L.Diameter of the world wide web[J].Nature.1999,401(6749):130-131.
[18]Faloutsos M,F(xiàn)aloutsos P,F(xiàn)aloutsos C.On power-law relationships of the internet topology[J].Comput Commun Rev,1999,29(4):251-263.
[19]何大韌,劉宗華,汪秉宏.復雜系統(tǒng)與復雜網絡[M].北京:高等教育出版社,2009.
[20]Barabási A-L,Albert R.Emergence of scaling in random networks[J].Science,1999,286(5442):509-512.
[21]Zhu CH P,Zhou T,Yang H J,et al.The process of coevolutionary competitive exclusion:speciation,multifractality and power-laws in correlations[J].New Journal of Physics,2008,10(2):023006.
[22]王林,戴冠中.復雜網絡的Scale-free性、Scale-free現(xiàn)象及其控制[M].北京:科學出版社,2009.
[23]Watts D J,Strogatz S H.Collective dynamics of‘small-world’networks[J].Nature,1998,393(6684):440-442.
[24]Cancho R F,SoléR V.Two regimes in the frequency of words and the origins of complex lexicons:Zipf's law revisited[J].J Quan Ling,2001,8(3):165-173.
Analysis of the Characteristics of Physics Knowledge Network
CUI Xue-mei1,LI Feng-yue1,Seung Kee Han2
(1.Teaching and Research Department of Discipline Education,Normal College,Yanbain University,Yanji 133002,China;2.Department of Physics,Chungbuk National University,CheongJu 361-763,Korea)
To research the characteristics of physics knowledge network which is composed of physics terms,a binary network of physics knowledge was constructed based on complex network theory.Furthermore,by analyzing the binary network of physics knowledge,it was discovered that the binary network of physics knowledge possesses the characteristics of complex network:The mean distance between any two nodes is very small,Degree distribution of physics knowledge network follows the power-law distribution,Physics knowledge network has hierarchical modular structure.Therefore,based on analysis of the binary network of physics knowledge,the structure characteristics of abstract physics knowledge implied in the textbook would be understood.
physics terms;physics-knowledge network;power-law distribution;hierarchical modular structure
N94
A
1672-3813(2013)02-0030-07
2012-12-05
延邊大學科技發(fā)展計劃項目2012(12號)
崔雪梅(1969-),女,吉林延吉人,博士,副教授,主要研究方向為物理課程與教學論和復雜網絡。
(責任編輯 李進)