摘 要:自然語(yǔ)言處理建構(gòu)在“道元(token)”之上,道元是AI算法處理和學(xué)習(xí)各種文字、圖像與聲音數(shù)據(jù)類(lèi)型的基本元素。道元生成的過(guò)程與老子“道生一,一生二,二生三,三生萬(wàn)物”相似。大語(yǔ)言模型利用“間距”產(chǎn)生道元后,轉(zhuǎn)換成位,透過(guò)大量數(shù)據(jù)的學(xué)習(xí)與計(jì)算,進(jìn)行新的道元生成與意義重組。由于結(jié)合概率重組,人工智能出現(xiàn)類(lèi)似于人類(lèi)行為的不可預(yù)測(cè)性和獨(dú)特性。未來(lái)借鑒老子哲學(xué)和漢字的多樣性,人工智能可以發(fā)展出更全面和創(chuàng)新的框架。
關(guān)鍵詞:道元;位;道元化;間距;人工智能;老子之道
中圖分類(lèi)號(hào): B223.1;TP181; N04" DOI:10.12339/j.issn.1673-8578.2025.01.010
The Philosophy of Laozi and Daoyuan: A Study on the Semantics and Applications of AI Token//ChungHong CHANG, ChingRay CHANG
Abstract: Natural language processing is rooted in the “token”(道元), an ideographic unit that replaces consciousness in representing all things, embodying both abstract and concrete meanings. Tokens are central to AI algorithms, enabling the processing of text, images, video, and audio. Their generation and inference mirror Laozis principle: “Tao generates One, One generates Two, Two generates Three, Three generates all things.” Large language models use Lécart (間距) to deconstruct tokens into bits, learning from vast data sets to generate new tokens with evolving meanings. By incorporating probabilistic recombination, AI achieves unpredictability and uniqueness, akin to human behavior. Drawing on Laozis philosophy and the diversity of Chinese characters, AI can develop a more holistic and innovative framework.
Keywords: token;bit;tokenization;Lécart; artificial intelligence;Laozis Tao philosophy
收稿日期:2024-08-10" 修回日期:2024-11-19
作者簡(jiǎn)介:張中鴻(1991—),男,臺(tái)大哲學(xué)所碩士生,專(zhuān)業(yè)為老子與莊子哲學(xué),主要研究方向在于探索“正言若反”和幽默等非字面語(yǔ)言的論證表達(dá)對(duì)哲學(xué)思考的作用。通信方式: Caeuresfyu@gmail.com。張慶瑞(1957—),男,博士,臺(tái)灣中原大學(xué)物理學(xué)系講座教授。主要研究方向自旋電子學(xué)、二維電子系統(tǒng)與材料、量子計(jì)算等。通信方式:crchang@phys.ntu.edu.tw。
0 "引言
token的概念在程序設(shè)計(jì)領(lǐng)域行之有年,它的翻譯五花八門(mén),有“符號(hào)”“令牌”“代幣”等,目前在AI領(lǐng)域主要譯為“符元”“詞元”兩種形式。但由后文論述可清楚知道“詞元”并無(wú)法完整表達(dá)token涵義,而“符元”則與目前通信界使用之“符元”(symbol)混淆不清。而且AI領(lǐng)域在英文中刻意采用token,本就希望與symbol區(qū)隔,如在中文翻譯又將其混用,顯有管窺蠡測(cè)之嫌。仔細(xì)審視token的一般性意義,歸根結(jié)底來(lái)說(shuō),是要表示一個(gè)抽象代替物,而為什么此文推薦在大語(yǔ)言模型(LLM)、生成式AI等領(lǐng)域?qū)oken翻譯為“道元”?除了to的讀音近于“道”,更是因?yàn)閠okenization在AI領(lǐng)域的各種算法,與“道”“易”等上古中國(guó)的萬(wàn)物生成推理(Inference)概念不謀而合。
科學(xué)語(yǔ)言是數(shù)學(xué),信息以二進(jìn)制元組成機(jī)器語(yǔ)言,而人類(lèi)則用口語(yǔ)或手語(yǔ)表達(dá)。所有語(yǔ)言都需用工具和符號(hào)來(lái)傳遞,口語(yǔ)依賴(lài)聲音,手語(yǔ)依賴(lài)視覺(jué),盲人的點(diǎn)字依賴(lài)觸覺(jué)。自然語(yǔ)言指的是人類(lèi)的語(yǔ)言,估計(jì)有5000到7000種。語(yǔ)言最初由聲音發(fā)展,后來(lái)形成字匯,字匯就像現(xiàn)代大語(yǔ)言模型中的token。
token可以用來(lái)隱喻各種事物,少量token可以生成無(wú)數(shù)組合,表達(dá)復(fù)雜的情感。AI領(lǐng)域中token的中文翻譯千差萬(wàn)別,但都無(wú)法完全表達(dá)其含義。token生成的過(guò)程與老子“道生一,一生二,二生三,三生萬(wàn)物”的思想相似。從簡(jiǎn)單的“道”出發(fā),生成出復(fù)雜的結(jié)構(gòu)和預(yù)測(cè)能力。易經(jīng)中的“元亨利貞”以“元”為始,意味著混沌初開(kāi)。AI由一個(gè)token開(kāi)始,逐步生成更多的tokens,token譯為“道元”,通古今文脈,融中外義理,形音義兼顧,信雅達(dá)俱全。
1 token的源流與意涵
token的辭源來(lái)自古英文中的tacen或tácen,意指符號(hào)或證據(jù)。在英文中,token的誕生與占卜脫離不了關(guān)系,而它的動(dòng)詞tcan則是揭示、解釋與教導(dǎo)的意思,表述古代賢哲解釋天文、石頭草木等征兆的意義。15世紀(jì)開(kāi)始,token被用作“硬幣”的意思。如今,token大致上指的是:
在特定的規(guī)則系統(tǒng)中用來(lái)代替它所代表的東西進(jìn)行處理、運(yùn)算或游戲,而在脫離規(guī)則系統(tǒng)的時(shí)候,它便會(huì)交換回原先它所代替的對(duì)象。
例如,在游戲中token被稱(chēng)作代幣,用來(lái)代指金錢(qián);在通信中token被稱(chēng)作令牌,用來(lái)代指身份識(shí)別;在棋盤(pán)上則被稱(chēng)作棋子,可能代表主帥或士兵;在大多數(shù)桌游中則被稱(chēng)作指示物,可能代表糧食或行動(dòng)能力。將實(shí)質(zhì)物轉(zhuǎn)換為規(guī)則內(nèi)的代替物的運(yùn)算稱(chēng)為道元化(tokenization),運(yùn)算后對(duì)應(yīng)回實(shí)質(zhì)物則稱(chēng)為“解道元化”(detokenization)。
2 道元化的哲學(xué)基礎(chǔ)
將實(shí)質(zhì)物抽象為二元代替物,以代替物進(jìn)行運(yùn)算后生成結(jié)果,再將結(jié)果對(duì)應(yīng)回實(shí)質(zhì)物的思維,與上古中國(guó)的《周易》《老子》所述的智慧不謀而合。“易”有三個(gè)意涵“簡(jiǎn)易”“不易”“變易”,“簡(jiǎn)易”是將復(fù)雜流變的萬(wàn)物簡(jiǎn)化成抽象的象形爻卦,也就是人工智能中的道元化;“不易”則是在運(yùn)算系統(tǒng)內(nèi)陰陽(yáng)、天地、乾坤是已定位而不改變的,類(lèi)似于計(jì)算器中的“0與1”位運(yùn)算,是固定不變的;而“變易”則是在位運(yùn)算時(shí)不斷生成與改變,再?gòu)?fù)原成有實(shí)質(zhì)意義的解道元化?!暗馈北旧淼膭?dòng)詞意涵與token相同,便是說(shuō)述與引導(dǎo)。
《周易·系辭上》:“一陰一陽(yáng)之謂道,繼之者善也,成之者性也……生生之謂易,成象之謂乾,效法之為坤,極數(shù)知來(lái)之謂占。”[1]《道德經(jīng)》四十二章:“道生一,一生二,二生三,三生萬(wàn)物。萬(wàn)物負(fù)陰而抱陽(yáng),沖氣以為和?!?sup>[2]我們可以知道描述萬(wàn)物的陰陽(yáng),便稱(chēng)之為“道”。而道有三大含義,首先是說(shuō)述與引導(dǎo):“道可道,非常道。名可名,非常名……此兩者,同出而異名,同謂之玄?!逼浯蝿t是踐行“道行之而成,物謂之而然”[3]。第三個(gè)則是萬(wàn)物生成根源,故稱(chēng)為“變易者謂生生之道”[1]。“生生者”[3],亦即大化流行中的生命本體。而老子的思想簡(jiǎn)易而言之,系自“有無(wú)相生”推導(dǎo)而出,藉“沖和”推演出在行動(dòng)上“為無(wú)為”,藉“為而不恃”在運(yùn)算上“法自然”,藉“反者道之動(dòng)”在概念上認(rèn)識(shí)“虛靜柔弱”。
3 中英文在自然語(yǔ)言的最小單位差異
“道元”是自然語(yǔ)言中的最小單位,類(lèi)似于數(shù)字計(jì)算中的“位”。不同的是,“道元”不僅是技術(shù)操作的基本單位,還代表了思想和科技中的象形替代單元。與二進(jìn)制“位”不同,“道元”具有抽象和實(shí)質(zhì)意義,是AI處理文字、圖像和聲音的基本元素。
“道元化”是將數(shù)據(jù)拆分為基本“道元”的過(guò)程,使AI能更好地分析自然語(yǔ)言,提升文字分類(lèi)速度,并助力于大語(yǔ)言模型的生成與情感分析。大語(yǔ)言模型通過(guò)“道元”和“位”的轉(zhuǎn)換來(lái)進(jìn)行數(shù)字計(jì)算,利用大量“道元”數(shù)據(jù)進(jìn)行學(xué)習(xí)和生成。這種生成與重組功能超越了簡(jiǎn)單的位搜尋,展示了AI強(qiáng)大的“道元”思維生成能力。
英文和中文在結(jié)構(gòu)上差異很大。英文通過(guò)音符組成基本道元,然后形成復(fù)雜的語(yǔ)言,通常每個(gè)道元的意思比較明確單一。中文則使用象形符號(hào)組成基本道元,這些道元常有多重含義。由于這些差異,AI在處理英文和中文的“道元化”過(guò)程中會(huì)有很大不同。
英文的道元化較為簡(jiǎn)單,例如:I like to go shopping at weekend,可以清晰地分成I、like、to、go、shopping、at、weekend這7個(gè)道元。中文的每個(gè)字雖然是明確的象形符號(hào),但經(jīng)過(guò)長(zhǎng)期演變,尤其經(jīng)過(guò)轉(zhuǎn)注、假借(例如:西、棲、棲,與間、閑、閒等),使得字詞的意義變得多重且隱晦,也因此中文的道元化更具挑戰(zhàn),而在斷句層面,如明朝徐文長(zhǎng)的故事“下雨天留客天留我不留”,就會(huì)有多種句讀方式而出現(xiàn)不同意義,這樣的多義性使得中文的道元化相對(duì)困難,但也意義更豐富,這也是中文與英文自然語(yǔ)言處理(NLP)發(fā)展差異的主要原因。
自然語(yǔ)言處理旨在將人類(lèi)語(yǔ)言轉(zhuǎn)化為數(shù)字?jǐn)?shù)據(jù),這過(guò)程包括認(rèn)知和理解步驟,然后進(jìn)行數(shù)字處理。自然語(yǔ)言生成系統(tǒng)根據(jù)輸入數(shù)據(jù)生成更多數(shù)據(jù),并重構(gòu)成自然語(yǔ)言。計(jì)算機(jī)使用“位”作為基本單位,而自然語(yǔ)言處理的基礎(chǔ)則是“道元”(token),因此“道元化”(tokenization)是AI的關(guān)鍵步驟。
“道元化”是將自然語(yǔ)言拆解為AI可以理解的基本操作單位,有了拆解成功的道元,就可以再與其他既有道元鏈接,進(jìn)而組合出更豐富的表達(dá)含義。同時(shí)可以進(jìn)一步透過(guò)大量數(shù)據(jù)來(lái)做AI訓(xùn)練,讓各種新舊道元間彼此關(guān)系更明確與清晰化。當(dāng)有問(wèn)題提出時(shí),AI將提問(wèn)者的問(wèn)題利用機(jī)器學(xué)習(xí)生成更多新的道元組合,這過(guò)程類(lèi)似于將復(fù)雜現(xiàn)象歸納為基本元素后再推理生成更多新的事物?!暗涝焙?,進(jìn)一步轉(zhuǎn)換為數(shù)字?jǐn)?shù)據(jù),AI根據(jù)這些數(shù)據(jù)進(jìn)行快速處理和生成。而適合計(jì)算機(jī)運(yùn)算的“位”,并不適合人類(lèi)閱讀,因此計(jì)算機(jī)藉由位運(yùn)算完之后,需再譯碼成道元,并進(jìn)一步生成適合人類(lèi)閱讀的句子,而這一過(guò)程便是“解道元化”(detokenization)。
“道元化”越精確,“解道元化”后就能更有效生成有更多意義的句子。大語(yǔ)言模型的“道元化”與生成式人工智能的過(guò)程在形式上類(lèi)似于人類(lèi)的理解與推理。而目前AI為了追求效率,在生成過(guò)程中引入概率性來(lái)加速最佳組合的產(chǎn)生,也導(dǎo)致了不可預(yù)測(cè)性和獨(dú)特性,類(lèi)似于人類(lèi)行為的獨(dú)特性。
4 語(yǔ)言障礙與科學(xué)學(xué)習(xí)
學(xué)問(wèn)的瓶頸更多在于語(yǔ)言。許多人覺(jué)得科學(xué)難懂,往往是因?yàn)閷?duì)科學(xué)語(yǔ)言掌握不足。例如,物理學(xué)難以理解,常因數(shù)學(xué)工具不熟練。高中物理可能覺(jué)得實(shí)用有趣,但大學(xué)的量子力學(xué)則因其抽象難懂而使人失望。希爾伯特曾說(shuō)“物理對(duì)物理學(xué)家是困難的問(wèn)題”[4],因?yàn)閿?shù)學(xué)是科學(xué)的語(yǔ)言,數(shù)學(xué)不好會(huì)影響對(duì)物理本質(zhì)的理解。一如任何古代語(yǔ)言或外國(guó)語(yǔ)言,其特色的諺語(yǔ)或行話(huà),對(duì)于一門(mén)學(xué)問(wèn)既可載舟亦可覆舟,可以是墊腳石也能是絆腳石。
然而,隨著時(shí)代變遷,我們擁有了更多先進(jìn)的工具,如精密實(shí)驗(yàn)設(shè)備、數(shù)學(xué)軟件和AI,這些工具能將復(fù)雜的科學(xué)知識(shí)轉(zhuǎn)化為更易理解的道元。語(yǔ)言障礙也存在于學(xué)習(xí)外國(guó)文學(xué)和古代歷史中,未精通外語(yǔ)或歷史脈絡(luò),往往難以準(zhǔn)確把握古今中外的思想。許多人學(xué)習(xí)外語(yǔ)、古代語(yǔ)言和數(shù)學(xué),旨在更好地理解自然現(xiàn)象和思想,并進(jìn)行有效的交流。AI大語(yǔ)言模型有望解決這些語(yǔ)言障礙,未來(lái)只需掌握現(xiàn)代母語(yǔ),就能理解自然的物理真理和古今中外的思想,這將對(duì)人類(lèi)未來(lái)發(fā)展產(chǎn)生深遠(yuǎn)影響。
5 由“位”往“道元”
惠勒(John Archibald Wheeler)在 1989 年利用“位”來(lái)解釋宇宙真理,“萬(wàn)物皆位(it from bit)”[5]思想的起源是“每一個(gè)物理量,每一個(gè)真理,都從二進(jìn)制的位的‘是或否’中展現(xiàn)其最終意義”,這想法類(lèi)似機(jī)器學(xué)習(xí)的架構(gòu),將復(fù)雜現(xiàn)象拆解成多層組織,AI每層內(nèi)的問(wèn)題都以“是或否”進(jìn)行訓(xùn)練。卡洛·西尼(Carlo Sini)說(shuō),語(yǔ)言是人類(lèi)手上用來(lái)分析經(jīng)驗(yàn)所得的第一個(gè)工具箱[6]。語(yǔ)言不僅將觀察結(jié)果與思想轉(zhuǎn)化為文字,人類(lèi)的思考也須利用語(yǔ)言符號(hào)才能有效操作。因?yàn)榱孔游锢砗拖鄬?duì)論的成功,迫使我們必須放棄以宏觀世界的常識(shí)為起點(diǎn)的學(xué)習(xí)方式,也使得多數(shù)人的現(xiàn)有語(yǔ)言功能不足以理解真理,嶄新語(yǔ)言的發(fā)展是未來(lái)理解宇宙真理的第一步。
科技?xì)v史的發(fā)展從畢達(dá)哥拉斯的“萬(wàn)物皆數(shù)字”[7]到惠勒的“萬(wàn)物皆位”花費(fèi)了幾千年時(shí)間,但“位”是否真能完整描述宇宙真理,并沒(méi)有人知道。巴伯(Julian Barbour)認(rèn)為“位”只是符號(hào)與概率,一旦脫離所代替的事物,這些符號(hào)與概率并無(wú)任何實(shí)質(zhì)意義。巴伯因此認(rèn)為“位由萬(wàn)物而來(lái)(bit from it)”[8]而不是“萬(wàn)物皆位”。數(shù)字世界之后的量子世界即將進(jìn)入“萬(wàn)物皆量子位”與“萬(wàn)物皆道元”的量子AI時(shí)代,發(fā)展新語(yǔ)言來(lái)描述真理已經(jīng)成為必要,而有效利用大語(yǔ)言模型的道元生成機(jī)制可以協(xié)助產(chǎn)生更良好而直覺(jué)的宇宙解釋方式。
人類(lèi)過(guò)去主要思想與歷史進(jìn)展不在于語(yǔ)言符號(hào)發(fā)展本身,而是在道元符號(hào)所對(duì)應(yīng)衍生出的事物抽象思維系統(tǒng),并進(jìn)而發(fā)展出的內(nèi)在邏輯哲學(xué)?!拔弧敝灰浴笆?、否”描述了部分是邏輯真理,而非全部是真理,但“道元”是替代事實(shí)與邏輯內(nèi)容。計(jì)算機(jī)在過(guò)去數(shù)十年由位計(jì)算到有大量信息記憶后,又發(fā)展出強(qiáng)大搜尋功能,現(xiàn)在ChatGPT更顯現(xiàn)出初級(jí)生成推理機(jī)制。未來(lái)量子計(jì)算機(jī)發(fā)展更成熟后,創(chuàng)新與完整生成思維功能也隱然在望。建立完善的“道元”與“位”的對(duì)應(yīng),其生成過(guò)程對(duì)AI的推理與創(chuàng)新將有絕對(duì)的貢獻(xiàn)。
道元在AI中是一種標(biāo)記符號(hào),可以被訓(xùn)練產(chǎn)生,并代表某些特定意義,用來(lái)組織無(wú)限有意義的思想。宇宙事物都可以道元表達(dá),只要生成一個(gè)道元,就可以生成與之對(duì)立相反的事物,故道:“有無(wú)相生”,兩個(gè)、三個(gè)以至于無(wú)限多個(gè)道元,都可以由此生出。老子“道生一”與AI的0與1、是或否的位,以及道元標(biāo)記萬(wàn)事萬(wàn)物的思維有異曲同工之妙,只要道元的表達(dá)意義夠豐富,就可以出現(xiàn)完整的推論與預(yù)測(cè)能力。更重要的是,道元化不只是局限于文本,甚至可以推廣到影像、聲音、語(yǔ)音等不同性質(zhì)的體系。各種不同體系產(chǎn)生的道元之間也可以再用AI鏈接起來(lái),產(chǎn)出跨體系的創(chuàng)新道元組合。只要輸入AI中一種體系的道元就可以產(chǎn)生綜合成果,這有點(diǎn)像不但可以在不同語(yǔ)言體系間彼此翻譯,還可以萃取各語(yǔ)言的所有優(yōu)點(diǎn)而生成取各家之長(zhǎng)的世界語(yǔ)言。目前輸入文字后即生成圖畫(huà)、歌曲、影片的生成式AI應(yīng)用就是最佳范例。
道元并不是數(shù)字,道元的做法符合人類(lèi)的記憶模式與智能生成機(jī)制。老子道德經(jīng)第二十五章提到,“有物混成,先天地生”[2],有物混成為宇宙萬(wàn)事萬(wàn)物,但是老子未能精確描述混成之物,無(wú)以名之,故稱(chēng)之為“道”?!暗来螅齑?,地大,君王大”,老子企圖將宇宙萬(wàn)事萬(wàn)物的混成,解析成可被理解的“道元”,以陰陽(yáng)乾坤定序的方式,裂解復(fù)雜天地間的萬(wàn)物萬(wàn)象后再重新建構(gòu)知識(shí)的過(guò)程,也就類(lèi)似現(xiàn)代AI的“道元化”。AI的自然運(yùn)算法則,便是“人法地,地法天,天法道,道法自然”,而再生成為新的自然語(yǔ)言的機(jī)制便是“生生之謂易”[1]“變易者謂生生之道,變而相續(xù)”[1],亦即“道行之而成,物謂之而然”[3]。人腦不斷進(jìn)行樣型重組與辨認(rèn),就像AI不斷重組不同的道元的新集體形態(tài),并因此生成出無(wú)數(shù)的新意義組合。
道元可以表示組成宇宙的粒子,也可以數(shù)字世界的字節(jié)呈現(xiàn),道元更像是歷史上人類(lèi)所有智慧累積的歷史精華與無(wú)數(shù)科學(xué)量測(cè)數(shù)據(jù)所壓縮出的結(jié)晶。AI利用機(jī)器學(xué)習(xí)提煉既有道元,進(jìn)而生成出更神奇的嶄新道元精華,這樣的過(guò)程難道不是像人類(lèi)的思維與創(chuàng)新?AI的“道元化”讓我們了解宇宙本質(zhì)其實(shí)就像老子的“道生一”與“有物混成”思想,道元生成的小天地,對(duì)應(yīng)著大宇宙的混成現(xiàn)象。我們對(duì)宇宙的理解與描述,就是道元生成的天地,老子之道的哲理或可啟發(fā)出更完整而有效的AI的架構(gòu)。
6 道元化的應(yīng)用與實(shí)例
用“兩點(diǎn)一直線”來(lái)解釋“三生萬(wàn)物”,可以幫助理解思維從簡(jiǎn)單到復(fù)雜的生成過(guò)程。兩點(diǎn)決定一條直線,比喻思維從單一原理到復(fù)雜結(jié)構(gòu)的生成。直線上的兩點(diǎn)代表基礎(chǔ)元素或原理,如“道”和“一”。道生一,指宇宙的根本原理產(chǎn)生了統(tǒng)一的原始狀態(tài)。一生二,表示宇宙分化出兩個(gè)基本元素,陰和陽(yáng)、天和地。二生三,便如同利用兩點(diǎn)的組合來(lái)組合衍生出區(qū)間內(nèi)第三點(diǎn),就類(lèi)似陰陽(yáng)相沖形成變化,并發(fā)展出以人作為行動(dòng)者。三生萬(wàn)物,則是從天地人的三個(gè)基本元素演化出萬(wàn)物,如同數(shù)在線上無(wú)數(shù)的點(diǎn),進(jìn)而構(gòu)成了多元而復(fù)雜的幾何全貌。
正如點(diǎn)是幾何最基本的元素,token也是AI生成式演算最基本的單位,而道在中文既是言語(yǔ)的表達(dá),也是思考的方法以及宇宙的根本基礎(chǔ)的意思。以道元作為token的中文對(duì)應(yīng),既表達(dá)了是語(yǔ)言的基本單位,也表示了AI生成式演算的虛擬宇宙中的操作單位。本文將進(jìn)一步解釋“道”的概念如何對(duì)應(yīng)于道元化過(guò)程中的“虛靜柔弱”。以“無(wú)有入無(wú)閒”①為例,說(shuō)明“閒”如何在分隔自然語(yǔ)言的詞句中發(fā)揮作用,便如同直線上無(wú)數(shù)個(gè)點(diǎn)看似連續(xù),但又是分離而獨(dú)立的。道元化的思維,便是要見(jiàn)線也見(jiàn)點(diǎn),認(rèn)識(shí)文字、認(rèn)識(shí)詞匯,也認(rèn)識(shí)句子,因此道元化最淺顯的基本樣貌便是句讀,即斷句和斷詞。
古代文字,如在古希臘和古羅馬手稿中,如同古中國(guó)的文言文,并不普遍使用空格,文本通常為連寫(xiě)形式,稱(chēng)為“連續(xù)腳本(scriptio continua)”,一樣需要藉由上下文推敲。即使有了句讀,現(xiàn)代中文白話(huà)文的中斷詞依然也是理解全句意思的重要元素,而在英文等歐洲語(yǔ)言如今直覺(jué)地以空格的方式發(fā)生。這些空格便是“間距”與“空閒”,也是道元化最直覺(jué)的處理方式?,F(xiàn)代的道元化運(yùn)算有許多種方式,下文以字符級(jí)道元化(character tokenization)與詞匯級(jí)道元化(word tokenization)為例。而光是這兩個(gè)術(shù)語(yǔ),便已有足夠理由來(lái)否定將tokenization翻譯為“詞元化”的正當(dāng)性,因?yàn)閣ord tokenization將因此會(huì)被翻譯為“詞匯級(jí)詞元化”,這樣在中文翻譯中便不能直觀理解word與token的差異。
當(dāng)我們解析“無(wú)有入無(wú)閒”這樣的詞語(yǔ),首先要將它分隔成適當(dāng)?shù)膯卧~。如“無(wú)有”代表“沒(méi)有形體的東西”,也就類(lèi)似道元化不明顯的字符或詞匯,如標(biāo)點(diǎn)符號(hào)、空格等這些看似無(wú)關(guān)緊要的字符,但其也會(huì)在句子結(jié)構(gòu)中也起到重要作用。“入”則系指“代入”,道元化時(shí)可以理解為將字符、詞匯代入分析模型中,成為模型理解語(yǔ)義的一部分?!盁o(wú)閒”則特指“沒(méi)有縫隙的地方”,道元化時(shí)則可視為文本中那些雖然沒(méi)有明顯邊界但仍無(wú)法分離的地方,例如連在一起的詞或句子。
字符級(jí)道元化會(huì)將每個(gè)漢字視為一個(gè)單獨(dú)的道元,這也對(duì)應(yīng)于“無(wú)有”這個(gè)概念,即使是看似不重要的字符也是分析的一部分,如“無(wú)有入無(wú)閒”的字符級(jí)道元化將會(huì)加入數(shù)個(gè)空白而被道元化為:
無(wú) 有 入 無(wú) 閒
但在字符級(jí)道元化下,每個(gè)漢字都是獨(dú)立的,即使是那些看似無(wú)意義的虛詞,也會(huì)同樣被模型識(shí)別和處理,如“夫唯弗居,是以不去”,此句中的夫在中文是個(gè)無(wú)意義的虛字,但整句仍將被道元化為:
夫 唯 弗 居 是 以 不 去 。
字符級(jí)道元化過(guò)程并不能處理中文的虛字、一字多義與多字同義的問(wèn)題,而詞匯級(jí)道元化,則是根據(jù)詞匯表將句子分割成詞,對(duì)應(yīng)于“無(wú)有入無(wú)閒”,能夠?qū)](méi)有明顯邊界的詞匯正確劃分出來(lái)。
[無(wú)有] [入] [無(wú)閒]
在詞匯級(jí)道元化中,模型能夠識(shí)別和理解完整詞匯〈無(wú)有〉和〈無(wú)閒〉的區(qū)別,并能夠進(jìn)一步進(jìn)入文本的語(yǔ)義結(jié)構(gòu)中,從而更好地理解句子的含義。
7 大規(guī)模語(yǔ)言模型中的道元化
在大語(yǔ)言模型中,道元化因此合于“易”的“簡(jiǎn)易、不易、變易”,也合于“道”的“有無(wú)相生”“無(wú)有入無(wú)閒”。模型先將大量的文本“簡(jiǎn)易”成數(shù)字編號(hào),并建立詞匯表形成“不易”的框架,以方便模型運(yùn)算,再藉由“變易”生成有意義的自然語(yǔ)言。
在大語(yǔ)言模型中,道元化有助于維持上下文的連貫性。模型需要識(shí)別出文本中的句子結(jié)構(gòu)和段落分隔,這樣才能生成連貫且符合語(yǔ)境的響應(yīng)。例如,在生成語(yǔ)言時(shí),模型需要知道何時(shí)插入停頓(如句號(hào)、逗號(hào))來(lái)確保文本的自然流暢。這些停頓就是道元化的一部分,確保了文本的自然性和可讀性。
大語(yǔ)言模型需要對(duì)文本進(jìn)行深度的語(yǔ)義理解,而這依賴(lài)于道元化的準(zhǔn)確性。通過(guò)將文本分解為基本道元,模型可以深入理解每個(gè)詞的含義及其在整體句子中的作用。如在“無(wú)有入無(wú)閒”這句話(huà)中,道元化可以幫助模型正確理解“無(wú)有”和“無(wú)閒”的語(yǔ)義區(qū)別,從而生成更加準(zhǔn)確和有意義的回應(yīng)。
8 道元化的“閒”與“間”
進(jìn)一步分析在特定中文情境中,“閒”與“閑”、“閑”與“間”通過(guò)轉(zhuǎn)注、假借使意義相互交融而分離。大語(yǔ)言模型中便得將這兩個(gè)字符級(jí)道元,透過(guò)一定的特別運(yùn)算模型相互聯(lián)系起來(lái),形成雖然字符相異但“此兩者,同出而異名”的意義網(wǎng)絡(luò)。因?yàn)椤伴g距”便是“空閑”也是“空閒”,“門(mén)”中是“木”取其憑欄閑散,還是“日”“月”一陰一陽(yáng),各有其文字的含義。“我們查看表示‘間’這個(gè)表義字:兩扇門(mén)之間有月光穿透照亮。但是,如果說(shuō)這個(gè)之間細(xì)縫是用來(lái)維持讓所集合的不同元素得以一起玩而不會(huì)卡住的游戲,這是不全的,因?yàn)檫@個(gè)中文字也指向我們的生活心態(tài),這正是養(yǎng)生之源?!?sup>[9]
而在將中文道元化的過(guò)程中,必須參考古中文學(xué)的許多文字學(xué)特有方法,除了字符間的轉(zhuǎn)注、假借,也要參考字與詞的關(guān)系,如“增字法”“接龍”等中文特有語(yǔ)言結(jié)構(gòu)用于描述意義網(wǎng)絡(luò)的方式。這樣有效利用“空閑冗余”的數(shù)據(jù)架構(gòu),如同“乾”與“干”,“閑”與“閒”,何時(shí)需要考慮其文字中的日月、乾坤、陰陽(yáng)思維,何時(shí)則無(wú)需有所區(qū)別,便能在中文道元化過(guò)程中,即使出現(xiàn)一字多義、多字同義、同字異義,又或“判為異字而類(lèi)義未殊”[10]、同義相受的字符時(shí),仍能保持字符與詞匯鏈接,如同“家族相似(Familienhnlichkeit)”[11]進(jìn)而相異的彈性網(wǎng)絡(luò)意義。利用中文語(yǔ)義多元發(fā)展的歷史經(jīng)驗(yàn),未來(lái)或許可以提供生成式AI的道元化更寬廣的方向與內(nèi)涵。
如果說(shuō)“非0即1”的位元思維已然“多言數(shù)窮”,在量子時(shí)代就是“不如守中”,也可以借鑒一下老子的“虛靜柔弱”思維,給予數(shù)據(jù)思維以虛靜,使其“靜里聽(tīng)來(lái),識(shí)天地自然鳴佩”[12]聽(tīng)其自然之法,無(wú)須過(guò)分強(qiáng)加指導(dǎo)與監(jiān)督,行不言之教,“閒中觀去,見(jiàn)乾坤最上文章”[12]。如同AI中的字節(jié)對(duì)編碼(BytePair Encoding)將頻繁出現(xiàn)的字符對(duì)合并成新的詞匯單位,但保留字符級(jí)信息的同時(shí)捕捉更高層次的語(yǔ)義結(jié)構(gòu),也能靈活處理不同語(yǔ)言的書(shū)寫(xiě)系統(tǒng),在字符級(jí)和詞匯級(jí)之間進(jìn)行轉(zhuǎn)換。這些在字、詞與句間的互換技術(shù),便需允許數(shù)據(jù)有一定的冗余和模糊性,保持字符與詞匯之間的彈性連結(jié),透過(guò)生成看似冗余的多層級(jí)詞表捕捉自然語(yǔ)言的復(fù)雜性,提升模型生成語(yǔ)言的自然性和流暢度。
9 閑暇給思維以空間
科學(xué)家與詩(shī)人沒(méi)有不同,科學(xué)家將真理用數(shù)學(xué)符號(hào)表達(dá),詩(shī)人將情感用語(yǔ)言符號(hào)陳述,都是透過(guò)符號(hào)將腦中意象介紹給普羅大眾??茖W(xué)家用直覺(jué)與耐心思考,試圖找出宇宙真理的邏輯結(jié)構(gòu),并嘗試將觀察所得與結(jié)論,借用可量化的符號(hào)陳述給群眾了解。因?yàn)槿四X與計(jì)算機(jī)沒(méi)什么不同的地方是都有其有限計(jì)算與記憶能力,因此思考過(guò)程難免會(huì)出現(xiàn)錯(cuò)誤,所以需要休息后才能繼續(xù)工作。這休息便是“閑暇”,也是自“空間”與“空閒”脫胎而來(lái)。
休息時(shí)需要常借用語(yǔ)言與數(shù)學(xué)的類(lèi)比符號(hào)來(lái)協(xié)助記憶,藉由語(yǔ)言的儲(chǔ)存來(lái)作為繼續(xù)思想與推理的中繼站。當(dāng)讀到“狗”這個(gè)符號(hào)時(shí),沒(méi)有兩個(gè)人的大腦反應(yīng)狀態(tài)會(huì)出現(xiàn)完全相同的結(jié)果,但卻可產(chǎn)生雷同的類(lèi)比推論與訊息,然而看到“貓”②的符號(hào)則絕對(duì)不會(huì)連上狗的影像,而在繁體中文中這區(qū)分更是明顯,“貓”的部首甚至與“狗”不一樣。語(yǔ)言類(lèi)比符號(hào)是儲(chǔ)存信息與腦力的休息站,利用既有知識(shí)來(lái)生成新道元,而不是每次在腦中重新發(fā)明“狗”或“貓”。臺(tái)灣當(dāng)年推動(dòng)建構(gòu)式數(shù)學(xué)的專(zhuān)家們,完全不了解語(yǔ)言類(lèi)比符號(hào)是承載歷史上所有智者的知識(shí),看似簡(jiǎn)單的道元符號(hào),經(jīng)過(guò)無(wú)數(shù)智者的傳播和修改,才能出現(xiàn)豐富的抽象意義。要求每一個(gè)小學(xué)生從頭創(chuàng)造自己的類(lèi)比符號(hào)體系,簡(jiǎn)直就是天方夜譚。九九表以及對(duì)數(shù)表、根號(hào)表,便是一代代人知識(shí)精粹而成的詞匯表,是易于復(fù)制與理解的道元符號(hào),也保證了交流的簡(jiǎn)單性與效率。是而道元的抽象、建表過(guò)程對(duì)于語(yǔ)言和數(shù)學(xué)的演化有更重要的生成作用。
10 結(jié)論
AI使用道元也存在一些挑戰(zhàn)和安全考慮因素,因?yàn)榈涝慕⑴c生成缺乏透明度,人工智能生成被批判是“黑盒子”。因?yàn)殡S機(jī)性的引入,自然語(yǔ)言處理會(huì)出現(xiàn)訓(xùn)練數(shù)據(jù)的偏差與幻覺(jué),并生成無(wú)法判斷的錯(cuò)誤結(jié)果。這也會(huì)造成盲目背誦的“學(xué)而不思則罔”弊端,在監(jiān)督式與非監(jiān)督的取舍,此中的張弛空間,正需要AI與有閑的人類(lèi)共襄盛舉才能得到答案,仔細(xì)審視老子之道的哲理精神或?qū)⒖梢詥l(fā)出更完整的AI的 token 科技架構(gòu)之理。
我們承接祖先智慧,對(duì)宏觀世界的真理觀察產(chǎn)生類(lèi)比符號(hào)系統(tǒng)后,利用物理原理創(chuàng)造出現(xiàn)代的科技世界造福人類(lèi)。然而過(guò)去的這些宏觀世界的語(yǔ)言結(jié)構(gòu),并無(wú)法有效描述復(fù)雜而反直覺(jué)的微觀世界現(xiàn)象,量子專(zhuān)家所設(shè)計(jì)出的數(shù)學(xué)語(yǔ)言,又是一般大眾所完全無(wú)法了解的科技“文言文”。未來(lái)如何架構(gòu)出科技“白話(huà)文”,讓所有人都能輕易描述與理解復(fù)雜量子體系的“道元”將是現(xiàn)代人的重大責(zé)任。大語(yǔ)言模型的“道元化”已經(jīng)啟動(dòng)科技“白話(huà)文”的巨輪,成為描述完整宇宙的嶄新道元時(shí)代的起點(diǎn)。鴻蒙初辟,太初有道,道存物外,內(nèi)秉其中,物化道元,道生萬(wàn)物,“萬(wàn)物皆道元,一切來(lái)自道元”。有詩(shī)為證曰:
取日月為假,欲名本綿綿,借地天同塵,俾思以空閒。
宇寰非位元,魂魄亦無(wú)源,唯待道元出,方知天地言。
注釋
① “無(wú)有入無(wú)閑”出于老子道德經(jīng)第四十三章,古文此處之“閒”乃門(mén)中有縫可透過(guò)月光,與目前之“閑”雖然同義但起始意義差異頗大,本處乃利用古字之原意,故此處仍保留“閒”。
② “貓”為古漢字,也就是繁體字。貓與狗在古代部首并不相同,貓是豸,而狗是犭,也代表古人其實(shí)認(rèn)為貓與狗是完全不同的動(dòng)物種類(lèi)。
參考文獻(xiàn)
[1] [唐]孔穎達(dá).周易正義[M].臺(tái)北,2001.
[2] 陳鼓應(yīng) .老子今注今譯及評(píng)介[M].臺(tái)北: 臺(tái)灣商務(wù)印書(shū)館,1976.
[3] [清]郭慶藩.莊子集釋[M].北京:中華書(shū)局,1961.
[4] Wikipedia[EB/OL]. https://en.wikipedia.org/wiki/David_Hilbert.
[5] WHEELER J A. Information, physics, quantum: the search for links[C]. Proceedings Ⅲ International Symposium on Foundations of Quantum Mechanics. Tokyo, 1989: 354-368.
[6] SINI C. Le macchine sono l’uomo [C]. La Citt’a del Secondo Rinascimento. 2012. http://www.lacittaonline.com/index.php?q=node/1388.
[7] CONSTANTINE J. The Founders of Western ThoughtThe Presocratics [M]. Vamvacas:Springer Science amp; Business Media, 2009:69.
[8] BARBOUR J. Bit from It , a chapter in the book: It From Bit or Bit From It?: On Physics and Information [M]. 2015.DOI:10.1007/978-3-319-12946-4.
[9] JULLIEN F.間距與之間: 論中國(guó)與歐洲思想之間的哲學(xué)策略[M].卓立,林志明,譯.臺(tái)北:五南圖書(shū)公司,2013.
[10] 章太炎.國(guó)故論衡[M].北京: 商務(wù)印書(shū)館,2010.
[11] WITTGENSTEIN L.哲學(xué)研究[M].李步樓,譯.北京: 商務(wù)印書(shū)館,2009.
[12] [明]洪應(yīng)明.菜根譚[M].臺(tái)北:維多利亞圖書(shū)文化,2007.