亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        對青年的計算文本“遠讀”
        ——數(shù)字時代基于降維的整體認識論

        2022-05-28 05:51:38梁玉成馬昱堃
        青年探索 2022年3期
        關(guān)鍵詞:降維向量詞語

        ■ 梁玉成 馬昱堃

        一、引言

        習近平總書記在慶祝中國共產(chǎn)黨成立100周大會上的重要講話中提到,“未來屬于青年,希望寄予青年”,對青年群體的研究具有舉足輕重的意義。一直以來,青年群體都會隨著時代變遷而呈現(xiàn)相應(yīng)的變化,每個時代的青年都有著獨特的歷史烙印。當代青年主要是出生于改革開放以來的“80后”“90后”“00后”,經(jīng)濟的高速增長、計劃生育政策的實施、教育資源的普及、互聯(lián)網(wǎng)的快速發(fā)展以及隨之而來的社會、市場和制度變遷都對他們產(chǎn)生重要影響[1]。他們對新事物的接受能力更強,具有許多新的特點。

        互聯(lián)網(wǎng)對當代青年的影響在深度與廣度上都在持續(xù)拓展。從數(shù)量上看,2020年我國未成年網(wǎng)民數(shù)量達到1.83億,規(guī)模持續(xù)增長,并且低齡化趨勢更加明顯[2]。當代青年,尤其是被稱為“互聯(lián)網(wǎng)一代”的“90后”和“00后”群體,其社會心態(tài)、價值觀念、文化興趣都受到互聯(lián)網(wǎng)的影響和形塑,程度比其他任何世代都更加深刻。簡言之,互聯(lián)網(wǎng)已經(jīng)成為青年群體社會化的主要場域[3]。

        與此同時,數(shù)字時代互聯(lián)網(wǎng)環(huán)境也發(fā)生著深刻轉(zhuǎn)型,人人都可以成為傳播端點[4]。在社交媒體上,更大的流量能夠帶來更多的收益,為此,人們更傾向于發(fā)布和轉(zhuǎn)發(fā)夸大局部事實的、能博取更多關(guān)注的信息,其行為受情感的影響遠大于理性[5-6],加強了觀點的分化與極化。于是,不同觀點之間越來越難以通約,人們所接觸到的任何事實不僅不再完整,更是呈現(xiàn)出日益碎片化甚至顆?;奶卣鳌?/p>

        在這種情況下,人們逐漸生活在“繭房化”的世界中,對同類觀點的認同包裹著情緒,變得日漸強化,局部“事實”的放大導致了“整體事實”的消解。“整體事實”體現(xiàn)著社會過程在整體視野下的動態(tài)因果結(jié)構(gòu)與演變過程,而局部“事實”則只反映著社會過程中受特定觀念視角濾視后的一個局部[7]。新的數(shù)字時代的青年群體在這種互聯(lián)網(wǎng)環(huán)境中,被各種局部“事實”的認知所裹挾,越來越難以從整體視角出發(fā)審視自己所生活的世界。

        青年研究方法在范式上需要對上述現(xiàn)象有所回應(yīng)。以往針對青年網(wǎng)絡(luò)觀念與行動的研究大多基于觀察、訪談與內(nèi)容分析等質(zhì)性方法,從微觀和個案的角度近距離呈現(xiàn)青年畫像。然而,互聯(lián)網(wǎng)的內(nèi)容生產(chǎn)和傳播速度遠遠快于我們觀察它們的速度,近距離的視角無法從整體上反映多元觀念之間的關(guān)系,這需要我們超越微觀視角的局部性,轉(zhuǎn)而從更宏觀的視角遠距離考察青年群體及他們活動場域的時空演化。

        那么,青年研究方法在范式上如何回應(yīng)社會數(shù)字化轉(zhuǎn)型的時代要求?本文借用了數(shù)字人文中的“遠讀”概念,提出計算文本分析方法范式?!斑h讀”通過文本到信息、信息到知識的兩重降維過程,將文本內(nèi)在的整體結(jié)構(gòu)以更清晰、更簡化、更容易理解的方式呈現(xiàn)出來。青年研究借助“遠讀”,能夠從海量的線上文本數(shù)據(jù)中發(fā)掘潛藏其中的宏觀結(jié)構(gòu),從而克服視野的局部性,向探求“整體事實”更進一步。

        二、“遠讀”的概念緣起、內(nèi)容與方法

        (一)“遠讀”的概念緣起

        在人文研究領(lǐng)域,數(shù)字化轉(zhuǎn)型的一個后果是越來越多的作品以數(shù)字形式存儲在數(shù)據(jù)庫中[8],龐大的數(shù)據(jù)量讓它們顯然無法通過人工方式逐一分析。人文研究領(lǐng)域?qū)@一轉(zhuǎn)型的回應(yīng)即是“遠讀”(Distant Reading)的提出。莫瑞蒂(Franco Moretti)最先介紹了這一概念,與“近讀”(Close Reading)相對應(yīng),“遠讀”指的是“通過聚合和分析大量數(shù)據(jù)來理解文學,而不是研讀特定的文本”[9]。

        與“近讀”通過對文本的主觀深度理解和細致解釋來把握其詳細內(nèi)容不同,“遠讀”主要關(guān)注大量文本中的宏觀結(jié)構(gòu),例如使用可視化技術(shù)分析文本中涉及的社會關(guān)系、地理信息和時間線等信息,除此之外,還能研究作品之間的承接與相似[10]?;ヂ?lián)網(wǎng)上活躍的每一個用戶都以寫作者的身份參與著線上社會互動,因而本文將“遠讀”引申為應(yīng)用計算文本分析技術(shù),從宏觀和整體的視角出發(fā)把握大量文本中的潛在結(jié)構(gòu)與關(guān)系。

        (二)“遠讀”的內(nèi)容

        “遠讀”的核心目標是把握海量文本的宏觀結(jié)構(gòu),因而需要借助計算文本分析方法從文本中提取、整合與分析內(nèi)容。為了便于量化分析,首先需要明確與文本內(nèi)容有關(guān)的信息有哪些。基于已有文獻[11-14],結(jié)合社會科學對文本信息的需求層次,本文將需要考慮的文本信息大致分成以下四類。(1)詞義信息。詞義信息體現(xiàn)了文本的內(nèi)容與包含的主題。(2)詞性信息。詞性對應(yīng)著詞語的類型與功能,既包括詞語的語言學特征,也包括社會科學對其賦予的理論維度。(3)關(guān)系信息。在詞義和詞性的基礎(chǔ)上,將句子和文檔作為整體,進一步分析詞語之間的語義關(guān)系。(4)情境信息。表示產(chǎn)生文本的社會情境,例如作者身份、文本生成時間等。文本分析方法即是通過各類算法處理上述信息,將其結(jié)構(gòu)化為計算機能夠處理的數(shù)據(jù),之后以整體性的視角將它們之間的關(guān)系呈現(xiàn)出來,最終實現(xiàn)對文本的宏觀分析。

        (三)“遠讀”的方法

        為了能夠上升到整體的視角,“遠讀”需要借助計算文本分析方法實現(xiàn)文本信息的結(jié)構(gòu)化表示,將它們放置在向量空間中。近些年來,機器學習算法大幅提升了文本處理的性能,也從本質(zhì)上改變了文本表示的方法。根據(jù)是否通過機器學習算法對文本信息進行壓縮,可以將計算文本分析方法大致分為顯式表示和隱式表示兩種,前者直接根據(jù)詞項定義特征項①在文本分析中,特征項可以被理解為算法處理的最基本單元,它可以是詞匯,也可以是短語。特征項確定后,還需要對每個特征項賦予一定的權(quán)重。它們可以是特征項的頻率,也可以基于頻率的計算結(jié)果。,是一種直觀的文本表示方法;后者則是通過機器學習算法對文本信息壓縮后的表示。從方法承接上來看,文本顯式表示通常是隱式表示的基礎(chǔ)。通常,在對文本進行分析之前,還需要先對文本進行預處理,包括清除停用詞(Stop Words)②停用詞通常指的是出現(xiàn)頻率非常高,但附帶的文本信息非常少的詞匯,包括助詞、介詞、連詞、語氣詞等,比如“的”“了”“the”等。、進行特征工程,針對英文需要詞形規(guī)范化,針對中文文本需要分詞③詞形規(guī)范化是將單詞的單復數(shù)、時態(tài)等不同詞形還原為詞根。因為英文單詞在文本中由空格隔開,所以可以直接將文本分解為詞項。但中文由于沒有詞匯分隔符,需要使用專門的工具分詞。這些概念的原理性表述可以參考文本分析的教材。。

        1.機器學習概念簡述④本文主要介紹計算文本分析,因而僅對機器學習進行概述,感興趣的讀者可以參考相關(guān)教材,如周志華著的《機器學習》做更多的了解。

        機器學習指的是利用一系列算法,從數(shù)據(jù)中挖掘模式關(guān)系,進行分類、聚類或預測等任務(wù)。根據(jù)訓練數(shù)據(jù)是否擁有目標特征的信息,機器學習大致可以分為有監(jiān)督學習(Supervised Learning)和無監(jiān)督學習(Unsupervised Learning)。

        (1)有監(jiān)督學習:分類、擬合與預測

        有監(jiān)督學習的目標是挖掘變量之間的關(guān)系,在自變量與因變量取值已知的情況下,構(gòu)造模型對二者之間的關(guān)系進行擬合。在有監(jiān)督學習中,通常需要將樣本數(shù)據(jù)隨機劃分為訓練集和測試集,在訓練集上訓練模型,在測試集上檢驗模型的泛化能力。常見的算法包括決策樹、支持向量機和部分神經(jīng)網(wǎng)絡(luò)算法等。有監(jiān)督學習主要應(yīng)用于分類、擬合與預測等任務(wù)場景。

        (2)無監(jiān)督學習:聚類與降維

        無監(jiān)督學習則是針對單一或多個變量,對樣本進行潛在關(guān)系的劃分,常見任務(wù)包括聚類與降維。聚類的目標是找出數(shù)據(jù)中的潛在子群體,例如k均值算法、高斯混合聚類等。聚類任務(wù)更重視對樣本空間的劃分,而降維則是找出數(shù)據(jù)中大量特征之間的潛在關(guān)系,從而讓數(shù)據(jù)以更清晰、更簡化、更容易理解的方式呈現(xiàn)出來[15]。

        比較基礎(chǔ)的降維算法是主成分分析(Principal Component Analysis,PCA)。它的目標是找到若干維度最大化地解釋數(shù)據(jù)方差。PCA能夠?qū)?shù)據(jù)視為一個整體,發(fā)現(xiàn)其潛在結(jié)構(gòu),但因為它是一種線性變換,不一定能夠把握更復雜的信息。因此,后來又發(fā)展出了局部線性嵌入(Locally Linear Embedding,LLE)、t分布隨機近鄰嵌入(t-Distributed Stochastic Neighbor Embedding,t-SNE)等能夠處理非線性結(jié)構(gòu)的降維方法。這兩種方法都是通過將數(shù)據(jù)在高維空間中的局部特征在低維空間中重構(gòu)出來,從而實現(xiàn)降維的目的。LLE最大化地保持數(shù)據(jù)在降維前后局部線性關(guān)系的不變性;t-SNE將樣本之間的距離視作概率分布,目標是在低維空間中重建原始樣本之間的概率分布相似性。除此之外,還有自組織映射(Self-organizing Maps)和自編碼器(Autoencoder)等基于神經(jīng)網(wǎng)絡(luò)的降維方法。無監(jiān)督算法通過數(shù)據(jù)驅(qū)動,能夠幫助研究者排除自身的先驗預設(shè),從數(shù)據(jù)當中直接發(fā)現(xiàn)潛在的子群體與意義結(jié)構(gòu)。

        機器學習技術(shù)既是計算文本分析算法的環(huán)節(jié),也被用于對文本數(shù)據(jù)的分類與聚類:一方面,文本隱式表示需要借助機器學習將文本壓縮為低維向量;另一方面,機器學習可以對向量化后的文本進行分類、聚類與降維任務(wù)。其中,降維與聚類能夠幫助我們擺脫預斷,直接從數(shù)據(jù)中找出潛在的模式。

        2.文本的顯式表示

        顯式文本表示較少考慮文本的生成情境?;谠~義信息的常用表示方法包括詞頻統(tǒng)計和詞頻—倒文檔頻率(Term Frequency-Inverse Document Frequency,TF-IDF)。這些表示方法大多都是將文檔視為一組詞語構(gòu)成的“詞袋”(Bag-of-Words,BOW),不考慮詞序信息,最終將文檔表示為一個向量,向量的每個維度都代表一個詞語在特定文檔中的詞頻信息。

        基于詞性信息的方法在詞義的基礎(chǔ)上引入理論維度,既包括詞語的語言學特征(如名詞、動詞、形容詞等),也包括研究者從理論建構(gòu)需求出發(fā)引入的維度(如詞語的情緒特征、情感極性等)。以“語言探索與字詞計數(shù)”(Linguistic Inquiry and Word Count,LIWC)和WordScore方法為例,前者用來對文本進行情感分析,后者最初用于針對政策文本的價值評價。

        LIWC在心理學中較為常用,它將詞語區(qū)分為幾個維度,例如語言學維度、心理學維度、認知維度,最終輸出文本當中不同詞語的百分比[16]。WordScore先對每篇參考文檔賦予一個權(quán)重,表示文檔在特定政策領(lǐng)域的定位。之后將文本看作詞袋,通過詞頻計算詞語對該權(quán)值的相對貢獻,得到每個詞語的詞權(quán)值。利用得到的詞權(quán)值計算目標文檔的政策傾向[17]。在LIWC方法中,詞語被事先分配了類型和情感信息,而在WordScore中,詞語的理論意義是在分析過程中計算得來的。

        對關(guān)系信息的挖掘中,較為簡單的方法是通過詞語的共現(xiàn)(Co-occurrence)程度繪制語義網(wǎng),這是一種基于詞頻的呈現(xiàn)方法?!皀元語法”(N-gram)模型能夠在一定程度上捕捉近距離的詞序信息。它假定每一個詞的出現(xiàn)概率都由前n-1個詞決定,用一個長度為n的窗口,從句首到句尾逐詞移動,將句子切分為一系列詞語序列,把這些詞語序列看做短語,當n=1時即為詞項構(gòu)成的序列。除此之外還有基于語言學的句法分析,可以進一步分為短語結(jié)構(gòu)分析(Constituent Parsing)和依存關(guān)系分析(Dependency Parsing)。前者首先根據(jù)句子中的詞性特征,將句子切分成一組短語,后者的目標是自動分析出詞匯之間的語義依存關(guān)系,這兩者可以相互轉(zhuǎn)換[13]。以句法分析為基礎(chǔ)開發(fā)出了命名實體識別(Named Entity Recognition)和關(guān)系抽?。≧elationship Extraction)技術(shù),這是構(gòu)造知識圖譜的基礎(chǔ)。命名實體即事物的名稱,包括人物、組織、地名等,它們通常是知識圖譜的節(jié)點,而它們之間的關(guān)系通常通過謂詞界定。

        3.文本的降維隱式表示

        顯式文本表示方法面臨著數(shù)據(jù)稀疏、性能受限的制約,并且較少考慮到文本的產(chǎn)生情境,所以只能處理一些較為基礎(chǔ)的任務(wù)。隱式表示方法以它們?yōu)榛A(chǔ),結(jié)合機器學習,進一步延伸了對文本信息的挖掘深度,并能夠吸收文本中的語義關(guān)系信息,部分方法還能與社會情境相結(jié)合。文本隱式表示借助降維,能夠涵蓋和整合更多的語義關(guān)系信息①這種表示方法是文本分布式表示的一類。分布式表示假定上下文相似的詞語,意義也相似。。通常可以分為兩類:文本概念表示和文本深度表示。前者主要以各類主題模型為代表,后者則是神經(jīng)網(wǎng)絡(luò)方法在文本分析中的應(yīng)用[13]。

        主題模型(Topic Model)克服了顯式文本表示難以捕捉一詞多義的局限。將文檔視為“詞袋”是一種直接衡量“文檔—詞項”關(guān)系的方法,主題模型在二者之間引入主題作為中介,刻畫“文檔—主題—詞項”關(guān)系。這一關(guān)系假定文檔中的詞語按以下過程逐個產(chǎn)生:先以一定的主題概率分布選取主題,再以這一主題中的詞語概率分布選擇特定詞。雖然主題模型不考慮詞序信息,但會基于詞語的共現(xiàn)關(guān)系將其分配到特定的主題中。

        早期的主題模型是潛在語義分析(Latent Semantic Analysis,LSA),LSA將文檔表示為一組由詞語構(gòu)成的隱式概念(即主題)。先通過基于詞頻統(tǒng)計的方法將若干文檔表示成“詞項—文檔”矩陣,再通過奇異值分解(Singular Value Decomposition,SVD),將“詞項—文檔”矩陣分解為“詞項—主題”矩陣和“主題—文檔”矩陣,因而,LSA可以被看作是一種通過降維表示文本的技術(shù)。

        由于LSA受限于奇異值分解的計算復雜度,后來的學者將概率統(tǒng)計思想引入主題模型,將“詞項—主題”和“主題—文檔”之間的關(guān)系用概率分布刻畫,利用最大似然估計,開發(fā)出概率潛在語義分析(Probabilistic Latent Semantic Analysis,PLSA)方法。而現(xiàn)在經(jīng)常使用的潛在狄利克雷分配(Latent Dirichlet allocation,LDA)則是在PLSA的基礎(chǔ)上更換概率分布函數(shù)并用貝葉斯估計取代最大似然估計發(fā)展而來的[13]。

        LDA是一種無監(jiān)督降維技術(shù),后來又發(fā)展出了一些有監(jiān)督學習方法,如有監(jiān)督LDA[18]和有標記LDA[19]。除此之外,還有能夠?qū)⑽谋厩榫臣{入分析的結(jié)構(gòu)主題模型(Structural Topic Model)[20],它最初用來分析問卷中的開放式回答,能夠?qū)⒆髡咝畔?、文本發(fā)布時間等情境信息的先驗分布納入“文檔—主題—詞項”關(guān)系進行計算。

        文本嵌入引入了人工神經(jīng)網(wǎng)絡(luò)算法,是一種隱式的語義關(guān)系表達。它將大量文本中蘊含的語義關(guān)系,通過神經(jīng)網(wǎng)絡(luò)映射在向量空間中,表現(xiàn)為向量之間的幾何關(guān)系。比較基礎(chǔ)的文本嵌入即是詞嵌入(Word Embedding),通常也被稱為詞向量(Word2Vec)。這一模型的原始目的在于建立詞語與其上下文之間的關(guān)系,達到給定其中一個來預測另一個的目標,詞向量是這一過程的副產(chǎn)品。通過上下文預測目標詞語的算法為CBOW(Continuous Bag-of-Words),通過詞語預測目標上下文的算法為Skip-Gram[21]。借助向量運算(如向量減法、余弦相似度等),將向量投影至特定的語義維度,就能將詞語的語義關(guān)系抽取出來。在詞向量的基礎(chǔ)上,進一步發(fā)展出了句向量、文檔向量以及其他深度神經(jīng)網(wǎng)絡(luò)等方法,限于篇幅本文不再一一介紹①自然語言處理技術(shù)一直以工程應(yīng)用為導向,目前仍然處在快速發(fā)展過程中,新的方法層出不窮。本文所選取的方法已經(jīng)被應(yīng)用于社會科學,并取得了一定進展。。

        以上兩種表示方法雖然路徑不同,但目標都是將文本中的信息整合起來:前者將大量文本轉(zhuǎn)化為有限的主題,從而將文檔表示為主題分布,后者將文本壓縮表示為稠密向量。它們也可以被看作是文本到向量的降維手段。一旦將文本向量化,就能進一步應(yīng)用前文提及的機器學習算法執(zhí)行分類、聚類與降維的任務(wù),從而挖掘文本背后的結(jié)構(gòu)。

        三、“遠讀”的路徑

        “遠讀”幫助研究者跳出微觀,從宏觀的視角看待研究對象,大致可以分為六條路徑,分別是編碼與分類、情感分析、降維分析、主題抽取、分化與極化以及文化測量,它們分布在對計算文本分析方法的工具性應(yīng)用和理論性應(yīng)用的連續(xù)譜上,彼此之間存在串行、并行與交叉,需要結(jié)合研究目標綜合考慮不同層次的文本信息,并使用較為適用的文本分析方法。

        圖1 “遠讀”路徑分類

        1.編碼與分類

        對文本的分析是質(zhì)性研究中關(guān)鍵的一環(huán),學者們認為量化文本分析技術(shù)能夠回應(yīng)質(zhì)性研究中代表性與可復現(xiàn)性不足的問題。因而,部分學者開始嘗試將傳統(tǒng)的質(zhì)性研究與量化方法相結(jié)合。例如,對質(zhì)性研究者來說,可以將文本分析技術(shù)作為大量文本數(shù)據(jù)預處理或初步探查的手段[22],有助于研究者克服理論預設(shè)對資料解讀視角的制約[23]。機器學習發(fā)展使得從文本中提取結(jié)構(gòu)化信息變得更加方便。學者們大多通過監(jiān)督學習方法對文本進行分類。例如,有學者通過有監(jiān)督機器學習對領(lǐng)導留言板的文本內(nèi)容進行歸類,分析政府回應(yīng)的話語模式類型。他們首先將文本向量化,然后從總體數(shù)據(jù)中隨機抽取出部分樣本構(gòu)成訓練集,對其進行人工編碼,之后根據(jù)機器學習對其余四萬多條文本進行分類[24]。尼爾森(Nelson)等人系統(tǒng)性地測試了監(jiān)督學習算法在文檔編碼過程中的效度,并將之與基于字典的編碼和非監(jiān)督學習相比較,結(jié)果表明監(jiān)督學習算法在文本分類中表現(xiàn)最好[25]。

        2.情感分析

        情感分析的目的是對文本進行情感歸類。從分析粒度來看,情感分析可以分為文檔級、句子級、詞語級和屬性級(Aspect-level)[13],前三種從字面意思即可理解分析目標,而屬性級情感分析則是從文本中進一步抽象出語言表達的分析維度,呈現(xiàn)文本在各個分析方面的態(tài)度傾向。從方法取向上,情感分析可以分為機器學習路徑與詞典匹配路徑[26]。機器學習取向的方法將情感分析看作是通常的文本分類任務(wù);基于詞典的方法則需要預制情感詞表,按情感傾向?qū)⒃~語分類,或標記出詞語的情緒類型。之后通過一系列算法,將文本中的詞語與詞典中進行匹配,從而計算文本的情感傾向。

        例如,有學者使用基于詞典的情感分析方法,針對研究問題編制了特定的情感詞典,對四百多個半結(jié)構(gòu)化的生活滿意度訪談文本進行情感檢測[27]。而在青年研究中應(yīng)用情感分析的例子較多。學者們通常使用基于詞典的情感分析軟件分析青年對待社會現(xiàn)象和具體事件的態(tài)度[28-30],部分學者還借助了平臺公司開發(fā)的人工智能API[31]。

        3.降維分析

        降維是一種簡化數(shù)據(jù)的手段。從技術(shù)上看,在機器學習中,訓練數(shù)據(jù)的特征數(shù)量非常龐大,需要大量的計算開銷,如果訓練任務(wù)僅僅需要數(shù)據(jù)在一個低維空間的分布信息,那么對數(shù)據(jù)降維能夠降低模型訓練的成本,優(yōu)化訓練效果。從社會科學的角度看,降維的一大用途是將若干個彼此之間相關(guān)性較高的變量用一個潛變量代替,或是降低回歸模型的多重共線性。PCA仍是當前學術(shù)界主要使用的技術(shù),但降維方法也產(chǎn)生了許多新的發(fā)展,能夠處理更加復雜的數(shù)據(jù)結(jié)構(gòu)[15]。

        從以上兩個方面來說,降維在“遠讀”中具有更加重要的意義。首先,降維思想內(nèi)在地包含于計算文本分析的方法實踐中,例如LSA和PCA均使用了奇異值分解,Word2Vec與利用神經(jīng)網(wǎng)絡(luò)的自編碼器降維原理也具有相似性。其次,社交媒體時代互聯(lián)網(wǎng)上有著大量的文本數(shù)據(jù),為了從巨量的數(shù)據(jù)中排除隨機擾動和無關(guān)緊要的細節(jié),找出主要的結(jié)構(gòu)和潛在的子群體,探求“整體事實”,就必須用到降維。接下來將要介紹的三條路徑都在不同程度上體現(xiàn)著降維思想。通過降維,文本的內(nèi)在關(guān)系得以直觀地呈現(xiàn)出來[32]。

        4.主題抽取

        文本分析方法的一個重要用途就是從文本中抽取主題,從而分析文本的內(nèi)容。傳統(tǒng)分析方法通常通過與詞頻統(tǒng)計相關(guān)的方法衡量文本主題。例如通過語義網(wǎng)分析《人民日報》“五四”紀念話語的變遷[33],以及廣深兩地“雙創(chuàng)”政策的主題[34]。這種方法雖然直觀,但難以捕捉一詞多義,并且分析難度會隨著文本規(guī)模增長而變大。以LDA為代表的主題模型可以挖掘出文檔中的潛在主題,成為近些年來社會科學中廣泛使用的方法。

        例如,有學者收集了新浪微博中與勞工話題有關(guān)的文本,使用LDA將其區(qū)分成10個主題,分析了這些話題比例從2012到2014年的變遷趨勢[35]。與之類似,還有研究根據(jù)關(guān)注度、閱讀量、討論度和與青年日常生活關(guān)系的緊密程度選取了三個微博話題,通過LDA分別對這些話題進行分析,聚焦當代青年較為典型的需求[36]。還有學者使用LDA分析了農(nóng)村、農(nóng)業(yè)和農(nóng)民相關(guān)的主題在每年政府工作報告中的比例,借此構(gòu)造了中央政府對農(nóng)村工作的注意力指數(shù)[37]。LDA在主題抽取中應(yīng)用廣泛,它屬于無監(jiān)督學習,需要結(jié)合混亂度(Perplexity)和一致性(Coherence)等指標衡量模型質(zhì)量,給出的結(jié)果依然需要結(jié)合理論進行解讀。

        5.分化與極化

        由于能夠?qū)⑽谋居成涞较蛄靠臻g,從而量化它們之間的關(guān)系,因而文本分析的一項重要應(yīng)用就是觀念的分化與極化測量。文本包含著不同的主題,針對同一情境下的文本,使用顯式文本表示、主題模型或文本嵌入方法,將文本中的信息轉(zhuǎn)化為向量,就能夠衡量不同文本在內(nèi)容上的差異,從而通過聚類與降維技術(shù)量化分析觀念的分化與極化。

        例如,有學者使用詞頻比對分析美國政治極化,他們從國會記錄中識別出表示政治傾向的短語,將它們與谷歌書籍數(shù)據(jù)庫中的數(shù)據(jù)比對,發(fā)現(xiàn)極化用語在書籍語料庫中出現(xiàn)頻率的上升趨勢領(lǐng)先于國會演講[38]。近些年機器學習方法也被應(yīng)用于分析分化與極化,例如將美國議員在推特上發(fā)布的文本表示為“n元語法”,利用隨機森林算法衡量議員的政治傾向[39]。還有學者將結(jié)構(gòu)主題模型應(yīng)用于討論氣候變化的文本,分析了接受利益贊助是否會影響這些文本的態(tài)度[40]。還有學者使用“全球事件、語調(diào)與語言數(shù)據(jù)庫”(Global Database of Events,Language and Tone,GDELT)收集了西方國家媒體報道的文本數(shù)據(jù),通過將句子向量化,使用無監(jiān)督學習降維與聚類,從而分析西方媒體涉華言論的主題分化[41]。

        6.文化測量

        近些年,以主題模型和文本嵌入為代表的分析方法,在文化測量領(lǐng)域取得了重要進展。它們通過降維將文本放置在一個向量空間中,能夠?qū)ξ幕瘓D式(Cultural Schema)和文化框架(Cultural Frames)進行測量。博柏利(Boutyline)和索特(Soter)指出,在認知科學和社會學中,基于海量文本數(shù)據(jù)訓練得到的詞向量模型可以成功測量文化圖式[42],詞向量可以捕捉到文本中蘊含的偏見[43]。在向量空間中幾何距離相近的詞向量,其上下文內(nèi)容相似,也共享著近似的含義。詞向量可以將文化意義關(guān)系映射為向量空間中的幾何關(guān)系,例如,“King-Man+Woman”對應(yīng)的詞向量計算結(jié)果,與“Queen”距離非常接近[44]。

        佳格(Garg)等人使用谷歌新聞和圖書大數(shù)據(jù)訓練詞向量,研究了一百年來美國性別偏見的變遷[45]。他們分別計算男性/女性身份代詞向量與特定職業(yè)名詞向量之間的距離之差,這一差值隨時間的變化與關(guān)于職業(yè)參與的人口統(tǒng)計特征相吻合,也即,不同職業(yè)中的性別比例反映在性別身份代詞與職業(yè)名詞在向量空間中的距離中。除了利用相似度,還有學者利用向量減法挖掘文化維度。他們利用表示階層、性別、道德等文化維度的反義詞對,計算出它們在向量空間中的單位向量,比較了這些維度彼此之間的距離,并將其他詞語(例如職業(yè)名稱)投影到這些維度,代表它們在文化維度的定位[46]。

        主題模型也被用來測量文化。它的算法基于文檔中詞語的共現(xiàn)情況將其歸入不同主題。迪馬吉奧(DiMaggio)指出,主題模型應(yīng)用于文化分析有三個優(yōu)勢。首先是其結(jié)果的可解釋性。它的結(jié)果在文化社會學中常常被看作是文化框架。其次,主題模型能夠借助上下文捕捉一詞多義,同一個詞語可以穿插出現(xiàn)在不同的主題中。第三,主題模型能夠從單一的文本中捕捉蘊藏于其中的不同觀點或表達風格。這些都說明主題模型能夠捕捉到文化概念之間的復雜關(guān)系[23]。有學者使用主題模型研究了美國聯(lián)邦公開市場委員會(The Federal Open Market Committee,F(xiàn)OMC)為何會低估2007~2008年間的金融風險。他們使用主題模型分析了FOMC在2000~2008年間的會議記錄,說明其如何將宏觀經(jīng)濟學作為主要框架,將關(guān)于金融市場的異常信息邊緣化和正?;?,從而忽視金融風險[47]。

        四、“遠讀”青年的降維認識論

        (一)“遠讀”青年中的降維思想

        縱觀“遠讀”的方法與上文提到的應(yīng)用案例,不難發(fā)現(xiàn)這一范式的核心目的在于,從紛繁復雜的文本細節(jié)中抽離出來,跳出局部內(nèi)容,轉(zhuǎn)而上升到一個整體的結(jié)構(gòu)層面理解大量文本。不論是從最基礎(chǔ)的詞頻統(tǒng)計,還是到更加復雜的主題模型與文本嵌入技術(shù),都是跳出單一文本,轉(zhuǎn)而從整體關(guān)系的視角出發(fā),將它們放在同一個向量空間中觀察。

        例如,TF-IDF不僅考慮某個詞語在單個文本中的重要性,還會納入它在一組文檔中的相對重要性,從而間接地體現(xiàn)出文本之間的關(guān)系。主題模型和文本嵌入不僅能提供一種整體性的視野,還進一步壓縮了文本信息,用更少的維度表示它們。主題模型將在大量詞語與大量文檔之間引入主題維度組成的隱空間,用少量主題可以刻畫大量的詞語與文檔之間的關(guān)系。文本嵌入則是利用神經(jīng)網(wǎng)絡(luò)算法,將詞語之間的關(guān)系用高維向量表示在一個向量空間中。

        總之,“遠讀”是一種整體性、關(guān)系性的視角,重要的不是對某個局部進行細致的考察,但也不是完全不考慮文本的細節(jié),而是將這些細節(jié)納入到一種局部不可見的宏觀結(jié)構(gòu)中,通過計算文本分析方法,揭開隱藏在大量文本中的整體結(jié)構(gòu)。因此,主題模型與文本嵌入可以被視為一種文本降維技術(shù),都是將信息聚合在更小的維度來表示大量信息。從這個意義上說,這是“遠讀”中的第一重降維,是文本到信息的降維。

        然而,將大量文本映射到向量空間中還不能讓它們之間的關(guān)系直接顯現(xiàn)出來。通過主題模型和文本嵌入方法得到的文本表示結(jié)果通常都大于三個維度,例如詞嵌入結(jié)果通常都是100維以上的向量,再加上神經(jīng)網(wǎng)絡(luò)訓練過程是一個“黑箱”,我們很難理解每個維度代表什么信息。這時需要第二重降維,也就是信息到知識的降維。

        第一重降維重在文本表示,將文本放置到向量空間中,將文本之間的關(guān)系表示為向量相似度或距離的關(guān)系,第二重降維重在知識提取,目的在于從這層關(guān)系中挖掘關(guān)系、發(fā)現(xiàn)模式、歸納知識、描述現(xiàn)實,這需要使用上文提到的降維技術(shù)。經(jīng)過第二重降維,文本的結(jié)構(gòu)能夠以更加簡明的方式呈現(xiàn)出來。

        圖2 兩重降維示意①大多數(shù)實際情況下,維數(shù)都會更多,為方便說明,使用3維和2維作為示意。

        (二)“遠讀”青年的認識過程

        從互聯(lián)網(wǎng)誕生到現(xiàn)在,人類社會先后經(jīng)歷了物品數(shù)字化、社會個體生活的數(shù)字化乃至人的整體數(shù)字化[48]。人們在社交媒體上的行為痕跡與表達內(nèi)容都以數(shù)據(jù)的形式存儲在服務(wù)器中,它們從產(chǎn)生到存儲和管理的整個過程都離不開算法。

        算法對數(shù)據(jù)具有調(diào)遣和規(guī)范的作用,它將數(shù)據(jù)標準化,以人為設(shè)計的目的呈現(xiàn)出來。因而,人們在數(shù)字空間的互動與算法對數(shù)字的干預過程緊密耦合在一起,算法成為了技術(shù)化的社會規(guī)則[48]。一旦將內(nèi)容生產(chǎn)出來并轉(zhuǎn)化為數(shù)字,它們就不再受到生產(chǎn)者的控制,轉(zhuǎn)而成為信息流的一部分。在這個過程中,人們自身的行動后果成為了將來行動的外在條件,反過來對行動者造成影響,強化了社會的反身性。

        在前社交媒體時代,完整的社會事實分發(fā)過程由專業(yè)化的媒體機構(gòu)實現(xiàn)。媒體通過報紙雜志、廣播電視和門戶網(wǎng)站等媒介,將信息從中心信源經(jīng)由各級媒體機構(gòu)垂直向下分發(fā),最終到達目標受眾,整個過程呈現(xiàn)“樹狀單中心化”的結(jié)構(gòu)。社交媒體時代,信息傳播與線上社會互動之間的邊界模糊化了,信息傳播轉(zhuǎn)化為一種社交行為,資訊流動與社會互動密切交織在一起。為了獲得更大的關(guān)注量,人們更傾向于發(fā)布和轉(zhuǎn)發(fā)夸大局部“事實”的、能博取更多關(guān)注的信息,其行為受情感的影響程度遠大于理性。這個過程造就了一批意見領(lǐng)袖,從而使得信息傳播呈現(xiàn)“網(wǎng)狀泛中心化”的結(jié)構(gòu)。

        專業(yè)化媒體機構(gòu)不僅能夠決定分發(fā)什么信息,還能在很大程度上保證信息逐級傳遞的過程中不會失真。但在社交媒體中,信息內(nèi)容的變異受網(wǎng)絡(luò)結(jié)構(gòu)和信息傳播速度的影響而呈現(xiàn)指數(shù)性特征,任何人在傳播信息時都能夠以自己的方式施以主觀解釋,從而使原始內(nèi)容發(fā)生多次變異。于是,完整的社會事實徹底溶解和消散在社交網(wǎng)絡(luò)中,人們所看到的“事實”不僅被碎片化了,更是被顆?;耍瑥亩D(zhuǎn)化為一種“元事實”。如果說人們通過碎片還能夠?qū)⑹聦嵵亟ǔ鰜?,那么顆?;氖聦崉t損失了大量原始信息,以至于以通常的方式重構(gòu)它們變得非常困難。針對這些現(xiàn)象,本文認為“遠讀”青年具有以下三個方面的意義。

        表1 社交媒體興起前后信息傳播形式的比較

        1.“遠讀”有助于把握網(wǎng)絡(luò)青年的觀念內(nèi)容、理解其線上行動

        不同于線下交談的即時性,互聯(lián)網(wǎng)社交媒體具有脫域特征[49]。人際交流在大多數(shù)時間都是異步的,人們彼此之間并不需要即時回應(yīng)對方的行動。此外,深度嵌入互聯(lián)網(wǎng)使當代青年更少受到自己身邊事物的影響,在虛擬空間中形成了獨特的線上社群,產(chǎn)生了復雜的觀念與文化,并反作用于線下生活。

        互聯(lián)網(wǎng)延長了人際關(guān)系,也加速了信息流通,每個人都成為了內(nèi)容的生產(chǎn)者和消費者[50],文本則是內(nèi)容的主要形式。從某種意義來說,這意味著社交媒體上,人人都是寫作者,人際關(guān)系正是通過“寫作”得以建立與維系。有學者認為,互聯(lián)網(wǎng)上的文本不僅是一種表達或記述,還可以是一種“語言行動”;語言甚至可以不再依賴于行動者的持續(xù)介入,自身成為了一種行動主體[51]。

        因此,“遠讀”所讀不僅是內(nèi)容,還是行動背后的意義。社交媒體上的文本不僅代表著人們在發(fā)布與閱讀什么內(nèi)容,還反映著人們?nèi)绾涡袆?,以及支持這些行動的觀念體系。通過“遠讀”,我們能夠更好地從宏觀層面把握網(wǎng)絡(luò)空間中青年的觀念。

        2.借助降維技術(shù),“遠讀”以整體視角鳥瞰網(wǎng)絡(luò)青年的觀念結(jié)構(gòu)

        互聯(lián)網(wǎng)社交媒體讓完整的社會事實在網(wǎng)狀泛中心化的結(jié)構(gòu)中消散開來,每個人只能接觸到顆?;男畔?。這些信息常常以片面和極端的形式呈現(xiàn),加劇了人群的分隔。由于失去了把握信息顆粒之間關(guān)系的能力,人們得到的信息就算彼此矛盾,也難以辨別,不同觀念混合在一起。因而,僅靠傳統(tǒng)的“近讀”無法還原事實原貌,我們需要通過“遠讀”呈現(xiàn)出顆粒之間的關(guān)系,把它們放到一個更宏觀的整體視野中去檢視它們、比較它們。計算文本分析方法將文本放置在一個高維的向量空間中,使得我們能夠通過算法分析它們的群聚關(guān)系,從而通過數(shù)據(jù)驅(qū)動找出它們之間的情感關(guān)聯(lián)、主題關(guān)聯(lián),并通過聚類算法挖掘其背后的潛在群體。

        降維技術(shù)能夠從文本數(shù)據(jù)眾多信息中將觀念的潛在關(guān)鍵結(jié)構(gòu)提取出來。例如,PCA能夠合并數(shù)據(jù)中存在潛在相關(guān)性的維度,用更少的維度解釋更多的信息,實現(xiàn)對文本數(shù)據(jù)的壓縮,找出數(shù)據(jù)中的主干結(jié)構(gòu);LLE基于流形學習(Manifold Learning)理論將高維數(shù)據(jù)在低維空間中重構(gòu)出來,不改變數(shù)據(jù)空間中樣本之間的局部關(guān)系。降維技術(shù)會省略一些在整體層面無關(guān)緊要的信息,通過這種方式,我們能夠從錯綜復雜的關(guān)系中去掉不重要的擾動成分,讓關(guān)鍵整體框架浮現(xiàn)出來。

        3.降維“遠讀”的認識方法提供重建“整體事實”、搭建溝通橋梁的可能

        在快速變化的線上社交網(wǎng)絡(luò)中,局部“事實”被放大和極端化,人們在局部不斷以自身的主觀理解重構(gòu)著這些“事實”,“信息繭房”更加促使人與人之間的觀念變得割裂。青年群體非常容易因為只能看到片面的信息,認為“眼見為實”。然而,由于社交媒體中的信息爆炸,他們時常需要在各種不同的觀點與態(tài)度間搖擺。

        “遠讀”通過將視角拉遠,以整體性的視角看待各類觀念,將不同觀念投射在更易被理解的低維子空間中,將它們之間的關(guān)系重構(gòu)出來,從宏觀層面審視這些關(guān)系,以重建“整體事實”。人們之所以會被不同觀念分隔開來,一定程度上是因為與觀念相似的人交往更加頻繁,群體內(nèi)部具有觀念強化的傾向?!斑h讀”內(nèi)在地將不同觀念放置在同一個整體空間,呈現(xiàn)出觀念的多元化以及它們之間的距離,并能夠動態(tài)呈現(xiàn)觀念分化程度的時間特征。這有助于人們理解自己在觀念空間中所處的坐標,并意識到自身觀念的局部性,從而為搭建溝通橋梁創(chuàng)造條件。

        五、討論與展望

        當前社會的數(shù)字化轉(zhuǎn)型深刻改變了青年的社會化場域,僅靠傳統(tǒng)的青年研究方法難以回應(yīng)這一轉(zhuǎn)型。本文引申了數(shù)字人文中“遠讀”的概念,認為計算文本分析方法能夠回應(yīng)這一轉(zhuǎn)型,并簡要介紹了這些方法的種類和應(yīng)用路徑。

        借助這些方法,我們能夠以更清晰、更簡化、更容易理解的方式從整體視角把握青年群體和他們的活動場域。方法是回答研究問題的手段,計算文本分析方法并不是要替代傳統(tǒng)的定性與定量研究,正如在數(shù)字人文中,“遠讀”與“近讀”也存在結(jié)合可能一樣[10],這兩種方法互補能夠更好地促進我們對當代青年的理解。

        這些方法以大規(guī)模文本數(shù)據(jù)作為處理對象,經(jīng)常需要在互聯(lián)網(wǎng)上收集文本數(shù)據(jù),雖然這些數(shù)據(jù)的規(guī)模較大,但仍然需要考慮數(shù)據(jù)收集和分析過程的科學性、嚴謹性、規(guī)范性和倫理問題。在應(yīng)用方法的過程中,本文認為需要注意三個要點,分別是文本數(shù)據(jù)的代表性、分析方法的適用性以及數(shù)據(jù)收集過程中的倫理問題。

        (1)文本數(shù)據(jù)的代表性。大規(guī)模文本數(shù)據(jù)的來源包括網(wǎng)頁爬蟲、大量的深度訪談資料、報紙雜志文本以及政策文本等。正如在問卷調(diào)查之前需要考慮樣本的代表性,分析文本數(shù)據(jù)時,也需要考慮到其能否代表研究對象。

        例如,通過互聯(lián)網(wǎng)獲取的文本可能代表不了不經(jīng)常上網(wǎng)的人群;此外,人們往往基于不同的目的使用網(wǎng)站或社交媒體。不同平臺的互動規(guī)則、粘性用戶群體也不同,依靠單一的媒體數(shù)據(jù),即便是總體數(shù)據(jù),也不一定代表目標群體。有學者指出,特定的社交媒體甚至會產(chǎn)生“媒介意識形態(tài)”,進一步塑造人們的線上互動[52]。同一個人可能會把自己的線上身份分散在多個不同的平臺上,這導致在觀點挖掘和文化研究中很難合并出一個總體的研究對象。最后,社交平臺也在一定程度上存在著輿論操縱的現(xiàn)象。平臺并不僅展示用戶活動的數(shù)據(jù),還會干涉這些數(shù)據(jù)的生產(chǎn)過程,從而導致數(shù)據(jù)偏差[53-54]。

        然而,代表性問題取決于研究對象的界定,如果研究對象并不是特定的人群,也不需要考慮結(jié)論的泛化,僅僅是為了探究文化發(fā)展規(guī)模與類型,或是進行樣本內(nèi)比較,那么代表性問題仍然能夠得到解決。另外,雖然數(shù)據(jù)的生產(chǎn)過程可能發(fā)生變化,但這對于長期的數(shù)據(jù)收集來說影響更大[55],對短期數(shù)據(jù)的分析仍然具有科學意義。有學者在研究中也指出,人為干預也可能對研究結(jié)果的影響有限[56]。

        (2)分析方法的適用性。文本分析方法都是與特定場景相聯(lián)系的。社會學家將這些方法移植到自己的研究領(lǐng)域,可能會突破這些方法的既有假設(shè)。

        例如,弗里格斯坦(Fligstein)等人雖然使用主題模型分析了FOMC的會議記錄,但也指出主題模型的開發(fā)初衷是為了分析靜態(tài)文本,主題已經(jīng)預先確定。而會議記錄則會在對話中不斷變化[47]。詞向量模型如果需要捕捉到文化觀念,則對訓練語料庫的規(guī)模有一定要求[42]。此外,在對文本應(yīng)用降維技術(shù)時,也需要檢查降維結(jié)果是否能夠抽取出最關(guān)鍵的信息[46]。

        因此,在使用特定文本分析方法之前,也需要考慮其最初要解決的問題處在怎樣的特定場景中,并將這些方法上的假設(shè)與當前研究進行比較,從而選擇適用的方法。本文所介紹的方法只涵蓋了部分方法領(lǐng)域,并且這些方法還處在快速發(fā)展中,需要我們不斷對前沿方向保持關(guān)注。

        (3)數(shù)據(jù)收集中的倫理。雖然以公開數(shù)據(jù)作為研究素材不違反社交平臺的用戶條款,但是作為數(shù)據(jù)生產(chǎn)者的用戶仍然關(guān)心自己在無意間被當成研究對象,尤其是少數(shù)群體[57-58]。

        社交媒體上的文本數(shù)據(jù)通常產(chǎn)生于特定的互聯(lián)網(wǎng)情境,在其中,人們的交流方式與日常生活中存在一定差異。人們在互聯(lián)網(wǎng)上發(fā)表意見、與人交流時大多是面向特定的社群,而不是面向整個互聯(lián)網(wǎng),尤其不是面向互聯(lián)網(wǎng)之外更廣泛的公共空間[57]。由于互聯(lián)網(wǎng)的半開放性和匿名性,人們反而會與陌生人交流一些更具私密性的內(nèi)容。因此,正如訪談時需要保護受訪者的隱私一樣,利用線上文本數(shù)據(jù)同樣需要關(guān)注研究對象的隱私問題[59]。青年群體對隱私問題的重視程度更高,也更容易受到隱私泄露的傷害,對此我們需要更加重視研究過程中涉及到的倫理因素。

        本文主要探討了計算文本分析方法用于互聯(lián)網(wǎng)文本的路徑與對青年研究的意義,雖然互聯(lián)網(wǎng)上的內(nèi)容形式以文本為主,但近些年來音視頻及圖像的興起也提供了更多的研究素材。音視頻及圖像經(jīng)常與文本相互參照,共同表達信息與情感。本文將這些文本和與之伴隨、與文本內(nèi)容關(guān)聯(lián)的音頻、圖像和視頻合并稱為“富文本”①“富文本”格式(Rich Text Format,RTF)原本是一個技術(shù)概念,是一種包含字體、段落等格式信息的文檔格式,本文引申了這一概念。。

        在社會科學中,以這些數(shù)據(jù)作為素材的研究還不多。雖然文本仍然還是主流的信息載體,但圖像與音視頻通常包含著更多的情感細節(jié),尤其是當前各類長、短視頻平臺的流行,音視頻已經(jīng)成為互聯(lián)網(wǎng)上的主要內(nèi)容載體之一,這些都提供了更多的研究素材。

        已經(jīng)有學者將深度學習算法用于識別社交媒體上發(fā)布的線下集體行動事件。他們使用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)和循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)進行文本和圖片的分類任務(wù),描述了新浪微博2010~2017年集體行動事件的數(shù)量趨勢,并將這些事件分為11種類型[56]。還有學者將流行歌曲轉(zhuǎn)化為音樂特征向量,通過計算余弦相似度衡量歌曲之間的關(guān)系。他們發(fā)現(xiàn),流行歌曲的成功不僅與作品自身屬性(如歌手和流派)有關(guān),還取決于它與同類型作品之間的關(guān)系,即能夠權(quán)衡好與同類之間相似與相異程度的歌曲更容易獲得成功[60]。這些研究部分地說明社會科學已經(jīng)開始關(guān)注“富文本”分析。

        本文認為,通過“遠讀”當前社交媒體上的豐富內(nèi)容,我們對“整體事實”的理解能夠更進一步。雖然從理論上說,“整體事實”處在永恒變化當中,由于我們始終身處社會之內(nèi),從而永遠無法透過最整體的視角看待自身以獲得最完整的“整體事實”。然而,這并不是說我們要放棄對“整體事實”的追求,實際上,這一概念背后所體現(xiàn)的是一種對待事實的謙遜態(tài)度,提醒著我們不斷采取各種方法手段向它逼近,而不是將局部的認識當成世界的全部。

        猜你喜歡
        降維向量詞語
        Three-Body’s epic scale and fiercely guarded fanbase present challenges to adaptations
        容易混淆的詞語
        向量的分解
        聚焦“向量與三角”創(chuàng)新題
        找詞語
        降維打擊
        海峽姐妹(2019年12期)2020-01-14 03:24:40
        詞語欣賞
        向量垂直在解析幾何中的應(yīng)用
        向量五種“變身” 玩轉(zhuǎn)圓錐曲線
        一枚詞語一門靜
        亚洲av乱码一区二区三区林ゆな| 国产高清天干天天视频| av资源在线永久免费观看| 黄片视频大全在线免费播放| 色视频线观看在线网站| 少妇激情av一区二区| 蜜臀aⅴ永久无码一区二区| 蜜桃在线高清视频免费观看网址| 久久中文骚妇内射| 久久精品一区二区三区av| 欧美日韩亚洲综合久久久| 亚洲av网一区二区三区成人| 男人添女人囗交做爰视频| 国产在线观看www污污污| 国内精品国产三级国产av另类| 国产三级c片在线观看| 日本边添边摸边做边爱| 国产成人av性色在线影院色戒| 久久狠色噜噜狠狠狠狠97| 亚洲二区精品婷婷久久精品| 日日麻批免费40分钟无码| 一本一道波多野结衣一区| 99国产精品无码专区| 亚洲午夜精品第一区二区| 亚洲人成影院在线无码按摩店| 国产成人亚洲综合无码| 久久精品国产亚洲av成人擦边| 国产一区二区三区免费精品视频| 中文字幕乱码一区av久久不卡| 日本a在线看| 白白色青青草视频免费观看| 国产成人无码精品久久久免费| 被群cao的合不拢腿h纯肉视频| 精品综合久久久久久99| 人妻精品一区二区三区蜜桃| 久久久久99精品成人片直播| 亚洲地址一地址二地址三| 亚洲av成人久久精品| 蜜臀久久99精品久久久久久| 国产精品麻豆欧美日韩ww| 无码人妻精品中文字幕免费|