一、什么是文本分析?
作為一種新興的基于定性研究的量化分析方法,文本分析法能夠揭示文本的變化與特征,為經(jīng)典問題的研究提供了新思路。
文本分析應(yīng)用于多個領(lǐng)域,比如在旅游業(yè)中,可以通過文本分析去研究旅游形象感知情況,比如在經(jīng)濟學(xué)中,可以通過文本分析進行研究目前保險政策等等,以及還有其它領(lǐng)域都會應(yīng)用到文本分析。
二、文本分析常見研究步驟
文本分析的常見步驟有五步,包括數(shù)據(jù)搜集、分詞、數(shù)據(jù)清洗、特征提取以及建模和其它分析具體如下圖:
數(shù)據(jù)搜集文本分析的第一步需要進行數(shù)據(jù)搜集,獲取文本數(shù)據(jù)的方式一般包括網(wǎng)絡(luò)平臺、媒體平臺、新聞、知網(wǎng)、論壇等等。
分詞計算機會將我們導(dǎo)入的字符串進行分詞劃分便于后續(xù)的分析。
數(shù)據(jù)清洗在文本分析的過程中,首先需要對文本進行預(yù)處理,預(yù)處理是非常重要的一步,它直接影響后續(xù)分析的準(zhǔn)確性和可靠性。標(biāo)點符號和停用詞的去除是預(yù)處理的常見操作,可以有效地去除文本中的無關(guān)信息,提高分析效率。同時,對文本進行分詞、去除停用詞等操作,也有助于提取出更準(zhǔn)確的關(guān)鍵詞和主題。除此之外還會通過關(guān)鍵詞詞頻,分布等等進行剖析文本的主題,以及有些研究者還會通過分析情感詞去了解文本的情感傾向。
特征提取數(shù)據(jù)清洗后進行特征提取,比如可以使用可視化板塊里的tf-idf,其是常用的特征提取方法,它考慮了詞匯在文本中的重要性和在語料庫中的普遍性。TF-IDF值越高,表示該詞匯在文本中的重要性越高,以及還有其它方法。
后續(xù)分析
利用文本數(shù)據(jù)進行后續(xù)分析,比如可視化圖形展示、主題分析,聚類等等,下個模塊會有說明。
三、SPSSAU如何操作?
文本分析的操作演示:通過SPSSAU主系統(tǒng)左側(cè)儀表盤點擊‘文本分析模塊’進入。
進入文本分析模塊后,研究者可以自行選擇上傳數(shù)據(jù),包括粘貼文本進行上傳或者上傳txt/excel文件等(大小限制5m內(nèi))。如下圖所示:
然后就可以根據(jù)自己的需求進行選擇分析方法,進行分析:
四、文本分析都能干什么?
文本分析的應(yīng)用有很多,以SPSSAU為例,其可以進行文本可視化(詞云分析)、文本情感分析、文本聚類分析、社會網(wǎng)絡(luò)關(guān)系圖、LDA主題分析語義分析等等。
文本可視化
文本分析模塊中,最重要和最基礎(chǔ)的為展示分詞結(jié)果,通常是使用詞云進行展示。在‘詞云分析等’中,SPSSAU提供四種功能,分別是詞云分析、自定義詞云、詞定位和tf-idf。
詞云分析詞云圖直觀展示住建很2023年12月共41條新聞內(nèi)容的關(guān)鍵詞信息,住戶、城市、發(fā)展、建設(shè)等均是關(guān)鍵信息。默認(rèn)是展示前100個高頻關(guān)鍵詞,可自主設(shè)置該數(shù)字。也可修改詞云風(fēng)格和下載該詞云圖。
自定義詞云如果對詞云分析不滿意,也可以使用自定義詞云,研究者可將整理好的信息,包括關(guān)鍵詞和其詞頻,直接粘貼(或者自主編輯)在表格中,然后就會出現(xiàn)相應(yīng)的詞云圖。
詞定位通過詞定位可以觀察到某個詞,具體出現(xiàn)在那些行中,可通過行號進行查看。
tf-idf
文本分析中,tf-idf是個重要的指標(biāo),其反映某關(guān)鍵詞在整份數(shù)據(jù)中的重要性程度,當(dāng)tf-idf越高時,其重要性越高。其與詞頻的意義不盡相同,詞頻是指出現(xiàn)次數(shù),而tf-idf更加關(guān)注于關(guān)鍵詞的重要性程度。其中:tf-idf = tf * idf;其中tf:tf = n / N,其中n為某關(guān)鍵詞的詞頻,N為整份數(shù)據(jù)關(guān)鍵詞詞頻總和,N是個固定值,當(dāng)n即詞頻越高時tf越高,說明該關(guān)鍵詞越重要;idf = log(D/(1+d)),log是取對數(shù),D為數(shù)據(jù)的行數(shù),d為數(shù)據(jù)中某個詞在多少行中出現(xiàn)過。D為固定值,d值越大即到處出現(xiàn)時idf反而越小,d值越小即并非到處出現(xiàn)時idf反而越高,idf越高代表某關(guān)鍵詞重要性越高。
文本情感分析
目前,主流的文本情感分析方法可分為基于情感詞典、機器學(xué)習(xí)和深度學(xué)習(xí)三類。基于情感詞典的方法是傳統(tǒng)的情感分析方法,它利用情感詞典中的情感極性計算目標(biāo)語句的情感值。盡管基于詞典的分析方法實現(xiàn)簡單,但其也有缺點,其準(zhǔn)確率在很大程度上依賴于構(gòu)建詞典的質(zhì)量,并且構(gòu)建情感詞典需要耗費大量人力物力,對新詞的適應(yīng)能力也較差。
文本分析模塊中,SPSSAU共提供兩種方式的情感分析,分別是按詞情感分析和按行情感分析。按詞情感分析是指針對提取的關(guān)鍵詞進行情感分析,并且進行可視化展示;按行情感分析是指針對分析的原始數(shù)據(jù)以‘行’為單位進行情感分析,并且可下載具體的情感得分值信息等。
文本聚類
文本聚類即:將需要分析的關(guān)鍵詞進行聚類分析,并且進行可視化展示,SPSSAU共提供兩種文本聚類方式,分別是按詞聚類和按行聚類。
社會網(wǎng)絡(luò)關(guān)系圖
社會網(wǎng)絡(luò)關(guān)系圖展示關(guān)鍵詞之間的關(guān)系情況,此處的關(guān)系是指‘共詞矩陣’,即兩個關(guān)鍵詞同時出現(xiàn)的頻數(shù)情況,將‘共詞矩陣’信息使用可視化方式進行呈現(xiàn)出來。
共詞矩陣:主要用于表示關(guān)鍵詞之間的關(guān)聯(lián)強度。它是一個由行和列組成的矩陣,通過矩陣中的元素來表示關(guān)鍵詞之間的關(guān)聯(lián)程度。在共詞矩陣中,元素的值越大,說明兩個關(guān)鍵詞之間的關(guān)聯(lián)性越強,即它們共同出現(xiàn)的頻率越高。
社會網(wǎng)絡(luò)關(guān)系圖:社會網(wǎng)絡(luò)關(guān)系圖在文本分析中的應(yīng)用主要是為了揭示文本中各個實體之間的關(guān)聯(lián)關(guān)系。這種關(guān)系圖可以幫助我們更好地理解文本的主題和內(nèi)容,發(fā)現(xiàn)文本中的隱藏信息和模式。
LDA主題分析
主題模型是指用來統(tǒng)計一系列文檔中出現(xiàn)的主題個數(shù)的一種統(tǒng)計模型,LDA可以通過無監(jiān)督的學(xué)習(xí)方法發(fā)現(xiàn)文本中隱含的主題信息。LDA將主題當(dāng)成是文檔內(nèi)容的濃縮,所以我們可以通過LDA將大規(guī)模的語料庫中的信息生成文檔,生成的文檔可以看作是由許多主題構(gòu)成的,構(gòu)成主題的每一個詞匯又都是無序的,從而達(dá)到降低文檔維數(shù)的效果,大大降低了問題的復(fù)雜性,同時也具有語義上的特征。SPSSAU結(jié)果如下(氣泡大小表示該主題的重要性情況,以及條形的長度表示該主題時該詞的權(quán)重大小情況):
新詞發(fā)現(xiàn)
無法被詞典識別到的,新詞發(fā)現(xiàn)時涉及到兩個關(guān)鍵指標(biāo),分別是:信息熵和互信息。信息熵越大即意味著某詞越容易與其它詞組合在一起形成一個詞語,信息熵越小即意味著某詞越不容易與其它詞組合在一起。
停用詞/情感詞
停用詞:停用詞是指在文本中出現(xiàn)頻率較高但對文本主題和內(nèi)容貢獻較小的詞,停用詞的去除可以提高分析效率和精度;
情感詞:情感詞是指表達(dá)情感或情感傾向的詞,情感詞的識別和分析可以幫助我們更好地理解文本的情感內(nèi)涵;