當(dāng)前位置：首頁資訊文本分析和機器學(xué)習(xí)那個火

文本分析和機器學(xué)習(xí)那個火

導(dǎo)讀一、什么是文本分析。作為一種新興的基于定性研究的量化分析方法，文本分析法能夠揭示文本的變化與特征，為經(jīng)典問題的研究提供了新思路。文本分析應(yīng)用于多個領(lǐng)域，比如在旅游業(yè)中，可以通過文本分析去研究旅游形象感知情況，比如在經(jīng)濟學(xué)中，可以通過文本分析進行研究目前保險政策等等，以及還有其它領(lǐng)域都會應(yīng)用到文本分析。二、文本分析常見研究步驟。文本分析的常見步驟有五步，包括數(shù)據(jù)搜集、分詞、數(shù)據(jù)清洗、特征提取以及建模和其它分析具體如下圖。數(shù)據(jù)搜集；文本分析的第一步需要進行數(shù)據(jù)搜集，獲取文本數(shù)據(jù)的方式一般包括網(wǎng)絡(luò)平臺、媒體平臺、新聞、知網(wǎng)、論壇等等。分詞；計算機會將我們導(dǎo)入的字符串進行分詞劃分便于后續(xù)的分析。數(shù)據(jù)清洗；

一、什么是文本分析？

作為一種新興的基于定性研究的量化分析方法，文本分析法能夠揭示文本的變化與特征，為經(jīng)典問題的研究提供了新思路。

文本分析應(yīng)用于多個領(lǐng)域，比如在旅游業(yè)中，可以通過文本分析去研究旅游形象感知情況，比如在經(jīng)濟學(xué)中，可以通過文本分析進行研究目前保險政策等等，以及還有其它領(lǐng)域都會應(yīng)用到文本分析。

二、文本分析常見研究步驟

文本分析的常見步驟有五步，包括數(shù)據(jù)搜集、分詞、數(shù)據(jù)清洗、特征提取以及建模和其它分析具體如下圖：

數(shù)據(jù)搜集文本分析的第一步需要進行數(shù)據(jù)搜集，獲取文本數(shù)據(jù)的方式一般包括網(wǎng)絡(luò)平臺、媒體平臺、新聞、知網(wǎng)、論壇等等。

分詞計算機會將我們導(dǎo)入的字符串進行分詞劃分便于后續(xù)的分析。

數(shù)據(jù)清洗在文本分析的過程中，首先需要對文本進行預(yù)處理，預(yù)處理是非常重要的一步，它直接影響后續(xù)分析的準(zhǔn)確性和可靠性。標(biāo)點符號和停用詞的去除是預(yù)處理的常見操作，可以有效地去除文本中的無關(guān)信息，提高分析效率。同時，對文本進行分詞、去除停用詞等操作，也有助于提取出更準(zhǔn)確的關(guān)鍵詞和主題。除此之外還會通過關(guān)鍵詞詞頻，分布等等進行剖析文本的主題，以及有些研究者還會通過分析情感詞去了解文本的情感傾向。

特征提取數(shù)據(jù)清洗后進行特征提取，比如可以使用可視化板塊里的tf-idf，其是常用的特征提取方法，它考慮了詞匯在文本中的重要性和在語料庫中的普遍性。TF-IDF值越高，表示該詞匯在文本中的重要性越高，以及還有其它方法。

后續(xù)分析

利用文本數(shù)據(jù)進行后續(xù)分析，比如可視化圖形展示、主題分析，聚類等等，下個模塊會有說明。

三、SPSSAU如何操作？

文本分析的操作演示：通過SPSSAU主系統(tǒng)左側(cè)儀表盤點擊‘文本分析模塊’進入。

進入文本分析模塊后，研究者可以自行選擇上傳數(shù)據(jù)，包括粘貼文本進行上傳或者上傳txt/excel文件等（大小限制5m內(nèi)）。如下圖所示：

然后就可以根據(jù)自己的需求進行選擇分析方法，進行分析：

四、文本分析都能干什么？

文本分析的應(yīng)用有很多，以SPSSAU為例，其可以進行文本可視化（詞云分析）、文本情感分析、文本聚類分析、社會網(wǎng)絡(luò)關(guān)系圖、LDA主題分析語義分析等等。

文本可視化

文本分析模塊中，最重要和最基礎(chǔ)的為展示分詞結(jié)果，通常是使用詞云進行展示。在‘詞云分析等’中，SPSSAU提供四種功能，分別是詞云分析、自定義詞云、詞定位和tf-idf。

詞云分析詞云圖直觀展示住建很2023年12月共41條新聞內(nèi)容的關(guān)鍵詞信息，住戶、城市、發(fā)展、建設(shè)等均是關(guān)鍵信息。默認(rèn)是展示前100個高頻關(guān)鍵詞，可自主設(shè)置該數(shù)字。也可修改詞云風(fēng)格和下載該詞云圖。

自定義詞云如果對詞云分析不滿意，也可以使用自定義詞云，研究者可將整理好的信息，包括關(guān)鍵詞和其詞頻，直接粘貼（或者自主編輯）在表格中，然后就會出現(xiàn)相應(yīng)的詞云圖。

詞定位通過詞定位可以觀察到某個詞，具體出現(xiàn)在那些行中，可通過行號進行查看。

tf-idf

文本分析中，tf-idf是個重要的指標(biāo)，其反映某關(guān)鍵詞在整份數(shù)據(jù)中的重要性程度，當(dāng)tf-idf越高時，其重要性越高。其與詞頻的意義不盡相同，詞頻是指出現(xiàn)次數(shù)，而tf-idf更加關(guān)注于關(guān)鍵詞的重要性程度。其中：tf-idf = tf * idf；其中tf：tf = n / N，其中n為某關(guān)鍵詞的詞頻，N為整份數(shù)據(jù)關(guān)鍵詞詞頻總和，N是個固定值，當(dāng)n即詞頻越高時tf越高，說明該關(guān)鍵詞越重要；idf = log(D/(1+d))，log是取對數(shù)，D為數(shù)據(jù)的行數(shù)，d為數(shù)據(jù)中某個詞在多少行中出現(xiàn)過。D為固定值，d值越大即到處出現(xiàn)時idf反而越小，d值越小即并非到處出現(xiàn)時idf反而越高，idf越高代表某關(guān)鍵詞重要性越高。

文本情感分析

目前,主流的文本情感分析方法可分為基于情感詞典、機器學(xué)習(xí)和深度學(xué)習(xí)三類。基于情感詞典的方法是傳統(tǒng)的情感分析方法,它利用情感詞典中的情感極性計算目標(biāo)語句的情感值。盡管基于詞典的分析方法實現(xiàn)簡單,但其也有缺點，其準(zhǔn)確率在很大程度上依賴于構(gòu)建詞典的質(zhì)量，并且構(gòu)建情感詞典需要耗費大量人力物力,對新詞的適應(yīng)能力也較差。

文本分析模塊中，SPSSAU共提供兩種方式的情感分析，分別是按詞情感分析和按行情感分析。按詞情感分析是指針對提取的關(guān)鍵詞進行情感分析，并且進行可視化展示；按行情感分析是指針對分析的原始數(shù)據(jù)以‘行’為單位進行情感分析，并且可下載具體的情感得分值信息等。

文本聚類

文本聚類即：將需要分析的關(guān)鍵詞進行聚類分析，并且進行可視化展示，SPSSAU共提供兩種文本聚類方式，分別是按詞聚類和按行聚類。

社會網(wǎng)絡(luò)關(guān)系圖

社會網(wǎng)絡(luò)關(guān)系圖展示關(guān)鍵詞之間的關(guān)系情況，此處的關(guān)系是指‘共詞矩陣’，即兩個關(guān)鍵詞同時出現(xiàn)的頻數(shù)情況，將‘共詞矩陣’信息使用可視化方式進行呈現(xiàn)出來。

共詞矩陣：主要用于表示關(guān)鍵詞之間的關(guān)聯(lián)強度。它是一個由行和列組成的矩陣，通過矩陣中的元素來表示關(guān)鍵詞之間的關(guān)聯(lián)程度。在共詞矩陣中，元素的值越大，說明兩個關(guān)鍵詞之間的關(guān)聯(lián)性越強，即它們共同出現(xiàn)的頻率越高。

社會網(wǎng)絡(luò)關(guān)系圖：社會網(wǎng)絡(luò)關(guān)系圖在文本分析中的應(yīng)用主要是為了揭示文本中各個實體之間的關(guān)聯(lián)關(guān)系。這種關(guān)系圖可以幫助我們更好地理解文本的主題和內(nèi)容，發(fā)現(xiàn)文本中的隱藏信息和模式。

LDA主題分析

主題模型是指用來統(tǒng)計一系列文檔中出現(xiàn)的主題個數(shù)的一種統(tǒng)計模型，LDA可以通過無監(jiān)督的學(xué)習(xí)方法發(fā)現(xiàn)文本中隱含的主題信息。LDA將主題當(dāng)成是文檔內(nèi)容的濃縮，所以我們可以通過LDA將大規(guī)模的語料庫中的信息生成文檔，生成的文檔可以看作是由許多主題構(gòu)成的,構(gòu)成主題的每一個詞匯又都是無序的,從而達(dá)到降低文檔維數(shù)的效果,大大降低了問題的復(fù)雜性,同時也具有語義上的特征。SPSSAU結(jié)果如下（氣泡大小表示該主題的重要性情況，以及條形的長度表示該主題時該詞的權(quán)重大小情況）：