在线亚洲黄色-在线亚洲观看-在线亚洲电影-在线亚洲成人-岛国大片在线观看免费版-岛国大片在线播放高清

文本分析和機器學(xué)習(xí)那個火

導(dǎo)讀一、什么是文本分析。作為一種新興的基于定性研究的量化分析方法,文本分析法能夠揭示文本的變化與特征,為經(jīng)典問題的研究提供了新思路。文本分析應(yīng)用于多個領(lǐng)域,比如在旅游業(yè)中,可以通過文本分析去研究旅游形象感知情況,比如在經(jīng)濟學(xué)中,可以通過文本分析進行研究目前保險政策等等,以及還有其它領(lǐng)域都會應(yīng)用到文本分析。二、文本分析常見研究步驟。文本分析的常見步驟有五步,包括數(shù)據(jù)搜集、分詞、數(shù)據(jù)清洗、特征提取以及建模和其它分析具體如下圖。數(shù)據(jù)搜集;文本分析的第一步需要進行數(shù)據(jù)搜集,獲取文本數(shù)據(jù)的方式一般包括網(wǎng)絡(luò)平臺、媒體平臺、新聞、知網(wǎng)、論壇等等。分詞;計算機會將我們導(dǎo)入的字符串進行分詞劃分便于后續(xù)的分析。數(shù)據(jù)清洗;

一、什么是文本分析?

作為一種新興的基于定性研究的量化分析方法,文本分析法能夠揭示文本的變化與特征,為經(jīng)典問題的研究提供了新思路。

文本分析應(yīng)用于多個領(lǐng)域,比如在旅游業(yè)中,可以通過文本分析去研究旅游形象感知情況,比如在經(jīng)濟學(xué)中,可以通過文本分析進行研究目前保險政策等等,以及還有其它領(lǐng)域都會應(yīng)用到文本分析。

二、文本分析常見研究步驟

文本分析的常見步驟有五步,包括數(shù)據(jù)搜集、分詞、數(shù)據(jù)清洗、特征提取以及建模和其它分析具體如下圖:

數(shù)據(jù)搜集文本分析的第一步需要進行數(shù)據(jù)搜集,獲取文本數(shù)據(jù)的方式一般包括網(wǎng)絡(luò)平臺、媒體平臺、新聞、知網(wǎng)、論壇等等。

分詞計算機會將我們導(dǎo)入的字符串進行分詞劃分便于后續(xù)的分析。

數(shù)據(jù)清洗在文本分析的過程中,首先需要對文本進行預(yù)處理,預(yù)處理是非常重要的一步,它直接影響后續(xù)分析的準(zhǔn)確性和可靠性。標(biāo)點符號和停用詞的去除是預(yù)處理的常見操作,可以有效地去除文本中的無關(guān)信息,提高分析效率。同時,對文本進行分詞、去除停用詞等操作,也有助于提取出更準(zhǔn)確的關(guān)鍵詞和主題。除此之外還會通過關(guān)鍵詞詞頻,分布等等進行剖析文本的主題,以及有些研究者還會通過分析情感詞去了解文本的情感傾向。

特征提取數(shù)據(jù)清洗后進行特征提取,比如可以使用可視化板塊里的tf-idf,其是常用的特征提取方法,它考慮了詞匯在文本中的重要性和在語料庫中的普遍性。TF-IDF值越高,表示該詞匯在文本中的重要性越高,以及還有其它方法。

后續(xù)分析

利用文本數(shù)據(jù)進行后續(xù)分析,比如可視化圖形展示、主題分析,聚類等等,下個模塊會有說明。

三、SPSSAU如何操作?

文本分析的操作演示:通過SPSSAU主系統(tǒng)左側(cè)儀表盤點擊‘文本分析模塊’進入。

進入文本分析模塊后,研究者可以自行選擇上傳數(shù)據(jù),包括粘貼文本進行上傳或者上傳txt/excel文件等(大小限制5m內(nèi))。如下圖所示:

然后就可以根據(jù)自己的需求進行選擇分析方法,進行分析:

四、文本分析都能干什么?

文本分析的應(yīng)用有很多,以SPSSAU為例,其可以進行文本可視化(詞云分析)、文本情感分析、文本聚類分析、社會網(wǎng)絡(luò)關(guān)系圖、LDA主題分析語義分析等等。

文本可視化

文本分析模塊中,最重要和最基礎(chǔ)的為展示分詞結(jié)果,通常是使用詞云進行展示。在‘詞云分析等’中,SPSSAU提供四種功能,分別是詞云分析、自定義詞云、詞定位和tf-idf。

詞云分析詞云圖直觀展示住建很2023年12月共41條新聞內(nèi)容的關(guān)鍵詞信息,住戶、城市、發(fā)展、建設(shè)等均是關(guān)鍵信息。默認(rèn)是展示前100個高頻關(guān)鍵詞,可自主設(shè)置該數(shù)字。也可修改詞云風(fēng)格和下載該詞云圖。

自定義詞云如果對詞云分析不滿意,也可以使用自定義詞云,研究者可將整理好的信息,包括關(guān)鍵詞和其詞頻,直接粘貼(或者自主編輯)在表格中,然后就會出現(xiàn)相應(yīng)的詞云圖。

詞定位通過詞定位可以觀察到某個詞,具體出現(xiàn)在那些行中,可通過行號進行查看。

tf-idf

文本分析中,tf-idf是個重要的指標(biāo),其反映某關(guān)鍵詞在整份數(shù)據(jù)中的重要性程度,當(dāng)tf-idf越高時,其重要性越高。其與詞頻的意義不盡相同,詞頻是指出現(xiàn)次數(shù),而tf-idf更加關(guān)注于關(guān)鍵詞的重要性程度。其中:tf-idf = tf * idf;其中tf:tf = n / N,其中n為某關(guān)鍵詞的詞頻,N為整份數(shù)據(jù)關(guān)鍵詞詞頻總和,N是個固定值,當(dāng)n即詞頻越高時tf越高,說明該關(guān)鍵詞越重要;idf = log(D/(1+d)),log是取對數(shù),D為數(shù)據(jù)的行數(shù),d為數(shù)據(jù)中某個詞在多少行中出現(xiàn)過。D為固定值,d值越大即到處出現(xiàn)時idf反而越小,d值越小即并非到處出現(xiàn)時idf反而越高,idf越高代表某關(guān)鍵詞重要性越高。

文本情感分析

目前,主流的文本情感分析方法可分為基于情感詞典、機器學(xué)習(xí)和深度學(xué)習(xí)三類。基于情感詞典的方法是傳統(tǒng)的情感分析方法,它利用情感詞典中的情感極性計算目標(biāo)語句的情感值。盡管基于詞典的分析方法實現(xiàn)簡單,但其也有缺點,其準(zhǔn)確率在很大程度上依賴于構(gòu)建詞典的質(zhì)量,并且構(gòu)建情感詞典需要耗費大量人力物力,對新詞的適應(yīng)能力也較差。

文本分析模塊中,SPSSAU共提供兩種方式的情感分析,分別是按詞情感分析和按行情感分析。按詞情感分析是指針對提取的關(guān)鍵詞進行情感分析,并且進行可視化展示;按行情感分析是指針對分析的原始數(shù)據(jù)以‘行’為單位進行情感分析,并且可下載具體的情感得分值信息等。

文本聚類

文本聚類即:將需要分析的關(guān)鍵詞進行聚類分析,并且進行可視化展示,SPSSAU共提供兩種文本聚類方式,分別是按詞聚類和按行聚類。

社會網(wǎng)絡(luò)關(guān)系圖

社會網(wǎng)絡(luò)關(guān)系圖展示關(guān)鍵詞之間的關(guān)系情況,此處的關(guān)系是指‘共詞矩陣’,即兩個關(guān)鍵詞同時出現(xiàn)的頻數(shù)情況,將‘共詞矩陣’信息使用可視化方式進行呈現(xiàn)出來。

共詞矩陣:主要用于表示關(guān)鍵詞之間的關(guān)聯(lián)強度。它是一個由行和列組成的矩陣,通過矩陣中的元素來表示關(guān)鍵詞之間的關(guān)聯(lián)程度。在共詞矩陣中,元素的值越大,說明兩個關(guān)鍵詞之間的關(guān)聯(lián)性越強,即它們共同出現(xiàn)的頻率越高。

社會網(wǎng)絡(luò)關(guān)系圖:社會網(wǎng)絡(luò)關(guān)系圖在文本分析中的應(yīng)用主要是為了揭示文本中各個實體之間的關(guān)聯(lián)關(guān)系。這種關(guān)系圖可以幫助我們更好地理解文本的主題和內(nèi)容,發(fā)現(xiàn)文本中的隱藏信息和模式。

LDA主題分析

主題模型是指用來統(tǒng)計一系列文檔中出現(xiàn)的主題個數(shù)的一種統(tǒng)計模型,LDA可以通過無監(jiān)督的學(xué)習(xí)方法發(fā)現(xiàn)文本中隱含的主題信息。LDA將主題當(dāng)成是文檔內(nèi)容的濃縮,所以我們可以通過LDA將大規(guī)模的語料庫中的信息生成文檔,生成的文檔可以看作是由許多主題構(gòu)成的,構(gòu)成主題的每一個詞匯又都是無序的,從而達(dá)到降低文檔維數(shù)的效果,大大降低了問題的復(fù)雜性,同時也具有語義上的特征。SPSSAU結(jié)果如下(氣泡大小表示該主題的重要性情況,以及條形的長度表示該主題時該詞的權(quán)重大小情況):

新詞發(fā)現(xiàn)

無法被詞典識別到的,新詞發(fā)現(xiàn)時涉及到兩個關(guān)鍵指標(biāo),分別是:信息熵和互信息。信息熵越大即意味著某詞越容易與其它詞組合在一起形成一個詞語,信息熵越小即意味著某詞越不容易與其它詞組合在一起。

停用詞/情感詞

停用詞:停用詞是指在文本中出現(xiàn)頻率較高但對文本主題和內(nèi)容貢獻較小的詞,停用詞的去除可以提高分析效率和精度;

情感詞:情感詞是指表達(dá)情感或情感傾向的詞,情感詞的識別和分析可以幫助我們更好地理解文本的情感內(nèi)涵;

為你推薦
資訊專欄
熱門視頻
相關(guān)推薦
內(nèi)蒙古自治區(qū)土地儲備中心工資待遇怎么樣 為啥快遞寄送藥品要比其他物品快 瓷磚膠里摻彭脹劑會怎么樣 第三屆廣州(國際)城市影像大賽獎金多少 我朋友來我家就占著化妝臺怎么辦 哈西站到山木枝酒店距離多遠(yuǎn) 收割拿鐮刀什么意思 航天一院11所怎么樣 搶紅包的傳奇公眾號叫什么 夢幻西游火烈鳥和孔雀哪個好 深圳什么地方有農(nóng)用自卸車二手市場 刺客信條起源坐騎咕耶怎樣獲得 京東海參可以買嗎 明月下綠葉如云這首詩表達(dá)作者什么的感情 交大安泰和復(fù)旦哪個好 筆墨書香小紅花怎么兌換禮物 給孩子買營養(yǎng)品怎么發(fā)朋友圈奈力士 綠色棒球服配藍(lán)色鞋子好看嗎 地黃種到干土上能鋪二層地膜嗎 合肥29中學(xué)排名在第幾 黃山市最大的農(nóng)產(chǎn)品干調(diào)批發(fā)市場在哪里 電工培訓(xùn)比大學(xué)好嗎 浦匯寶能用兩個信用卡支付嗎 河南的招商對公戶發(fā)工資到開戶地為上海的招商卡上算代發(fā)嗎 南通永興車管所摩托車駕駛證可以換嗎? 橘朵和珂萊歐眼影哪個好用 梵紀(jì)是什么檔次 本田飛度導(dǎo)航為什么打了就是一直不顯示 托拉姆物語即興演出是什么職業(yè)的 灰色床配豆綠色四件套好看嗎 報關(guān)切割什么意思 寶馬真實存在嗎 來廣營家美公寓靠譜嗎 晁蓋他們用什么交通工具上到梁山? 獵豹加速器有病毒嗎 鄂州南浦一村的樹可以砍嗎 被困山洞沒有水怎么辦 海市蜃樓0.8dj在哪聽 高反差保留為什么要反向 歐卡2鼠標(biāo)卡在中間動不了
Top 主站蜘蛛池模板: 91成人爽a毛片一区二区 | 国产91成人| 国产精品资源在线观看 | 国产一区视频在线 | 日韩精品欧美亚洲高清有无 | 中文国产成人精品久久app | 国产区免费| 国产午夜精品视频 | 国产免费不卡 | 激情综合久久 | 国内精品久久久久激情影院 | 欧美第四页| 成人三级在线观看 | 国产欧美视频在线观看 | 国产视频一 | 日韩高清一区二区三区不卡 | 视频一区二区三区在线 | 亚洲成色999久久网站 | 日韩欧美制服 | 国内一级一级毛片a免费 | 日本a级免费 | 日韩电影精品 | 欧美日韩一区二区三区视频 | 在线播放一区二区精品产 | 91精品国产91久久久久久 | 欧美aⅴ在线 | 国产精品ⅴ视频免费观看 | 欧美韩日 | 色综合91久久精品中文字幕 | 精品视频在线观看视频免费视频 | 欧美亚洲第一页 | 337p日本欧洲亚洲大胆精品 | 九草伊人 | 韩国精品一区二区 | 成人国产精品一区二区网站 | 日本色图在线观看 | 国产欧美日韩中文字幕 | 激情欧美在线 | 国产亚洲精品a在线观看app | 亚洲国产成人久久综合野外 | 欧美在线一区视频 |