數(shù)據(jù)標注其實就是我們通過各種線上工具從我們的互聯(lián)網(wǎng)平臺上去獲取、收集各類數(shù)據(jù),也就是文本、圖片、語音、視頻等等,然后由我們的標注員去進行整理和標注。數(shù)據(jù)標注常見的種類包括圖像類、語音類、文本類等等。
數(shù)據(jù)標注是人工智能中最前端的基礎工作,但是他是需要我們大量的人工去進行操作完成以滿足對智能機器的訓練需求,之后可能會隨著人工智能的快速發(fā)展,我們?nèi)肆ψ龅臄?shù)據(jù)標注肯定也會在智能化輔助工具的幫助下大大減少,之后數(shù)據(jù)標注員的門檻也可能會相對高一些。
一、圖像類
1、矩形拉框
2D拉框,需要拉一個貼合框,框選出待檢測的物體(人、車、植物、動物),一般框選出來之后,還需要打一個對應的標簽來標注屬性(性別、年齡、顏色、大小)等。
2、多邊形拉框
多邊形拉框比矩形框稍微難一點點,需要圍繞標注元素進行輪廓勾勒,是以多點框的形式進行,跟矩形框一樣,多邊形框也是需要打上對應的標簽來標注屬性。
3、OCR識別
OCR有兩種標注方法,一種是利用多點打框,另外一種是對需要框選的內(nèi)容進行絕對準確的轉(zhuǎn)寫,此標注方法主要用于文本訓練較多。
4、語義分割
此類相比拉框打點來說,相對較少一些,需要對圖片上的元素進行區(qū)分,并對每部分分別進行標注填色,需要把框選的部分元素用摳圖的方式先摳出來,再選擇相應的屬性標簽,這樣部分元素就切割出來了。
5、打點
打點一般用于人臉或者關鍵部位打點標注,會對點的位置進行限制和要求,從而會實現(xiàn)高精度的檢測識別。
6、圖片審核分類
需要對圖片進行判定,一般也是分兩種,一種是需要將圖片分類,另一種是判斷圖片是否有效。
二、語音類
1、語音轉(zhuǎn)寫
語音轉(zhuǎn)寫是最常見的語音標注之一,標注員需要先聽一點語音然后再將自己聽到的話轉(zhuǎn)寫出來。常見的語種包括(中文、外文、方言)等,根據(jù)時長可以分為長語音或者短語音,一般一分鐘以下(通常為三秒左右)的語音為短語音,其中語音的長短,聲音質(zhì)量,有無預打標結(jié)果,是否需要切割等因素都會較大的影響語音轉(zhuǎn)寫的難度。
2、其他類語音標注
其他類語音占比較小,給一段文本和語音判定文本和語音內(nèi)容是否對應,或者是給一段語音標注人員對語音進行鑒定聽是不是包含違法敏感元素。
三、文本類
1、情感標注
此標注需要根據(jù)一句話去判定一句話包含的情感,一般有(正向,中性,負向)三級,要求高的話可能會被分成六級甚至十二級別的情感標注。
2、實體標注
需要將一句話中的實體提取出來,如電視、冰箱、籃球之類的,有時候還需要劃分這句話的類別比如百科、音樂、新聞或者文本中的動作指令。
3、相似性判斷
需要判斷兩句話表達的含義是否一致。如果一致標1,不一致標-1,無法判定標0。
4、其他類文本標注
其他類的文本標注如輿情標注,判斷一篇文章提及的公司是積極還是消極的影響。還有文章敏感性檢測判斷文本內(nèi)容有無違法敏感信息。
數(shù)據(jù)標注的最終數(shù)據(jù)是為計算機服務的,所以越精細的標注對計算機的訓練越高效,這就要求我們的標注員一定要是一個細心認真的人。越細心、越認真,標注數(shù)據(jù)的精細度就越有保證。其次,因為需要標注的數(shù)據(jù)的場景是千變?nèi)f化的,會有各種各樣復雜的場景出現(xiàn),這就要求我們的標注員要有較強的觀察能力。觀察能力越強的人,標注出的物體輪廓也就離物品的真實輪廓越相近,越準確。
最后,因為數(shù)據(jù)標注在單一的場景中需要重復一個或者幾個動作,除去判斷,這種重復的勞動是相對比較枯燥的,這就要求我們的標注員需要有耐心能夠坐得住。越有耐心,能坐得住,標注數(shù)據(jù)的穩(wěn)定性就越有保證。