誠然,隨著算法模型、技術理論和應用場景的不斷突破,加之“新基建”浪潮下算力基礎設施的快速建設,AI產業對數據“量”的需求在不斷增長,數據量“短缺”一度成為AI產業鏈條上的瓶頸問題。
但是,這可能并不會持續很長時間,嗅到機會的科技巨頭、創新企業前些年在數據采集與標注上廣泛布局,推動合格數據的“量”快速增長,這也使得數據標注行業作為AI上游基礎產業在短短數年間實現了爆發式發展。數據標注行業市場規模為30.9億元、36億元左右,年均復合增長率20%左右,預計到2025年,國內數據標注市場規模將突破100億元大關。
過去AI模型訓練以一個個項目為主,做完項目、得出一個預期質量的AI模型后,使用過的數據便被“丟棄”;而現在,企業傾向于持續把過去已有的數據利用起來,逐步形成屬于企業的數據池子,將數據在多個相關模型開發中進行重復利用。
這就導致單個企業所積累的數據量越來越多,而眾所周知數據量的增長又以非結構化數據為主,企業所面臨的AI數據集管理的挑戰越來越明顯,甚至出現一個Excel表格管理數據的現象;數據隨意拷貝、傳輸,存在重大的資產損失風險等等。顯而易見,這時候,能夠幫助企業管理好AI數據,就成了重要的創新機遇。