支持向量機(support vector machines, SVM)是一種二分類模型,所謂二分類模型是指比如有很多特征(自變量X)對另外一個標簽項(因變量Y)的分類作用關系,比如當前有很多特征,包括身高、年齡、學歷、收入、教育年限等共5項,因變量為‘是否吸煙’,‘是否吸煙’僅包括兩項,吸煙和不吸煙。那么該5個特征項對于‘是否吸煙’的分類情況的作用關系研究,則稱為‘二分類模型’,但事實上很多時候標簽項(因變量Y)有很多個類別,比如某個標簽項Y為‘菜系偏好’,中國菜系有很多,包括川菜、魯菜、粵菜、閩菜、蘇菜、浙菜、湘菜和徽菜共計8類,此時則需要進行‘多分類決策函數’轉化,簡單理解為兩兩類別(8個中任意選擇2)分別建立SVM模型,然后進行組合使用。
機器學習算法常見算法中包括決策樹、隨機森林、貝葉斯等,上述均有良好的可解釋性,比如決策樹是將特征按分割點不停地劃分出類別,隨機森林是多個決策樹模型,貝葉斯模型是利用貝葉斯概率原理進行計算。與上述不同,支持向量機模型是利用運籌規劃約束求最優解,而此最優解是一個空間平面,此空間平面可以結合特征項,將‘吸煙’和‘不吸煙’兩類完全地分開,尋找該空間平面即是支持向量機的核心算法原理。
支持向量機的計算原理復雜,但對其通俗地理解并不復雜,只需要知道其需要求解出‘空間平面’,該‘空間平面’可以把不同的標簽項(因變量Y)類別特別明顯的劃分開即可。類似其它機器學習算法,支持向量機的構建步驟上,一般也需要先對數據進行量綱化處理、設置訓練數據和測試數據比例、設置相關參數調優,最終實現在訓練數據上有著良好表現,并且測試數據上也有著良好表現即可。
可以使用SPSSAU快速進行操作: