SVM | detect

Support Vector Machine (SVM)

max操作促使f(x)大于1，且不需要超过1太多，对比cross entropy： hinge loss及格就好：
（也是ideal function的upper bound）

SVM和logistic regression的区别就是定义的loss function不同，SVM的loss function是hinge loss function，logistic regression的loss function是cross entropy loss function。

脑洞一下，linear SVM可以用gradient descent来求解。

常见的做法：

经过等价变化，和最后一步推广，产生kernel trick。

当使用RBF kernel，如果不使用kernel而是朴素的特征变换，需要的特征维度是无穷的，而kernel trick可以避免这个问题。

Kernel function是一个投影到高维的inner product，所以往往就是something like similarity

与deep learning的比较：

这个很形象也很重要：