1.7. 相关算法¶

经典算法¶

C4.5：是机器学习算法中的一种分类决策树算法，其核心算法是ID3算法。
K-means算法：是一种聚类算法。
SVM：一种监督式学习的方法，广泛运用于统计分类以及回归分析中
Apriori ：是一种最有影响的挖掘布尔关联规则频繁项集的算法。
EM：最大期望值法。
pagerank：是google算法的重要内容。
Adaboost：是一种迭代算法，其核心思想是针对同一个训练集训练不同的分类器然后把弱分类器集合起来，构成一个更强的最终分类器。
KNN：是一个理论上比较成熟的的方法，也是最简单的机器学习方法之一。
Naive Bayes：在众多分类方法中，应用最广泛的有决策树模型和朴素贝叶斯（Naive Bayes）
Cart：分类与回归树，在分类树下面有两个关键的思想，第一个是关于递归地划分自变量空间的想法，第二个是用验证数据进行减枝。

对于监督式学习，有如下经典算法:

决策树（Decision Tree）。比如自动化放贷、风控。
朴素贝叶斯分类（Naive Bayesian classification）。可以用于判断垃圾邮件，对新闻的类别进行分类，比如科技、政治、运动，判断文本表达的感情是积极的还是消极的，以及人脸识别等。
最小二乘法（Ordinary Least Squares Regression）。算是一种线性回归。
逻辑回归（Logisitic Regression）。一种强大的统计学方法，可以用一个或多个变量来表示一个二项式结果。它可以用于信用评分、计算营销活动的成功率、预测某个产品的收入等。
支持向量机（Support Vector Machine，SVM）。可以用于基于图像的性别检测，图像分类等。
集成方法（Ensemble methods）。通过构建一组分类器，然后根据它们的预测结果进行加权投票来对新的数据点进行分类。原始的集成方法是贝叶斯平均，但是最近的算法包括纠错输出编码、Bagging 和 Boosting。

对于非监督式的学习，有如下经典算法:

聚类算法（Clustering Algorithms）。聚类算法有很多，目标是给数据分类。
主成分分析（Principal Component Analysis，PCA）。PCA 的一些应用包括压缩、简化数据，便于学习和可视化等。
奇异值分解（Singular Value Decomposition，SVD）。实际上，PCA 是 SVD 的一个简单应用。在计算机视觉中，第一个人脸识别算法使用 PCA 和 SVD 来将面部表示为“特征面”的线性组合，进行降维，然后通过简单的方法将面部匹配到身份。虽然现代方法更复杂，但很多方面仍然依赖于类似的技术。
独立成分分析（Independent Component Analysis，ICA）。ICA 是一种统计技术，主要用于揭示随机变量、测量值或信号集中的隐藏因素。