机器学习有哪些分类?
机器学习的思想并不复杂,它仅仅是对人类生活、学习过程的一个模拟。而在这整个过程中,最关键的是数据。任何通过数据训练的学习算法的相关研究都属于机器学习,包括很多已经发展多年的技术,比如:
- 线性回归(Linear Regression)
- K均值(K-Means,基于原型的目标函数聚类方法)
- 决策树(Decision Trees,运用概率分析的一种图解法)
- 随机森林(Random Forest,运用概率分析的一种图解法)
- PCA(Principal Component Analysis,主成分分析)
- SVM(Support Vector Machine,支持向量机)
- ANN(Artificial Neural Networks,人工神经网络)
可见,机器学习的算法非常多,本文将介绍一些最常用的机器学习分类方法。
监督学习
监督学习(Supervised Learning)表示机器学习的数据是带标记的,这些标记可以包括数据类别、数据属性及特征点位置等。这些标记作为预期效果,不断修正机器的预测结果。
具体实现过程是:通过大量带有标记的数据来训练机器,机器将预测结果与期望结果进行比对;之后根据比对结果来修改模型中的参数,再一次输出预测结果;然后将预测结果与期望结果进行比对,重复多次直至收敛,最终生成具有一定鲁棒性的模型来达到智能决策的能力。
常见的监督学习有分类和回归:
- 分类(Classification)是将一些实例数据分到合适的类别中,它的预测结果是离散的。
- 回归(Regression)是将数据归到一条“线”上,即为离散数据生产拟合曲线,因此其预测结果是连续的。
无监督学习
无监督学习(Unsupervised Learning)表示机器学习的数据是没有标记的。机器从无标记的数据中探索并推断出潜在的联系。
常见的无监督学习有聚类和降维。
- 在聚类(Clustering)工作中,由于事先不知道数据类别,因此只能通过分析数据样本在特征空间中的分布,例如基于密度或基于统计学概率模型等,从而将不同数据分开,把相似数据聚为一类。
- 降维(Dimensionality Reduction)是将数据的维度降低。例如描述一个西瓜,若只考虑外皮颜色、根蒂、敲声、纹理、大小及含糖率这6个属性,则这6个属性代表了西瓜数据的维度为6。进一步考虑降维的工作,由于数据本身具有庞大的数量和各种属性特征,若对全部数据信息进行分析,将会增加训练的负担和存储空间。因此可以通过主成分分析等其他方法,考虑主要影响因素,舍弃次要因素,从而平衡准确度与效率。
强化学习
强化学习(Reinforcement Learning)是带有激励机制的,具体来说,如果机器行动正确,将施予一定的“正激励”;如果行动错误,同样会给出一个惩罚(也可称为“负激励”)。因此在这种情况下,机器将会考虑如何在一个环境中行动才能达到激励的最大化,具有一定的动态规划思想。
例如在贪吃蛇游戏中,贪吃蛇需要通过不断吃到“食物”来加分。为了不断提高分数,贪吃蛇需要考虑在自身位置上如何转向才能吃到“食物”,这种学习过程便可理解为一种强化学习。
强化学习最为火热的一个应用就是谷歌 AlphaGo 的升级品——AlphaGo Zero。相较于 AlphaGo,AlphaGo Zero 舍弃了先验知识,不再需要人为设计特征,直接将棋盘上黑、白棋子的摆放情况作为原始数据输入到模型中,机器使用强化学习来自我博弈,不断提升自己从而最终出色完成下棋任务。AlphaGo Zero 的成功,证明了在没有人类的经验和指导下,深度强化学习依然能够出色地完成指定任务。
深度学习
我们要想具有更强的智慧,除了拥有大量的数据以外还要有好的经验总结方法。深度学习就是一种实现这种机器学习的优秀技术。深度学习本身是神经网络算法的衍生。
作为深度学习父类的机器学习,是人工智能的核心,它属于人工智能的一个分支。
深度学习是新兴的机器学习研究领域,旨在研究如何从数据中自动地提取多层特征表示,其核心思想是通过数据驱动的方式,采用一系列的非线性变换,从原始数据中提取由低层到高层、由具体到抽象、由一般到特定语义的特征。
深度学习不仅改变着传统的机器学习方法,也影响着人类感知的理解,迄今已在语音识别、图像理解、自然语言处理和视频推荐等应用领域引发了突破性的变革。