机器学习是教计算机执行人类与生俱来的活动:从经验中学习。机器学习算法使用计算方法直接从数据中“学习”信息,而不依赖于预定方程模型,具有极强的自适应性能,并将专家理论和老师傅现场的经验相结合,在智能制造领域越来越发挥重大的作用。例如利用支持向量机对CNC刀具故障的预测避免断刀故障的发生;利用神经网络检验模具生产中质量波动的影响因素自动修正关键工序问题等。
机器学习采用两种类型的技术:监督式学习和无监督学习。监督式学习根据已知的输入和输出训练模型,让模型能够预测未来输出;无监督学习从输入数据中找出隐藏模式或内在结构。
监督式学习采用分类和回归技术开发预测模型.
• 分类技术可预测离散的响应 — 例如,机床是否会发生故障。分类模型可将输入数据划分成不同类别。除工业领域外,典型的应用还包括医学成像、语音识别和信用评估等。
• 回归技术可预测连续的响应 — 例如,电力需求中温度或波动的变化。典型的应用包括电力系统负荷预测和算法交易。
无监督学习可发现数据中隐藏的模式或内在结构。聚类是一种最常用的无监督学习技术。这种技术可通过探索性数据分析发现数据中隐藏的模式或分组。
在实践中要想找到一个合适算法不容易,所以在实际应用中一般都是采用启发式学习方式来实验,对各个算法一个个地进行测试,进行比较,然后调整参数确保每个算法达到最优解,最后选择最好的一个。
机器学习需要针对大量的数据进行复杂的运算和迭代一般在云端完成;但故障预测需要较强的实时性必须部署在边缘层。机器学习创建的模型会自动将云端新创建的模型通过自动或手动的方式及时下载到边缘层,进行实时的故障诊断和预测。详见:机器学习||CNC健康诊断云平台智能分析系统
机器学习常见算法特点
1. 朴素贝叶斯
朴素贝叶斯属于生成式模型,收敛速度快于判别模型,比如逻辑回归,只需要较少的训练数据即可。对小规模的数据表现很好,能个处理多分类任务,适合增量式训练;对缺失数据不太敏感,算法也比较简单,常用于文本分类。缺点是分类决策存在错误率;对输入数据的表达形式很敏感。
2. Logistic Regression(逻辑回归)
逻辑回归属于判别式模型,优点是实现简单,广泛的应用于工业问题上;分类时计算量非常小,速度很快,存储资源低;具有便利的观测样本概率分数;缺点是当特征空间很大时,逻辑回归的性能不是很好;不能很好地处理大量多类特征或变量;只能处理两分类问题(在此基础上衍生出来的softmax可以用于多分类),且必须线性可分;
3. 线性回归
线性回归是用于回归的,它不像Logistic回归那样用于分类,优点:实现简单,计算简单;缺点:不能拟合非线性数据.
4. 最近邻算法——KNN
KNN即最近邻算法,具有较强的一致性结果优点对数据没有假设,准确度高,对outlier不敏感;缺点计算量大(体现在距离计算上)样本不平衡问题(即有些类别的样本数量很多,而其它样本的数量很少)效果差;
5. 决策树
决策树的一大优势就是易于解释。优点计算简单,易于理解,可解释性强;能够处理不相关的特征;在相对短的时间内能够对大型数据源做出可行且效果良好的结果。缺点容易发生过拟合(随机森林可以很大程度上减少过拟合);忽略了数据之间的相关性;
6. SVM支持向量机
支持向量机,高准确率,优点可以解决高维问题,即大型特征空间;能够处理非线性特征的相互作用;无需依赖整个数据;缺点当观测样本很多时,效率并不是很高;对非线性问题没有通用解决方案,有时候很难找到一个合适的核函数;
7. 人工神经网络的优缺点
优点分类的准确度高;并行分布处理能力强,分布存储及学习能力强,对噪声神经有较强的鲁棒性和容错能力,能充分逼近复杂的非线性关系;缺点:需要大量的参数,如网络拓扑结构、权值和阈值的初始值;不能观察之间的学习过程,输出结果难以解释,会影响到结果的可信度和可接受程度;学习时间过长,甚至可能达不到学习的目的。
8. K-Means聚类
优点算法简单,容易实现 ;对处理大数据集,该算法是相对可伸缩的和高效率的,
缺点对数据类型要求较高,适合数值型数据;不适合于发现非凸面形状的簇,或者大小差别很大的簇。
算法固然重要,但好的数据却要优于好的算法,设计优良特征是大有裨益的。假如你有一个超大数据集,那么无论你使用哪种算法可能对分类性能都没太大影响(此时就可以根据速度和易用性来进行抉择)。