机器学习

 

什么是机器学习?

您需要知道的三件事

机器学习是一种数据分析技术,让计算机执行人和动物与生俱来的活动:从经验中学习。机器学习算法使用计算方法直接从数据中“学习”信息,而不依赖于预定方程模型。当可用于学习的样本数量增加时,这些算法可自适应提高性能。

机器学习为什么重要

随着大数据应用增加,机器学习已成为解决以下领域问题的一项关键技术:

  • 计算金融学,用于信用评估算法交易
  • 图像处理和计算机视觉,用于人脸识别、运动检测和对象检测
  • 计算生物学,用于肿瘤检测、药物发现和 DNA 序列分析
  • 能源生产,用于预测价格和负载
  • 汽车、航空航天和制造业,用于预见性维护
  • 自然语言处理,用于语音识别应用
机器学习快速入门。了解机器学习,从基本概念,到高级算法。下载该电子书,了解更多内容。

更多数据、更多问题、更好的解答

机器学习算法能够在产生洞察力的数据中发现自然模式,帮助您更好地制定决策和做出预测。医疗诊断、股票交易、能量负荷预测及更多行业每天都在使用这些算法制定关键决策。例如,媒体网站依靠机器学习算法从数百万种选项中筛选出为您推荐的歌曲或影片。零售商利用这些算法深入了解客户的购买行为。

何时应该使用机器学习?

当您遇到涉及大量数据和许多变量的复杂任务或问题,但没有现成的处理公式或方程式时,可以考虑使用机器学习。例如,如果您需要处理以下情况,使用机器学习是一个很好的选择:

手写规则和方程式太过复杂——例如人脸识别和语音识别。

任务的规则始终在变化——例如通过交易记录进行欺诈检测。

数据本身在不断变化,程序也必须适应这种变化——例如自动交易、能量需求预测和购物趋势预测等。

机器学习的工作原理

机器学习采用两种技术:监督式学习无监督学习。监督式学习根据已知的输入和输出训练模型,让模型能够预测未来输出;无监督学习从输入数据中找出隐藏模式或内在结构。

图 1:机器学习技术包括监督式学习和无监督学习。

监督式学习

监督式机器学习能够根据已有的包含不确定性的数据建立一个预测模型。监督式学习算法接受已知的输入数据集(包含预测变量)和对该数据集的已知响应(输出,响应变量),然后训练模型,使模型能够对新输入数据的响应做出合理的预测。如果您尝试去预测已知数据的输出,则使用监督式学习。

监督式学习采用分类和回归技术开发预测模型。

分类技术可预测离散的响应 — 例如,电子邮件是不是垃圾邮件,肿瘤是恶性还是良性的。分类模型可将输入数据划分成不同类别。典型的应用包括医学成像、语音识别和信用评估。

如果您的数据能进行标记、分类或分为特定的组或类,则使用分类。例如,笔迹识别的应用程序使用分类来识别字母和数字。在图像处理和计算机视觉中,无监督模式识别技术用于对象检测和图像分割。

用于实现分类的常用算法包括:支持向量机 (SVM)提升 (boosted) 决策树袋装 (bagged) 决策树k-最近邻朴素贝叶斯 (Naïve Bayes)判别分析逻辑回归神经网络

回归技术可预测连续的响应 — 例如,温度的变化或电力需求中的波动。典型的应用包括电力系统负荷预测和算法交易。

如果您在处理一个数据范围,或您的响应性质是一个实数(比如温度,或一件设备发生故障前的运行时间),则使用回归方法。

常用回归算法包括:线性模型非线性模型规则化逐步回归提升 (boosted) 袋装 (bagged) 决策树神经网络自适应神经模糊学习

使用监督式学习预测心脏病发作

假设临床医生希望预测某位患者在一年内是否会心脏病发作。他们有以前就医的患者的相关数据,包括年龄、体重、身高和血压。他们知道以前的患者在一年内是否出现过心脏病发作。因此,问题在于如何将现有数据合并到模型中,让该模型能够预测新患者在一年内是否会出现心脏病发作。

无监督学习

无监督学习可发现数据中隐藏的模式或内在结构。这种技术可根据未做标记的输入数据集得到推论。

聚类是一种最常用的无监督学习技术。这种技术可通过探索性数据分析发现数据中隐藏的模式或分组。聚类分析的应用包括基因序列分析、市场调查和对象识别。

例如,如果移动电话公司想优化他们手机信号塔的建立位置,则可以使用机器学习来估算依赖这些信号塔的人群数量。一部电话一次只能与一个信号塔通信,所以,该团队使用聚类算法设计蜂窝塔的最佳布局,优化他们的客户群组或集群的信号接收。

用于执行聚类的常用算法包括:k-均值和 k-中心点(k-medoids)、层次聚类高斯混合模型隐马尔可夫模型自组织映射模糊 c-均值聚类法减法聚类

图 2:聚类可找出数据中隐藏的模式。

如何确定使用哪种机器学习算法?

选择正确的算法看似难以驾驭——需要从几十种监督式和无监督机器学习算法中选择,每种算法又包含不同的学习方法。

没有最佳方法或万全之策。找到正确的算法只是试错过程的一部分——即使是经验丰富的数据科学家,也无法说出某种算法是否无需试错即可使用。但算法的选择还取决于您要处理的数据的大小和类型、您要从数据中获得的洞察力以及如何运用这些洞察力。

图 3:机器学习技术。

下面是选择监督式或者无监督机器学习的一些准则:

  • 在以下情况下选择监督式学习:您需要训练模型进行预测(例如温度和股价等连续变量的值)或者分类(例如根据网络摄像头的录像片段确定汽车的技术细节)。
  • 在以下情况下选择无监督学习:您需要深入了解数据并希望训练模型找到好的内部表示形式,例如将数据拆分到集群中。

MATLAB 机器学习

您如何借助机器学习的力量,使用数据做出更好的决策?MATLAB 让机器学习简单易行。借助用于处理大数据的工具和函数,以及让机器学习发挥作用的应用程序,MATLAB 是将机器学习应用于您的数据分析的理想环境。

使用 MATLAB,工程师和数据科学家可以立即访问预置的函数、大量的工具箱以及用于分类回归聚类的专门应用程序。

MATLAB 可以做到:

  • 比较各种方法,例如逻辑回归、分类树、支持向量机、集成方法和深度学习
  • 使用模型精化和缩减技术创建能够最好地捕捉预测能力的精确模型。
  • 将机器学习模型集成到企业系统、集群和云中,并且将模型定位于实时嵌入式硬件。
  • 为嵌入式传感器分析工具执行自动代码生成。
  • 支持从数据分析到部署的集成工作流程。
分类学习器应用程序用于使用监督式机器学习来训练模型对数据进行分类。

有趣的机器学习应用

创建可分析艺术作品的算法

美国罗格斯大学艺术与人工智能实验室的研究人员曾经想知道计算机算法能否像人类一样根据风格、流派和艺术家将绘画作品轻松归类。开始时,他们通过识别视觉特征来对绘画作品的风格分类。他们开发的绘画风格分类算法在数据库中的准确度达到 60%,远超过普通非专业人士。

研究人员假定可用于对风格分类(监督式学习问题)的视觉特征也能用于确定艺术影响力(无监督学习问题)。

他们将经过训练的分类算法应用到 Google 图像,用于确定具体对象。他们对跨度长达 550 年的 66 位不同艺术家的 1,700 幅绘画作品测试了此算法。此算法可以可靠地识别出相关的作品,包括迭戈•委拉斯开兹的《教皇英诺森十世肖像》对弗朗西斯•培根的《教皇英诺森十世肖像的习作》产生的影响。

优化大型建筑中的 HVAC 能耗

在办公大楼、医院及其他大型商业楼宇内使用的暖通空调系统 (HVAC) 通常效率低下,原因在于这些系统未考虑不断变化的气候模式、多变的能耗或建筑物的热性能。

BuildingIQ 的基于云的软件平台可解决这个问题。该平台采用先进的算法和机器学习方法连续处理来自功率计、温度计和 HVAC 压力传感器的数千兆字节信息以及天气和能耗。更为特殊的是,机器学习可用于对数据分段和确定天然气、电力、蒸汽和太阳能对加热和冷却流程的相对贡献量。BuildingIQ 平台将大型商业楼宇内使用的 HVAC 在正常运行期间的能耗降低了 10–25%。

检测低速撞车

RAC 是英国最大的汽车公司之一,拥有超过 8 百万名成员,为私人和商业汽车司机提供道路救援、保险和其他服务。

为了能够快速对道路事故做出响应、减少碰撞事故和保险费用,RAC 开发了车载撞击感应系统,该系统采用先进的机器学习算法检测低速碰撞,并且可将这些行为与更常见的驾驶行为(例如驶过路面减速带或路面凹坑)区分开。独立测试数据显示 RAC 系统在碰撞检测测试中获得的准确度达到 92%。

如何了解有关机器学习的更多信息

准备更深入地钻研?浏览这些机器学习资源,帮助您入门。

在此网络研讨会上,您将学习如何开始使用机器学习工具,从您的数据集中检测模式并建立预测模型。
了解如何使用 MATLAB 来应用、评估、微调和部署机器学习技术。
机器学习快速入门。了解机器学习,从基本概念,到高级算法。下载该电子书,了解更多内容。