主要特性

  • 回归技术,包括线性、广义线性、非线性、稳健、规则化、ANOVA、反复测量和混合效应模型
  • 可用于降维、描述性统计、k-均值聚类、线性回归、逻辑回归和判别分析的大数据算法
  • 单变量和多变量概率分布随机数和拟随机数生成器和马尔可夫链取样器
  • 分布、分散和位置的假设检验,以及最佳、因子和响应面设计的实验设计 (DOE)
  • 分类学习器应用程序受监督机器学习算法,包括支持向量机 (SVM)、促进式 (boosted) 和袋装 (bagged) 决策树、k-最近邻、朴素贝叶斯 (Naïve Bayes)、判别分析和高斯过程回归
  • 不受监督机器学习算法,包括 k-均值、k-中心点、分层聚类、高斯混合和隐马尔可夫模型
  • 贝叶斯优化通过搜索最佳超参数来调整机器学习算法
了解如何使用 MATLAB® 中的机器学习工具来解决回归、聚类和分类问题。
使用 Statistics and Machine Learning Toolbox™ 执行统计建模和分析。

探索性数据分析

Statistics and Machine Learning Toolbox™ 提供多种探查数据的方式:交互式图形的统计绘图、用于聚类分析的算法和用于大型数据集的描述性统计。


交互式图形的统计绘图

Statistics and Machine Learning Toolbox 包含可直观地探查数据的图形和图表。该工具箱增加了 MATLAB® 绘图类型,包括概率图箱线图直方图散点直方图3D 直方图控制图分位数–分位数图。该工具箱还包含用于多元分析的专用图形,包括系统树图双标图平行坐标图Andrews 图

使用统计图实现多元数据的可视化。

描述性统计

描述性统计使您使用少量密切相关数字即可快速理解和描述潜在的大型数据集。Statistics and Machine Learning Toolbox 包括以下用于计算的函数:

These functions help you summarize values in a data sample using a few highly relevant numbers.

按原产国家/地区分组的汽车加速数据的箱线图。

重复采样技术

在某些情况下,使用参数化方法对汇总统计执行推理是不可行的。为了应对这些情况,Statistics and Machine Learning Toolbox 提供重复采样技术,包括:

  • 从有或没有替换的数据集中随机取样
  • 使用重新取样调查统计分布的非参数化 bootstrap 函数
  • 使用 jackknife 重新取样调查统计分布的 jackknife 函数
  • 使用非参数化 bootstrap 估计置信区间的 bootci 函数
对 LSAT 成绩和法学院 GPA 进行重复采样来考查相关性。

降维

Statistics and Machine Learning Toolbox 提供用于降低数据集维度的算法和函数。降维是数据分析中的重要步骤,因为它能帮助提高模型精度和性能,提高可解释性,防止过度拟合。您可以执行特征变换和特征选择,使用可视化技术(如散点图矩阵和经典多维定标)探查变量间的关系。


特征变换

特征变换(有时称为特征提取)是一种将现有特征变换为新特征(预测元变量)而描述性特征下降较少的一种降维技术。Statistics and Machine Learning Toolbox 中可用的特征变换方法包括:

执行加权主成分分析并解释结果。

特征选择

特征选择是一种只选择建模数据时提供最强预测能力的测量特征子集(预测元变量)的降维技术。在处理高维数据或采集所有特征数据成本高昂时,这种技术非常有用。Statistics and Machine Learning Toolbox 中可用的特征选择方法包括:

  • 逐步回归: 依次增加或删除特征,直到预测精度没有改进为止。可与线性回归或广义线性回归算法一起使用。
  • 顺序特征选择: 与逐步回归类似,可与任何受监督学习算法和定制性能测量一起使用。
  • 促进式和袋装决策树: 利用袋外评估计算变量重要性的封装方法。
  • 规则化 (套索和弹性网络):使用收缩估计量,通过将冗余特征权重(系数)减至零消除冗余特征。

多元可视化

Statistics and Machine Learning Toolbox 提供可直观地探查多元数据的图形和图表,包括:

  • 散点图矩阵
  • 系统树图
  • 双标图
  • 平行坐标图
  • Andrews 图
  • 符号图
对显示年型如何影响不同汽车变量的散点图矩阵进行分组。

机器学习

机器学习算法使用计算方法直接从数据中“学习”信息,不把预定方程假设为模型。Statistics and Machine Learning Toolbox 提供用于执行受监督不受监督机器学习的方法。

在此网络研讨会上,您将学习如何开始使用机器学习工具,从您的数据集中检测模式并建立预测模型。

分类

分类算法使您可以将一个分类应变量建模为一个或多个预测元的函数。Statistics and Machine Learning Toolbox 提供了涵盖多种参数化和非参数化分类算法的应用程序和函数,如:

了解如何使用贝叶斯优化查找交叉验证的 SVM 分类器的最佳参数。

分类学习器应用程序

您可以使用分类学习器应用程序执行常见任务,比如交互式探查数据、选择特征、指定交叉验证方案、训练模型和评估结果。分类学习器应用程序用于使用监督式机器学习来训练模型对数据进行分类。使用它可以执行常见任务,例如:

  • 导入数据和指定交叉验证方案
  • 探索数据和选择特征
  • 使用多种分类算法训练模型
  • 比较和评估模型
  • 在计算机视觉和信号处理等应用场合中共享训练过的模型
Learn how to detect patterns in gene expression profiles by examining gene expression data.
分类学习器应用程序用于使用监督式机器学习来训练模型对数据进行分类。

聚类分析

Statistics and Machine Learning Toolbox 包括用于执行聚类分析的算法,通过根据相似度测量对数据分组来发现数据集中的规律。可用的算法包括 k-均值k-中心点分层聚类高斯混合模型隐马尔可夫模型。当不知道聚类的数量时,可以使用聚类评估技术根据特定指标确定数据中存在的聚类数量。

了解如何通过检查基因表达数据检测基因表达谱的模式。

非参数化回归

Statistics and Machine Learning Toolbox 还支持非参数化的回归方法,用于在没有指定描述预测元与应变量之间关系的模型的情况下生成准确的拟合。非参数化回归方法在受监督的机器学习下可以更广泛地分类,包括决策树促进式袋装回归树,以及支持向量机回归

通过使用 TreeBagger 训练回归树封装来预测保险风险。

回归和方差分析


回归

使用回归方法,可将一个连续应变量建模为一个或多个预测元的函数。Statistics and Machine Learning Toolbox 提供各种回归算法,包括线性回归、广义线性模型、非线性回归和混合效应模型。


线性回归

线性回归是一种用于描述作为一个或多个预测元变量的连续应变量的统计建模技术。它有助于您理解和预测复杂系统的行为,或者分析实验、金融和生物数据。Statistics and Machine Learning Toolbox 提供多种线性回归模型和拟合方法,包括:

  • 单预测元: 只具有一个预测元的模型
  • 多预测元: 具有多个预测元的模型
  • 多元: 具有多个应变量的模型
  • 稳健: 存在偏值的模型
  • 逐步: 具有自动变量选择的模型
  • 规则化: 使用岭回归套索弹性网络算法能够处理冗余预测元和防止过度拟合的模型
了解如何在有相关数据的情况下生成准确的拟合。

非线性回归

非线性回归是一种有助于描述实验数据中非线性关系的统计建模技术。通常将非线性回归模型假设为参数模型,将该模型称为非线性方程。Statistics and Machine Learning Toolbox 还提供强大的非线性拟合,用于处理数据中的异常值。

使用诊断、残差和滑动图,借助诊断图来检查拟合非线性模型。

广义线性模型

广义线性模型是使用线性方法的非线性模型的一种特殊情况。这种模型允许应变量有非正态分布和描述响应预期值与线性预测元相关情况的连接函数。Statistics and Machine Learning Toolbox 支持利用以下响应分布的拟合广义线性模型:

  • 正态
  • 二项式(逻辑或概率单位回归)
  • 泊松
  • 伽玛
  • 逆高斯
使用 glmfitglmval 拟合和评估广义线性模型

混合效应模型

对于按组采集和汇总的数据,线性与非线性混合效应模型是线性与非线性模型的一般化。这些模型描述了一个应变量与多个自变量之间的关系,系数可能随一个或多个分组变量而变化。Statistics and Machine Learning Toolbox 支持拟合具有嵌套和/或交叉随机效应的多极或层次、线性、非线性和广义线性混合效应模型,可用于进行各种研究,包括:

使用 nlmefitnlmefitsa 拟合和评估混合效应模型。

模型评估

Statistics and Machine Learning Toolbox 使您能使用统计显著性和拟合优度测量的测试对回归算法进行模型评估,比如:

  • F-统计量和 t-统计量
  • R2 和调整后的 R2
  • 交叉验证的均方误差
  • 赤池信息准则 (AIC) 和贝叶斯信息准则 (BIC)

您可以计算回归系数和预测值的置信区间。


方差分析

方差分析 (ANOVA) 使您能够将样本方差指定给不同的资源,然后确定在不同的群体组内或组间是否产生方差。Statistics and Machine Learning Toolbox 包含以下 ANOVA 算法和相关方法:

使用 1970 年和 1982 年之间制造的 406 辆汽车上的里程表和其他信息,对汽车数据执行多因素 ANOVA。

概率分布

Statistics and Machine Learning Toolbox 提供使用参数化和非参数化概率分布的函数和应用程序。利用这些工具,您可以拟合连续和离散概率分布,使用统计图来评估拟合优度,计算概率密度函数和累积分布函数,并根据概率分布生成随机数和拟随机数。

该工具箱使您能够计算、拟合、生成随机数和拟随机数字流,并评估 40 多种不同分布的拟合优度,其中包括:


将分布情况与数据拟合

通过 Distribution Fitting 应用程序,可使用预定义的单变量概率分布、非参数化(核平滑)估算法或自己定义的自定义分布来拟合数据。本应用程序支持完整的数据和经检查的(可靠性)数据。您可以排除数据、保存及加载会话,以及生成 MATLAB 代码。您还可以在命令行评估分布参数,或构建与管理参数对应的概率分布。

使用 Distribution Fitting 应用程序交互式地将概率分布与数据拟合。

评估拟合优度

Statistics and Machine Learning Toolbox 提供评估数据集如何合理匹配特定分布的统计图。该工具箱包括用于多种标准分布的概率图,包括正态、指数、极值、对数正态、瑞利和威布尔。您可以利用完整的数据集和经检查的数据集生成概率图。此外,您还可以使用分位数–分位数图来评估一个给定的分布与标准正态分布的匹配程度。

Statistics and Machine Learning Toolbox 还提供假设检验,以确定数据集是否与不同的概率分布相一致。具体分布检验包括:

  • Anderson-Darling 检验
  • 单边和双边 Kolmogorov-Smirnov 检验
  • Chi-square 拟合优度检验
  • Lilliefors 检验
  • Ansari-Bradley 检验
  • Jarque-Bera 检验
  • Durbin-Watson 检验
对截短的、加权的或双模数据进行最大似然估计

生成随机数字

该工具箱提供利用概率分布生成伪随机和拟随机数字流的函数。您可以通过应用随机方法从拟合的或构建的概率分布中生成随机数。Statistics and Machine Learning Toolbox 还提供具有以下功能的函数:

  • 利用多元分布(如 t、normal、copulas 以及 Wishart)生成随机样本
  • 从有限群体中采样
  • 执行拉丁超立方体采样
  • 从 Pearson 和 Johnson 系统分布中生成样本

您还可以生成拟随机数字流。拟随机数字流从单位超立方中产生高度统一的样本。拟随机数字流通常可以加速 Monte Carlo(蒙特卡罗)仿真,因为实现完全覆盖需要的样本较少。

当变量间存在复杂的关系时,或各个变量来自不同的分布时,使用相关结构可从多元分布生成数据。

假设检验、实验设计和统计过程控制


假设检验

随机变化可让人难以确定在不同条件下取得的样本是否真正不同。假设检验是一个有效的工具,可用来分析样本间差异是否极大,是否需要进一步评估,或者是否与随机和预期的数据变化一致。

Statistics and Machine Learning Toolbox 支持广泛使用的参数化和非参数化的假设检验程序,包括:

  • 一个样本和两个样本 t 检验
  • 用于一个样本、成对样本和两个独立样本的非参数检验
  • 分布检验(Chi-square、Jarque-Bera、Lilliefors 和 Kolmogorov-Smirnov)
  • 分布比较(双样本 Kolmogorov-Smirnov)
  • 自相关和随机性检验
  • 回归系数的线性假设检验
计算假设检验所需的样本大小。

实验设计 (DOE)

您可以使用 Statistics and Machine Learning Toolbox 来定义、分析和可视化自定义的实验设计 (DOE)。DOE 函数可以让您创建和测试实际计划以收集用于统计建模的数据。这些计划可展示如何先后处理数据输入,以生成其对数据输出所产生影响的信息。支持的设计类型包括:

  • 全因子
  • 部分因子
  • 响应面(中心组合和 Box-Behnken)
  • D-最优
  • 拉丁超立方

例如,您可以使用 ANOVA、线性回归和响应面建模估计输入效果和输入交互,并通过主效果图、交互图和多元图表可视化结果。

生成中心组合设计和 Box-Behnken 设计。

统计过程控制

Statistics and Machine Learning Toolbox 提供了一组可支持统计过程控制的函数 (SPC)。利用这些函数,可通过评估流程可变性监控和改进产品或流程。通过 SPC 函数,您可以:

  • 执行可重复性和可再现性研究
  • 估计流程功能
  • 创建控制图
  • 将 Western Electric 和 Nelson 控制规则应用到控制图数据
使用控制图实现发动机风扇冷却过程的控制限的可视化。

大数据、并行计算和代码生成

将 MATLAB 工具与 Statistics and Machine Learning Toolbox 配合使用,可以执行需要大量计算的数据密集型的统计分析。


大数据

您可以将该工具箱的多个函数与长格式数组长格式表配合使用,对具有任意行数的超出内存的数据应用统计和机器学习函数。这让您能够使用熟悉的 MATLAB 代码处理本地磁盘上的大型数据集。您还可以使用 MATLAB Compiler™ 部署相同的 MATLAB 代码,在诸如 Hadoop® 等大数据环境中操作。

请参阅该工具箱说明文档,获得支持函数的完整列表。

根据若干变量预测航班离港延误。

并行计算

Statistics and Machine Learning Toolbox 与 Parallel Computing Toolbox™ 结合使用,可以加快统计计算速度,包括:

请参阅该工具箱说明文档,获得支持函数的完整列表。

并行使用 TreeBagger 对汽车进口运行保险风险评级的回归分析。

C 代码生成

该工具箱可以与 MATLAB Coder™ 结合使用,为分类、回归、聚类、描述性统计和概率分布等优选函数生成可移植且可读性强的 C 代码。使用生成的代码,可以将统计和机器学习运用于:

  • 嵌入式系统开发
  • 与其他软件集成
  • 加速计算密集型 MATLAB 代码
为 MATLAB 函数生成 C 代码,根据以往噪点测量估算运动对象的位置。