Statistics Toolbox

主要特性

  • 回归技术,包括线性、广义线性、非线性、稳定、正则化、 ANOVA 和混合效应模型
  • 使用每个对象的多个测量值反复测量数据建模
  • 单变量和多变量概率分布,包括 copulas 和高斯混合
  • 随机和拟随机数生成器和马尔可夫链取样器
  • 分布、分散和位置的假设检验,以及最佳、析因和响应面设计的实验设计 (DOE)
  • 受监督的机器学习算法,包括支持向量机 (SVM)、促进式 (boosted) 和袋装 (bagged)决策树、k-最近邻搜索、朴素贝叶斯分类和判别分析
  • 不受监督的机器学习算法,包括 K 均值聚类、高斯混合和隐马尔可夫模型

探索性数据分析

Statistics Toolbox 提供多种探查数据的方法:交互式图形的统计绘图、用于聚类分析的算法和用于大型数据集的描述性统计。

统计绘图和交互式图形

Statistics Toolbox 包含可直观地探查数据的图形和图表。该工具箱增加了 MATLAB® 绘图类型,包括概率图、箱线图、直方图、散点直方图、3D 直方图、控制图、分位数–分位数图。该工具箱还包含用于多元分析的专用图形,包括系统树图、双标图、平行坐标图和 Andrews 图。

Matrice de nuage de points groupée montrant les interactions entre 5 variables.
对显示 5 个变量间的交互作用的散点图矩阵进行分组。
可视化多元数据(示例)
如何使用各种统计图可视化多元数据。
Diagramme en boîte à moustache compact pour réponse groupée par année à la recherche de potentiels effets fixes spécifiques à l’année.
将箱线图与按年分的响应组线须结合起来,从而寻找潜在的特定年份固定效应。
通过将散点图与直方图相结合,对变量间的关系进行描述的散点直方图。
通过将散点图与直方图相结合,对变量间的关系进行描述的散点直方图。
Diagramme comparant le CDF empirique pour un échantillon depuis une distribution de valeurs extrêmes avec un diagramme du CDF pour la distribution d’échantillonnage.
来自极值分布的一个样本的经验 CDF 与采样分布的 CDF 图形的比较图。
使用广义极值分布对数据进行建模(示例)
如何使用最大似然估计拟合广义极值分布。

描述性统计

描述性统计使您可以快速理解和描述潜在的大型数据集。Statistics Toolbox 包括以下用于计算的函数:

这些函数可帮助您汇总使用少量密切相关的数字的数据样本中的值。.

重复采样技术

在某些情况下,使用参数化方法对汇总统计进行估计是不可行的。为了应对这些情况,Statistics Toolbox 提供重复采样技术,包括:

  • 从有或没有替换的数据集中随机取
  • 使用重复采样估计样本统计的普通 bootstrap 函数
  • jackknife 使用数据的子集估计样本统计的函数
  • 估计置信区间的函数bootci

回归和方差分析

回归

对于回归,可将一个连续应变量建模为一个或多个预测元的函数。Statistics Toolbox 提供了多种回归算法,包括:线性回归、广义线性模型、非线性回归和混合效应模型。

线性回归

线性回归是一种用于描述作为一个或多个预测元变量的连续应变量的统计建模技术。它有助于您理解和预测复杂系统的行为,或者分析实验、金融和生物数据。

该工具箱提供了多种线性回归模型和拟合方法,包括:

  • 单预测元:只具有一个预测元的模型
  • 多预测元:具有多个预测元的模型
  • 多元:具有多个应变量的模型
  • 稳定:存在偏值的模型
  • 逐步:具有自动变量选择的模型
  • 正则化:使用岭回归、套索和弹性网络算法能够处理冗余预测元和避免过度拟合的模型

计算统计资料:MATLAB 的特征选择、规则化和缩减 36:51
了解如何在有相关数据的情况下生成准确的拟合。

非线性回归

非线性回归是一种有助于描述实验数据中非线性关系的统计建模技术。通常将非线性回归模型假设为参数模型,将该模型称为非线性方程。通常,机器学习方法用于非参数非线性回归。

该工具箱还提供了强大的线性拟合,用于处理数据中的偏值。

用 MATLAB 实现拟合:统计、优化和曲线拟合 38:37
通过 MATLAB 应用回归算法。

广义线性模型

广义线性模型是使用线性方法的非线性模型的一种特殊情况。这种模型允许应变量有非正态分布和描述响应预期值与线性预测元相关情况的连接函数。

Statistics Toolbox 支持利用以下响应分布的拟合广义线性模型:

  • 正态(概率单位回归)
  • 二项式(逻辑回归)
  • 泊松
  • 伽玛
  • 逆高斯
利用广义线性模型拟合数据(示例)
如何使用 glmfitglmval拟合和评估广义线性模型。

混合效应模型

对于按组采集和汇总的数据,线性与非线性混合效应模型是线性与非线性模型的一般化。这些模型描述了一个应变量与多个自变量之间的关系,系数可能随一个或多个分组变量而变化。

Statistics Toolbox 支持拟合具有嵌套和/或交叉随机效应的多极或层次模型,可用于进行各种研究,包括:

  • 纵向分析/平面分析
  • 反复测量数据建模
  • 成长建模
Graphique comparant le produit intérieur brut de trois états et ajusté à l’aide d’un modèle à effets mixtes multi-niveaux (gauche) et de la méthode des moindres carrés ordinaire (droite). La fonction fitlme de la Statistics Toolbox permet d’améliorer l’exactitude prédictive des modèles lorsque les données sont collectées et classées par groupe.
利用多层混合效应模型(左)和普通最小二乘(右)拟合的三个州的州内生产总值对比图。当数据按组采集和汇总时,Statistics Toolbox 中fitlme的函数可以创建精度较高的模型。

模型评估

Statistics Toolbox 使您能使用统计学意义和拟合优度测量检验对回归算法进行模型评估,比如:

  • F-统计量和 t-统计量
  • R2 和经调整的 R2
  • 交叉验证的均方误差
  • 赤池信息准则 (AIC) 和贝叶斯信息准则 (BIC)

您可以计算回归系数和预测值的置信区间。

非参数化回归

Statistics Toolbox 还支持非参数化的回归方法,用于在没有指定描述预测元与应变量之间关系的模型的情况下生成准确的拟合。非参数化回归方法在受监督的机器学习下可以更广泛地分类,包括决策树及促进式 (boosted) 袋装 (bagged) 回归树。

非参数拟合 4:07
当无法用函数形式描述变量间的关系时,开发一个预测模型。

方差分析

方差分析 (ANOVA) 使您能够将样本方差指定给不同的资源,然后确定在不同的群体组内或组间是否产生方差。Statistics Toolbox 包含这些 ANOVA 算法和相关方法:

机器学习

机器学习算法使用计算方法直接从数据中”学习”信息,不把预定方程假设为模型。当你增加可用于学习的样本数量时,可自适应提高性能。

MATLAB与机器学习 3:02
使用MATLAB®准备数据以及训练机器学习模型

分类

分类算法使您可以将一个分类应变量建模为一个或多个预测元的函数。Statistics Toolbox 提供了多种参数化和非参数化的分类算法,如:

分类简介 9:00
开发预测模型,对数据进行分类。

您可以使用诸如下列一些方法来评估所产生的分类模型的拟合优度:

聚类分析

Statistics Toolbox 提供了多种算法,使用k-均值分层聚类高斯混合模型隐马尔可夫模型分析数据。当不知道聚类的数量时,该工具箱提供了聚类评估技术,从而根据特定度量确定数据中存在的聚类数量。

Graphique montrant des modèles naturels dans les profils d’expression génique obtenus à partir de levure de boulanger. La procédure d’analyse en composantes principales et les algorithmes de classement par k-means sont utilisés pour trouver des clusters dans les données de profils.
显示从酵母菌中获得的基因表达谱自然模式的图。主成分分析 (PCA) 和 K-均值聚类算法用于找到基因谱数据中的聚类。
使用 K-均值聚类基因(示例)
了解如何通过检查基因表达数据检测基因表达谱            的模式
Modèle de mélange gaussien à deux composants qui s’adapte à un mélange de gaussiennes bivariées.
两状态的高斯混合模型与二元高斯混合的拟合。
Sortie à partir de l’application d’un algorithme de classement sur le même exemple.
将聚类算法应用到同一示例的输出。
Dendrogramme qui affiche un modèle avec 4 clusters.
显示具有 4 个聚类的模型的系统树图。
聚类分析(示例)
使用 K-均值和分层聚类来发现数据中的自然分组。

回归

回归算法使您可以将一个连续应变量建模为一个或多个预测元的函数。Statistics Toolbox 提供了多种参数化和非参数化的分类算法,如:

计算统计资料:MATLAB 的特征选择、规则化和缩减 36:51
了解如何在有相关数据的情况下生成准确的拟合。

多元统计

多元统计提供分析多个变量的算法和函数。典型应用包括通过特征转换与特征选择降维,使用可视化技术(如散点图矩阵和经典多维定标)探查变量间的关系。

使用主成分分析拟合正交回归 (示例)
实现 Deming 回归(总体最小二乘)。

特征转换

特征转换(有时称为特征提取)是一种将现有特征转换为新特征(预测元变量)而描述性特征下降较少的一种降维技术。该工具箱提供了特征转换的以下方法:

  • 非负矩阵分解当模型术语必须代表非负数量(比如物理量)时使用
  • 主成分分析 (PCA):用于通过投影到独特正交基底上汇总维度较少的数据
  • 因素分析用于构建数据关联的解释模型
偏最小二乘回归和主成分回归(示例)
在有高度相关的预测元的情况下,对应变量建模。

特征选择

特征选择是一种只选择建模数据时提供最强预测能力的测量特征子集(预测元变量)最强降维技术。当您处理高维数据或采集所有特征数据成本高昂时,这种技术非常有用。

特征选择方法包括:

  • 逐步回归依次增加或删除特征,直到预测精度没有改进为止;可与线性回归或广义线性回归算法一起使用。
  • 顺序特征选择与逐步回归类似,可与任何受监督学习算法和定制性能测量一起使用。
  • 规则化(套索和弹性网络)使用收缩估计量通过将冗余特征权重(系数)减至零消除冗余特征。

特征选择可用于:

为分类高维数据选择特征(示例)
为癌症检测选择重要特征。

多元可视化

Statistics Toolbox 提供可直观地探查多元数据的图形和图表,包括:

  • 散点图矩阵
  • 系统树图
  • 双标图
  • 平行坐标图
  • Andrews 图
  • 符号图
对显示年型如何影响不同变量的散点图矩阵进行分组
对显示年型如何影响不同变量的散点图矩阵进行分组。
显示主成分分析中前三个载荷的双标图。
显示主成分分析中前三个载荷的双标图。
显示原产国家/地区如何影响变量的 Andrews 图。
显示原产国家/地区如何影响变量的 Andrews 图。

概率分布

Statistics Toolbox 提供使用参数化和非参数化概率分布的函数和应用程序。

该工具箱使您从 40 多种不同分布中计算、拟合和生成样本,包括:

参阅支持的分布的完整列表.

通过这些工具,您可以:

  • 将分布情况与数据拟合
  • 使用统计图来评估拟合优度
  • 计算主要函数,如概率密度函数和累积分布函数
  • 基于概率分布生成随机和拟随机数字流

将分布情况与数据拟合

通过该工具箱中的 Distribution Fitting 应用程序,可使用预定义的单变量概率分布、非参数化(核光滑)估算法或自己定义的自定义分布来拟合数据。本应用程序支持完整的数据和经检查的(可靠性)数据。您可以排除数据、保存及加载会话,以及生成 MATLAB 代码。

分布数据(左)和汇总统计(右)的直观图。使用 Distribution Fitting 应用程序,您可以通过均值和方差值(在此示例中分别为 16.9 和 8.7)评估正态分布。
分布数据(左)和汇总统计(右)的直观图。使用 Distribution Fitting 应用程序,您可以通过均值和方差值(在此示例中分别为 16.9 和 8.7)评估正态分布。

您可以在命令行评估分布参数,或构建与管理参数对应的结构概率分布。

此外,您还可以创建多元概率分布,包括高斯混合和多元正态、多元 t 以及 Wishart 分布。您可以使用相关结构,通过连接任意边缘分布来使用 copulas 来创建多元分布。

使用 Copulas 对相依随机变量进行仿真(示例)
创建对相关多元数据进行建模的分布。

通过该工具箱,您可以指定自定义分布并使用最大似然估计来拟合这些分布。

拟合自定义单变量分布(示例)
对截短的、加权的或双模数据进行最大似然估计

估计拟合优度

Statistics Toolbox 提供评估数据集如何合理匹配特定分布的统计图。该工具箱包括用于多种标准分布的概率图,包括正态、指数、极值、对数正态、瑞利和威布尔。您可以利用完整的数据集和经检查的数据集生成概率图。此外,您还可以使用分位数–分位数图来评估一个给定的分布与标准正态分布的匹配程度。

Statistics Toolbox 还提供假设检验,以确定数据集是否与不同的概率分布相一致。特定的检验包括:

  • Chi-square 拟合优度检验
  • 单边和双边 Kolmogorov-Smirnov 检验
  • Lilliefors 检验
  • Ansari-Bradley 检验
  • Jarque-Bera 检验

分析概率分布

Statistics Toolbox 提供用于分析概率分布的函数,包括:

  • 概率密度函数
  • 累积密度函数
  • 逆累积密度函数
  • 负对数似然函数

生成随机数字

Statistics Toolbox 提供利用概率分布生成伪随机和拟随机数字流的函数。您可以通过应用随机方法从拟合的或构建的概率分布中生成随机数字

Code MATLAB pour la construction d'une distribution de Poisson avec une moyenne spécifique et pour la génération d'un vecteur de nombres aléatoires qui correspondent à la distribution.
用于构建具有特定均值的泊松分布 (Poisson Distribution) 和用于生成与该分布匹配的随机数字的向量的 MATLAB 代码。

Statistics Toolbox 还提供具有以下功能的函数:

  • 利用多元分布(如 t、normal、copulas 以及 Wishart)生成随机样本
  • 从有限群体中采样
  • 执行拉丁超立方体采样
  • 从 Pearson 和 Johnson 系统分布中生成样本

您还可以生成拟随机数字流。拟随机数字流从单位超立方中产生高度统一的样本。拟随机数字流通常可以加速 Monte Carlo 仿真,因为实现完全覆盖需要的样本较少。

Code Generation (代码生成)

MATLAB Coder 使您生成可读可移植的 C 代码,可用于 100 多种 Statistics Toolbox 函数,包括概率分布和描述性统计函数。生成的代码可用于:

  • 独立运行
  • 与其他软件集成
  • 加速统计算法
  • 嵌入式实现

使用并行计算加速统计计算

Statistics Toolbox 可与 Parallel Computing Toolbox™ 共同使用以缩短计算时间。该工具箱具有内置并行计算支持,用于如交叉验证bootstrapping 等算法,并允许您加速 Monte Carlo 仿真或其他统计问题。

Statistics Toolbox 中并行计算的内置支持使您能并行运行统计计算,从而加快速度和缩短程序或函数的执行时间。

可再现并行计算

您可能加速随机数生成并保持与不并行生成的随机数相同的统计特征。这样允许您的计算使用完全可再现的这些随机数。

假设检验、实验设计和统计过程控制

假设检验

随机变化可让人难以确定在不同条件下取得的样本是否真正不同。假设检验是一个有效的工具,可用来分析样本间差异是否极大,是否需要进一步评估,或者是否与随机和预期的数据变化一致。

Statistics Toolbox 支持广泛使用的参数化和非参数化的假设检验程序,包括:

  • 单样本和双样本 t 检验
  • 用于一个样本、成对样本和两个独立样本的非参数检验
  • 分布检验(Chi-square、Jarque-Bera、Lillifors 和 Kolmogorov-Smirnov)
  • 分布比较(双样本 Kolmogorov-Smirnov)
  • 自相关和随机性检验
  • 回归系数的线性假设检验
选择样本大小(示例)
计算假设检验所需的样本大小

实验设计

实验设计 (DOE) 函数使您可以创建和测试实际计划以收集用于统计建模的数据。这些计划可展示如何先后处理数据输入,以生成其对数据输出所产生影响的信息。支持的设计类型包括:

  • 完全析因
  • 部分析因
  • 响应面(中心组合和 Box-Behnken)
  • D-最优
  • 拉丁超立方

您可以使用 Statistics Toolbox 来定义、分析、或可视化自定义的 DOE。例如,您可以使用方差分析、线性回归和响应面建模估计输入效果和输入交互,并通过主效果图、交互图和多元图表直观地显示结果。

用决策树拟合数据。利用 Statistics Toolbox 中的拟合功能,可通过绘制决策规则和组分配图表来可视化决策树。
用决策树拟合数据。利用 Statistics Toolbox 中的拟合功能,可通过绘制决策规则和组分配图表来可视化决策树。
实验的化学反应模型,采用 Statistics Toolbox 的实验设计 (DOE) 和曲面拟合功能。
实验的化学反应模型,采用 Statistics Toolbox 的实验设计 (DOE) 和曲面拟合功能。

统计过程控制

Statistics Toolbox 提供了一组可支持统计过程控制的函数 (SPC)。利用这些函数,可通过评估流程可变性监控和改进产品或流程。通过 SPC 函数,您可以:

  • 执行计量可重复性和可再现性研究
  • 估计流程功能
  • 创建控制图
  • 将 Western Electric 和 Nelson 控制规则应用到控制图数据
显示流程数据和违反 Western Electric 控制规则的控制图。Statistics Toolbox 提供多种用于监控和评估产品或流程的控制图和控制规则。
显示流程数据和违反 Western Electric 控制规则的控制图。Statistics Toolbox 提供多种用于监控和评估产品或流程的控制图和控制规则。

试用 Statistics Toolbox

获取试用版软件

MATLAB在数学建模中的应用(2014)

观看网上技术交流会录像