Statistics and Machine Learning Toolbox 示例数据集
Statistics and Machine Learning Toolbox™ 包括各种不同文件格式和大小的数据集。这些数据集在文档示例中用于演示软件功能。本主题总结并描述了一些可用的数据集,但并未详尽列出所有数据集。
产品安装时可用的数据集
此列表描述安装 Statistics and Machine Learning Toolbox 时可用的数据集。File Contents
列显示 whos
命令的输出,您可以在将文件加载到工作区后输入该命令。
文件名 | 描述 | 如何加载 | 文件内容 |
---|---|---|---|
acetylene.mat | 具有相关预测变量的化学反应数据 |
load acetylene.mat | Name Size Bytes Class Attributes Description 16x105 3360 char x1 16x1 128 double x2 16x1 128 double x3 16x1 128 double y 16x1 128 double Description 变量。 |
carbig.mat | 1970-1982 年间汽车的测量值 |
load carbig.mat |
Name Size Bytes Class Attributes Acceleration 406x1 3248 double Cylinders 406x1 3248 double Displacement 406x1 3248 double Horsepower 406x1 3248 double MPG 406x1 3248 double Mfg 406x13 10556 char Model 406x36 29232 char Model_Year 406x1 3248 double Origin 406x7 5684 char Weight 406x1 3248 double cyl4 406x5 4060 char org 406x7 5684 char when 406x5 4060 char |
carsmall.mat |
|
load carsmall.mat |
Name Size Bytes Class Attributes Acceleration 100x1 800 double Cylinders 100x1 800 double Displacement 100x1 800 double Horsepower 100x1 800 double MPG 100x1 800 double Mfg 100x13 2600 char Model 100x33 6600 char Model_Year 100x1 800 double Origin 100x7 1400 char Weight 100x1 800 double |
census1994.mat | 来自 UCI 机器学习库的美国人口统计局人口统计数据 |
load census1994.mat | Name Size Bytes Class Attributes Description 20x74 2960 char adultdata 32561x15 1872566 table adulttest 16281x15 944466 table Description 变量。 |
cereal.mat | 早餐谷物成分 |
load cereal.mat |
Name Size Bytes Class Attributes Calories 77x1 616 double Carbo 77x1 616 double Cups 77x1 616 double Fat 77x1 616 double Fiber 77x1 616 double Mfg 77x1 154 char Name 77x1 10288 cell Potass 77x1 616 double Protein 77x1 616 double Shelf 77x1 616 double Sodium 77x1 616 double Sugars 77x1 616 double Type 77x1 616 double Variables 15x2 4134 cell Vitamins 77x1 616 double Weight 77x1 616 double |
cities.mat | 美国都市圈的生活质量评级 |
load cities.mat |
Name Size Bytes Class Attributes categories 9x14 252 char names 329x43 28294 char ratings 329x9 23688 double |
discrim.mat | 用于判别分析的 |
load discrim.mat |
Name Size Bytes Class Attributes big 26x43 2236 char categories 9x14 252 char group 329x1 2632 double idx 26x1 208 double names 329x43 28294 char ratings 329x9 23688 double |
examgrades.mat | 0-100 分的考试成绩 |
load examgrades.mat |
Name Size Bytes Class Attributes grades 120x5 4800 double |
fisheriris.mat 或 fisheriris.csv | Fisher 1936 年的鸢尾花数据 |
load fisheriris.mat |
Name Size Bytes Class Attributes meas 150x4 4800 double species 150x1 18100 cell |
fisheriris = readtable("fisheriris.csv"); |
Name Size Bytes Class Attributes fisheriris 150x5 24805 table | ||
flu.mat | 美国各地区的 ILI(流感样疾病)百分比(由 Google 流感趋势估计),以及基于哨点提供商报告的 CDC 加权 ILI 百分比 |
load flu.mat | Name Size Bytes Class Attributes Description 1x306 612 char flu 52x11 14640 dataset Description 变量。 |
gas.mat | 1993 年马萨诸塞州的汽油价格 |
load gas.mat |
Name Size Bytes Class Attributes price1 20x1 160 double price2 20x1 160 double |
hald.mat | 水泥发热与原料混合的关系 |
load hald.mat | Name Size Bytes Class Attributes Description 22x58 2552 char hald 13x5 520 double heat 13x1 104 double ingredients 13x4 416 double Description 变量。 |
hogg.mat | 牛奶的不同配送方式中的细菌数量 |
load hogg.mat |
Name Size Bytes Class Attributes hogg 6x5 240 double x1 6x1 48 double x2 6x1 48 double x3 6x1 48 double x4 6x1 48 double x5 6x1 48 double |
hospital.xls 或 hospital.mat | 模拟的医疗数据 |
hospital = readtable("hospital.xls"); |
Name Size Bytes Class Attributes hospital 100x12 44579 table |
load hospital.mat | Name Size Bytes Class Attributes Description 1x23 46 char hospital 100x7 43784 dataset Description 变量。 | ||
imports-85.mat | 来自 UCI 机器学习库的 1985 年汽车进口数据库 |
load imports-85.mat | Name Size Bytes Class Attributes Description 9x79 1422 char X 205x26 42640 double Description 变量。 |
indomethacin.mat | 6 名受试者血液中药物吲哚美辛在 8 小时内的浓度 |
load indomethacin.mat | Name Size Bytes Class Attributes Description 14x50 1400 char concentration 66x1 528 double subject 66x1 528 double time 66x1 528 double Description 变量。 |
ionosphere.mat | 来自 UCI 机器学习库的电离层数据集 |
load ionosphere.mat | Name Size Bytes Class Attributes Description 5x79 790 char X 351x34 95472 double Y 351x1 37206 cell Description 变量。 |
kmeansdata.mat | 四维聚类数据 |
load kmeansdata.mat |
Name Size Bytes Class Attributes X 560x4 17920 double |
lawdata.mat | 15 所法学院的平均分数和 LSAT 分数 |
load lawdata.mat |
Name Size Bytes Class Attributes gpa 15x1 120 double lsat 15x1 120 double |
mileage.mat | 两家工厂的三种汽车型号的里程数据 |
load mileage.mat |
Name Size Bytes Class Attributes mileage 6x3 144 double |
moore.mat | 基于五个预测变量的生化需氧量 |
load moore.mat |
Name Size Bytes Class Attributes moore 20x6 960 double |
morse.mat | 非编码人员对摩尔斯电码的识别情况 |
load morse.mat |
Name Size Bytes Class Attributes Y0 36x8 2304 double dissimilarities 1x630 5040 double morseChars 36x2 7824 cell |
parts.mat | 36 个圆形零件的大小偏差 |
load parts.mat |
Name Size Bytes Class Attributes runout 36x4 1152 double |
polydata.mat | 多项式拟合的样本数据 |
load polydata.mat |
Name Size Bytes Class Attributes x 1x43 344 double x1 1x101 808 double y 1x43 344 double y1 1x101 808 double |
popcorn.mat | 不同爆米花机型和品牌的爆米花产量 |
load popcorn.mat |
Name Size Bytes Class Attributes popcorn 6x3 144 double |
reaction.mat | 豪根-瓦特森模型的反应动力学 |
load reaction.mat |
Name Size Bytes Class Attributes beta 5x1 40 double model 1x6 12 char rate 13x1 104 double reactants 13x3 312 double xn 3x10 60 char yn 1x13 26 char |
repeatedmeas.mat | 模拟的重复测量数据 |
load repeatedmeas.mat |
Name Size Bytes Class Attributes between 30x12 6415 table within 8x2 1863 table |
stockreturns.mat | 模拟的股票回报 |
load stockreturns.mat |
Name Size Bytes Class Attributes stocks 100x10 8000 double |
带有具体示例的数据集
此列表描述打开特定 Statistics and Machine Learning Toolbox 示例时可用的一些数据集。该列表并未详尽列出所有数据集。File Contents
列显示 whos
命令的输出,您可以在将文件加载到工作区后输入该命令。
文件名 | 描述 | 如何加载 | 文件内容 |
---|---|---|---|
arrhythmia.mat | 指示心律失常存在与否的患者信息和响应变量 |
openExample("arrhythmia.mat") load arrhythmia.mat | Name Size Bytes Class Attributes Description 8x69 1104 char VarNames 1x279 41570 cell X 452x279 1008864 double Y 452x1 3616 double Description 变量。 |
batterysmall.mat | 锂离子电池的传感器数据(电压、电流和温度)和充电状态;[1] 中数据的子集 |
openExample("batterysmall.mat") load batterysmall.mat |
Name Size Bytes Class Attributes dataLarge 1x1 1886400 struct testDataSmall 1319x6 65361 table trainDataSmall 6773x6 327153 table |
CreditRating_Historical.dat | 一系列公司客户的财务比率、行业部门和信用评级 |
openExample("CreditRating_Historical.dat") creditrating = readtable("CreditRating_Historical.dat"); |
Name Size Bytes Class Attributes creditrating 3932x8 649029 table |
humanactivity.mat | 五种人体活动的识别数据:坐、站、走、跑和跳舞 |
openExample("humanactivity.mat") load humanactivity.mat | Name Size Bytes Class Attributes Description 29x1 5918 string actid 24075x1 192600 double actnames 1x5 592 cell feat 24075x60 11556000 double featlabels 60x1 8292 cell Description 变量。 |
nlpdata.mat | 从 MathWorks® 文档中提取的自然语言处理数据。 |
openExample("nlpdata.mat") load nlpdata.mat | Name Size Bytes Class Attributes Description 26x68 3536 char X 31572x34023 36716304 double sparse Y 31572x1 33094 categorical corpus 31572x1 6149252 cell dictionary 34023x1 4137912 cell Description 变量。 |
NYCHousing2015.mat | 2015 年纽约市房产销售信息 |
openExample("NYCHousing2015.mat") load NYCHousing2015.mat |
Name Size Bytes Class Attributes NYCHousing2015 91446x10 32103067 table |
ovariancancer.mat |
openExample("ovariancancer.mat") load ovariancancer.mat |
Name Size Bytes Class Attributes grp 216x1 25056 cell obs 216x4000 3456000 single | |
spectra.mat | 60 份汽油样本的近红外光谱和辛烷值 |
openExample("spectra.mat") load spectra.mat | Name Size Bytes Class Attributes Description 11x72 1584 char NIR 60x401 192480 double octane 60x1 480 double spectra 60x2 195660 dataset Description 变量。 |
参考
[1] Kollmeyer, Phillip, Carlos Vidal, Mina Naguib, and Michael Skells. "LG 18650HG2 Li-ion Battery Data and Example Deep Neural Network xEV SOC Estimator Script." Mendeley 3 (March 2020). https://doi.org/10.17632/CP3473X7XV.3.
[2] Conrads, Thomas P., Vincent A. Fusaro, Sally Ross, Don Johann, Vinodh Rajapakse, Ben A. Hitt, Seth M. Steinberg, et al. "High-Resolution Serum Proteomic Features for Ovarian Cancer Detection." Endocrine-Related Cancer 11 (2004): 163–78.
[3] Petricoin, Emanuel F., Ali M. Ardekani, Ben A. Hitt, Peter J. Levine, Vincent A. Fusaro, Seth M. Steinberg, Gordon B. Mills, et al. “Use of Proteomic Patterns in Serum to Identify Ovarian Cancer.” The Lancet 359, no. 9306 (February 2002): 572–77.