Main Content

本页翻译不是最新的。点击此处可查看最新英文版本。

数据存储

读取大型数据集合

datastore 函数用于创建数据存储。数据存储是一个存储库,用于收集由于体积太大而无法载入内存的数据。利用数据存储,可将在磁盘、远程位置或数据库中存储的多个文件中的数据作为单个实体来读取和处理。如果数据太大而无法载入内存,您可以对数据的增量导入进行管理,创建 tall 数组来处理数据,或者使用数据存储作为 mapreduce 的输入以便进一步处理。有关详细信息,请参阅数据存储快速入门

函数

全部展开

datastore为大型数据集合创建数据存储
tabularTextDatastore表格文本文件的数据存储
spreadsheetDatastore用于电子表格文件的数据存储
imageDatastore图像数据的数据存储
parquetDatastore用于 Parquet 文件集合的数据存储
fileDatastore具有自定义文件读取器的数据存储
arrayDatastore内存中数据的数据存储 (自 R2020b 起)
read读取数据存储中的数据
readall读取数据存储中的所有数据
preview预览数据存储中的数据子集
hasdata确定是否有数据可读取
reset将数据存储重置为初始状态
writeall将数据存储写入文件 (自 R2020a 起)
subset创建数据存储或 FileSet 的子集
isSubsettableDetermine whether datastore is subsettable (自 R2022b 起)
shuffle对数据存储中的所有数据进行乱序处理
isShuffleable确定数据存储是否可乱序 (自 R2020a 起)
numpartitions数据存储分区数
partition划分数据存储
isPartitionable确定数据存储是否可分区 (自 R2020a 起)

函数

combine合并来自多个数据存储的数据
transform变换数据存储

对象

CombinedDatastore数据存储会合并从多个基础数据存储读取的数据
SequentialDatastore从多个基础数据存储中按顺序读取数据 (自 R2022b 起)
TransformedDatastore用于变换基础数据存储的数据存储
KeyValueDatastore用于 mapreduce 的键-值对组数据的数据存储
TallDatastore用于存放 tall 数组的检查点的数据存储

全部展开

matlab.io.Datastore 基础数据存储类
matlab.io.datastore.Partitionable为数据存储添加并行支持
matlab.io.datastore.SubsettableAdd subset and fine-grained parallelization support to datastore (自 R2022b 起)
matlab.io.datastore.HadoopLocationBased 为数据存储添加 Hadoop 支持
matlab.io.datastore.Shuffleable为数据存储添加乱序支持
matlab.io.datastore.DsFileSet 数据存储中文件集合的文件集对象
matlab.io.datastore.DsFileReader 数据存储中的文件的文件读取器对象
matlab.io.datastore.FileWritable向数据存储添加文件写入支持 (自 R2020a 起)
matlab.io.datastore.FoldersPropertyProvider向数据存储添加文件夹属性支持 (自 R2020a 起)
matlab.io.datastore.FileSet 数据存储中文件集合的文件集 (自 R2020a 起)
matlab.io.datastore.BlockedFileSet 包含文件中的一组文件块的分块文件集 (自 R2020a 起)

主题