康奈尔大学生物声学科学家们开发高性能计算平台分析大数据

“借助 MATLAB 的高性能计算,我们可以处理以前未能分析的大型数据。我们运用学到的知识,了解人类活动会对生态系统的健康造成怎样的影响,从而就有关人类在海洋中和陆地上的行为做出负责任的决策。”

挑战

对大量声学数据集中的动物声音进行检测和分类, 这些声音来自于海洋、田野、森林及丛林。

解决方案

使用 MATLAB、Parallel Computing Toolbox 和 MATLAB Parallel Server 为 声学数据分析开发高性能计算平台。

结果

  • 将开发时间缩短了数年
  • 分析时间从几周缩减为几小时
  • 在几天内完成以前未能处理的数据的分析

生物声学研究计划使用的声学分析设备从 大型须鲸类和其他海洋哺乳动物收集数 据。照片由 Dimitri Ponirakis 提供。

科学家们通过记录海洋、丛林、森林以及其他自然环境中的动物声音来研究本地的动物种群已有 30 多年的历史了。他们利用这些结果来评估人为噪音对自然环境的影响,监控濒危动物种群和调查动物之间的交流。被动的声学监控系统会持续记录声音,从而产生数百万兆的数据。由于缺少必要的高级算法和处理能力,科学家们经常连这些数据的 1% 都处理不了。

康奈尔鸟类学实验室的生物声学研究计划 (BRP) 的科学家们使用 MATLAB®、Parallel Computing Toolbox™ 和 MATLAB Parallel Server™ 来分析大量的声学数据。该项目由海军研究办公室和国家海洋合作项目提供资金支持,其负责人是来自康奈尔大学的两位首席科学家:高级研究员兼 BRP 主任 Christopher Clark 博士和 BRP 首席数据科学家 Peter Dugan 博士。

Clark 博士说:“MATLAB 和 MATLAB 并行计算工具为我们提供了灵活性,从而可以动态改进和调整我们用于处理大型声学数据集的算法。如果我们使用的是 C++ 或类似语言,我们将无法尽快移动或探索尽可能多的情境。”

挑战

分析声学数据的科学家们必须应对来自天气、其他动物和附近机械及车辆的噪音。同一物种动物声音存在的个体差异增加了复杂性。噪音和变化性这两个因素增加了漏报和误报的数量,使检测算法的准确性下降。

另一个挑战是处理 BRP 正在收集的数亿兆的数据。一个典型的项目包括处理在多个信道上记录的数年的原始声学数据(高达 10TB)。每个信道均可采集数亿的事件——在频谱图上发生突变的声音数据。将在小型高质量样本上测试的算法应用于噪音更大的较大数据集时往往不太准确。

最后,BRP 分析工具必须服务于广泛的研究计划、环境和移动需求。Clark 博士说:“回答我们的初始研究问题经常会通向将要探索的全新领域,我们需要能够处理需求的突然变化。

解决方案

BRP 数据科学家们使用 MATLAB 开发高性能计算 (HPC) 软件以自动处理声学数据。

检测分类项目首先是收集希望检测到的动物音频剪辑、动物所处环境中的背景噪音剪辑以及归档的声学数据的 MAT 文件。使用 MATLAB 时,他们开发新算法或优化现有算法,在与剪辑目录相似的归档数据中检测音频顺序。

这些算法使用 Image Processing Toolbox™ 和 Signal Processing Toolbox™ 支持的模式匹配、边缘检测、连接的区域分析、卷积和其他技术以及 Fuzzy Logic Toolbox™ 和 Deep Learning Toolbox™ 支持的机器学习技术。

为了评估算法的准确性,科学家使用 Statistics and Machine Learning Toolbox™ 来计算受试者工作特征 (ROC) 和其他性能曲线。

使用 Parallel Computing Toolbox 在小型数据集上调试和优化算法后,科学家们使用 MATLAB Parallel Server 在64个worker的集群上对所有存档数据进行了运算。

BRP 团队开发了一个 MATLAB 界面,使科学家可以指定算法、数据集和处理器的数量。

BRP 与 Marinexplore 和 Kaggle 社区合作,发起了一项全球性大赛,其中有 240 多位参与者提交了用于检测和分类北大西洋露脊鯨上扬的召唤声的算法。BRP 使用他们的 MATLAB HPC 平台识别最准确的算法,可使用该算法来帮助防止船舶撞上鲸鱼。

除了检测和分类算法外,BRP 使用 MATLAB 进行噪音分析和声学建模,在这个过程中他们采集海洋或陆地环境的时间和频率分布影响并进行仿真。

结果

  • 将开发时间缩短了数年. Dugan 博士说:“对预测成本的一项研究显示,如果我们必须依靠自己来完成这些任务,那么开发我们所需的这种 HPC 平台将花费三年的时间和 100 万美元的成本,并且还需要许多的外部帮助。而借助 Parallel Computing Toolbox 和 MATLAB Parallel Server 后,我们不到三个月就完成了平台的开发。”
  • 分析时间从几周缩减为几小时. Dugan 博士说:“使用我们的一个算法处理 90 天的数据需要 19 周的时间。而借助 Parallel Computing Toolbox 和 MATLAB Parallel Server 后,我们在集群上只用了8个小时便完成了同一个分析。”
  • 在几天内完成以前未能处理的数据的分析. Dugan 博士说:“一个数据集采集了 100,000 小时的声音。它是如此巨大以至于以前我们连 1% 都处理不了,根据预估,需要一年或更长的时间来处理剩余的数据。而借助我们的 MATLAB HPC 平台后,在两天内,我们对该数据进行了六次处理,且每次均使用了不同的检测算法。”

致谢

康奈尔大学以及全球 1300 所其他大学均可在校园范围内使用 MATLAB 和 Simulink。通过 Campus-Wide License,研究人员、教师和学生可以在最新版本级别访问产品的通用配置,以便在教室、家庭、实验室或研究现场等等任何地方使用。