科学家开源全球首个动脉瘤计算流体动力学数据库,使用200万CPU时生成23TB原始数据

内容摘要来源:DeepTech深科技近期,上海科学智能研究院开源了全球首个大规模动脉瘤计算流体动力学数据库 Aneumo。上海科学智能研究院主任研究员郭昕在接受 DeepTech 采访时表示,整个计算过程耗费约 200 万 CPU 小时,生成的原始

来源:DeepTech深科技

近期,上海科学智能研究院开源了全球首个大规模动脉瘤计算流体动力学数据库 Aneumo。上海科学智能研究院主任研究员郭昕在接受 DeepTech 采访时表示,整个计算过程耗费约 200 万 CPU 小时,生成的原始数据存储量高达 23TB。他指出,目前在生物流体力学领域构建大模型时,最大的瓶颈在于数据的极度匮乏。为解决这一问题,通过利用大规模计算集群和流体动力学仿真技术,可以生成大量相关数据,从而有效填补这一空白。

大规模、高保真数据集,包含 8.5 万多个血流动力学数据样本

据介绍,这款大规模、高保真度的数据集包含 85,280 个血流动力学数据样本。详细来说:

首先,其包含多阶段的 3D 动脉瘤模型。研究团队不仅采用了真实的动脉瘤数据,还通过一种创新的“可控变形”技术,人工生成了多种动脉瘤形状,以模拟动脉瘤在不同阶段的形态变化。这种方法使他们能够更系统地研究动脉瘤的演变过程。为确保这些合成形状在医学上的真实性,研究团队特邀神经外科医生进行评估,验证了其合理性。

其次,其包含丰富的血流动力学数据。对于每一个 3D 模型,研究团队模拟了 8 种不同的稳态血流条件,计算了速度、压力等关键参数,让这些数据为研究动脉瘤内的血流特性提供了重要基础。

再次,其能提供分割掩模,这是一种可与医学影像数据相对应的数据格式。基于此,研究人员能够将血流动力学分析结果与真实的医学图像相结合,开展更深入的探索和验证。

最后,研究团队设立了测试基准,以用于评估现有的血流参数预测模型。这一测试为后续研究提供了一个基线框架。

(来源:arXiv)

总的来说,此次构建的多模态、大规模的动脉瘤 CFD 数据集,旨在为动脉瘤研究提供高价值的数据资源。这一数据集不仅数据量大、真实性高,还通过多样化的设计满足了不同研究需求,有望推动动脉瘤相关领域的前沿进展。

研究团队相信,这个数据集有着较为广泛的应用前景,特别是在推动颅内动脉瘤的精准诊疗方面。

其一,它可以促进 AI 在血流动力学建模中的应用。有了这个大规模的高保真数据集,研究人员可以开发出更准确、更高效的 AI 算法,来预测动脉瘤内的血流情况。

其二,它可以帮助人们更准确地评估动脉瘤的破裂风险。数据集中包含了动脉瘤演变过程中丰富的几何形态信息,这对于建立量化的破裂风险预测模型非常有价值。

其三,数据集的多模态特性可以帮助人们更深入地理解动脉瘤的发生、发展和破裂机制。例如,可以分析动脉瘤的形态变化或者其他因素和血流动力学之间的关系,找到预测破裂风险的关键生物指标。“我们希望这些研究能够帮助医生为患者制定更个性化的诊疗方案,实现精准医疗。”郭昕表示。

(来源:

arXiv)

结合机器学习技术,更高效地分析血流动力学

据介绍,本次研究源于对颅内动脉瘤这一疾病的关注,以及对现有研究方法和数据瓶颈的深入思考。颅内动脉瘤是一种严重的脑血管畸变,这一疾病影响全球约 5% 的人口,其破裂往往会导致超过 50% 的死亡率。目前,临床上评估动脉瘤破裂风险主要依赖医生经验、瘤体形态学特征以及患者个体因素,例如年龄和性别。然而,动脉瘤的形成、发展和最终破裂与瘤内血流动力学密切相关,即血液在动脉瘤囊内的流动特性。若能更准确地预测这些血流特性,便可为颅内动脉瘤的诊断提供客观、定量的诊断依据,从而提升风险评估的准确率,制定更科学的治疗方案。然而,传统的 CFD 方法虽能模拟血流,却因计算量大、耗时长,难以应用于临床实践或实现实时分析。

(来源:arXiv)

为解决这一困难,研究团队设想结合机器学习技术,以更高效地分析血流动力学。而他们在实践中遇到的第一个难题就是研究数据的极度匮乏。在研究团队发布 Aneumo 数据集之前,全球具备完整 CFD 信息的动脉瘤数据不足 100 例,这正是他们开展这一数据集研究的初衷。通过该数据集,研究团队希望推动颅内动脉瘤研究,并促进生物流体动力学、生物医学工程及临床风险评估中数据驱动方法的发展。

动脉瘤形变增强真实数据丰富程度

生成这个庞大数据集的过程是一场“数据马拉松”,它既有技术上的挑战,也有团队的携手作战。与其他研究不同的是,本次数据集中的大量动脉瘤形状并非全部来自于真实的患者数据,而是通过对少量真实动脉瘤进行“变形”得到的。这样做的好处是可以更系统地模拟动脉瘤在不同阶段的形态变化,这对于研究其发展和破裂机制至关重要。

但是,这种“变形”并不是随意的。研究团队需要设计一套合理的策略,保证变形后的形状既能覆盖各种可能的形态,又要符合生物力学原理,还不能“变形”得太离谱。为了确定这些变形参数,他们进行了大量的实验和讨论,力求找到最佳的方案。期间,研究团队参考了大量的医学文献,也咨询了神经外科医生的意见,确保本次变形方法是科学合理的。

生成这些三维模型之后,他们还需要进行大规模的 CFD 模拟,计算血液在这些复杂血管结构中的流动情况。这对于计算资源的需求是非常巨大的,为此研究团队使用了复旦大学的 CFFF 计算平台,调用了大量的计算资源,才最终完成了这项工作。

“这个过程让我们深刻体会到,现代医学研究已经越来越离不开大数据和高性能计算的支持。它不仅仅是单纯的科学探索,更是一项需要多学科交叉合作、投入大量资源的系统工程。”郭昕表示。

(来源:arXiv)

最终,相关论文以《Aneumo:包含计算流体动力学模拟和深度学习基准的大型多模式动脉瘤数据集》(Aneumo: A Large-Scale Multimodal Aneurysm Dataset with Computational Fluid Dynamics Simulations and Deep Learning Benchmarks)为题发表在预印本网站 arXiv[1]。

图 | 相关论文(来源:arXiv)

基于这项研究,他们也规划了一系列后续方向,其中一个重点便是扩展数据集的范围。

据了解,本次研究作为上海科学智能研究院高价值科学数据基础设施建设的一部分,在第八届数字中国建设峰会科学数据合作分论坛发布,并已收到广泛关注。预印本论文发布之后,已收到上海人工智能实验室司南(OpenCompass)社区邀请加入 OpenCompass 开放评测体系。

展望未来,研究团队期待这一数据集和机器学习框架不仅能深化对颅内动脉瘤的理解与管理,还能为生物流体动力学的广泛应用奠定基础。例如,类似方法可扩展至其他血管相关疾病的研究、医疗器械的优化设计,甚至模拟不同器官系统的血液、体液、气体的生理流动。通过连接计算建模与临床实践,研究团队希望能够推动个性化医疗的进一步发展。

目前,研究团队的数据集主要集中于颅内动脉瘤。但在未来构建本数据集的方法论可以进一步扩展到包含动脉狭窄等其他血管疾病,这意味着研究团队需要收集、整理并整合更多关于不同类型血管病变的形态学、血流动力学等多模态信息,从而建立一个更全面、更丰富的血管疾病研究资源。

具体来说,基于这个扩展的数据集他们将继续开展以下研究:

第一,通过开发更先进的机器学习模型来预测多种血管疾病中的血流动力学,这将使人们能够更深入地比较不同疾病之间的血流特征,发现潜在的共性和差异,并为临床医生提供更具普适性的决策支持工具。

第二,利用多模态信息,探索多种血管疾病的发生、发展和破裂/狭窄机制。通过整合不同类型的数据,他们希望能够更全面地理解血管疾病的病理生理过程,找到更准确的诊断和预后预测指标。

第三,探索 AI 在多种血管疾病治疗方案优化中的应用。例如,通过开发 AI 模型辅助医生为动脉狭窄患者设计更合适的支架,或者预测不同治疗方案对血管重塑的影响。

总而言之,研究团队希望通过扩展数据集和研究范围,使这一成果能够更广泛地服务于血管疾病的防治,为更多患者带来福祉。

参考资料:

1.pdf/2505.14717

运营/排版:何晨龙、刘雅坤

 
举报 收藏 打赏 评论 0
今日推荐
浙ICP备19001410号-1