弗吉尼亚理工大学的研究即将通过该校信息技术部下属的高级研究计算部门推出的新型高性能计算系统得到推动。“弗吉尼亚理工大学拥有广泛的研究背景,我们认为我们有责任提供功能强大、可扩展的计算资源,使各个学科领域的研究人员能够应对前沿发现,”高级研究计算 (ARC) 的计算科学家 Matthew Brown 表示。
作为大学的高性能计算
(HPC) 的中心资源,“集群”的系统、存储和可视化资源,并配备一支计算科学家、系统工程师和开发人员团队,他们提供咨询服 特殊数据库 务以协助研究人员使用该部门的系统和软件。
“ARC 的集群始终以接近其最大容量的速度运行,这反映了弗吉尼亚理工大学正在进行和不断扩展的计算工作。我们最新的计算架构使我们能够从传统 HPC 工作负载中创建比以往更详细的模拟和分析。”
遇见猫头鹰Owl 是 Advanced Research Computing 最新的 CPU 集群 — CPU 代表中央处理器,通常被称为计算机背后的“大脑”。CPU 集群最适合需要对数据进行一系列计算的研究人员,因为它们擅长快速完成一项任务并转到下一项任务。
Owl 包含 84 个节点,即集群内的单个计算机,总共拥有 8,064 个处理核心和 768 GB 的 DDR5 内存,另外还有三个大内存节点,其中两个为 4TB 节点,一个为 8TB 节点。
有了高内存计算速度飞快
计算机要想真正快速运行,需要强大的处理能力,而处理能力取决于计算核心的数量和速度。但您还需要出色的内存(速度、数量和连接性)来处理手头的工作负载。
可以把它想象成一高
速公路,其中内核设定了速度限制,而内存则为数据提供通道。有了强大的内核,计算就可以非常快速地完成,但如果只有一条通道,那么在任何给定的时间段内只能传输有限的数据。增加内存就像增加高速公路上的车道数量。
可以说,Owl 是一条八车道高速公路。与 Advanced Research Computing 的另一个大型 CPU 集群 TinkerCliffs(每个核心有 2 GB 的内存)相比,Owl 有 8 GB。这使得使用 Owl 的研究人员能够
- 同时进行更多类型的计算
- 增加数据模拟的细节数量以获得更详细的结果
- 快速运行作业并在研究过程中尽早做出任何必要的调整
- 更快地扭转研究成果
直接冷却可提高性能
Owl 是弗吉尼亚理工大学校园内第一个使用直接节点冷却的集群。通过这种设置,一个小型管道网络将液体冷却剂到每个节点,并沿着 产生最多热量的组件运行,通过 提高电子邮件营销活动的打开率和点击率的策略 传导提供近乎即时的冷却。这消除了对笨重且噪音大的风扇的需求,同时为 Owl 辛勤工作的内核提供了最有效的冷却。它还消除了热节流,当集群降低其计算速度以防止过热时会发生这种情况。
电源使用效率衡量数
据中心使用的电量,以设施 运行所需的总能源与计算所用能源的比率表示。电源使用效率越低,高性能计算集群的能源效率就越高。
理想的电源使用效
率得分是 1.0 — 这意味着运行数据中心所消耗的所有能源都直接用于计算过程。较低的电源使用效率 (PUE) 得分更高效,对环境更有利,并可降低能源成本。
“空气冷却数据中心的 PUE 通常为 1.5 到 2.0,而后门热交换器冷却系统(如 Tinkercliffs 所采用的冷却系统)的效率可以达到 1.2 到 1.4,”Johnson 说道。“通过消除冷却风扇所需的电力,直接到节点冷却可以提供 1.1 的 PUE,同时还具有允许处理器以最大速度运行而不会出现热节流的额外好处。”
Owl 的首批用户怎么说
今年春天,计算机科学教授吴锋领导的研究小组是第一批使用 Owl 的团队之一,而高级研究计算中心也正在完成 Owl 的 bqb 目录 安装。吴锋的团队正在测试用于图形聚类的新代码的可扩展性。该技术可以识别复杂数据集中的模式和共性,并用于从生物医学研究到社会科学等众多研究领域,提供了一种快速准确地分析超大图形的机制。
冯教授的团队正在以
其成员之前使用 TinkerCliffs 进行的图形聚类工作为基础,该工作赢得了 2023 年GraphChallenge的总冠军奖。GraphChallenge 是由麻省理工学院、亚马逊网络服务和 IEEE 共同举办的国际竞赛,旨在表彰图形分析解决方案的创新。
考虑到团队成员大规
模运行算法所需的 CPU 带宽增加认为他们是将工作转移到 Owl 的绝佳人选。
Feng 表示:“Owl 集群每个节点的性能提高了两倍,每个节点可以分析的图形大小是之前 TinkerCliffs 的三倍。这种容量的增加使我们能够完成一项前所未有的图形聚类算法研究,该研究涵盖了生物信息学、健康、网络和社交媒体等多个研究领域。”
Feng 还是Green500的联
合创始人和技术负责人,Green500 旨在评选全球最节能的超级计算机。他表示,Owl 相对较低的能耗非常重要。“将 Owl 添加到 ARC 基础设施中值得称赞,因为它代表了弗吉尼亚理工大学致力于提高高性能计算的能源效率和可持续性。”
布朗说:“有了 Owl,我们现在可以为研究人员提供两个强大的 CPU 集群,每个集群都有自己的优势。”
尽管 Owl 在许多方面都更高效,但 TinkerCliffs 仍然是迄今为止最大的 CPU 集群。由于 Owl 能够承担受益于其超高效内存速度和容量的工作,这将释放 TinkerCliffs 上的空间,使更多研究人员能够在需要时访问所需的高性能计算资源。
因此,布朗说:“我们每天可以完成更多的科学研究。”