联系我们 意见建议 统一身份认证登录 您好,请登录 注册账号
首页 >> 新闻动态 >> 冷冻电镜中心高性能计算机集群上线!

冷冻电镜中心高性能计算机集群上线!

2018-09-30 11:42 发布人:系统管理员

冷冻电镜中心高性能计算机集群上线!用户申请集群账号后可通过集群管理系统使用,无需预约,申请信息及操作手册见HPC使用指南

集群采用AMAX GPU 服务器和联想CPU服务器组合成一个高性能异构计算集群,满足整体架构要求。其中联想刀片服务器作为集群的CPU计算节点,AMAX机架式服务器作为集群的GPU计算节点。仪器产生的数据通过万兆交换机网络连接至IO节点,最终保存到后端存储。

用户通过管理登录节点提交作业,计算节点从IO节点读取后端存储数据进行并行计算,其结果将被保存至I/O节点,通过I/O节点放置到后端存储中。同时,配备3D效果显示工作站用于远程操作。

该异构集群资源调度使用Platform LSF作业调度系统,集群管理软件安装在管理节点上,用来负责整套系统的任务分配及各个节点的健康状态。

集群的计算网络使用高速的,无阻塞的56Gb/s infiniband网络,管理网络使用千兆以太网网络,整套系统使用双网独立的形式以避免管理网络与计算网络之间的冲突。详见如下拓扑图:

l 高性能计算平台分为6个子系统:计算子系统、管理登陆子系统、网络子系统、存储子系统、软件子系统及3D高性能工作站。其中,计算子系统包含15GPU计算节点,38个双路CPU计算节点,平台理论总峰值性能达到每秒128.638万亿次(TFlops)的浮点运算。存储子系统配置648 TB NL SAS磁盘。3D高性能工作站共12台。

 

GPU节点组成:

10AMAX的高性能服务器PSC-HB1X,每个台配置2颗Intel Xeon E5-2637v4处理器、4块Nvidia GTX-1080TI,11GB显卡、256G DDR4 2400MHz内存和4块800G MLC SSD硬盘;

3AMAX的高性能服务器PSC-HB1X,每个台配置2颗Intel Xeon E5-2637v4处理器、4块Nvidia Tesla P100,16GB显卡、512G DDR4 2400MHz内存和4块800G MLC SSD硬盘;

2AMAX的高性能服务器PSC-HB1X,每个台配置2颗Intel Xeon E5-2637v4处理器、2块NVIDIA Quadro GP100,16GB显卡、512G DDR4 2400MHz内存和4块800G MLC SSD硬盘;

1IBM高性能服务器POWER,每个节点配置2颗8核 3.259 GHz POWER8 处理器、4块Nvidia Tesla P100,16GB显卡、512G DDR4 2400MHz内存和2块 480GB MLC SSD硬盘。所有节点集成双口千兆网口及56GB Infiniband HBA卡。

 

CPU节点组成:

34台联想SD530服务器,每个节点配置2颗Intel Xeon Gold 6140(2.3GHz,18核36线程)、256GB DDR4 2666MHz ECC RDIMM内存、1块 300GB 12Gbps 10Krpm SAS硬盘;

3台联想SR630服务器,每台配置2颗Intel Xeon Gold 6140(2.3GHz,18核36线程)、512GB DDR4 2666MHz ECC RDIMM内存、1块 300GB 12Gbps 10Krpm SAS硬盘;

1台联想SR630服务器,每个节点配置2颗Intel Xeon Gold 6128(3.4GHz,6核12线程)、768GB DDR4 2666MHz ECC RDIMM内存、1块 300GB 12Gbps 10Krpm SAS硬盘。每台服务器配置2个1Gb以太网口及2个56Gb InfiniBand FDR端口。

存储子系统:联想数谱DS5760集中存储,配置648 TB NL SAS磁盘,96GB高速缓存,4个16Gb FC激活, 8个16G FC接口,设备主要包含2台IO节点和1台高速存储系统。

3D高性能工作站:共12台,每台配置Intel I7-6700K 处理器、64G DDR4 2400MHz REG ECC DIMM内存、Nvidia Quadro M4000显卡、256G SSD+6T 企业级硬盘、27英寸2K高分3D显示器、Nvidia 3D眼镜套装。

网络子系统:主要包含1台万兆以太网交换机、2台千兆以太网交换机和2台FDR InfiniBand交换机。

集群软件子系统:包含集群操作系统、集群管理软件、Platform LSF作业调度软件、GPFS并行文件系统和Intel集群工具集,还包含日常使用所需的标准工具、图形库。

管理子系统:用于系统管理、作业调度和用户登录,用户通过前端2个管理登陆节点访问集群计算资源,作业调度系统安装在管理登陆节点,负责资源管理、作业调度、集群管理等管理,向最终用户和管理员提供统一使用、管理平台,包含管理服务器、资源管理软件、集群管理软件,以及搭建并行环境所需的软件。

返回顶部