高性能计算平台主要包括登录管理节点、台图形节点,并行存储系统,计算刀片,胖节点,以及配套软件及基础设施部分。

一、 管理登录节点
管理节点主要用于运行集群监控管理软件、用户信息管理服务、计算子网管理服务、作业调度服务、时间同步服务等集群系统服务。这些关键系统服务均配置为互备冗余模式,保障整个集群系统的高可用性。管理节点硬件本身也配置有冗余电源、本地硬盘RAID保护等可靠性保障措施。
登录节点主要用于用户程序编译、算例准备,文件上传下载,作业提交控制等用户交互操作。登录节点CPU与计算节点架构相同,保障用户编译程序的执行效率。

二、 台图形节点
高性能计算平台作为集群前后处理节点,防止图形节点故障影响作业运行,同时提升图形资源量。
三、 并行存储系统
高性能计算集群在多个节点进行大规模并行计算的同时,需要进行大量文件及数据访问,对于系统的存储性能也提出非常高的要求,系统对存储要求主要归结为以下几点:
u 全局文件的统一印象
高性能集群相比其它应用而言,一个显著的特点为保证参与计算的所有节点具有统一的文件印 象,也就是说,在任何一个节点、对某一个文件的读写、修改都会在其它节点生效,实现这一个功能,往往需要通过网络文件系统来实现,较为传统的为NFS系统,当前,由于集群规模的增大和访问性能的要求逐渐提高,并行文件系统在中大规模的高性能集群中使用越来越广泛。
u 全局文件的高速访问
对于某些规模较大集群,或者某些高IO应用集群,由于对存储的访问量很大,对共享存储的访问性能也提出了较高要求。通常,我们需要通过提高磁盘阵列的性能、存储介质的性能、磁盘阵列访问接口的性能和IO节点的网络性能来提高存储的访问性能。对于更高IO需求的系统,可以通过并行存储系统来实现海量文件的并发读写。
u 存储系统的大容量
由于高性能集群的规模巨大、数据处理能力惊人,高性能集群集中存储的容量也往往非常惊人,动辄达到数十TB,在某些对海量存储需求的系统中,存储往往达到上百TB,甚至PB量级。
u 存储系统的高可靠性
高性能集群承担着重要的科研任务,用户的数据具有极高的价值,同时,存储为全局系统,一旦出现故障,将导致整个系统不可用。所以在存储系统中,无论IO节点、存储交换机、还是存储磁盘阵列,存储介质,每个环节都要尽可能的保证高可靠性和高可用性。可以通过冗余电源、高级别RAID、双机热备、数据备份等各种手段保证存储系统的高可靠性。
四、 刀片/机架式计算节点
计算节点保证计算资源池,提升集群负载能力。提供充足的本地IO性能,满足计算中临时文件的快速读写需求。

TC4600E刀片服务器系统
五、 胖节点
胖节点主要应对通用计算节点不能满足的计算作业,例如电磁仿真类计算,内存需求高,通常超过1TB内存需求,且跨节点效率低,只适合单节点计算,结构强度类计算,如ABAQUS,并行效率低,不适合多节点同时计算,内存需求高,节点内存不能满足作业需求时,计算中的临时数据会写入本地硬盘,严重影响计算速度。
六、集群管理系统
高性能计算平台需建设一套高性能集群管理系统(Gridview)。对高性能平台进行作业监控,资源监控,资产管理,账号管理,权限管理,作业调度等,同时提供高性能计算所需的编译器、MPI、数学库等。

