Solutions/解决方案

加速计算及数字化服务专家

您当前位置> 首页 > 解决方案 > HPC高性能计算

解决方案/Solutions

(二)GPU集群与存储解决方案

1)GPU集群概述:随着人工智能产业的飞速发展,单台服务器已无法满足技术发展所带来的巨大的计算需求,通过集群将多台服务器通过软件与硬件结合起来,形成一个统一的系统对外提供服务越来越成为趋势;同时服务器集群还可以实现负载均衡,从而避免一台服务器因为负载过高而出现故障,更好的保障服务器整体工作运转;

2)GPU集群应用定位:面向大规模异构计算基础设施管理,实现深度学习计算资源管理、调度、应用的自动化,广泛应用于教育、科研、医疗、政府等行业领域,大幅提升计算基础设施利用率,降低数据中心总体拥有成本,提升人工智能研发创新效率;

3)GPU集群实现功能:资源统一管理;资源利用率实时监控,单机多卡任务、多机多卡任务,性能线性增长GPU服务器;通过自研服务和 docker 容器技术相结合,帮助用户托管深度学习训练作业;前期数据标注模块;后期模型部署模块;多租户管理;用户组管理;计费系统;兼容IntelAMD平台;支持NVIDIAFPGA运算卡;

4)分布式存储集群概述:分布式存储管理系统,支持Gb10Gb25Gb40Gb56Gb100Gb200Gb以太网网络;支持56Gb100Gb200Gb infiniband网络;支持RDMA/OPA传输;支持主流的文件访问协议,包括iSCSI/CIFS/NFS/FTP/WebDAV/POSIX;单个集群支持至少扩展到256个存储节点;中英文操作界面;

5)高性能存储概述:存储管理系统,将针对不同应用场景可选配不同的方案。

    6)GPU集群架构

4.png