深圳大学巧解AI算力资源难题,人工智能教学科研驶上快车道

深大计软学院借助浪潮AIStation平台成功解决AI算力资源管理难题,将GPGPU资源利用率提高至60%以上,整体开发工作效率提升75%,科研和教学工作如虎添翼。

深圳大学是广东省高水平大学重点建设高校,自2012年起深大计软学院率先开启AI科学研究与人才培养,取得多项科研成果并承担多个国家级自然科学基金项目。学院推进产学融合,与腾讯等AI企业合作,在课程体系、资源衔接、师资培训、课程内容建设等方面进行深度合作,成立了广东省首个人工智能学院。

为了支持教学科研工作,深大计软学院大力投入AI计算平台建设。然而2018年以前,相关科研人员自行购买了大量不同品牌的AI服务器,性能表现参差不齐,同时这些服务器仅在团队内部共享,利用率低。2018年起,为解决科研人员需求与机房动力系统约束间的矛盾,学院建设统一的公共AI计算平台。学院统一采购了16台8卡AI服务器组成服务器机群,并在另外6台AI服务器上安装PBS系统。然而,虚拟化软件对GPU资源的虚拟化支持较差,无法对GPU资源进行动态调度;PBS等传统管理系统对GPU加速卡等异构计算资源的监控和调度能力也不能满足需求。

深大计软学院借助浪潮AIStation平台,完美解决了AI算力资源管理难题,成功提升资源利用率,优化开发效率,教学科研工作大有提升,彰显出深大计软学院强大的科研实力和影响力。

波涛AIStation可以支持大规模计算集群扩展,支持处理器、GPUs、可编程门阵列等多种系统架构,在业内首先可以达到“管资源”、“管人”、“管调度”三管齐下。深大的AI力量控制难题在部署了波涛AIStation之后已经迎刃而解,目前深大计算机软件学院AI计算平台的GPGPU资源利用率在高峰时期已提升至60%以上,而开发效率也大幅度提升,人工智能教学科研步入快车道。

通过AIStation平台,群集管理员可以清晰地了解到每个使用者对资源使用和提交训练任务的状况,将闲置的计算资源进行有效的管理,并灵活配置用户的资源配额,防止资源过多占用和浪费。

深大师生通过AIStation可以自行按需申请资源,AIStation自动分配GPU资源给用户使用。其GPU共享计划可实现实现多人共用一台机器、多人共用一张GPU卡,开发环境相互隔离互不影响,大大缩短了以往的排队等待时间,大幅降低了因任务相互干扰而造成的故障停机和数据丢失的风险。

此外,AIStation还支持任务排队托管、定义任务优先级。深大师生们现在可以同时提交多个训练任务,资源不足时排队等待,一个任务训练结束后自动释放资源给排队等待的任务,从而可以更好地利用夜间、假期执行训练任务,同时可设置优先级,让重要任务优先执行。

AIStation还提供基于Web的用户界面,师生们无需安装任何插件,通过浏览器即可快速接入实验平台。疫情期间,借助AIstation进行远程教学和科研实验,深大计软学院迅速恢复了正常的教学和科研工作,更好地应对了疫情带来的挑战。

“在AIStation的帮助下,我们可以把精力更多地投入到教学与科研中去,不用再苦苦寻找计算资源了。”说,“同时,AIStation采用图形化界面,内置多种主流深度学习框架和开发组件,能够快速部署开发环境,大大降低了学生们的学习难度和使用门槛,提高了学生们的实验效率,也为AI开发和教学提供了极大的便利,将我们的开发工作效率整体提升了近一倍。”

深大计软学院借力波涛AIStation摆脱了AI计算资源难题,将继续坚守“视野宽广、素质优良、注重实践、创新创业”的人才培养原则,加速推进AI科研创新与人才培养,打造人工智能教研标杆高校。