将 GPU 的资源利用率加速到 90% 以上
机器学习是当前领先的 AI 范式,到目前为止取得了非常可观的成就,当前机器学习也是一个非常时髦的话题。
2021 年 12 月火山引擎云产品发布会上正式发布了 AI 全系产品,其中的 AI 开发平台就是全流程、高效率、高性能的机器学习平台。该平台提供从数据准备到模型训练、再到推理整个服务;通过 RDMA 网络直连上万张 GPU 和自研的分布式训练框架,可以将 GPU 的资源利用率加速到 90% 以上,极大提升性能的同时降低了使用成本;提供完善的工具链、全功能在线的 IDE,包括端云协同的开发环境,以及本地 AI 代码一键上云,实现极致的开发体验。
在这次发布会上, 火山引擎机器学习系统负责人项亮也首次向外界分享了火山引擎推荐系统的技术演进和应用实践。项亮在分享中提到,搭建整个推荐系统是非常消耗资源的事情。而火山引擎的智能推荐平台,可以做到直接提升你想提升的业务目标,模型可以直接预估这个目标,最终结果按照预估的结果排。先把目标定下来,剩下的都是机器学习的事情。火山引擎机器学习平台的核心目标就是降低算法开发门槛,实现规模化应用。
源于字节跳动业务打磨的机器学习技术,火山引擎机器学习平台是如何设计的?在实现过程中又有哪些挑战?
4 月 14 日晚间 19:30-21:00,火山引擎开发者社区技术大讲堂第一期将为大家揭秘字节跳动基于 HPC 的大规模机器学习技术,技术负责人项亮开深度分享机器学习平台架构与实践,与广大开发者互动。同时,承载机器学习平台的超大规模 HPC 基础设施也将首度在社区分享。
《火山引擎大规模机器学习平台架构设计与应用实践》
项亮| 火山引擎机器学习系统负责人
本次分享将围绕数据加速、模型分布式训练框架建设、大规模异构集群调度、模型开发过程标准化等 AI 工程化实践,全面介绍如何以开发者的极致体验为核心,进行机器学习平台的设计与实现,带大家了解当前机器学习应用落地过程中的挑战以及火山引擎如何应对这些挑战。
分享主要内容:
- 机器学习应用开发过程中的挑战
- 火山引擎机器学习平台的架构
- 字节跳动内部及行业头部客户的机器学习应用实践案例
《大规模高性能计算集群架构及优化实践》
叶璐|火山引擎云计算研发工程师
冯瑞青|火山引擎云计算研发工程师
随着机器学习的发展,数据量和训练模型都有越来越大的趋势,这对基础设施有了更高的要求,包括硬件、网络架构等。本次分享将主要介绍火山引擎支撑大规模高性能计算集群的架构和优化实践,带大家了解火山引擎支撑大规模高性能计算集群的架构和优化实践。
分享主要内容:
- 模型训练的趋势及对基础设施的要求
- 火山引擎高性能计算实例相关产品介绍及平台架构
- 支撑超大规模训练的 RDMA 网络架构和优化
- 字节跳动内部及合作伙伴的业务实践