火山引擎:开放字节跳动同款AI基建,一套系统解决多重训练任务

火山引擎:开放字节跳动同款AI基建,一套系统解决多重训练任务

非常AI的朋友们非常AI的朋友们 2022-07-20 17:14:11 来源:非常AI

7月20日的火山引擎原动力大会上,火山引擎发布全新Slogan“云上增长新动力”,并推出以云为底座的一系列产品解决方案,包括企业上云和智能营销通用方案,以及覆盖金融、汽车、消费、文娱、医疗、通信传媒六大行业的云上增长方案。

火山引擎机器学习系统负责人项亮在大会上正式发布并介绍了机器学习与推荐平台多云部署解决方案。项亮介绍,抖音集团旗下不同业务的不同推荐系统,都是基于一个统一的训练平台提交,由统一的训练系统训练。现在,这种模式由火山引擎对外开放,为企业提供开放的AI基建,帮助企业更专注于业务。

火山引擎:开放字节跳动同款AI基建,一套系统解决多重训练任务

抖音、头条、西瓜等业务使用了推荐、广告、搜索、创作和VR等技术。这些技术都比较重地应用到了AI。从系统的角度看,AI是一个定义的比较纯粹的问题。因此,如何让AI技术在不同业务中得到充分的复用,就变得很重要。

以推荐为例,抖音、头条、番茄等业务的不同推荐系统的训练任务,都基于一个统一的训练平台提交,由统一的训练系统训练。主要的区别只在于特征的定义、网络结构的定义和训练超参的定义。这样的好处是让知识的共享变得容易,比如,在抖音有效果的方法可以很容易地推到其他业务。不同工作的对比也很容易,因为在工程上是打平的,唯一的差异就来自算法层面。

火山引擎:开放字节跳动同款AI基建,一套系统解决多重训练任务

此次,火山引擎正式发布机器学习与推荐平台多云部署解决方案,也是秉承上述理念。火山引擎希望,向外部企业开放AI基建,可以让企业解放劳动生产力,更加专注于业务创新。

火山引擎:开放字节跳动同款AI基建,一套系统解决多重训练任务

关注开发者体验,打造0碎片、高弹性的机器学习平台

火山引擎机器学习平台具备0碎片和高弹性的特点。作为资源调度平台,机器学习长期以来最大的痛点就是碎片和弹性。火山引擎的0碎片能力很大程度上是基于字节跳动体系比较充分的内外复用。此外,火山引擎也在计算/通信/网络上对平台进行了优化:在计算上,提供手工优化算子和编译能力;在通信上,开源了BytePS的分布式训练库和veGiantModel模型并行化的库;在存储方面,火山引擎提供TOS对象存储和vePFS分布式文件系统。

火山引擎:开放字节跳动同款AI基建,一套系统解决多重训练任务

同时,火山引擎机器学习平台非常关注开发者体验。传统公司往往是给研发每人几块GPU卡,在开发者不工作时,这些卡处于闲置状态,这也是企业GPU利用率低的一个重要原因。对此,火山引擎提供了开发机模块。这一在线开发机模块对齐了之前物理开发机的体验。开、关机环境都能保留。同时很好地集成了容器,方便不同环境的开发切换;火山引擎机器学习平台在监控、实验tracking等方面也提供了不错的工具,开发完成后,可以一键提交任务到集群进行job化训练。

火山引擎:开放字节跳动同款AI基建,一套系统解决多重训练任务

据英伟达中国区工程及解决方案总经理赖俊杰介绍,火山引擎和英伟达在过去几年里已开展了深入合作,从NVIDIA A100 到 H100,火山引擎一直保持第一时间迭代更新实例产品,使弹性计算实例与机器学习平台一直保持着最具竞争力的算力与性能。

双方此前与轻舟智航合作推出自动驾驶工具链轻舟矩阵,以仿真为核心,可打通从研发到测试运营的全流程,实现自动驾驶技术研发的高效迭代。依托火山引擎AI开发平台,轻舟矩阵上的自动驾驶模型训练GPU利用率可提升30%。

“随着AI模型规模不断增大,对于算力的需求也以指数级别快速提升。” 赖俊杰说,“火山引擎基于H100的全新一代弹性计算HPC实例和机器学习平台,将为企业客户提供更好的AI算力性能。”

深度开放的推荐平台,支持企业沉淀推荐能力

火山引擎:开放字节跳动同款AI基建,一套系统解决多重训练任务

在智能推荐平台方面,火山引擎可以实现:只需一个平台,就能帮助企业实现从数据接入到推荐结果输出,这一完整的端到端推荐服务的搭建;在特征工程/模型开发模块,火山引擎既能通过简单的配置提供入门级的功能,同时也提供了低代码的开发能力,让工程师可以结合自己的经验深度参与到效果的优化中;与此同时,模型支持实时训练,用户的行为和偏好能很快体现在推荐结果中。此外,火山引擎智能推荐平台还支持深度的行业定制。目前,火山引擎已在电商、内容、视频等多个领域服务了很多客户,并将积累的行业经验,沉淀成行业模板,可以为不同领域的企业提供更专业的推荐服务;对企业而言,更为重要的一点是,火山引擎智能推荐平台支持灵活的黑白盒功能,可以让企业沉淀自身的推荐能力。

火山引擎:开放字节跳动同款AI基建,一套系统解决多重训练任务

行业内对推荐系统的普遍认知是非常复杂,涉及的功能模块非常多:首先要对数据进行处理,以保证数据质量;处理后的数据进入到特征工程环节,对特征进行抽取——特征和样本会应用到模型的训练中;在线服务会对召回/排序/规则进行编排,还需要做大量的AB实验来验证推荐的效果,最后才能验证推荐是否有效。

在火山引擎推荐系统上,企业不需要跨多个系统,可以直接在成熟的推荐平台上完成一整套推荐系统的搭建。

当前,很多企业都想要沉淀研发能力,希望系统不要太黑盒。火山引擎特征工程模块兼具黑白盒功能:黑盒是让平台直接管理中间的过程,企业可以直接使用;白盒的功能可以满足工程师做深度开发的需求。与火山引擎机器学习平台一样,火山引擎推荐平台也提供很多数据抽取和特征处理的算子,实现高效灵活的特征自定义。

火山引擎:开放字节跳动同款AI基建,一套系统解决多重训练任务

在模型开发方面,平台也兼具黑白盒功能预置模型,提供10+种模型结构,企业只需要设定好优化目标,就可以训练使用。自定义模型则是通过低代码的方式实现模型的开发,平台内置多种代码示例,提供了代码对比、效果对比、训练日志等多种工具,方便工程师更快上手。

无论是预置模型还是自定义模型,底层都是基于一套字节跳动自研的training和serving的方案-monolith,可实现万亿级参数的模型训练,以全方位的容错机制保证稳定性,支持流式训练和实时模型调参等特点,保证模型训练的性能和效果。

项亮指出,不同行业具有不同的业务特点,关注的业务目标也不同,比如电商更关注商品的点击率、转化率和成交金额;新闻资讯行业则对实时性要求比较高,希望提升内容点击率和用户的停留时长;广告更关注每千次点击转化率。不同行业还会有新用户、新内容的冷启动这类的问题,火山引擎推荐平台结合行业特点,沉淀成行业模版,可以让不同行业的企业快速地接入使用。

OPPO数智工程系统总裁刘海锋介绍,火山引擎助力OPPO构建了全球领先的推荐系统混合云,在保障用户体验的前提下,帮助OPPO在多个应用分发、信息流、联盟等服务场景中提升商业化价值。据了解,OPPO数智技术框架包括计算、网络、中间件和数据库的混合云基础设施层;面向海量跨系统数据进行存储与处理的云原生数据湖层;包括端侧推理、模型压缩、大规模训练、AutoML的端云一体机器学习系统;包括语音、NLP、知识图谱、CV、推荐搜索等基础能力的AI能力层;跨终端、多场景落地的业务应用层;以及为企业提供安全可信的AI安全能力层。

火山引擎也通过对OPPO的推荐算法进行专属云底座升级,重点提升了模型的响应速度和离线推荐工作能力为OPPO提供了更加弹性的敏捷资源、更加稳定的工程质量、更加高效的运维服务,为商业化业务价值提升创造了更加坚实的基础。

火山引擎:开放字节跳动同款AI基建,一套系统解决多重训练任务

最后,项亮表示,因为数据隐私等原因,很多客户希望平台能支持多种部署方案。此次,火山引擎发布的机器学习与推荐平台多云部署解决方案,能够支持公有云部署,私有云部署,VPC部署和专属AZ部署。

字节跳动副总裁杨震原认为,技术和业务是一个互构的关系,技术和业务互相塑造、共同成长。他表示:“火山引擎沉淀了字节内部业务的技术实践,希望也能够帮助外部客户提升业务价值”。

— 完 —

相关文章