Quantcast
Channel: InfoQ - 促进软件开发领域知识与创新的传播
Viewing all articles
Browse latest Browse all 1638

从Momenta的AI训练平台谈起:为什么Kubernetes天然适合AI场景?

$
0
0

Momenta作为国内首家自动驾驶独角兽公司,内部有近百名算法工程师,他们为深度学习技术提供了最基础的保障,但是随着算力的不断进步与演进,Momenta亟需一套简单易用的线下算法训练实验平台供算法研发人员使用。为了解决线下训练中遇到的使用问题,Momenta基于 Kubernetes 研发了一套高度可扩展的跨云 AI 训练方案,使内部算法工程师可以自由地在各个机房使用不同的硬件训练。

Momenta基础架构技术负责人薛磊在ArchSummit全球架构师峰会(深圳站) 2019发表了以《基于 Kubernetes 的跨云 AI 训练平台构建与展望》为主题的演讲,同时,InfoQ记者在大会现场采访了薛磊老师,进一步挖掘Momenta AI训练平台的更多技术细节,探讨了Kubernetes与AI场景结合需要注意的问题,对于备受业界关注的KubeFlow社区近期进展也有了更多了解。

下文整理自InfoQ与薛磊老师的对话实录。

Momenta的AI训练平台

InfoQ:Momenta自研的AI训练平台,与各大公有云上提供的AI平台相比,有哪些不同之处?

薛磊:Momenta主要定位在计算机视觉领域使用深度学习技术,因此不是像Spark那样偏传统通用的平台,而是会有比较多定制化的东西。深度学习场景有很多特点,我们会基于这些特点做深度优化。像国内公有云上的AI平台,比如AWS的SageMaker、阿里云的PAI等,我们试用过一些,但是都无法完全满足Momenta的需求。Momenta的AI训练场景涉及到内部大量不同级别的算法工程师,为了区分不同级别的工程师从而使资源得到最大化利用,需要实现用户隔离、排队机制、用户权限管理、资源管理、容量上限管理等诸多功能。我们从自研AI训练平台开始到现在,才逐一解决掉这些问题。国内云厂商的方案更加通用,但对于一个公司内部拥有众多算法研究人员的场景可能不是那么合适。

InfoQ:Momenta自研的AI训练平台针对你们所需要的场景做了哪些定制化工作?


Viewing all articles
Browse latest Browse all 1638

Trending Articles