今天,2019 世界人工智能大会在上海开幕,数百位全球 AI 界领军科学家、产业界领袖齐聚黄浦江畔,探索人工智能、机器学习、深度学习在企业、社会中的应用与实践。
为了成为国内人工智能应用的第一梯队企业,利用 AI 技术消除垂直行业痛点。近年来,越来越多公司开始尝试利用 Kubernetes 来管理机器学习工作负载。相应的,Kubernetes 原生机器学习库 Kubeflow 也受到了更多关注——社区各个项目的贡献者、用户数量持续上升。
在 Kubeflow 社区,Katib 作为云原生自动机器学习系统,近期发布了新版本。为了帮助更多工程师掌握这个云原生自动机器学习系统的底层逻辑,在本文中,才云科技软件工程师 gaocegege 将详细介绍新版本 v1alpha2 的设计与实现。
01 问题背景
如今,机器学习技术和算法几乎应用于每个领域,而建立一个高质量的机器学习模型是一个迭代的、复杂的、耗时的过程:除了要求数据科学家具备高效调整超参数的经验和能力,他们还需要不断尝试不同的算法和技术。
事实上,调参非常考验工程师的知识扎实水平和实践经验。随着数据量的持续爆炸性增长,企业逐渐意识到单纯依靠人力是永远解决不了调参难题的,建立良好的机器学习模型过程自动化至关重要。