MLOps: Model-centric还是Data-centric

  |   0 评论   |   0 浏览

背景

近日,Facebook、DataBricks、DataRobot、H2O、Aurora、格物钛、深度赋智、耀途资本、Capital One等海内外知名科技及投资企业大咖齐聚一堂,一线创业者、数据科学家和赛道投资人共同探讨了人工智能领域的大热门——MLOps的发展现状及关键未来趋势。

MLOps是机器学习时代的DevOps,它的主要作用就是连接模型构建团队和运维团队,建立起一套标准化的模型开发、部署与运维流程,让机器学习过程更简单更高效,使得企业组织能更好利用机器学习能力来促进业务增长。

过去10年,机器学习大规模落地,但AI开发工具链仍然处于一个相对刀耕火种的原始阶段,也一直存在Data-centric 还是 Model-centric 的策略之争。从以模型为中心的角度来看,工程师偏爱从模型出发,努力通过特征工程使数据适合其模型,当现有模型无法充分解决问题时,他们将开发足以解决问题的新模型。

从以数据为中心的角度来看,解决方案是调整数据。Data-centric的拥趸们认为模型虽然有用,但只是对数据的直接分析的补充。数据决定了模型的上限,他们试图了解数据的来源、生成方式以及数据集中可能缺少的内容,并构建了复杂的可视化文件以全面了解数据。人工智能和机器学习领域国际最权威学者之一吴恩达,上半年就在MLOps的直播讲座中强调了数据质量比模型调优更为重要和有效,甚至还举办了Data-centric的比赛。

为了便于听众理解,Facebook的算法工程师刘洪磊做了一个形象比喻,如果以做饭类比,数据相当于食材,模型相当于菜谱。想要做饭好吃有两种解决办法,一是提升菜品质量,Data-centric就相当于调整现有食材,二是改进烹饪方法,适应任何食材,这就相当于Model-centric。

对大部分AI开发者来说,模型无疑是更酷炫的存在。Kaggle竞赛超级大师、H2O数据科学家徐冠硕认为,Model-centric会一直占据主流,因为数据和模型往往会有一个结合关系,很难说更好的数据就能得出更好的模型,他对比了近两年的谷歌地标识别大赛获胜结果,认为有的模型在噪声数据上甚至比使用了干净数据的模型表现更好。

格物钛创始人兼CEO崔运凯显然并不认同这样的说法。崔运凯曾作为早期员工加入Uber的无人驾驶部门,从事AI研究和产品化工作,后来成为该部门最年轻的Tech Lead Manager。彼时在Uber灌满100PB的数据池可能只需要3个月左右时间,这让他对数据特别是非结构化数据的痛点深有体悟,并有机会提前5-6年看到了AI落地将面临的必然困境。

回国后的创业经历也让崔运凯深刻意识到,无论是国内还是国外,人工智能的整个工具链都非常早期和不完善。为此,崔运凯创办了格物钛,建立面向机器学习的数据平台,利用高效数据引擎驱动非结构化数据资源管理和应用创新,强大的端数据托管、查询、协同、可视化和版本管理等功能,可以系统性地解决数据难题,使得AI应用开发更快、性能表现更优。

Aurora的Philip也从自动驾驶的角度认可了崔运凯的观点。自动驾驶面临的挑战在于数据量大、种类繁杂、复杂度高,即便是同一场景,不同传感器也可能产生不同数据。正因如此,即便是特斯拉、谷歌Waymo这类拥有大规模基础设施的高阶玩家,在调模型做模型的时候,遇到的最大挑战还是数据问题,一个地方数据有问题,那影响可能相当广泛和棘手。

另一位创业者深度赋智创始人兼CEO吴承霖则认为,数据与模型都重要,不过从机器学习开发过程各要素的重要性来看,应该是“数据>特征>模型”。机器学习发展至今,各公司缺乏的不是模型,也不是数据,而是对数据的快速利用。吴承霖曾在某大厂任职,50多个AI团队面向不同的业务场景,中间存在大量冗杂重复性工作,为了优化工作流程,企业开发了AI中台,帮助复用、组合创新、规模化构建智能服务,但数据的利用问题仍然没有得到很好地解决,简单4000张表里面的用户行为数据如果能被充分利用,预估将会带来50%以上的业务提升。

数据是构建 AI 系统所必需的关键基础设施,在很大程度上决定了 AI 系统的性能、公平性、稳健性、安全性和可扩展性。活动现场超过70%的人都认为数据将会成为未来终局。

最近谷歌团队的一篇题为“Everyone wants to do the model work, not the data work: Data Cascades in High-Stakes AI”的论文,明确肯定了数据质量在 AI 中的潜力和价值。论文指出,从直觉上看,AI 开发人员认为数据质量很重要,而实际上大多数组织都没有建立或满足任何数据质量标准,这无疑相当危险。

对于一个组织来说,如何将有限的资源在算力、数据、人员上进行合理配置是非常重要的,格物钛创始人兼CEO崔运凯提供了一个从资源利用的思考角度。他认为不管是Data-centric还是Model-centric,本质上是一套ROI驱动的组织管理哲学,例如像特斯拉这样迭代较快的公司,有很多算法工程师,用MLOps去做组织串联和分层是十分必要的,它能帮助数据更快流动,发挥数据的价值。格物钛能够在数据产生初期即帮助用户对数据做迭代和管理,降低高质量数据获取、存储和处理成本,用可控的资源去提升ROI。

崔运凯表示:“未来,构建机器学习产品将更加有趣,并且这些系统会工作得更好。随着机器学习自动化工具的不断改进,数据科学家和算法工程师将把更多的时间花在构建优秀的模型上,而花在与生产级 ML 系统相关的繁琐但必要任务上的时间会更少。这也是格物钛选择在AI基础设施层做创新的初心。”

参考