阿里云 Serverless 容器服务全面升级:新增组件全托管AI 镜像秒级拉取能力
Posted 阿里系统软件技术
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了阿里云 Serverless 容器服务全面升级:新增组件全托管AI 镜像秒级拉取能力相关的知识,希望对你有一定的参考价值。
6 月 1 日在阿里云峰会·粤港澳大湾区上,阿里云智能云原生应用平台总经理丁宇宣布,Serverless 容器服务 ASK 全面升级,进一步帮助企业和开发者降本提效。
Gartner 曾预测,2023 年 70% 的 AI 应用将基于容器和 Serverless 技术开发。作为云原生的重要技术组成,K8s 已经被开发者和企业广泛认可,然而其自身复杂性和陡峭的学习曲线依然让人望而生畏。
阿里云在 2018 年发布了首个 Serverless 容器服务 ASK,其本质是将容器的运行时和具体的节点运行环境解耦,让用户无需管理 K8s 节点和服务器,即可直接部署应用,大幅降低容器服务的使用门槛。目前,ASK 在容器化应用、在线业务弹性、AI/大数据计算类任务等场景中被广泛使用。
本次发布,ASK 进一步整合了阿里云基础设施的能力,在使用成本、创建效率、异构资源兼容、弹性供给保障等方面带来显著提升,解决开发者在使用 K8s 的复杂性挑战,也顺应了 AI 场景爆发下催生的新需求。
丁宇介绍,本次 ASK 升级涵盖了多个维度,包括对组件的全托管支持、AI 镜像的秒级拉取能力,还降低了客户的使用成本。具体来说:
组件全托管,零 K8s 运维成本: ASK 新增对 CoreDNS、Metrics Server 等十多个 K8s 核心组件的托管支持,提供动态容量规划能力,客户无需自行部署维护,最大化降低运维复杂度。同时,ASK 也新增了智能化风险识别能力,支持自动化升级 K8s 版本,避免升级导致的应用故障或异常风险。
极致弹性,准确率提升 80%: ASK 提供首界首创基于容器镜像缓存的 AI 大镜像秒级拉取能力,AI 应用启动时间降低 90%。并且提供端到端的弹性加速,面向AI/大数据工作负载容器化进行全栈优化,通过数据集加速提升 30% 访问性能;
此外,本次 ASK 还增强了智能弹性预测 AHPA 能力,相比人工配置,弹性准确率提升 80%;同时新增对于 GPU 的支持。
普惠算力,降价 40%: 为了给客户提供更好的服务,释放技术红利,让算力更普惠,ASK 新增 U 实例规格支持,统一支持多款处理器,相比上一代主售实例降价高达 40%。
新增 SavingPlan 弹性版本,面向应用非固定波峰波谷场景,额外成本优化 10% 以上。为进一步让价格更透明,新增成本套件支持,清晰洞察弹性资源成本,让成本治理更便捷。
以数禾科技为例,这是一家为金融机构提供高效的智能零售金融解决方案的公司,对于模型的计算能力包括计算速度、计算结果准确性、计算数据实时性等,有很高的要求。
而当前的困扰是支撑模型计算的底层应用资源无法根据请求量来调整机器资源支持运算能力,这也是当前业务快速发展过程中亟待解决的痛点。同时,随着模型在线推理服务数量的增加,数禾的模型服务也变得越来越庞大、臃肿,难以管理。这种状况不仅导致了资源浪费,还增加了维护和升级的成本。
为了解决这些“顽疾”,数禾科技采用阿里云 ASK 部署线上模型,无需 K8s 节点管理,根据实时流量动态使用 POD,资源成本节省 60%;通过 ASK Knative 服务,解决了数禾模型的灰度发布和多版本并存问题;得益于ASK 自动伸缩和缩容到 0 的优势,降低运行成本,大幅提升服务可用性。
“使用阿里云容器服务 Knative 和 ECI 虚拟节点配合部署,保证线上模型应对突发流量的稳定性提升的同时,又使资源利用效率显著提高,极大地节约了资源成本。”数禾科技 AI 实验室 AI 平台负责人周伟鹏表示。
为了让容器开发者和对使用 Kubernetes 部署 AI 模型业务感兴趣的用户更好地体验ASK,阿里云全新上线「基于 ASK 轻松部署企业级 Stable Diffusion」场景体验。 通过 Knative 部署满足企业级弹性需求的 Stable Diffusion 服务,同时通过对该服务进行压测实验,体验 ASK 弹性能力。
体验地址:https://developer.aliyun.com/adc/scenario/de33e7d3065949f3b81db292b2dca5ea
为了让更多开发者感受 Serverless 技术魅力,云原生应用平台与天池联合发起 2023 年云原生编程挑战赛,过往的八年里已经有超过 5 万支战队参赛。每年都会涌现出非常多优秀的选手和出色的作品,云原生编程挑战赛已经成为云原生领域的技术风向标。
今年大赛分为三大赛道,分别解决不同场景经常会遇到的难题,包括 Serverless 冷启动,应用安全领域的插件设计,以及通过 SAE 去设计一个创新应用。大赛即将启动,36 万元现金大奖,敬请期待!
ASK 免费试用玩法再升级
目前,ASK 已加入阿里云飞天免费试用计划,为开发者、企业提供一定额度的免费试用资源。3 分钟就可以创建 Kubernetes 集群,开启容器弹性之旅。
玩法一:ASK 开发者评测正式上线
为了您能更快速、便捷地体验 ASK 产品能力,您可以在领用试用资源包后,选择下列2个给定场景中的任意一个,完整体验 ASK 产品在具体应用中的优势,并围绕 ASK 体验过程展开测评:
- 评测地址:
https://developer.aliyun.com/mission/review/ask
一等奖: 1篇最优评测,获得 Redmi Watch 3 + 开发者评测全套定制周边(鼠标垫、飞盘、帆布包、云小宝) + 阿里云社区优质评测证书 + 阿里云社区首页达人展示一周;
二等奖: 5篇优质评测,获得阿里云定制双肩背包 + 开发者评测限量首发云小宝公仔 + 阿里云社区优质评测证书。
玩法二:场景体验:在 ASK 中实现弹幕服务
为了让大家体验更多 ASK 能力,特别设置体验场景——“在 ASK 中实现弹幕服务”。在本次体验中,系统自动生成ASK集群,提供业务运行环境。通过前端发送弹幕消息到HomePage,然后HomePage将弹幕信息发送到消息处理进行加工。加工完成后,页面将展示前端获取的弹幕结果。
- 体验地址:
https://help.aliyun.com/document_detail/612667.html
更多玩法和惊喜大礼,尽在 ASK 产品升级发布会,点击此处进入直播间。
淘宝首页serverless升级后的质量保障方案
本文主要介绍了serverless 架构升级在淘宝首页的应用,新架构对底层所依赖的容器、环境资源等与之前相比差异较大,并且对应的预发、安全生产、生产等环境,与旧架构的完全隔离。
背景
阿里巴巴集团大淘宝技术全面推进云原生2.0战役——serverless 架构升级,此次升级不仅可以帮助业务提升效率,也可以降低业务资源成本。淘宝首页作为响应此次战役的第一个试点业务,是否可以平稳升级,决定了后续其他业务的升级工作是否可以顺利进行。因此,首页侧的质量保障工作变得尤为重要。
系统改造方案
此次升级不仅涉及接入层以及上层业务的代码改造,也涉及底层链路的改造。新架构对底层所依赖的容器、环境资源等与之前相比差异较大,并且对应的预发、安全生产、生产等环境,与旧架构的完全隔离。首页侧作为上层应用,拟从三个方面进行改造,分别是业务代码改造、发布流程改造和切流方式改造。
▐ 业务代码改造
首先需要在新环境上抽出业务基座层,并将部分业务二方包下沉到业务基座层。其次是改造mvn profile功能,支持一套代码能够同时运行于新旧环境(新环境代指serverless环境,旧环境代指改造前的非serverless 环境)中,且两类环境可以分别部署不同的二方包,实现依赖隔离。此外,依赖隔离时,也需要变更bean的初始化配置。
▐ 发布流程改造
将从切流前,切流中和切流后三个环节进行改造。切流前支持新旧环境使用各自流水线进行独立发布,切流中实现单流水线向双环境发布,切流完成后流水线仅保留向新环境发布的环节。
▐ 切流方式改造
从老架构过渡到新架构需要灰度放量,对应实现方式为接入层切流。本次切流,底层依赖集团内部切流系统,新旧环境分别使用不同的应用分组,而不同应用分组又绑定不同的集群KEY,统一接入层通过路由到不同的集群KEY实现流量控制。
从上述改造思路可以看出,本次改造范围较广,对业务稳定性影响较大。因此,在测试过程中需要尽可能覆盖所有的场景,确保改造后的业务功能可以正常如初。首页后端系统,本次升级改造架构图如下:
风险分析
本次架构升级具有高度不确定性,影响面未知,需要全回归验证,尽可能覆盖所有的业务场景。此外,由于涉及底层链路的改动,而底层测试具有局限性,因此也需要依赖上层业务进行全链路验证。基于首页精细化运营的特点,覆盖所有业务场景几乎是一件不可能的事情,且首页业务沉淀多年,历史包袱较重,包含大量复杂的业务场景。
质量保障方案
鉴于上述风险分析,从保障稳定性、减少核心业务损失以及降低测试成本等因素综合考虑,基于全流程层层拦截是一种有效的手段。在线下环节尽可能保证业务的全面覆盖,在上线后通过细致的数据观察来做后续的放量决策。放量过程中如果发现问题,可以通过切流的方式实现快速回滚。整体测试保障流程如下:
▐ 预发验证阶段
核心功能梳理、验证——主要对核心功能以及下沉二方包涉及的业务场景进行梳理并验证。
录制回放——通过录制回放辅助验证遗漏的业务场景。
首页版面本质是基于多业务组件(卡片)组合而成,升级后可能会引发一些潜在问题,比如某类卡片缺失造成无法在淘宝透出;透出时缺少一些利益点,ui信息;或者点击无法跳转,点击时业务埋点参数丢失等,如下图所示。此类问题可能在逐步切流过程中导致相关业务曝光减少,ctr降低,功能无法正常使用等。若依赖人工回归这些内容,可能无法100%覆盖且耗时较长,性价比极低。为此,在预发阶段使用录制回放,从线上引流,然后在新旧环境分别回放,通过对比结果进行验证。
但是,采用这种方式又面临两个问题:一是淘宝通用录制回放工具平台无法支持指定两个IP进行回放,然后对回放结果进行对比;二是首页对比规则是基于业务特性产生的,较复杂,平台侧无法较好支持。
对于上述问题,经过综合考量决定,依托淘宝通用录制回放工具平台现有的录制回放能力,通过在首页平台侧开发适配业务特色的自定义断言规则完成对比校验。对比过程将以旧环境返回的结果作为基准,通过断言校验,判断新环境的数据是否有缺失。录制回放过程如下图:
▐ 发布阶段
加白验证——通过加白名单方式对核心业务场景进行再次验证。
录制回放——利用录制回放能力并行验证。此时,录制回放流程与预发验证的有所差异,改为从线上引流后,直接在serverless进行回放与对比。
单机压测——切流前,需要对新旧环境的各项参数指标进行压测对比,将新环境的各项参数调至最优,以减少机器差异造成的影响。压测方案如下:
压测环境:隔离环境,通过在header中增加标识,分流到新老不同架构
接口选择:选择首页主接口和购后信息流两个主接口(主接口和购后信息流是首页访问量最大的两个接口,比较具有代表性)
压测步骤:两套隔离环境同步压测,观察各项系统指标
灰度期间,如何保障大促例行化压测?
切流过程较长,期间会叠加大促场景,而大促前需要对集群进行例行化压测摸底。初次切流后压测,可能会存在一些潜在问题。首页作为流量入口层,很多下游业务的压测流量都对其有依赖,首页压测出现问题时,会对下游的压测实施产生影响。因此我们需要确保新环境压测出现问题后不影响原有压测计划继续执行。
综合考虑,最终采用双环境压测隔离方式,如下图所示。构造两套压测模型供新旧环境使用,旧环境按照100%流量压测,新环境根据流量比例压测 。当新环境压测出现问题时,停止即可,而旧环境可以继续执行压测。
总结
经历了618大促放量10%,以及618大促和88大促之间切流50%,60%,80%等过程,已经于8月2日完成百分百切流。
在首页serverless架构升级的测试过程中,我们对首页录制回放的对比方案进行了探索与尝试,后续会将此方案继续运用于日常以及安全生产回归中,以提升整体回归能力。
团队介绍
我们是大淘宝技术导购&详情测试团队,负责导购以及详情链路的质量保障工作。导购以及详情链路作为淘宝的基础链路,承载着淘宝的海量DAU与业务使命。团队致力于通过高效的策略以及适配的技术工具为相关业务的质量与稳定性进行保驾护航。
¤ 拓展阅读 ¤
以上是关于阿里云 Serverless 容器服务全面升级:新增组件全托管AI 镜像秒级拉取能力的主要内容,如果未能解决你的问题,请参考以下文章