AWS发布 Amazon DevOps Guru

在亚马逊云服务(AWS)年度盛会AWSre:Invent上宣布,AWS推出完全托管的运营服务AmazonDevOpsGuru,利用机器学习技术,帮助开发人员通过自动检测操作问题和提供修复建议来提高应用程序的可用性。

AmazonDevOpsGuru应用了多年的机器学习技术,通过自动收集和分析应用程序指标、日志、事件和痕迹等数据,检测偏离正常操作模式的行为,例如计算能力配置不足、数据库I/O过度使用、内存泄漏等。一旦识别出导致服务中断的异常应用程序行为,AmazonDevOpsGuru会向开发人员发出详细的问题信息,并提出具体的修复建议。

AmazonDevOpsGuru没有前期成本或承诺,为客户提供按数据付费的分析服务,访问https://aws.amazon.com/cn/devops-guru/ 即可使用。

为了摆脱本地部署的限制并向全球扩展业务运营,越来越多的组织开始采用基于云的应用程序部署和微服务架构。开发人员需要更多的自动化方式来维护应用程序的可用性,减少在运营问题上花费的时间和精力。AmazonDevOpsGuru的机器学习模型采用了亚马逊过去20多年为Amazon.com构建、扩展和维护高可用应用程序的运营专业知识,提供了自动检测运营故障、提供背景信息和建议补救措施的功能,而无需开发人员具备任何机器学习经验。

研发人员只需在AmazonDevOpsGuru平台中简单点击,便可自动提取和分析历史应用程序、延迟、错误率、请求率等基础架构参考指标,从而创建操作基线。随后,AmazonDevOpsGuru通过机器学习模型预测并识别与既定基线有偏差的情况。当AmazonDevOpsGuru分析系统和应用程序数据自动检测异常时,将异常数据分组为运营洞察,包括异常指标、可视化的应用程序行为和有关补救措施的建议等信息。

AmazonDevOpsGuru还将相关的应用程序和基础架构指标(如Web应用程序延迟峰值、磁盘空间用尽、错误的代码部署、内存泄漏等)相关联并进行分组,以减少冗余警报并帮助用户重点关注高严重性问题。

客户可通过AmazonDevOpsGuru控制台查看配置更改历史记录、部署事件以及系统和用户活动,生成需要优先关注的潜在操作问题事件列表。AmazonDevOpsGuru提供了智能建议,帮助客户迅速解决问题,并与AWSSystemsManager集成运行手册和协作工具,以更好地维护应用程序和管理基础架构的部署。

AmazonDevOpsGuru和AmazonCodeGuru (机器学习支持的开发人员工具)携手为客户提供自动化机器学习技术,以提高应用程序的可用性和可靠性,帮助开发人员轻松提高代码质量并识别应用程序中最耗时的代码。

负责亚马逊机器学习的AWS副总裁SwamiSivasubramanian表示:“客户希望AWS继续在可以提高应用程序可用性的领域中增加服务,并从Amazon.com的多年运营经验中学习。借助AmazonDevOpsGuru,我们利用亚马逊过往的经验建立了专门的机器学习模型,帮助客户检测、解决运营问题,并提供智能化的建议。客户可以立即从亚马逊运营中受益,节省在配置和管理多个监测系统上所花费的时间和精力。”

客户只需在AWS管理控制台中单击几下,便可在数分钟内开始使用AmazonDevOpsGuru分析账户和应用程序活动,获得运营见解。AmazonDevOpsGuru通过汇总多个来源中的数据,让客户可以通过一个控制台可视化其运营数据,减少了在多种工具之间切换的需求。同时,AmazonDevOpsGuru通过AWS软件开发工具包(AWSSDK)支持API终端节点,为客户和合作伙伴提供了集成机会,并针对高严重性问题提交故障单,自动通知工程师。

PagerDuty和Atlassian已将AmazonDevOpsGuru集成到其运营监控和事件管理平台中,让使用其解决方案的客户也能受益于AmazonDevOpsGuru提供的运营见解。

目前,AmazonDevOpsGuru在美国东部(北弗吉尼亚)、美国东部(俄亥俄)、美国西部(俄勒冈)、亚太(新加坡)和欧洲(爱尔兰)地区提供预览,未来几个月中将在其他地区推出。

超过170,000家公司都依赖于Atlassian产品来协作、组织、讨论和完成工作。Opsgenie负责人EmelDogrusoz表示:“我们很荣幸与AWS合作推出AmazonDevOpsGuru,帮助更多开发团队部署代码并运营服务。通过与Opsgenie和JiraServiceManagement集成,AmazonDevOpsGuru能够在预测到潜在问题或确定事件发生时即时向相关团队发出通知。AmazonDevOpsGuru提供新的见解,而Atlassian确保最快的响应速度。”

PagerDuty,Inc.(NYSE:PD)是数字运营管理领域的佼佼者。PagerDuty产品副总裁JonathanRende表示:“我们致力于通过全生命周期事件自动化响应来推动DevOps文化的变革。我们很高兴能够通过与AmazonDevOpsGuru的整合来持续承诺DevOps。利用亚马逊数十年的卓越运营经验和AmazonDevOpsGuru的机器学习功能,PagerDuty为我们的共同客户提供更实时的信号和响应功能。借助PagerDuty提取的AmazonDevOpsGuru的AmazonSNS,AWS客户可以在运营事件影响用户服务之前做出实时反应。”

汤森路透是全球最值得信赖的信息和咨询服务提供商,在帮助专业人士做出自信决策和经营业务方面发挥着重要作用。汤姆森路透基础设施托管业务主管史蒂夫·索恩斯说:“客户体验对我们至关重要。在试图防止和减轻对客户的影响时,处理多种警报可能是个挑战。我们很高兴能够使用AmazonDevOpsGuru,并利用其机器学习的见解提供清晰的路径,帮助我们快速解决问题和避免对客户的影响。通过和PagerDuty的集成,我们可以将AmazonDevOpsGuru的问题解决建议及时有效地传递给正确的团队,从而更好地服务于客户。”

SmugMug是一家提供付费图片共享、托管服务和在线视频的平台,用户可以在该平台上传照片和视频。该公司致力于促进业余和专业摄影师数字化和印刷作品的销售。运营总监AndrewShieh说:“我的团队一直在寻找让手动工作自动化的方法。我们希望通过使用AmazonDevOpsGuru实现这个目标,让AIOps接管我们的许多日常任务,从而简化日常运营并专注于IT创新。现在,我们不仅满足了业务需求,而且可以超越业务预期,因为我们有更多的时间专注于最重要的事情——为我们的组织和客户创造价值。”

NextRoll通过帮助市场和营销平台构建和增强它们的营销解决方案来提高收益。NextRoll的首席技术官ValentinoVolonghi说:“我们运行着数千个AmazonElasticComputeCloud(AmazonEC2)实例,一直在寻找减少团队用于解决运营问题时间的方法。很高兴能够使用AmazonDevOpsGuru并利用其基于机器学习的见解来帮助我们识别、关联和解决运营问题。这将帮助我的团队节省时间并减少我们的平均恢复时间。”