07
12月

365体育亚洲华人官网,AWS发布Amazon DevOps Guru

12月7日,在年度亚马逊云服务(AWS)活动AWSre:Invent中,AWS宣布了完全托管的运营服务AmazonDevOpsGuru。通过使用机器学习技术,该服务可以通过自动检测操作问题并建议纠正措施来帮助开发人员提高应用程序的可用性。AmazonDevOpsGuru采用了Amazon.com和AWS多年来支持的机器学习技术。它会自动收集和分析应用程序指标,日志,事件和跟踪,以识别与正常操作模式不同的行为(例如处理能力不足,数据库,I /O过度使用,内存泄漏等),如果AmazonDevOpsGuru具有异常的应用程序行为检测,可能导致服务中断(例如,增加的延迟,错误率和资源限制等),则会将有关问题的详细信息发送给开发人员(例如,涉及的资源,问题进度表和相关问题(事件)等),并通过AmazonSimpleNotificationService(SNS),AtlassianOpsgenie和PagerDuty以及其他合作伙伴集成服务来帮助开发人员快速了解问题的潜在影响和可能原因并提出建议具体的维修建议。开发人员可以发布维修建议吗?来自AmazonDevOpsGuru的ge使用该修复程序来缩短问题并提高应用程序可用性和可靠性,而无需手动调整或机器学习。AmazonDevOpsGuru没有前期成本或义务。客户只需为AmazonDevOpsGuru分析的数据付费,请访问https://aws.amazon.com/DevOpsGuru以使用AmazonDevOpsGuru。为了消除本地部署的限制并在全球范围内扩展业务运营,越来越多的公司正在转向基于云的应用程序交付和微服务架构,这也导致越来越多的分布式应用程序可以满足客户的需求。开发人员需要更多的自动化方法来维护应用程序可用性,并减少识别,调试和解决操作问题所需的时间和精力。错误的代码或配置更改,不平衡的容器群集或CPU,内存和硬盘驱动器等资源枯竭所导致的应用程序停机不可避免地导致糟糕的客户体验和收入损失。公司花费大量金钱和开发人员时间来部署多个监视工具,这些监视工具通常是单独管理的,需要针对常见问题(例如负载均衡器故障或应用程序请求率下降)开发和管理自定义警报。对于想要设置阈值以识别和警告应用程序资源异常情况的组织,不仅难以设置精确的阈值,而且还涉及大量的人工工作。此外,在应用程序使用情况发生变化(例如突然变化)时,必须不断更新阈值在圣诞节营业季节期间数量增加)。如果阈值设置得太高,则在严重影响操作性能之前,开发人员将不会收到任何警告。如果阈值设置得太低,则开发人员可能会收到太多的误报,最终会忽略警告。即使开发人员意识到潜在的操作问题,仍然很难获得“发现”并确定问题的原因。使用现有工具,开发人员通常很难通过图形和警告来确定问题的根本原因,即使找到了根本原因,也通常无法解决问题。任何修复都是冷启动,团队必须花费数小时或数天才能确定问题。这项工作既耗时又繁琐,这可能会减慢修复操作错误和增加应用程序停机时间所需的时间.AmazonDevOpsGuru的机器学习该模型在过去20年中利用了Amazon的运营专业知识来创建,扩展和管理Amazon.com的高可用性应用程序,从而使AmazonDevOpsGuru能够自动检测运营错误(例如,丢失或配置错误的警报,资源枯竭的早期警告,可能导致以下情况的配置更改)停机等),提供有关资源和相关事件的背景信息,并建议采取补救措施,而无需开发人员就没有机器学习经验。开发人员只需在AmazonDevOpsGuru控制台中单击几下即可自动提取和分析所有资源的历史应用程序以及延迟,错误率,请求率和其他基础设施指标,以创建操作基准。然后AmazonDevOpsGuru可以开始坚持进度,训练有素机器学习模型检测与已建立基准的偏差。当AmazonDevOpsGuru分析系统和应用程序数据以自动检测异常时,该数据也被归类为运营洞察力,包括异常指标,一段时间内应用程序行为的可视化以及补救措施的建议。AmazonDevOpsGuru还可以将相关的应用程序和基础架构指标(例如,Web应用程序延迟峰值,磁盘空间耗尽,错误的代码部署,内存泄漏等)进行关联和分组,以减少冗余警报和用户,从而有助于关注严重性问题。客户可以查看配置更改历史记录,部署事件以及系统和用户活动,以创建潜在的操作问题列表,Priority需要在AmazonDevOpsGuru控制台中解决。为帮助客户快速解决问题,AmazonDevOpsGuru提供了具有建议性的补救措施建议,并集成了操作手册和工具,可与AWS Systems Manager一起使用,以帮助客户更有效地维护应用程序并管理其部署的基础架构。AmazonDevOpsGuru使客户能够使用AmazonCodeGuru(支持机器学习的开发人员工具,提供智能建议以提高代码质量并识别应用程序中最昂贵的代码行)自动化技术,以将机器学习用于其操作数据,从而使开发人员更轻松以帮助提高应用程序可用性和可靠性。