AIOps和你——更快的部署,更安全的管道,更快乐的人[swampUP 2021]
Heath Newburn,AIOPS高级解决方案专家
2021年6月30日
< 1
在本课程中,您将学习AIOps如何创建可操作情报以及如何在可操作情报中驱动行动。今天开始使用您的实例吧:https://jfrog.co/35OKwXW
您将看到如何提高管道的速度和安全性,自动化如何帮助您专注于核心业务,而不是琐事业务,以及我们如何为员工和客户创造更好的数字体验。
你好。我叫凯斯·纽伯恩,我将是你的夏尔巴人、向导、导师、茶房或水童……
你需要什么都行
今天我们将讨论人工智能操作,以及它能为你做些什么。
这个演讲是预先录制的,但我可以在聊天中,
你也可以在Twitter和LinkedIn上找到我。所以
拿上你最喜欢的饮料,吃点零食,放松一下
让我们谈谈人工智能和自动化如何帮助你和你的管道。
今天我们会讲一些东西,
为什么人工智能运营很重要,
它是什么,它能为你做什么。
履行可操作情报的承诺以及下一步。
所以希望你们在离开时能带回一些为团队创造价值的想法,
这样你每周就能多出一些时间。
在过去的10到15年里,技术领域发生了巨大的变化。
甚至回想一下20年前的网络繁荣
以及亚马逊、eBay、贝宝和其他公司的崛起,
这些公司是建立在运行在非常昂贵的硬件上的单一应用程序之上的
以及私有数据中心的专有数据库。
过去几十年,云计算带来了基础设施即服务,
它用几乎无限的虚拟服务器取代了裸机服务器,
同时也给了我们将单片应用分解成分布式微服务的方法
而组件随着其他云块的崛起。
想想20世纪90年代末的亚马逊,它只运行一个叫做Obidos的应用程序,
与今天相比,它的主页本身就包含数千个不同的部分。
在此过程中,敏捷、精益和DevOps方法学的兴起
意味着每个组件的交付速度更快,有时一天交付多次。
这在二维应用中很复杂,
大量的独立组件之间有着复杂的依赖关系,
以及变化的速度
不仅有新的修订,
但是短暂的组件和不断变化的依赖树。
难怪IT组织的流程
是否依赖于传统数据中心中相对静态的世界观
承受着难以置信的压力。
跟上变化所需的工具加剧了这种压力
以及监控、APM、日志和其他可观察工具的兴起。
70%的IT组织依靠多达9种不同的监控工具来支持现代应用程序。
较大的组织可能有30多个工具。
请记住,这是在他们开始数字化转型之前的情况。
根据同一项调查,
47%的人每月收到超过5万条警报,
我们最大的客户每天处理数以百万计的订单。
要处理的事情太多了。
你还好吗?
我们这些在地面上的人是如何处理这一切的?
好吧,有些比其他的好。但我想我们都同意过去的一年是漫长的。
当我和很多IT同行交谈时,我觉得我们都需要一个集体拥抱。
科技、推特和波旁威士忌已经让一些不推荐但可行的东西成为可能
应对机制。
我见过很多球队都经历过巨大的失误。
那些希望抢占市场份额的公司试图快速增长
并对他们的IT团队施加前所未有的压力。
这些公司为了降低成本,将团队削减到最低限度,
给现有员工带来了更大的压力
而现在正在找工作的人们也有很多焦虑和担忧。
那些在两者之间挣扎的公司在很多情况下都失败了
并关闭了商店或只剩下骨干人员,他们抱着捆线和希望在一起。
我还是不确定我们每个队的权利是什么,但是
我知道这对我交谈过的人的影响很严重。
我想的不仅仅是你的故事。
最近的一篇期刊文章显示,73%的科技行业同行感到精疲力竭。
自大流行开始以来,80%的人的工作量大幅增加,
近三分之二的人每周多工作10个小时来解决问题。
地平线上也没有任何线索。79%的人相信数字化加速
是他们所在组织2021年的首要任务。
《哈佛商业评论》做了一项类似的研究,表明精疲力竭不仅对士气有害,
这损害了组织的底线。
雇佣一名优秀的工程师需要花费3万美元甚至更多
这些效应叠加在一起。
更低的敬业度会导致更低的生产力,以及更高的人员流动率和医疗成本。
综合影响是巨大的,估计高达1900亿美元。
在大流行之前情况很糟糕,但今年的情况向我们证明了这一点
我们必须找到改变的方法,我们不能一直做所有繁重的工作
和我们的聪明人一起。
我们不能一直做超级英雄。
我热衷于此,热衷于帮助团队取得成功
我认为我对这个领域充满激情的原因之一
人工智能和自动化或人工智能操作可以提供帮助。
人工智能运营这个术语的问题在于,它可能只是一个营销术语,
所以这是一个开放的解释,
就像DevOps一样,不管很多人怎么说
没有一个人工智能操作工具。它是创造价值的能力的集合体。
所以你可以去读读高德纳、福布斯或福布斯51研究的各种定义,
他们说的都是同样的话,但方式不同。
哦,有趣的是,
也是在科技城赢得酒吧赌局的好办法。
人工智能运营最初被定义为算法IT运营,
而不是人工智能。祝你们玩得开心。
但即便如此,人工智能到底有什么意义呢?
这是关于构建大量结构化非结构化数据湖进行分析吗?
是HELL 9000吗?
如果我把流媒体日志文件搞砸了舱门会不会打不开?
我的混合操作是Alexa还是Siri ?
人们很容易被炒作冲昏头脑
并认为人工智能是某种神奇的子弹
它将解决这个极其复杂的世界中所有的IT操作问题。
显然,它不会,
那么今天它能做什么呢?
人工智能运营正在为客户解决四个现实世界的问题,
通过减少平均解决时间(mttr)节省数百万美元,
减少需要处理的事故数量,
或者完全消除所需的人员小时数和事件解决方案。
因此,帮助每位CIO实现实现业务增长和稳定的梦想。
这些要做的工作正在爬这座山。
如今,这包括将信号与噪声分离,以及遥测,
根据过去的行为找出解决问题的最佳人选或团队,
并将其与正确的服务相关联,
使用自助服务引导自动化或仅执行自动化来提高mttr;
提高团队效率,消除辛劳。
最后,从整体上将IT运营组织从手动反应流程中转移出来
到有预见性和前瞻性的。
这些任务以这种特定的顺序出现,因为这是一段旅程,
我们最成功的客户大致是这样称呼他们的。
比如,投资自动化真的很难,
如果你被噪音淹没。
因此,这就是寻呼机任务AI操作解决方案可以提供帮助的地方。
我们从过滤噪声、删除重复警报和常见问题(如
端口拍打。
我们还包括暂停交通警报的功能,
知道某些警报将自行解决并阻止这些问题的通知
这将自我解决,减少警觉性疲劳。
在初始重复数据删除机器学习之后
你的事件数据被用来识别事件之间的相似性,
实时自动分组多个警报在一起
基于事件内容,以及时间框。
当我们识别并解决并发事件时,这可以帮助消除团队之间的重复工作。
我们还使用这些数据与历史记录进行比较
建议行动和自动化
以前的团队解决类似事件的方法。换句话说,
我们不仅在系统生成的数据上使用机器学习,
但对问题做出反应的人类也有影响。
我们可以订阅变化事件。
我知道这对任何在行动中待过30秒以上的人来说都很难相信,
问题几乎总是来自于变化。
这有助于我们更快地找到根本原因。
通过将其与管道数据结合起来,
我们在你的演讲中创造了你所处的环境,
并且有能力做一些事情,比如不向非生产性部署发送关键警报。
我在开头提到,在一个快速发展的系统中跟踪依赖关系和关系
复杂的微服务类型环境非常具有挑战性。
对于快速移动的工程团队来说,在他们的服务上创建依赖并不罕见
而其他服务所有者甚至不知道。
我们明白了。这就是CI\CD工作的原因。
同样,我们正在使用机器学习来显示服务之间可能隐藏的依赖关系。
例如,如果中断和服务B往往会在中断和服务A之后出现,
然后随着时间的推移,我们将了解这一点,并向服务B的所有者建议这一点
他们的中断实际上可能是由于服务A,
即使没有声明显式依赖。
如果用户之前关联过这些东西,我们的算法就会考虑到
并可根据时间、标签等进行关联。
帮助我们找到合适的服务。
这个服务上下文非常关键。
我们不希望对创收服务做出与后台服务相同的反应,
这可能不是关键任务。
这是减少警觉性疲劳最简单的方法之一,
并帮助团队专注于真正重要的事情。
如果是周六凌晨3点,有人在通知人力资源部门
每个人都得到了报酬。
我们知道周一之前情况不会很危急。
那我们为什么要叫醒别人呢?
借助我们的平台分析功能,您可以利用机器学习来帮助您实现下一个目标。
因此,我们的分析实验室将从寻呼机职责的深度数据集中提取见解
要个性化,请回答两个关键问题。
其中一些可能是少事故的代价是什么?
哪些事件受解决时间的影响?
哪些应答者受到的影响最大?
我可以通过一个按钮调用行动,并为机器学习提供智能推荐
这表明,我该如何减少噪音?如何提高团队效率?
我该如何改进我的日程安排?
有了这些容易生成的数据,我可以把它拖到其他团队
向他们展示我得出这些结论的原因。
我们已经在高级分析中编写了一个成熟度模型。
它衡量了企业在数字化之旅中所处的位置,
并且还展示了如何通过具体的建议来提高成熟度
基于我们12年的经验,服务超过13000家客户和近60万用户。
Analytics API支持对详细事件数据的无处不在的访问,因此您可以利用自己的bi工具
和数据专家提取新的见解。
事件情报分析的这些功能为实际情报创造了新的视角,
这将带来更好的管道管理。
有很多工具和平台都在谈论过滤噪音或寻找根本原因。
事实证明,根本原因分析真的很难,
30年来,这个行业一直在试图解决这个问题。
像IBM, CA, HP BMC,甚至微软这样的公司在离开之前都尝试了一段时间。
现在像大熊猫这样的公司。穆格软件和其他许多公司,
以及几乎所有可观察性APM供应商
正在尝试处理事件管理和根本原因分析。
这些集中的事件管理的组合
随着寻呼机职责的分散,可能会产生很大的效果。
有很多方法可以到达那里,
正如我们所展示的,聪明人和分析的结合
可以帮助我们获得可采取行动的情报,但它回避了一个问题,
动作在哪里?
谁做的?
为什么他们一次又一次地这么做?
为什么总感觉是我要离开去处理这些事?
自助服务自动化使主题专家能够集中精力
他们的工作是为组织提供价值
并授权一级和二级团队保持业务运行,
同时尽我们所能消除辛劳。
这就是为什么集成自动化是成功的人工智能运营的关键。
降噪效果很好,但在某一点上仍有一个事故需要处理
如果你能在提醒人类之前自动做出反应,
那就更好了。
它是关于将自动化编织到这三个领域。
首先,在人类警觉之前。
为了自动修复已知问题,避免不必要地叫醒任何人,
这是一个很好的开始。
第二,如果我们需要提醒某人
使一线响应人员能够运行自动诊断或收集信息
即使他们不是主题专家
这样应答者才能更有效。
第三,给任何应答者预定义的动作,
一个自动化的工具箱,
为解决最常见的问题,多搜集资料,免去辛劳。
有了手机服务,这使得急救人员在工作中真正起到了减震器的作用。
他们可能不了解他们监管的系统的复杂细节,因为
专家们给了他们标准的操作程序,
那些一级和二级团队在升级之前有一些尝试,
或者至少他们可以获取诊断信息
这种情况的格式对工程师很有用,即使他们真的被吵醒了。
我们这么做不仅仅是为了母亲、苹果派、女王和国家,
这确实有商业上的好处。
Capgemini的一份报告显示
对自动化的投资为75%的公司带来了收入增长,
其中76%的公司提高了整体盈利能力,
86%的受访者表示,这有助于改善客户体验
让客户更快乐。
预防、诊断和解决。
这是自动化帮助最大的三个地方。
将应用功能与自动化相结合的整体目标是从根本上降低
事件响应生命周期的不同阶段所需的时间,
同时减少事故的数量。
通过基本的降噪,
传呼机工作的另一个特点是,
这主要是为了减少检测动员阶段。
随着更多阶段的自动化,
包括诊断出真正的问题并找到解决办法可以得到改进。
在这些自动响应中获得的经验教训和知识
让改进流程变得更简单,
并确保对未来作出更迅速的反应。
我们有几个客户现在在常见事故中开车到几秒
有了这个自动化。
那么,这对我们的管道意味着什么呢?好吧,
将所有这些功能与JFrog结合起来,
您可以监控您的SDLC并获得对进度的新见解
作为管道中每个阶段的过渡。
整合每个阶段的主要元数据,
将事件合并到寻呼机职责中可以让您了解状态和细节
这样你就知道团队需要参与什么来保持事情顺利进行。
这些团队对功能包、版本、提交、
涉及到依赖关系、问题和环境
让他们更快地解决问题。
随着寻呼机工作自动化,
加上F5引擎X,
现在您可以监视和控制
金丝雀部署到您的软件到您的部署的最后阶段
您的软件将在哪里投入生产。
您可以为自动回滚创建上下文,
配置更改或转移到蓝色、绿色或完整的生产部署,
创建具有更大弹性的更快的管道。
那么我们的方向是什么呢?
我们离终点还远着呢
但这可能是人工智能行动旅程的开始。
从许多客户的对话中可以清楚地看出,他们在人工智能运营中寻找的是,
在这个复杂即易用的时代,
简化,易于入门,
自动依赖映射,自动根本原因分析,
更多开箱即用的用例等等。
AI Ops将使我们能够识别如何更好地调整进入环境的信号,
如何提供自动化以避免事故或至少加快分类。
我们正在构建更好的能力,基于服务洞察力来组织合适的团队
避免重复工作
通过引导式自助服务自动化,更快地解决问题,
所有这些都有助于更好地进行事后分析。
因为寻呼机的职责是所有这些来自不同领域的信号的纽带,
有超过500个预定义的集成,
我们完全有能力帮助你完成这些任务,
以易于使用,易于入门的方式
不需要数据科学家或复杂的模型训练。
我们有独特的技术方法来解决您面临的最大挑战。
以下是我们认为让我们与众不同的四个方面。
我们的全方位服务驱动模式与团队为基础确保了一种文化
对服务的每个方面都有完全的所有权和责任。
它转化为一个自动的实时响应,让团队确切地知道该做什么,
和谁联系以加快事故分类。
我们的服务目录是服务所有权的核心,
我们帮助您跟上机器学习的步伐,
服务的建立是为了持久,而不是组织或团队的变化,
并有助于保持全面的问责制。
我们的平台是开放和灵活的。
它可以集成到您现有的环境中,并在您的业务运行的任何地方工作。
我们的数据结构有助于降噪
并使一流的机器学习算法发挥作用
有效地作为我们所有人工智能运营能力的基础。
这是按比例制作的。
我们是市场领导者、市场发起者和市场创始人
在这个空间里,它是可靠和安全的。
我们受到全球13,000多家客户的信赖,并且还在不断增加。
我们有超过500个现成的集成,可以最大限度地发挥你现有的能力,
而且从寻呼机工作开始很容易。
我们的一些客户在短短三个月内就看到了投资回报。
我们涵盖了从检测,分辨率,
并不断学习和提高。
所以实时操作可以发生在你所在的地方。
我给你们最后一个想法。
我们将指导您如何优化人工智能和自动化
根据我们从过去12年的事故数据和近1.4万名客户中收集到的经验教训。
我们为你的成功而投资
我们会全程指导你,
有了我们的甲板和呼机值班社区,
我们的客户成功和专业服务机构,
以及我们的最佳实践和学习资源的广度。2022世界杯阿根廷预选赛赛程
这种伙伴关系将给你带来洞察力和行动
从我们如何在自己的公司内部利用AI运营来看
我们已经在云中构建并针对云进行了优化。
我们已经准备好帮你了。
谢谢你一直支持我。
谢谢你
你真的很棒。
我希望这能激励你找到一些方法来帮助你自己的团队
也许这周你可以休息一两个小时。
下次见到你。
酒我请。
再见。再见。
你的行动很成功
请稍后再试
模态信息