写在前面
云智慧总裁刘洪涛先生是选型宝社区用户的老朋友。
去年8月,刘总曾经做客选型宝直播,为CIO朋友们详细解读了业务运维的基本概念,以及云智慧在业务运维和IT监控、应用性能管理等方面的努力和建树。
那期节目的时间不算长,但云智慧以业务为核心的运维理念和产品,让大家有了脑洞大开的感觉。节目播出之后,很多朋友意犹未尽,纷纷留言,希望能看到关于业务运维的更多内容。为此,我们将刘洪涛先生再次请到了直播间,为大家讲解业务运维已经落地的应用场景和典型案例。
下面,就让我们一起来听,选型宝首席架构师李维良与云智慧总裁刘洪涛先生的精彩对话吧。
刘洪涛 云智慧 总裁
李维良 选型宝 首席架构师
李维良(主持人)
首先,请您再为大家介绍一下,什么是业务运维?业务运维产生的背景是怎样的?
刘洪涛
业务运维是一个非常新的概念,云智慧是国内第一家,也是唯一一家推行这一概念的公司。在国外,类似的技术和产品被称为DPM(Digital Performance Management)或BPM(Business Performance Management)。
大家知道,很多年以来,企业使用的运维产品都是“泛工具化”的,就像一把把螺丝刀一样。尽管运维工具经历了从基础监控到APM(应用性能管理)的演进过程,但它的本质并没有改变,只是从普通螺丝刀变成了电动螺丝刀。
对于企业的实际应用场景而言,工具所能带来的帮助永远都是很有限的。特别是在今天,随着“互联网 ”战略的推进和数字化转型浪潮的兴起,企业的业务正在快速云化、移动化、互联网化,对于处在转型过程中的企业来说,如何对原有的IT系统和新的互联网应用进行统一管理,怎么让传统IT设施为新型业务提供更好支撑,就成了一个新的挑战。
显然,传统的运维工具没有办法很好地解决这类问题了。今天,企业真正需要的,是一款平台化的软件,是一款以提升业务效率为出发点,能够有效连接IT与业务的运维产品,而云智慧的业务运维就是这样一个解决方案。
业务运维以用户体验为核心,以业务价值为导向,它是IT运维与互联网深度融合的产物,是运维管理在云计算、大数据等技术推动下所产生的必然结果。
李维良
云智慧业务运维解决方案有什么特点,能够帮企业解决什么样的问题?
刘洪涛
云智慧的业务运维是一个平台化的解决方案。随着IT应用场景日益复杂化,单一运维工具已经难以满足现实的需求,企业迫切需要一个更开放、更灵活的平台化解决方案,帮助自己解决数字化转型和业务创新过程中遇到的各种IT和业务问题。
云智慧业务运维平台包含了基础监控、用户体验感知、应用性能管理、全局应用拓扑、关键事务分析、用户行为分析、智能故障预警、业务容量规划、实时动态展示大屏等众多模块,用户可根据不同的应用场景,灵活选择不同的功能模块,搭建出适合企业自身情况的运维解决方案。
总之,业务运维是一套以大数据技术为基础,覆盖企业所有业务系统和IT系统的完整解决方案,通过全链路监控、端到端应用性能管理,以及实时的运维大数据和业务数据关键分析与可视化展示等,帮助企业持续提升业务运营和IT管理效率。
李维良
今天的CIO,不仅是IT的管理者,更是创新业务的引领者,而业务故障是企业CIO最担心的问题,因为这会直接导致营收下降、客户流失。那么,云智慧业务运维平台是如何帮助企业降低业务故障造成的各种损失的?
刘洪涛
在企业中,大家常会看到这样的场景:业务人员上班后,发现业务系统无法登陆,或营业数据出现异常波动,打电话到IT部门询问,IT运维人员立刻开始手忙脚乱地用各种工具排查故障原因……
业务系统健康稳定运行是业务正常开展的前提,也是IT部门的基本职责。做过技术的人都知道,要保证系统不出故障是不可能的,我们要努力做到的是及时发现故障,第一时间处理故障,保证业务运营的SLA,降低类似事件再次发生的概率。
对IT部门来说,先于业务部门发现故障,就可以提前向业务部门发出警示,或在接到业务部门质询电话的时候,给出更放心、更准确的答复,从而有效提高业务部门的工作效率和质量。
那么,云智慧的业务运维系统是如何做到业务故障早发现、早处理的呢?首先,业务运维系统凭借自身的平台化能力,将原本割裂的各种监控数据,如网络设备状态、业务网站性能、关键业务API及事务流程、云主机状态等,统一汇总起来。然后,依据事先设置好的告警策略,对告警事件进行优先级和重要程度排序,并将故障信息第一时间发送给IT部门。故障信息的通知方式是多种多样的,包括移动App、短信、语音、邮件、URL回调等,确保信息及时、准确地送达。
云智慧业务运维系统还有一个很有意思的功能,叫做“故障快照”,它可以将故障现场的情况及时抓下来,以方便故障的快速分析和追溯。
有了业务运维系统的快速排障能力,业务系统的可用性大大提高,IT部门的工作更加从容有序,避免了过去四处救火、疲于奔命的状态。在常态下,通过对监测数据的分析,企业可以了解自身在行业中的位置,并根据情况,及时对业务进行调整和优化,以保持企业在激烈竞争中的优势。
李维良
很多企业在过去几年、甚至十几年时间里,陆续建成各种“竖井式”应用系统,如财务、进销存、物流、供应链等,今天,随着云时代的到来,企业还要管控搭建在云平台上的新业务系统,如电商系统、支付系统,这些系统就是一个个“信息孤岛”,存在着巨大的信息断层。云智慧业务运维平台如何连接各个独立的应用系统,实现跨应用系统的业务追踪呢?
刘洪涛
在很多企业,特别是大型集团性企业中,核心业务往往不是由单一系统支撑的,一个业务的完整流程需要访问多个平台、不同语言开发的应用系统。同一业务的多个支撑系统,往往是由不同的开发团队或外包服务商提供的,代码规范性和一致性较差,后续的支持和维护也由不同的运维团队来完成的。
这种情况为企业带来了巨大的挑战。首先,多个支撑系统各自为政,使企业很难了解业务的完整流程和全局状态;第二,当出现问题时,业务人员协调各应用系统,分别进行自查分析,缺乏协同管控,导致业务问题迟迟不能解决;第三,传统的监控管理工具,只能解决单一系统的性能或故障问题,无法解决跨系统问题追踪的难题。
云智慧解决这类问题的思路是以数据为基础。业务运维平台通常会用到两类IT数据,一类是基于探针得到的应用性能数据,另一类是日志数据。通过这两类数据的匹配和分析,我们可以将业务流程完整地梳理和展现出来,帮助企业了解业务处理过程中各应用系统的调用关系、业务运行状态及性能表现。
我们有一家大型物流企业客户,他们的业务流程非常复杂,涉及到供应链管理、库存管理、审批流等等。而且,因为是大宗物流,每笔交易都很关键,一旦出现问题,影响会非常大。
我们用业务运维系统,帮助客户将整个业务流程完整地串起来,并将跨系统的业务拓扑,通过大屏幕清晰地展现出来。客户能够直观地看到业务的完整流程和运行状态,及时知晓到并解决业务问题。
过去,这家企业在业务出现问题时,往往需要一两周时间才能找到根源,而云智慧运维系统将处理问题的时间缩短到了几个小时,甚至一个小时之内。
通过以上两个应用场景的分析大家可以看到,业务运维是多维度的:一个是从底层硬件,到系统平台,再到业务应用和用户体验的纵向维度;另一个就是跨系统的横向维度。云智慧业务运维解决方案凭借我们在基础监控上的传统优势,结合大数据等新技术的深度应用,将传统运维拓展到了更广阔的空间上。
李维良
随着企业上云步伐的加快,大型企业IT的复杂程度随着规模增长也不断增加,资源的分布更加离散,需要管理的IT运维数据也更加庞大,而这都会造成业务故障处理的不及时。云智慧业务运维平台能不能有效解决企业IT资源一体化管控的问题?
刘洪涛
随着“互联网 ”转型的深入,企业不断加大数据中心、虚拟资源、网络、应用、安全、运维服务等IT资源的投入,使整个IT系统的规模越来越大,复杂度越来越高。随之而来的,是企业越来越难以掌握IT资源的运行状况和利用率,IT资源的规划和决策也缺乏全面、真实数据的支撑。在这样的背景下,IT资源的一体化管控,就成为了一个非常现实的问题。
云智慧的解决之道,是建立统一的IT数据采集、管理和分析平台,并借此实现各分散IT系统数据的集中采集、统一管理和统一展现。通过大屏幕,企业的IT管理者可以多维度、多视角地了解各类IT资源的运行状况和利用情况。
在及时了解全局业务状态的基础上,企业可以不断改进业务流程,优化IT资源配置,从而让运营更高效,让决策更科学。
李维良
过去,IT部门的职责聚焦在IT层面上,只要IT系统运转正常,CIO们就万事大吉了。然而,随着数字化转型的推进,IT对业务的影响越来越大,不但企业管理者要关心运营状况和销售业绩,CIO同样需要时刻关注线上业务系统的运营指标。云智慧业务运维平台所提供的业务系统运营分析能够给CIO和企业管理者带来什么价值?如何帮助运营部门实现业务的高效管控?
刘洪涛
我先给大家讲一个真实的例子:某大型企业集团,曾经花费几千万元,上了一套物资采购平台,结果,用了一年多以后,负责采购的人发现,这个平台分析一次标书内容,需要运行40分钟,非常夸张。对于这样的情况,IT部门竟然一直不知道,而业务部门也觉得,反正系统在运转,就一直在忍着。
出现这种问题的原因在于,传统IT管理办法,IT部门只需要关注设备的可用性,并不关心业务运行效率。然而,IT存在的价值是为业务服务,IT与业务之间不应该出现管理上的割裂。
云智慧希望通过业务运维平台,帮助企业解决类似的问题,而解决问题的着力点,就是业务健康大数据分析。对业务系统日志数据和应用系统性能数据进行综合的关联分析,业务运维平台可以统计出不同应用系统功能模块和所调用的服务、使用的时间、频次、处理耗时等指标。依据这些分析数据,企业可以对臃肿的业务功能模块进行合理有效的“瘦身”和优化,从而大幅提高系统的运行效率。而且,业务功能调用分析是基于日志数据的,不需要对业务系统进行侵入性监测,对业务系统影响非常小。
以业务需求为出发点,对IT系统进行维护和优化,这是业务运维与传统运维的重要区别之一。
李维良
大数据给企业带来的核心价值之一是运营的精细化,云智慧以大数据技术为基础的业务运维解决方案,是如何帮助企业实现精细化运营的?云智慧的方案和其他大数据公司的方案相比,有什么不同?请您通过案例为大家讲解一下。
刘洪涛
我们刚刚从多个维度讲述了业务与IT之间的关系,其实这里还有一个重要的维度,那就是实时性、可视化。我们希望企业的CIO、CEO等管理者,能够通过大屏幕,在统一的视图上看到他们所关心的业务指标和IT指标。
IT管理是有共性的,很多CIO关注的问题和角度其实都很类似。云智慧业务运维平台通过持续的客户服务经验总结出满足不同应用场景的数据模型,它会从庞杂的数据中,将企业管理者最关心的指标提取并展示出来,而这就是“基于大数据的可视化精细运营”的基础。
精细化运营,第一要素是大数据,它是一切分析和处理的基础;第二是可视化,因为可视化的效率是最高的;第三是精细化,你可以看到从宏观到细节的各种数据;第四,它关注的是运营,要把运营指标展示出来,而不仅仅是CPU使用率这类基础数据。
可视化展示还是IT部门与其他部门之间沟通的桥梁,它能让企业领导和其他部门的同事,更直观、更深入地了解IT部门的工作内容和价值。
李维良
请您为大家总结一下,云智慧业务运维平台能够给企业带来哪些价值?
刘洪涛
随着企业“互联网 ”转型的深入,运维的难度变得越来越大,而云智慧的业务运维解决方案可以帮助企业降低运维难度,从而让IT可以更好地为业务提供支撑。这是云智慧业务运维平台为企业带来的第一个价值。
第二,在IT支撑业务、IT引领创新的趋势下,企业的IT部门未来会变得越来越重要。基于这样的情况,我们希望云智慧的业务运维平台在满足企业今天运维需求的前提下,通过平台化带来的可扩展性,也能够满足企业未来不断变化的运维需求。
随着人工智能和大数据时代的到来,我们将不断赋予业务运维平台更多AI和大数据的能力,打造新一代的智能运维体系(AIOps),为中国企业的数字化转型提供更有力的支持。
李维良
谢谢刘总的分享!