文章主题:
案例 | AIGC在系统运维领域的应用探索
文 / 中国银行软件中心 王婉婷 付晖 闫晓斐 陈若昱
🌟分布式架构与云原生时代的来临,引领大型银行IT系统进入一个敏态与稳态并存的新阶段。在这个复杂且多元化的环境中,高效、敏捷的运维需求日益凸显。🔍AI技术的进步,特别是AIGC的崛起,为解决这一挑战带来了革命性的解决方案。AI的力量通过文本生成、智能分析和内容推荐等丰富能力矩阵展现,它在处理复杂任务时展现出无人能敌的效能。中国银行软件中心敏锐洞察到这一点,积极拥抱AIGC,致力于打造一个以应用为中心的大模型运维框架。🎯我们的目标是利用这些先进技术,实现对IT系统的智能化故障诊断和性能优化,显著提升运维效率。这样的创新实践不仅有助于业务的稳定运行,更彰显了我们在IT运维领域的技术实力与前瞻性。让我们一起期待AI为银行业的运维工作带来更高效、智能的新篇章!🌐
AIGC运维体系
🌟中国银行软件中心🚀引领行业智慧运维转型,利用先进的AI技术与深厚的IT运维经验,逐步打造智能化运维体系。📈从平台关键技术到全面的监控系统,再到统一配置中心和智能处置流程,我们提供全方位的运维服务,如通过AGI(Artificial General Intelligence)框架,实现自动化告警分析和智能决策。📊信息报表一目了然,运维效率显著提升。图1展示了我们的AGI运维架构,它就像一个全能的守护者,整合各类资源库——通用与专业模型、运维场景和知识库,以及算法库,确保运维信息准确无误。🛡️通过用户管控系统,我们保障系统的稳定运行,同时为用户提供无缝服务体验。无论何时何地,只要问题出现,AGI都能迅速识别并给出解决方案,就像一个24/7的专家顾问。💻无论是日常维护还是重大变更,AGI都能自动执行,让运维工作轻松应对。🏆这就是中国银行软件中心,用AI驱动的智慧运维,为您的业务保驾护航!🌐
图1 AGI运维框架
在AGI运维框架下,实现企业级一体化运维的高效策略包括:首先,通过智能化信息生成,构建AI链接到企业核心资源库,如数据库和分析系统,实时生成全面的运维报告,包括巡检、事件及资源使用情况;其次,交互层面采用AI驱动,通过优化提示引导AI生成操作指令,并连接RPA工具,实现便捷的命令式运维对话;最后,借助智能告警与自愈机制,大型AI模型对运维数据进行深度分析,自动触发自动化工具来预防和解决潜在问题。这样不仅提升了运维效率,也确保了系统的稳定运行。记得优化SEO关键词哦!🚀
🌟图2展示了一种AGI运维的实例🌟通过对接 Máas 层的高阶模型API和企业级工具,加上智能化的建议词汇,轻松满足日常运维的基本要求💡例如,问答型AI能提供技术支持咨询,智能推荐运维解决方案📚而任务型AI则可实时监控状态,一键自动执行任务🛠️这不仅提升了效率,也确保了工作的精准性和连贯性。记得,持续优化是关键哦!💪
图2 AGI运维场景示例
1.多渠道信息收集,构建运维数据基石。兵马未动,数据先行。数据的收集整合是整个运维工作的基础。大模型训练阶段需要多种类型的数据做支撑。企业可观测系统整合了Zabbix、Prometheus、ELK、Skywalking等存量监控系统,企业统一配置中心融合了各种自动化脚本工具,具备多渠道、高效率的数据收集能力,将基础资源层、平台层、应用层等各级基础配置、系统和应用运行日志、监控指标、链路信息、运维知识库等纳入管控范围,稳定支撑了几万余分区的运维数据收集。
🌟🚀领域大模型以问题为核心,通过深度分析海量数据并持续优化预处理流程,减少冗余干扰,挖掘关键运维指标。它针对传统规则或机器学习的告警体系,提供创新建议,实时调整算法,提升告警精准度。每一份预警通知都附带解决策略,实现一站式“管家式”服务,全面整合数据,呈现全局视角。🎯📊
2.全链路可观测,精准排除系统故障。全域覆盖,动态感知。AGI运维框架以企业可观测系统和企业统一配置中心为基础,以领域大模型和算法库为驱动,从系统架构、网络拓扑、应用程序等多维度开展链路级的聚合分析以及故障分析诊断。采用关键路径埋点、故障链路染色,将收集到的大量基础数据串联,并开展多轮次的模型训练和参数调整,结合链路中的多源历史数据建立应用程序的运行状态的基准画像。将业务集群中的实时链路数据动态与应用的基准画像进行基线匹配,并对故障信息进行上报,实现了业务链路脉络张力的透明化,使“链路即服务”“故障即发现”变得触手可得,为系统和应用的精准排障提供了智慧“双眸”。
🌟故障解密大师,🔥模型升级之路 🌸通过深度分析关键链路的痛点,🤔异常指标下的秘密,以及那些珍贵的日志片段,我们的故障诊断模型犹如春泥中的花朵,默默地转化成知识的养分。🌱它会自我审查,从每个故障链路的细节中汲取教训,就像春风吹过,带走旧伤,留下智慧。📊报告生成后,这些总结将被精心整理,存入待处理清单,等待专家的眼睛来验证其准确性。每一份详尽的故障总结报告,都是一次知识的升华,一旦通过严谨的审查,它们就会被安全地转移到知识库中,成为模型优化的宝贵基石。🛡️在那里,它们会不断循环,为提升诊断能力提供源源不断的动力。让我们一起见证这个过程,让每一次问题的解决都成为模型成长的足迹,迈向更精准、更强大的未来!🚀记得关注我们,获取更多关于故障分析和智能迭代的深度洞察哦!💪
3.变更实施控制,实现流程高效敏捷管理。围绕“安全、敏捷、高效”原则,对变更、应急、服务请求等进行简化和灵活性改造,建立适用于云原生环境下的轻量级、便捷式流程。AI通用大模型、垂直领域大模型与机器人流程自动化(RPA)、自动化工具等结合,能够实现变更配置和部署流程的自动化。模型通过收集和分析系统配置信息、环境要求和应用程序的特性,生成适用于特定环境和应用程序的配置文件,并对配置文件进行验证。基于系统配置信息和部署策略,生成自动化部署计划,包括步骤、顺序和依赖关系。根据生成的部署计划,自动化工具执行配置文件的分发和应用程序的部署。在部署或变更完成后,执行验证步骤,如果发现问题,根据事先定义的回滚策略,自动还原到先前的可用状态,实现智能运维下变更流程和实施“道法自然”效果。
智能变更流程如图3所示,通过输入用户变更信息描述,通用大模型分解变更任务,并分发至领域大模型进行子任务的并发执行,通过约束大模型的输出内容,链接不同的企业工具如数据库、搜索工具、RPA系统等进行实时信息获取和任务执行,任务完成后将相关信息反馈至变更负责人或落盘记录,方便后续审查。
图3 智能变更流程
4.智慧运营,为运维提供决策支持。运筹帷幄,决胜千里。AGI运维框架的智能服务层通过“一对一”对话式方式让系统运维变更简单,能够结合全局信息提供更合理的决策支持。在系统资源分配方面,模型通过分析系统运行数据,预测未来的资源需求,实时响应用户需求,辅助运维团队制定资源分配和扩容的计划,真正做到云资源使用的自主感知和弹性伸缩。为有效应对网络威胁攻击,应用AGI模型辅助设计与生成针对多云环境下的网络安全防护体系和漏洞疏堵策略。基于网络巡检、故障诊断等报告,配合全面的流量采集、蜜罐管控、访问控制等多重防御手段和合理的模型提示词,打穿不同系统和应用间壁垒与隔阂,生成安全防御报告并统一纳管至安全运营中心,构建立体化、纵深防御的网络安全体系,实现安全防御策略的智能分析和决策。
不谋全局者,不足谋一域。中国银行拥有多地多中心的生产和测试的数据机房,基于通用和行业领域构建的多模型融合的AGI运维框架,能够让运维工程师足不出户可以获取到准确的运维指引,高效完成多地多中心协同运维任务。
问题和挑战
AIGC大模型在运维领域已经崭露头角,但在实际应用中,仍面临一些不容忽视的挑战。
1.内容不确定性。基于大模型生成的内容可能受到训练数据质量或数量的限制,以及模型可靠性的影响,导致生成的内容存在偏差或错误,需要利用大模型应用框架调试Prompt以优化其生成能力,如Json格式的输出约束。
2.隐私和安全问题。银行的业务系统涉及大量的敏感信息和关键数据,需要采取相应的安全措施和隐私保护措施,如RLHF模型对齐、模型前置和后置的生成安全内容检测,以防止未经授权的访问和数据泄露。
3.用户信任度考验。大模型的决策过程通常是不透明的,可能会引发关于其决策的解释和信任的问题,需要经过时间和效果的考验才能得到用户的接受和信任。
总结与展望
未来,新时代带来了新机遇和新挑战。随着AIGC技术的应用场景不断被发掘,业界也涌现出了诸多大模型框架,陆续覆盖了代码开发、系统安全等领域。中国银行软件中心将继续深耕AIGC技术研究工作,将其打造成为测试和运维人员进行根因分析、故障排除与预测、系统迭代与优化的首选手段,同时积极关注业界AIGC技术及开源社区发展动态,挖掘该技术在银行业反洗钱、智能投顾、黑灰产业欺诈分析等多种场景下的落地应用,为业务的安全、稳定、效率运行提供坚实的环境保障。
(此文刊发于《金融电子化》2024年1月上半月刊)返回搜狐,查看更多
责任编辑:
AI时代,掌握AI大模型第一手资讯!AI时代不落人后!
免费ChatGPT问答,办公、写作、生活好得力助手!
扫码右边公众号,驾驭AI生产力!