【IT168评论】随着人工智能技术的飞速发展,特别是大语言模型DeepSeek异军突起,为可观测性领域带来了全新的思路和机遇。传统的可观测性主要依赖于规则引擎和简单的数据处理方法,在面对复杂多变的系统架构和海量数据时,逐渐暴露出效率低下、分析深度不足等问题。而 DeepSeek 凭借强大的自然语言处理能力、推理能力,有望打破这些困境,推动可观测性体系向智能化、自动化方向迈进。
近日,《IT风向标》系列直播栏目推出特别策划——“DeepSeek驱动可观测性变革,解锁运维与AI融合新玩法”,特别邀请了在可观测性领域有着丰富经验的专家博睿数据产品总监贺安辉,以及亚马逊云科技User Group可观测性UGL邓添,共同探讨DeepSeek在可观测性体系建设中的应用前景及其带来的变革。
从运维提效到 LLMOps,DeepSeek铺就大模型可观测性进阶之路
贺安辉率先开讲,深入浅出地阐述了大模型服务成本锐减背景下,企业对大模型海量数据处理诉求的攀升,以及传统运维在效率、应急响应等方面的短板,由此引出博睿数据借助 DeepSeek 大模型,以可观测性加 AI 为锚,保障大型服务全生命周期可观测能力,助力企业运维升级的实践之路。
博睿数据锚定私有化大模型场景,致力于让大模型精准运用领域知识,实现高效率、高精准度且不易察觉幻觉的推理。贺安辉直面数据治理与模型安全的双重挑战,指出私有云环境下数据规范性受限、数据孤岛林立、合规要求严苛,算力资源平衡难题以及存量工具技术债等问题,深刻剖析痛点。
为攻克私有化大模型可观测性缺失难题,博睿数据构建全链路监控体系,覆盖训练、推理、输出三大阶段。训练阶段紧盯资源消耗,推理阶段全链路追踪定位问题,输出阶段聚焦输出质量与延迟,借由可视化仪表板呈现核心指标,让模型迭代效率与故障恢复速度显著腾飞。
针对根因定位难题,博睿数据摒弃传统依赖专家经验的模式,构建知识图谱关联关系,依托 AI 实现多轮问答辅助决策、强化学习训练、全自动闭环决策三步走战略。多轮问答中,智能助手剖析服务接口响应时间上升问题,精准定位异常线索;强化学习下,基于知识图谱自动更新定位,自动收敛异常现象并深度分析;知识图谱赋能,还原更新定位全过程,极大提升运维效率。
大语言模型还催生自动生成查询语言能力,大幅提效数据查询。日常图表创建、告警配置、报告生成等繁琐工作,皆能通过自然语言交互生成复杂查询语句与 API,极大节省人力。
着眼运维被动困境,博睿数据布局自动巡检与修复建议生成。定时巡检策略揪出合规隐患、异常现象,自动生成报告,依托动态基线清晰染色呈现问题,实现主动防御,减少故障发生。
贺安辉总结道,以上举措助力成本节约超 70% 人工工时,借助自动化知识图谱定位与多轮问答,MTTR 时间大幅缩短,风险规避能力显著增强。博睿数据身为上市 APM 领军企业,以独家无监督知识图谱更新分析、全托管自适应智能告警等技术,为超 1000 家头部客户提供稳定运维服务。
基于DeepSeek的AIOps探索与实践
邓添阐述了亚马逊云科技 User Group 架构与使命,聚焦大模型与 AIOps 发展,剖析 DeepSeek 优势,展开分级探索实践,并分享亚马逊云科技 cloudwatch 服务案例。
邓添明晰 AIOps 本质 —— 利用 AI 技术提升 IT 运营自动化水平,从手工运维迈向自主运维、智能化运维。DeepSeek 凭借权重开源、商用许可、低成本 API 供应等优势,以及亚马逊云科技等云供应商托管服务,为 AIOps 发展铺路。
在 AIOps 平台构建中,邓添倡导分级探索。初级阶段搭建 RAG 问答助手,集成私有数据知识库,打造故障排查与质量控制助手;中级阶段开发跨平台 agent,对接不同平台,实现信息交互与资源整合;高级阶段布局多模型协同,结合异常检测模型与大语言模型,探索自主运维 agent,模拟运维人员操作流程,结合搜索、脚本抓取数据完成任务。
案例分析环节,邓添剖析亚马逊云科技 cloudwatch 服务 AIOps 功能。运维人员于 cloudwatch 控制台创建调查,向 AMAZON Q 提问,获取指标与异常分析,依建议行动点配置 runbook,实现自动化运维操作,显著提升运维效率。
圆桌讨论:多维度剖析DeepSeek驱动可观测性变革
讨论环节,针对多模态数据联合分析挑战,贺安辉主张将日志、指标、分布式追踪数据转化为文本,定义数据模型关联关键信息,使大语言模型理解数据间关系;邓添则提出借助传统算法预处理数据,基于时间戳、request id 等标签关联多模态数据,展望未来数据转化通用形式喂给大模型。
论及可信度评估体系构建,邓添参照运维评估标准 ops rubric,按业务级别分级,低级别系统更多信赖 AI,关键系统人工二次验证;贺安辉则注重透明化 AI 推理过程,记录关键节点,可视化呈现推导过程,助力用户反向验证,驱散黑箱疑云。
谈及少样本异常检测技术冲击,贺安辉肯定其减少人员标注成本、提升效率优势,理论上少量标注与语言信息学习可迁移知识,达成出色输出;邓添认为大语言模型与传统统计方法互补,大数据量场景先用传统算法分析,再借大语言模型总结归纳,突破语义理解局限可依赖微调融入私有数据。
面对多智能体运维场景资源冲突隐患,邓添提出融合传统资源调度算法、博弈论强化学习拍卖模型等优化局部策略;贺安辉认同此观点。
最后,贺安辉畅想将可观测性中台多模态数据分析能力抽象为通用框架,以 DeepSeek 语料输入与领域知识沉淀,融入智能问答、配置效率提升等场景,赋能其他实时决策场景;邓添对此未予补充。
结束语
本次沙龙深入探讨 DeepSeek 在可观测性领域应用,明晰其为运维赋能路径。未来,随着技术演进与实践深耕,DeepSeek 势必解锁运维与 AI 融合更多新玩法,推动运维迈向智能化、自动化新高度,为数字时代企业运维升级注入源源不断的 AI 动能,让我们拭目以待这场技术变革催生的无限可能。