把 AI 能力接入真实业务,覆盖排障、预警、配置、值班、数据查询和风险识别等场景。
candidate_profile.yml
name: 焦宁波
target:
- AI Agent 工程化
- 业务系统对接 / AgentOps
- 全栈开发 / 架构治理
focus:
- 私有模型与内部 Provider
- Agent 工具链与权限治理
- 业务预警与自动化流程
- 云基础设施与生产稳定性
Hermes 二次开发、OpenClaw 集成、vLLM 私有部署、业务预警、AI 风控和高可靠触达。
Java 架构底子扎实,同时覆盖 Python、Go、React、Vue、Node.js、K8s、中间件和模型服务。
能从业务问题拆到方案、工具、权限、监控和复盘,推动复杂系统持续演进。
近三年核心工作主线
围绕 AI Agent 落地、业务系统对接、全栈开发和基础设施治理,形成可以复用到新业务中的能力组合。
Agent 落地
做过 Hermes 二次开发、内部 Provider 接入、Skill / Tool 封装、聊天渠道接入、权限边界和数据安全校验。
业务对接
将预警、配置、值班计划、数据查询、风控分析等业务能力封装成 Agent 可调用工具,并设计权限和操作边界。
全栈开发
Java 精通,Python、Go、React、Vue、Node.js 可独立落地,能完成从业务建模到页面、接口、工具和部署的交付。
基础设施
具备 K8s、CI/CD、ZooKeeper、消息、缓存、模型服务和生产稳定性经验,参与过不停机升级与重大事故恢复。
从模型到底层治理的业务闭环
模型服务提供能力底座,Agent 平台组织工具调用,业务系统承接场景,治理机制保障安全与稳定。
代表项目与经验脉络
通过这些项目,可以了解我在 Agent 平台、业务系统对接、私有模型、业务预警、智能风控、生产应急和云原生治理上的实际参与方式。
AI Risk Control · 区块链金融
区块链金融智能风控系统
面向账户安全、交易风险、用户异常行为和潜在攻击场景,建设 AI 辅助的智能风控能力。 这类项目对企业最直接的价值是:提前发现风险、减少人工排查、让风险事件从“散落在日志和业务链路中”变成“可追踪、可解释、可处置”。
行为分析
AI 辅助判断
风险聚合
异常暴露
展开项目细节
项目背景
区块链金融业务天然面对账户盗用、异常访问、交易风险、批量攻击、异常触达等问题。传统规则能覆盖一部分明确风险,但对组合型、隐蔽型、状态变化型风险识别不足。
技术思路
- 整合用户状态、访问特征、业务行为、触达链路和风险事件数据。
- 将分散异常信号沉淀为统一风险事件,支持追踪、分析、复盘和处置。
- 结合 AI 能力辅助完成异常行为分析、风险解释和策略优化。
- 与内部预警、短信、邮件、业务通知链路联动,形成风险发现到处置的闭环。
负责范围
- 参与整体架构设计和核心能力建设。
- 负责异常行为识别、风险聚合、风险暴露相关能力设计。
- 推动风控结果与预警系统、触达链路和业务处置流程联动。
项目价值
让风控从单纯规则判断升级为规则、行为分析和 AI 辅助判断结合,提升异常行为发现效率,降低人工排查成本,为金融业务安全和用户资产保护提供基础能力。
AI Agent Platform · 数据安全
企业级 AI Agent 平台二次开发与敏感数据分析体系
基于 Hermes 进行二次开发,接入公司内部 AI 模型 Provider,使敏感业务数据可以在内部模型环境中完成分析整理, 避免使用第三方 API 暴露核心数据,并通过聊天渠道让研发和业务人员在 App 端随时获取排障和数据支撑。
Hermes 二开
内部 Provider
Skill / Tool
权限边界
展开项目细节
项目背景
公司内部排障、数据分析、业务状态查询都需要访问敏感数据。直接接第三方大模型 API 成本低,但存在核心数据泄漏、权限越界、调用不可控等风险。
技术思路
- 接入内部 AI 模型 Provider,统一内部模型调用方式。
- 将排障分析、数据审查、业务状态查询封装为 Skill / Tool。
- 接入聊天渠道,让 App 端可以随时查询关键数据支撑。
- 在模型调用、数据访问、命令执行链路增加权限控制和安全校验。
负责范围
- 负责 Hermes 二次开发方案设计和核心能力落地。
- 设计数据审查、权限校验、命令执行安全控制等机制。
- 推动常见排障、数据分析、业务状态查询能力 Skill 化。
- 支持团队在问题排查中快速获取业务上下文和辅助分析结果。
项目价值
把 AI 从“个人工具”变成“企业内部可治理的平台能力”,在保障数据安全的前提下提升线上问题排查、数据查询和异常分析效率。
AgentOps · ChatOps
AI Agent 驱动的业务预警与运维自动化系统
推动预警系统、值班系统、配置管理等业务能力与 OpenClaw / Hermes 集成。 研发和业务人员可以通过 Slack 中的 OpenClaw 机器人完成预警配置修改、值班计划调整和业务状态查询。
OpenClaw
Slack Bot
配置修改
值班计划
展开项目细节
项目背景
预警配置和值班计划这类操作频繁、紧急、又需要权限边界。传统后台页面操作链路长,依赖熟悉系统的人处理,不利于快速响应。
技术思路
- 将预警配置、值班计划、通知策略封装为 Agent 可调用工具。
- 通过 Slack 机器人承接自然语言或指令化入口。
- 在 Agent 调用业务能力时增加权限校验、参数校验和操作安全边界。
- 将后台操作流程沉淀为可审计、可复用的 Agent 工作流。
负责范围
- 推动内部业务系统与 OpenClaw / Hermes 集成。
- 设计业务能力 Tool 化的接口边界、参数规范和权限校验机制。
- 参与预警系统与 Agent 平台联调、测试和落地推广。
项目价值
降低业务系统操作门槛,提升预警配置和值班调整响应效率,推动内部系统从传统后台操作向 ChatOps / AgentOps 演进。
LLM Infra · 私有化部署
大模型私有化部署与内部模型服务建设
基于 Ubuntu 服务器和 vLLM 搭建内部大模型推理服务,支持多模态模型、量化模型和定制化模型部署,为 Agent 平台、智能风控、数据审查和排障分析提供模型底座。
vLLM
Ubuntu
RTX 5090
多模态
展开项目细节
项目背景
内部 AI 场景涉及敏感业务数据,需要兼顾数据安全、响应速度、成本控制和定制化能力,不能完全依赖外部大模型服务。
技术思路
- 基于 Ubuntu + vLLM 搭建内部推理服务。
- 使用 PRO 9000、RTX 5090 等 GPU 资源部署和维护模型。
- 部署千问系列多模态模型、量化模型及内部定制模型。
- 为内部 Provider、Skill、Agent 平台和业务应用提供统一模型能力。
负责范围
- 负责模型服务搭建、模型部署、版本更新和稳定性维护。
- 处理模型运行、资源占用、服务异常等问题。
- 参与模型能力评估、性能调优、资源管理和推理成本优化。
项目价值
降低对外部模型服务的依赖,提升敏感业务场景下的数据安全性,为内部 AI 应用提供可控、可维护的模型底座。
Alerting · APNS / VoIP
内部业务预警与高可靠触达系统
针对短信、邮件和三方电话触达弱、时效性不足、电话频繁呼叫被供应商拦截等问题,设计内部预警系统,提供业务侧 SDK、服务端 Server 和业务定制客户端通知能力。
业务 SDK
APNS
VoIP Push
触达链路
展开项目细节
项目背景
高优先级业务事件依赖短信、邮件和三方电话触达,但实际场景里会遇到触达弱、响应慢、电话频繁呼叫被拦截等问题。
技术思路
- 设计业务侧 SDK,降低业务系统接入预警能力的成本。
- 设计服务端 Server,统一管理预警事件、通知策略、发送链路和状态追踪。
- 基于 APNS 与 VoIP Push 建设高优先级通知链路。
- 与短信、邮件、电话形成互补,提升整体通知可靠性。
负责范围
- 负责架构设计与核心开发。
- 负责业务侧 SDK、服务端 Server 和客户端通知链路设计。
- 推动预警链路与 Agent 平台、值班计划和配置系统联动。
项目价值
提升关键业务预警的触达能力和实时性,降低对单一短信、邮件或三方电话供应商的依赖。
Incident Response · 统筹恢复
黑客攻击后的全线业务恢复与安全加固
公司核心服务遭遇黑客攻击并导致全线停摆后,主导恢复工作。这个项目能看到的不只是单点技术,而是在高压生产事故中的判断、协调、临时方案设计和问题闭环经验。
应急恢复
优先级判断
跨团队协调
复盘加固
展开项目细节
当时的问题
攻击导致全线服务停摆,现场信息不完整,业务压力高,需要快速判断恢复路径,同时避免在不确定状态下扩大影响。
处理方式
- 快速梳理核心服务依赖关系,明确恢复优先级和关键链路验证方案。
- 协调研发、运维、安全和业务团队推进恢复计划。
- 拆分任务、同步风险、持续校准恢复节奏。
- 设计临时处置方案,保障关键业务先行可用,再推进完整链路恢复。
负责范围
- 主导恢复计划推进和跨团队沟通。
- 参与基础设施、服务配置、数据链路和部署环境排查。
- 推动核心服务、基础组件和业务链路逐步恢复。
后续沉淀
推动访问控制、发布流程、监控告警和应急预案优化,沉淀事故复盘与恢复流程,提升团队对重大安全事件和生产事故的响应能力。
Cloud Native · 架构治理
基础架构治理与云原生升级
负责基础架构治理、服务稳定性优化和云原生基础设施升级,参与 ZooKeeper 物理节点迁移、K8s 不停机升级、CI/CD 编排和基础服务组件维护。
K8s
ZooKeeper
CI/CD
性能优化
展开项目细节
主要工作
- 参与 ZooKeeper 从容器化部署迁移至物理节点,提升关键基础组件稳定性。
- 参与 K8s 不停机升级,保障业务服务平滑运行。
- 优化 CI/CD 流程编排,提高服务发布效率和可控性。
工程提效
- 维护和定制化开发基础服务组件。
- 参与核心服务性能分析、瓶颈定位和优化。
- 使用 Go、Python 编写自动化工具,辅助运维、排障和内部提效。
早期项目:Java 架构底子和复杂业务经验
这些项目支撑了后续做 AI Agent 工程化的基础:业务建模、分布式系统、高并发、数据迁移、稳定性和团队协作。
火花微服务架构重构升级
参与公司从垂直架构向微服务架构演进,负责学习计划、家长端 API、学生端 API、学情等服务拆分迁移。
- 服务代理模式实现无感平滑升级。
- Spring Cloud、Gateway、Apollo、ELK、Grafana、Zipkin。
- 参与千万级数据库无感迁移,提供迁移对比工具。
火花学情中心与学情预警平台
作为项目 Owner 协调产品、前端、后端、大数据、数据科学、测试等团队,建设面向教研、老师、家长的学情分析体系。
- 课堂行为与教学事件数据采集。
- 分库分表、宽表、分布式缓存、延时队列。
- 设计采样算法减少无效数据上报,开发课堂事件模拟测试工具。
课堂直播容灾 MVP 方案
参与核心课堂业务高可用容灾体系建设,在后端服务异常或极端场景下保障课堂核心能力可用。
- RocketMQ 解耦,Sentinel 熔断降级。
- 分布式缓存 + 本地文件缓存保障数据可用。
- 参与灾难演练并沉淀操作手册。
Galaxy 高性能 API 基础服务
通过核心业务重构、数据结构优化、索引优化、并行调用和缓存设计,支撑火花用户高峰访问。
- RocketMQ 解耦,快慢队列处理 MQ 堆积影响。
- Prometheus + Grafana 监控 JVM 和 API 性能。
- 推动 Yapi 成为前后端协作基础工具。
Jarvis AI 课课堂服务
负责 AI 学习计划、直播课补课、课堂奖励和课前提醒等能力,支撑 AI 课业务增长。
- 补充直播课缺课补课场景。
- 自研 AiGameServer 后续支撑大规模同时上课。
火花思维排课系统
参与教师、班级、课堂资源调度系统开发,处理教师档期、授课范围、请假销假、课堂创建、教师分配等能力。
- 支撑教师、学员、直播间等多资源动态调度。
- 根据业务反馈持续排查和优化核心流程。
工作经历
北京乾晖荣曜科技 · 架构师 / 高级架构工程师
负责区块链金融业务中的核心系统架构治理、基础组件建设、CI/CD 流程优化、性能优化、云原生升级及 AI 工程化落地。2023 年后重点推动 AI Agent、业务系统对接、私有模型服务、业务预警、智能风控和 ChatOps / AgentOps 落地。
火花思维 · Java 高级工程师 / 架构预备役
团队早期核心研发成员,参与多个核心系统从零到一建设,经历在线教育业务从垂直架构到微服务、高并发、高可用体系的演进。
业英众娱科技 · Java 中级工程师
负责 APP 后台接口开发、项目基础框架搭建、数据库设计、业务逻辑实现、服务器维护和团队开发任务推进。
蓝波今朝科技 · Java 工程师
参与国家统计局数据查询平台、中船重工 76 所档案管理平台等项目,负责代码实现、调试、测试、维护和开发文档编写。
技能栈与能力边界
AI Agent 工程化
Agent 平台建设、Provider 接入、工具调用、Skill 体系、命令编排、聊天入口集成、权限校验、安全边界和企业内部 AI 能力分发。
大模型部署与应用
vLLM、私有化模型部署、多模态模型、量化模型、GPU 推理服务维护、模型能力评估、性能调优和模型服务接入。
后端架构
精通 Java、Spring、Spring Boot、Spring Cloud、MyBatis,熟悉高并发、高可用、微服务治理、消息队列、缓存和分布式系统。
全栈开发
熟悉 React、Vue、Node.js,能独立完成从前端页面、后端服务、接口设计到部署交付的全链路开发。
多语言与自动化
精通 Java,熟悉 Python、Go,可用于内部工具、自动化脚本、提效平台、服务端开发和临时问题处理。
云原生与中间件
K8s、CI/CD、ZooKeeper、RocketMQ、Kafka、Redis、MySQL、MongoDB、SQL Server、监控告警、性能优化和基础组件治理。
开源、荣誉与教育
开源与其他项目
- Easy-Gray:nacos 版本通用灰度发布组件。
- 极客时间高级 Java 工程师课程:参与体系架构 Review 和实战项目案例编写。
- 领克汽车早安推送:为运营团队开发自动化早安问候工具。
- 影视小红帽导航:为影视剪辑学习社群开发素材与工具导航页。
荣誉与教育
- 2021 年 火花思维【超能战队】奖
- 2020 年 火花思维进步之星奖
- 2019 年、2018 年 火花思维金苹果奖
- 山西机电职工学院 · 本科 · 计算机科学与技术 · 2009.09 - 2013.07
持续拥抱 AI,不给自己设置上限,把复杂问题做深做透,推动真正有价值的事情向前。
期待加入一个能把技术、产品和业务长期打磨成事业的团队。