← → 翻页 · ESC 索引
Internal Sharing · 2026.04
Vol.01
技术分享 · 内部汇报

智能统计与分析

智能统计与分析

让每个人都能用一句话,从数据中找到答案。

高峰·2026年4月26日
一场关于 AI · 数据 · 效率的分享
— 2026 —
现状分析 · The Problem
Act I · 02 / 24
痛点 · 传统统计的困境

为什么要做这件事

先看数据,再谈方案。

平均等待时间
2.5
从提需求到拿到报表
SQL 开发人力
4
全职处理数据查询
月度查询量
320+
且每月增长 15%
自助分析率
< 12%
非技术人员占比极低
返工率
35%
需求理解偏差导致
数据利用率
< 8%
沉淀数据被查询的比率
智能统计 · 现状基线数据
Act I · The Problem
破局 · The Shift
03 / 24
BUT

不是所有人都会 SQL。

但所有业务人员都知道自己想要什么数据。问题在于——中间的翻译层太慢了。

"如果业务人员能用自然语言直接查数据,
整个团队的决策速度会快一个数量级。"
— 内部调研访谈总结
传统数据查询流程示意
传统流程 · 业务 → 数据 → SQL → 报表
Page 03 · 不是所有人都会 SQL
— · —
智能统计与分析 · 核心流程
04 / 24
Pipeline · 流水线

自然语言如何变成 SQL

第一阶段 · 理解与解析
01
意图识别
理解用户的真实查询目的
02
实体抽取
识别表名、字段名、条件值
03
歧义消解
多义澄清、缺省填充、上下文补全
第二阶段 · 生成与校验
04
Schema 映射
匹配数据库元数据与表结构
05
SQL 生成
大模型生成可执行 SQL 语句
06
安全校验
权限检查、只读保护、结果验证
Page 04 · 智能统计与分析 核心流程
智能统计与分析 Pipeline
第二幕 · 技术架构
Act II · 05 / 24
Act II

技术架构

从意图到数据,每一步都精确可控。

第二幕 · 技术架构
— · —
对比 · The Shift
06 / 24
Before / After · 范式转变

从人工到智能

Before · 旧模式

人工翻译 · 手工编码

  • 业务人员提需求,等待数据团队响应
  • 数据工程师手工写 SQL,反复沟通对齐
  • 需求变更导致返工,周期长、效率低
  • 数据查询能力集中在少数技术人员手中
After · 新模式

自然语言 · 即时响应

  • 任何人用自然语言描述查询意图
  • AI 自动理解、映射、生成可执行 SQL
  • 实时反馈、多轮对话、结果可视化
  • 数据能力民主化,决策链条大幅缩短
Page 06 · 从人工到智能
Before / After
架构 · Architecture
07 / 24
Phase 01 · 核心模块

三层架构设计

自然语言理解层、SQL 生成引擎层、数据执行与安全层,三层解耦,每层独立优化。

理解层:大模型驱动,负责意图识别与实体抽取,结合业务词典提升准确率。

生成层:Schema-aware SQL 生成,支持 JOIN、子查询、聚合,自动处理方言差异。

执行层:只读沙箱、权限校验、查询超时保护、结果缓存加速。

"三层解耦,让每一层都可以独立迭代,
互不影响。"
— 架构设计原则
三层架构示意图
三层架构 · 理解 · 生成 · 执行
Page 07 · 三层架构设计
Architecture
技术路线 · Tech Routes
08 / 24
三条路线 · 为什么选 LLM

技术路线对比

NL2SQL 有三条主流技术路线,我们选择了最适合当前场景的方案。

A
模板匹配
预定义 SQL 模板
按关键词匹配填空
  • 简单查询覆盖率高
  • 无法处理复杂 JOIN
  • 维护成本随模板增长
  • 扩展性差
B
语法解析
NLP 句法分析 +
规则引擎生成 SQL
  • 准确率高于模板法
  • 需要大量标注数据
  • 规则维护复杂
  • 泛化能力有限
✓ 我们的选择
C
LLM 驱动
大语言模型 +
Schema 感知生成
  • 复杂查询覆盖率高
  • 零样本泛化能力强
  • 持续学习、少维护
  • 支持多轮对话消歧
Page 08 · 技术路线对比
Three Routes
技术选型 · Stack
09 / 24
Phase 02 · 模型与框架

核心模型选型

综合考虑精度、成本、响应速度,我们选择了混合模型策略。

主模型:GPT-4o / Claude 3.5 Sonnet — 处理复杂查询、多表 JOIN、嵌套子查询。准确率最高。

辅助模型:Qwen 2.5 72B — 处理简单查询、成本优化场景。响应速度快。

本地微调:在内部数据上微调开源模型,用于高频查询场景,降低延迟。
LangChain
LangSmith
SQLAlchemy
Vanna AI
模型选型对比
模型对比 · 精度 vs 成本
"主模型保证质量,辅助模型控制成本,
两者通过智能路由切换。"
— 模型策略
Page 09 · 核心模型选型
Model Stack
部署 · Deployment
10 / 24
Phase 03 · 部署与安全

部署架构与安全设计

请求链路
01
Web UI
用户输入自然语言查询
02
API Gateway
认证、限流、请求分发
03
智能分析引擎
模型推理 + SQL 生成
04
DB Proxy
只读代理 + 结果返回
安全策略
05
RBAC 权限
按角色控制表级访问权限
06
SQL 审计
禁止 DDL/DML,仅读权限
07
查询保护
超时限制、结果行数限制
08
日志审计
全量记录、可追溯
Page 10 · 部署架构与安全
Deployment
效果 · Results
11 / 24
上线后的变化

数据说话

对比上线前后的核心指标变化。

响应时间
↓ 85%
从天级到分钟级
自助查询率
↑ 73%
业务人员自主查数
SQL 准确率
92%
Spider Benchmark
需求返工率
↓ 70%
意图理解更精准
节省人力
2.5
释放数据团队精力
日活用户
48
非技术人员占比 80%
Page 11 · 上线后核心指标
Results · Data
第三幕 · 自主洞察
Act III · 12 / 24
Act III

自主洞察

不只是回答问题,而是主动发现问题。
从「你说我查」到「我查我告诉你」。

第三幕 · 自主洞察
— · —
图表生成 · Auto-Chart
13 / 24
Phase 01 · 智能图表

AI 自动选图 · 一图胜千言

用户只需描述数据需求,AI 不仅生成 SQL,还自动选择最佳可视化方式——折线图、柱状图、散点图、热力图,根据数据特征智能匹配。

自动图表类型选择
自适应配色
交互联动
AI自动图表生成示意
智能图表 · 数据到视觉的自动转换
"不需要懂可视化原理,
描述数据,AI 帮你画出最佳图表。"
— 图表引擎设计理念
Page 13 · AI 自动图表生成
Auto-Chart Engine
规律发现 · Pattern Discovery
14 / 24
Phase 02 · 规律与趋势

AI 如何发现数据中的规律

超越人类直觉,系统性地扫描数据空间。

趋势预测
时间序列分析、同比环比、季节性分解,自动识别增长/衰减趋势,预测未来 30/60/90 天走向。
异常检测
统计离群点检测、同群对比偏差、阈值漂移告警,主动发现数据异常并推送通知。
关联分析
多变量相关性挖掘、隐性因果关系推断、交叉维度下钻,发现业务变量之间的隐藏关联。
自动扫描维度
50+
覆盖核心业务表
日均发现
12
有效业务洞察
推送准确率
87%
人工确认有效占比
Page 14 · 规律与趋势发现
Pattern Discovery
决策支持 · Decision Support
15 / 24
Phase 03 · 从洞察到行动

决策支持依据的发现

洞察不是终点, actionable 的建议才是价值所在。

决策支持链路
01
数据感知
持续监控关键指标变化
02
异常识别
偏离基线时自动告警
03
归因分析
定位影响因子与根因
04
建议生成
输出可执行的行动建议
Case · 真实洞察案例

销量异常洞察

AI 发现某产品线在特定区域连续 3 周销量低于预期 23%,归因为竞品促销 + 渠道库存不足。自动建议:调整区域定价策略 + 补货优先级提升。

发现耗时·0.3 秒

用户流失预警

通过行为序列分析,识别出 1200 名高价值用户出现活跃度下降模式,关联发现与功能改版后的操作路径变化高度相关。建议:推送定向引导 + 优化关键流程。

影响用户·1,200 人
Page 15 · 决策支持依据发现
Decision Intelligence
多轮对话 · Multi-Turn
16 / 24
Phase 04 · 对话式交互

多轮对话是如何工作的

一次查询不够精准?没关系,AI 和你聊到满意为止。

对话引擎架构
01
上下文记忆
维护会话状态,保留前 5 轮查询上下文和结果摘要
02
指代消解
理解"它""上个月""同区域"等代词和相对时间表达
03
意图延续
识别"再拆分一下""换个维度"等细化意图,自动追加条件
04
主动澄清
当意图不明确时,AI 反问确认,而非猜测出错
核心能力
自然追问
"华东区呢?" "换成按月份看" "和去年同期比" —— 口语化的连续追问,无需重复上下文。
分支探索
从一条查询出发,衍生多条对比路径。A 线看销量、B 线看利润,并行分析不丢失。
会话沉淀
有价值的查询链自动保存为分析模板,团队可复用,形成知识资产。
Page 16 · 多轮对话机制
Multi-Turn Engine
对话实录 · Live Demo
17 / 24
真实对话 · 6 轮对话完成一次深度分析

一次完整的对话分析

从模糊意图到精准洞察,全程自然语言。

R1

"上个月各区域的销售额情况"

已查询 3 月各区域销售额。华东 1,280 万最高,西北 320 万最低。

R2

"华东区呢?和去年同期比怎么样"

华东区 2026.03 为 1,280 万,同比 +11.3%

R3

"拆分一下产品线"

A 类 +18.2%,B 类 +3.1%,C 类 -2.5%。A 类是增长主驱动力

"6 轮对话,从模糊意图到精准归因——
不需要任何 SQL 知识,全程用自然语言完成。"
— 对话引擎 · 实测记录
Page 17 · 真实对话分析实录
Live Conversation
洞察推送 · Insight Push
18 / 24
Phase 05 · 主动发现

不让数据等你提问

系统持续扫描核心指标,当发现异常模式或机会窗口时,主动推送洞察报告。

定时巡检
每日凌晨扫描 50+ 核心指标基线,生成日报
SCHEDULED
实时告警
关键指标偏离 2σ 即时推送,秒级响应
REALTIME
机会发现
挖掘增长拐点、交叉销售机会,主动建议
PROACTIVE
洞察推送体系示意
洞察推送 · 定时 + 实时 + 主动
"最好的查询,
是用户还没有想到的那一个。"
— 洞察引擎设计哲学
Page 18 · 洞察推送体系
Insight Delivery
多模态查询 · Multimodal
19 / 24
Phase 06 · 多模态输入

不止于文字

说话、拍照、截图——用你最自然的方式向数据提问。

语音查询:ASR 语音识别 → 智能分析引擎 → 结果语音播报,全程无需打字。

截图提问:截取报表/图表,AI 理解图表语义,自动追问深层原因。

拍照问数据:拍下白板上的数据、屏幕上的报表,AI 自动 OCR + 查询。

Whisper ASR
GPT-4o Vision
OCR 识别
多模态查询示意
多模态查询 · 语音 + 图像 + 文字
"你不需要学会写 SQL,
甚至不需要学会打字。"
— 多模态设计理念
Page 19 · 多模态查询
Multimodal Input
自主 Agent · Autonomous
20 / 24
Phase 07 · 自主 Agent

从被动响应到主动执行

AI 不再等待你的指令,而是自主完成数据巡检、报告生成和预警推送。

Agent 自主工作流
01
定时巡检
按计划扫描核心指标,偏离基线时触发分析
02
根因分析
自动下钻多维度,定位异常根因
03
报告生成
自动生成图表 + 文字分析 + 建议
04
推送通知
按需推送给负责人,附行动建议
Agent 能力矩阵
巡检调度
支持 Cron 表达式配置巡检周期。按业务节奏自动调整频率——大促期间加密到每小时。
报告撰写
自动选择图表类型,生成文字摘要。支持周报/月报/专题报告,格式统一、风格一致。
智能预警
基于统计模型和机器学习,动态调整告警阈值。减少误报,提高预警准确性。
Page 20 · 自主 Agent 工作流
Autonomous Agent
Agent 实录 · Live Demo
21 / 24
真实场景 · Agent 自主完成一次巡检

凌晨 2:00 的自动巡检

不需要任何人值守,Agent 自主完成发现→分析→报告→推送的完整链路。

02:00

巡检启动 — 扫描 50+ 核心指标基线

02:03

发现异常 — 华东区 C 类产品销量同比 -18%,超出 2σ 阈值

02:05

自动下钻 — 关联竞品价格数据,发现竞品 A 降价 15%

02:08

生成报告 — 自动创建柱状图 + 同比分析 + 建议文档

02:10

推送负责人 — 企微通知华东区运营经理,附竞品分析和应对建议

"8 分钟,从发现到推送——
全程零人工干预。"
— Agent 实测记录
Page 21 · Agent 自主巡检实录
Agent Live Demo
决策引擎 · Decision Engine
22 / 24
Phase 08 · 闭环交付

从发现问题到自动优化

决策引擎是终极形态——发现异常 → 分析原因 → 生成建议 → 自动执行 → 效果验证,完整闭环。

发现异常
感知
实时监控,偏离基线即时触发
分析归因
分析
多维下钻,定位根因
自动执行
行动
经审批后自动执行优化动作
效果验证
验证
跟踪执行效果,闭环反馈优化
案例 · 自动定价优化

传统流程

  • 发现销量下滑(人工巡检,1-3 天)
  • 分析原因(数据团队查数,2-3 天)
  • 制定策略(运营开会讨论,1 天)
  • 执行调整(IT 改系统,1-2 天)
  • 总耗时:5-9 天

决策引擎

  • Agent 发现异常并归因(8 分钟)
  • 生成定价优化建议(2 分钟)
  • 推送审批给运营经理(即时)
  • 审批通过后自动调价(1 分钟)
  • 总耗时:≈ 15 分钟(含审批等待)
Page 22 · 决策引擎 · 闭环交付
Decision Engine
Takeaway · 核心观点
23 / 24
Quote · 金句
"让数据不再沉睡,
让每个人都能speak to data。"

The best query is the one you don't have to write.

— 高峰·2026.04.26
Page 24 · 核心观点
— · —
智能统计与分析
24 / 24
Thank You

感谢聆听

开放讨论 · 欢迎提问

高峰·2026年4月26日
智能统计 · 自然语言转SQL · 内部分享
— Q & A —