Internal Sharing · 2026.04

Vol.01

技术分享 · 内部汇报

智能统计与分析

让每个人都能用一句话，从数据中找到答案。

高峰·2026年4月26日

一场关于 AI · 数据 · 效率的分享

— 2026 —

现状分析 · The Problem

Act I · 02 / 24

痛点 · 传统统计的困境

为什么要做这件事

先看数据，再谈方案。

平均等待时间

2.5 天

从提需求到拿到报表

SQL 开发人力

4 人

全职处理数据查询

月度查询量

320+

且每月增长 15%

自助分析率

< 12%

非技术人员占比极低

返工率

35%

需求理解偏差导致

数据利用率

< 8%

沉淀数据被查询的比率

智能统计 · 现状基线数据

Act I · The Problem

破局 · The Shift

03 / 24

BUT

不是所有人都会 SQL。

但所有业务人员都知道自己想要什么数据。问题在于——中间的翻译层太慢了。

"如果业务人员能用自然语言直接查数据，
整个团队的决策速度会快一个数量级。"

— 内部调研访谈总结

Page 03 · 不是所有人都会 SQL

— · —

智能统计与分析 · 核心流程

04 / 24

Pipeline · 流水线

自然语言如何变成 SQL

第一阶段 · 理解与解析

01

意图识别

理解用户的真实查询目的

02

实体抽取

识别表名、字段名、条件值

03

歧义消解

多义澄清、缺省填充、上下文补全

第二阶段 · 生成与校验

04

Schema 映射

匹配数据库元数据与表结构

05

SQL 生成

大模型生成可执行 SQL 语句

06

安全校验

权限检查、只读保护、结果验证

Page 04 · 智能统计与分析核心流程

智能统计与分析 Pipeline

第二幕 · 技术架构

Act II · 05 / 24

Act II

技术架构

从意图到数据，每一步都精确可控。

第二幕 · 技术架构

— · —

对比 · The Shift

06 / 24

Before / After · 范式转变

从人工到智能

Before · 旧模式

人工翻译 · 手工编码

业务人员提需求，等待数据团队响应
数据工程师手工写 SQL，反复沟通对齐
需求变更导致返工，周期长、效率低
数据查询能力集中在少数技术人员手中

After · 新模式

自然语言 · 即时响应

任何人用自然语言描述查询意图
AI 自动理解、映射、生成可执行 SQL
实时反馈、多轮对话、结果可视化
数据能力民主化，决策链条大幅缩短

Page 06 · 从人工到智能

Before / After

架构 · Architecture

07 / 24

Phase 01 · 核心模块

三层架构设计

自然语言理解层、SQL 生成引擎层、数据执行与安全层，三层解耦，每层独立优化。

理解层：大模型驱动，负责意图识别与实体抽取，结合业务词典提升准确率。

生成层：Schema-aware SQL 生成，支持 JOIN、子查询、聚合，自动处理方言差异。

执行层：只读沙箱、权限校验、查询超时保护、结果缓存加速。

"三层解耦，让每一层都可以独立迭代，
互不影响。"

— 架构设计原则

Page 07 · 三层架构设计

Architecture

技术路线 · Tech Routes

08 / 24

三条路线 · 为什么选 LLM

技术路线对比

NL2SQL 有三条主流技术路线，我们选择了最适合当前场景的方案。

A

模板匹配

预定义 SQL 模板
按关键词匹配填空

简单查询覆盖率高
无法处理复杂 JOIN
维护成本随模板增长
扩展性差

B

语法解析

NLP 句法分析 +
规则引擎生成 SQL

准确率高于模板法
需要大量标注数据
规则维护复杂
泛化能力有限

✓ 我们的选择

C

LLM 驱动

大语言模型 +
Schema 感知生成

复杂查询覆盖率高
零样本泛化能力强
持续学习、少维护
支持多轮对话消歧

Page 08 · 技术路线对比

Three Routes

技术选型 · Stack

09 / 24

Phase 02 · 模型与框架

核心模型选型

综合考虑精度、成本、响应速度，我们选择了混合模型策略。

主模型：GPT-4o / Claude 3.5 Sonnet — 处理复杂查询、多表 JOIN、嵌套子查询。准确率最高。

辅助模型：Qwen 2.5 72B — 处理简单查询、成本优化场景。响应速度快。

本地微调：在内部数据上微调开源模型，用于高频查询场景，降低延迟。

LangChain

LangSmith

SQLAlchemy

Vanna AI

"主模型保证质量，辅助模型控制成本，
两者通过智能路由切换。"

— 模型策略

Page 09 · 核心模型选型

Model Stack

部署 · Deployment

10 / 24

Phase 03 · 部署与安全

部署架构与安全设计

请求链路

01

Web UI

用户输入自然语言查询

02

API Gateway

认证、限流、请求分发

03

智能分析引擎

模型推理 + SQL 生成

04

DB Proxy

只读代理 + 结果返回

安全策略

05

RBAC 权限

按角色控制表级访问权限

06

SQL 审计

禁止 DDL/DML，仅读权限

07

查询保护

超时限制、结果行数限制

08

日志审计

全量记录、可追溯

Page 10 · 部署架构与安全

Deployment

效果 · Results

11 / 24

上线后的变化

数据说话

对比上线前后的核心指标变化。

响应时间

↓ 85%

从天级到分钟级

自助查询率

↑ 73%

业务人员自主查数

SQL 准确率

92%

Spider Benchmark

需求返工率

↓ 70%

意图理解更精准

节省人力

2.5 人

释放数据团队精力

日活用户

48 人

非技术人员占比 80%

Page 11 · 上线后核心指标

Results · Data

第三幕 · 自主洞察

Act III · 12 / 24

Act III

自主洞察

不只是回答问题，而是主动发现问题。
从「你说我查」到「我查我告诉你」。

第三幕 · 自主洞察

— · —

图表生成 · Auto-Chart

13 / 24

Phase 01 · 智能图表

AI 自动选图 · 一图胜千言

用户只需描述数据需求，AI 不仅生成 SQL，还自动选择最佳可视化方式——折线图、柱状图、散点图、热力图，根据数据特征智能匹配。

自动图表类型选择

自适应配色

交互联动

"不需要懂可视化原理，
描述数据，AI 帮你画出最佳图表。"

— 图表引擎设计理念

Page 13 · AI 自动图表生成

Auto-Chart Engine

规律发现 · Pattern Discovery

14 / 24

Phase 02 · 规律与趋势

AI 如何发现数据中的规律

超越人类直觉，系统性地扫描数据空间。

趋势预测

时间序列分析、同比环比、季节性分解，自动识别增长/衰减趋势，预测未来 30/60/90 天走向。

异常检测

统计离群点检测、同群对比偏差、阈值漂移告警，主动发现数据异常并推送通知。

关联分析

多变量相关性挖掘、隐性因果关系推断、交叉维度下钻，发现业务变量之间的隐藏关联。

自动扫描维度

50+

覆盖核心业务表

日均发现

12条

有效业务洞察

推送准确率

87%

人工确认有效占比

Page 14 · 规律与趋势发现

Pattern Discovery

决策支持 · Decision Support

15 / 24

Phase 03 · 从洞察到行动

决策支持依据的发现

洞察不是终点， actionable 的建议才是价值所在。

决策支持链路

01

数据感知

持续监控关键指标变化

02

异常识别

偏离基线时自动告警

03

归因分析

定位影响因子与根因

04

建议生成

输出可执行的行动建议

Case · 真实洞察案例

销量异常洞察

AI 发现某产品线在特定区域连续 3 周销量低于预期 23%，归因为竞品促销 + 渠道库存不足。自动建议：调整区域定价策略 + 补货优先级提升。

发现耗时·0.3 秒

用户流失预警

通过行为序列分析，识别出 1200 名高价值用户出现活跃度下降模式，关联发现与功能改版后的操作路径变化高度相关。建议：推送定向引导 + 优化关键流程。

影响用户·1,200 人

Page 15 · 决策支持依据发现

Decision Intelligence

多轮对话 · Multi-Turn

16 / 24

Phase 04 · 对话式交互

多轮对话是如何工作的

一次查询不够精准？没关系，AI 和你聊到满意为止。

对话引擎架构

01

上下文记忆

维护会话状态，保留前 5 轮查询上下文和结果摘要

02

指代消解

理解"它""上个月""同区域"等代词和相对时间表达

03

意图延续

识别"再拆分一下""换个维度"等细化意图，自动追加条件

04

主动澄清

当意图不明确时，AI 反问确认，而非猜测出错

核心能力

自然追问

"华东区呢？" "换成按月份看" "和去年同期比" —— 口语化的连续追问，无需重复上下文。

分支探索

从一条查询出发，衍生多条对比路径。A 线看销量、B 线看利润，并行分析不丢失。

会话沉淀

有价值的查询链自动保存为分析模板，团队可复用，形成知识资产。

Page 16 · 多轮对话机制

Multi-Turn Engine

对话实录 · Live Demo

17 / 24

真实对话 · 6 轮对话完成一次深度分析

一次完整的对话分析

从模糊意图到精准洞察，全程自然语言。

R1

"上个月各区域的销售额情况"

已查询 3 月各区域销售额。华东 1,280 万最高，西北 320 万最低。

R2

"华东区呢？和去年同期比怎么样"

华东区 2026.03 为 1,280 万，同比 +11.3%。

R3

"拆分一下产品线"

A 类 +18.2%，B 类 +3.1%，C 类 -2.5%。A 类是增长主驱动力。

"6 轮对话，从模糊意图到精准归因——
不需要任何 SQL 知识，全程用自然语言完成。"

— 对话引擎 · 实测记录

Page 17 · 真实对话分析实录

Live Conversation

洞察推送 · Insight Push

18 / 24

Phase 05 · 主动发现

不让数据等你提问

系统持续扫描核心指标，当发现异常模式或机会窗口时，主动推送洞察报告。

定时巡检

每日凌晨扫描 50+ 核心指标基线，生成日报

SCHEDULED

实时告警

关键指标偏离 2σ 即时推送，秒级响应

REALTIME

机会发现

挖掘增长拐点、交叉销售机会，主动建议

PROACTIVE

"最好的查询，
是用户还没有想到的那一个。"

— 洞察引擎设计哲学

Page 18 · 洞察推送体系

Insight Delivery

多模态查询 · Multimodal

19 / 24

Phase 06 · 多模态输入

不止于文字

说话、拍照、截图——用你最自然的方式向数据提问。

语音查询：ASR 语音识别 → 智能分析引擎 → 结果语音播报，全程无需打字。

截图提问：截取报表/图表，AI 理解图表语义，自动追问深层原因。

拍照问数据：拍下白板上的数据、屏幕上的报表，AI 自动 OCR + 查询。

Whisper ASR

GPT-4o Vision

OCR 识别

"你不需要学会写 SQL，
甚至不需要学会打字。"

— 多模态设计理念

Page 19 · 多模态查询

Multimodal Input

自主 Agent · Autonomous

20 / 24

Phase 07 · 自主 Agent

从被动响应到主动执行

AI 不再等待你的指令，而是自主完成数据巡检、报告生成和预警推送。

Agent 自主工作流

01

定时巡检

按计划扫描核心指标，偏离基线时触发分析

02

根因分析

自动下钻多维度，定位异常根因

03

报告生成

自动生成图表 + 文字分析 + 建议

04

推送通知

按需推送给负责人，附行动建议

Agent 能力矩阵

巡检调度

支持 Cron 表达式配置巡检周期。按业务节奏自动调整频率——大促期间加密到每小时。

报告撰写

自动选择图表类型，生成文字摘要。支持周报/月报/专题报告，格式统一、风格一致。

智能预警

基于统计模型和机器学习，动态调整告警阈值。减少误报，提高预警准确性。

Page 20 · 自主 Agent 工作流

Autonomous Agent

Agent 实录 · Live Demo

21 / 24

真实场景 · Agent 自主完成一次巡检

凌晨 2:00 的自动巡检

不需要任何人值守，Agent 自主完成发现→分析→报告→推送的完整链路。