原创

MySQL分组查询指南：聚合函数与临时表实战

发布时间：2025-09-21 23:06:20
本文热度：浏览 1195 赞 0 评论 0
文章标签： MySQL 数据库查询 SQL分组
全文共1字，阅读约需1分钟

回顾基础查询

在上一篇中，我们掌握了SELECT、WHERE、ORDER BY等基础查询操作。现在进入更复杂的查询场景，特别是处理分组数据和聚合统计的场景。当需要分析班级成绩分布、月度销售统计等分类汇总数据时，分组查询和聚合函数是必备技能。

分组查询的核心原理

为什么需要分组？

考虑学生成绩表student_scores：

id	name	subject	score
1	Alice	Math	90
2	Bob	Math	85
3	Alice	English	92
4	Cathy	Math	88

若需回答：“每个学生的数学平均分是多少？”——这需要将同一学生的数学成绩分组后计算平均值。分组查询的本质是将相同特征的数据归为一组，再对组内数据进行统计分析。

GROUP BY 基础语法

SELECT 分组列, 聚合函数(列) 
FROM 表名 
GROUP BY 分组列;

关键规则解析

SELECT子句约束
跟在SELECT后的必须是：
- 分组列（如name）
- 聚合函数（如AVG(score)）
错误示例：
```
SELECT name, score FROM student_scores GROUP BY name;
```
❌ 错误原因：score未使用聚合函数，在分组后每组有多个score值，数据库无法确定显示哪一个。

分组逻辑
GROUP BY subject的执行过程：

创建临时分组：Math组、English组
将每行数据分配到对应组
在组内执行聚合计算

graph LR
A[原始数据] --> B[按subject分组]
B --> C[Math组：90,85,88]
B --> D[English组：92]
C --> E[聚合计算：AVG=87.66]
D --> F[聚合计算：AVG=92]

聚合函数深度解析

五大核心函数

函数	作用	示例	空值处理
COUNT()	统计行数	`COUNT(*)` 统计所有行	忽略NULL
SUM()	求和	`SUM(score)` 总分	NULL视为0
AVG()	平均值	`AVG(score)` 平均分	忽略NULL值
MAX()	最大值	`MAX(score)` 最高分	忽略NULL
MIN()	最小值	`MIN(score)` 最低分	忽略NULL

进阶用法

COUNT的三种形态

-- 统计总行数（含NULL）
SELECT COUNT(*) FROM students; 

-- 统计非NULL的email数量
SELECT COUNT(email) FROM students;  

-- 统计不同学科数量
SELECT COUNT(DISTINCT subject) FROM scores;

AVG精度控制

-- 保留两位小数
SELECT ROUND(AVG(score), 2) FROM scores;

分组查询实战

场景1：单列分组

统计每门学科的平均分：

SELECT 
    subject AS '学科',
    AVG(score) AS '平均分'
FROM student_scores
GROUP BY subject;

执行结果：

学科	平均分
Math	87.67
English	92.00

场景2：多列分组

统计每个学生每门课的最高分：

SELECT 
    name,
    subject,
    MAX(score) AS '最高分'
FROM student_scores
GROUP BY name, subject;

多列分组时，只有name和subject都相同的行才会归入同组。

场景3：分组后筛选 (HAVING)

找出平均分超过85分的学生：

SELECT 
    name,
    AVG(score) AS avg_score
FROM student_scores
GROUP BY name
HAVING avg_score > 85;  -- 分组后筛选

WHERE vs HAVING

特性	WHERE子句	HAVING子句
执行时机	分组前过滤	分组后过滤
可用字段	原始表列	分组列或聚合结果
聚合函数	不可用	可用
性能影响	减少分组数据量，更高效	分组后过滤，效率较低

临时表的安全应用

为什么需要临时表？

当表被外部系统频繁访问时（如在线网站实时读取），直接操作原表可能导致：

数据不一致（查询到中间状态）
锁冲突（DDL操作锁表）
误操作风险

临时表实战

-- 创建临时表存放分组结果
CREATE TEMPORARY TABLE temp_math_scores AS
SELECT 
    name,
    AVG(score) AS math_avg
FROM student_scores
WHERE subject = 'Math'
GROUP BY name;

-- 从临时表查询最终结果
SELECT * FROM temp_math_scores
WHERE math_avg > 85;

-- 自动销毁（会话结束）

临时表特点：

会话隔离：不同会话的同名临时表互不影响
自动清理：会话结束自动删除
优先级高：同名时优先访问临时表

复杂查询综合案例

案例背景

sales表记录销售数据：

order_id	product	category	amount	sale_date
1001	iPhone	手机	7999	2023-01-05
1002	iPad	平板	4999	2023-01-05
1003	MacBook	电脑	12999	2023-01-06

需求实现

每月每类产品的销售总额

SELECT
    DATE_FORMAT(sale_date, '%Y-%m') AS month,
    category,
    SUM(amount) AS total_amount
FROM sales
GROUP BY month, category;

单月销售额超过10万的产品类别

SELECT
    category,
    SUM(amount) AS monthly_sales
FROM sales
WHERE sale_date BETWEEN '2023-01-01' AND '2023-01-31'
GROUP BY category
HAVING monthly_sales > 100000;

每日销售额前三名

SELECT 
    sale_date,
    product,
    daily_total
FROM (
    SELECT 
        sale_date,
        product,
        SUM(amount) AS daily_total,
        RANK() OVER (PARTITION BY sale_date ORDER BY SUM(amount) DESC) AS sales_rank
    FROM sales
    GROUP BY sale_date, product
) AS ranked_sales
WHERE sales_rank <= 3;

性能优化策略

索引优化

为GROUP BY列创建索引

CREATE INDEX idx_subject ON student_scores(subject);

减少分组列

-- 优化前（多列）
SELECT department, team, COUNT(*) 
FROM employees
GROUP BY department, team;

-- 优化后（单列）
SELECT department, COUNT(*) 
FROM employees
GROUP BY department;

限制结果集

-- 先过滤再分组
SELECT category, AVG(price)
FROM products
WHERE price > 100  -- 先过滤高价商品
GROUP BY category;

避免过度聚合

-- 不推荐：全表聚合
SELECT AVG(salary) FROM employees;

-- 推荐：应用层计算
SELECT salary FROM employees;

常见错误解析

字段缺失错误

SELECT name, score 
FROM student_scores
GROUP BY name;
-- 错误：score未聚合

歧义字段问题

SELECT 
    department,
    name,  -- 错误：name不唯一
    AVG(salary)
FROM employees
GROUP BY department;

聚合嵌套错误

SELECT AVG(SUM(score))  -- 不允许聚合嵌套
FROM student_scores
GROUP BY name;

排序字段混淆

SELECT 
    subject,
    AVG(score) AS avg_score
FROM student_scores
GROUP BY subject
ORDER BY score;  -- 错误：应使用avg_score

窗口函数与分组对比

核心区别

-- 分组查询（折叠结果）
SELECT 
    department, 
    AVG(salary) 
FROM employees
GROUP BY department;

-- 窗口函数（保留明细）
SELECT 
    name,
    department,
    AVG(salary) OVER (PARTITION BY department) 
FROM employees;

适用场景对比

需求类型	推荐方案	示例输出特点
汇总统计（如部门平均）	GROUP BY	每个部门单行结果
保留明细（如员工+部门平均）	窗口函数	每行员工数据+部门平均值
排名计算（如销售TOP3）	窗口函数	保留所有行+排名列

安全操作最佳实践

生产环境操作流程

graph TB
A[创建临时表备份] --> B[在临时表测试查询]
B --> C{验证结果}
C -->|正确| D[操作生产表]
C -->|错误| E[分析错误原因]

关键防护措施

事务包裹写操作

START TRANSACTION;
CREATE TEMPORARY TABLE ...;
-- 查询操作
COMMIT;

权限分离：只授予查询账号SELECT权限
操作审计：开启MySQL通用日志

[mysqld]
general_log = 1
general_log_file = /var/log/mysql/query.log

总结与提升路径

通过本篇学习，你已掌握：

分组查询（GROUP BY）的核心机制
五大聚合函数的应用场景
HAVING与WHERE的本质区别
临时表的安全操作模式
复杂统计的实现方法

进阶学习路线：

窗口函数（RANK, ROW_NUMBER）
递归查询（WITH RECURSIVE）
查询优化器原理（EXPLAIN解读）
分布式数据库分组处理（如ShardingSphere）

实践建议：在测试库模拟百万级数据的分组查询，体验索引对性能的影响，并尝试用窗口函数解决相同需求。

正文到此结束

所属分类：Mysql

本文链接： https://refblogs.com/article/1147
版权声明： 本文由老牛原创发布，转载或复制请以超链接形式转载,并注明出处搬砖的码农。