当前位置:知识文库 ❯ 图文

Pandas透视表pivot_table完整教程 - 数据分析必备技能

Pandas透视表pivot_table完整教程

一、透视表概述

数据透视表（Pivot Table）是数据分析中最强大的工具之一，它可以将大量数据按指定维度进行汇总、聚合和交叉分析。在pandas中，pivot_table()函数提供了类似Excel透视表的功能，能够轻松实现多维度的数据汇总。

透视表的核心思想是将数据从"长格式"转换为"宽格式"，通过行、列、值三个维度的组合，快速生成汇总报表。它是groupby()操作的扩展，支持多级行列索引和多种聚合方式。

二、语法详解

pivot_table()函数的完整语法如下：

代码示例

pandas.pivot_table(data, values=None, index=None, columns=None, aggfunc='mean', fill_value=None, margins=False, dropna=True, margins_name='All', observed=False, sort=True)

该函数接受DataFrame作为数据源，通过指定行索引（index）、列索引（columns）和值（values）来构建透视表结构。

三、参数说明

参数	类型	说明
`data`	DataFrame	要处理的DataFrame数据
`index`	列名或列表	用于分组的行索引，支持多列
`columns`	列名或列表	用于分组的列索引，支持多列
`values`	列名或列表	需要聚合的列
`aggfunc`	函数/字符串/字典	聚合函数，默认为'mean'，支持'mean'/'sum'/'count'/'max'/'min'等
`fill_value`	标量	替换NaN的值
`margins`	bool	是否添加行/列的汇总，默认False
`margins_name`	str	汇总行的名称，默认为'All'
`dropna`	bool	是否删除全为NaN的列，默认True

四、返回值

pivot_table()返回一个新的DataFrame对象，其索引由index参数决定，列由columns参数决定，值为聚合后的结果。当使用多列索引时，会返回MultiIndex结构的DataFrame。

五、代码示例

示例1：基本用法

我们先创建一个示例数据集，然后使用透视表计算各部门的平均薪资：

代码示例

import pandas as pd
import numpy as np

# 创建示例数据
df = pd.DataFrame({
    '部门': ['技术部', '技术部', '市场部', '市场部', '人事部', '人事部'],
    '城市': ['北京', '上海', '北京', '上海', '北京', '上海'],
    '薪资': [15000, 14000, 12000, 11000, 10000, 9000],
    '人数': [50, 40, 30, 25, 15, 12]
})

# 基本透视表：按部门计算平均薪资
pivot = pd.pivot_table(df, index='部门', values='薪资', aggfunc='mean')
print(pivot)

# 输出：
#           薪资
# 部门          
# 人事部  9500.0
# 市场部 11500.0
# 技术部 14500.0

示例2：进阶用法

使用多行多列索引，配合多种聚合函数和汇总行：

代码示例

# 多行多列透视表
pivot2 = pd.pivot_table(
    df,
    index=['部门'],
    columns=['城市'],
    values=['薪资', '人数'],
    aggfunc={'薪资': ['mean', 'sum'], '人数': 'sum'},
    fill_value=0,
    margins=True,
    margins_name='合计'
)
print(pivot2)

# 自定义聚合函数
pivot3 = pd.pivot_table(
    df,
    index='部门',
    values='薪资',
    aggfunc={'最高薪资': 'max', '最低薪资': 'min', '平均薪资': 'mean'}
)
print(pivot3)

示例3：实际应用

在销售数据分析中的实际应用：

代码示例

# 模拟销售数据
sales_data = pd.DataFrame({
    '日期': pd.date_range('2024-01-01', periods=100, freq='D'),
    '产品类别': np.random.choice(['电子产品', '服装', '食品', '图书'], 100),
    '销售区域': np.random.choice(['华东', '华南', '华北', '西部'], 100),
    '销售额': np.random.randint(100, 1000, 100),
    '销售量': np.random.randint(1, 50, 100)
})

# 按产品类别和销售区域汇总销售额
sales_pivot = pd.pivot_table(
    sales_data,
    index='产品类别',
    columns='销售区域',
    values='销售额',
    aggfunc='sum',
    fill_value=0
)
print(sales_pivot)

# 计算每个区域的平均订单量
order_pivot = pd.pivot_table(
    sales_data,
    index='销售区域',
    columns='产品类别',
    values='销售量',
    aggfunc='mean',
    margins=True
)
print(order_pivot)

六、实际应用场景

财务报表分析：按部门、时间维度汇总收入、支出、利润等指标，快速生成管理报表
销售业绩分析：按产品、区域、销售人员多维度交叉分析销售额和订单量
用户行为分析：按用户群体、渠道、时间段分析转化率、活跃度等关键指标

七、注意事项

注意1：透视表默认使用'mean'作为聚合函数，如果需要求和或其他聚合方式，必须显式指定aggfunc参数。

注意2：当行列索引组合存在缺失数据时，默认会产生NaN，可以使用fill_value参数填充。

提示：对于简单的分组聚合，groupby()可能更高效；只有需要多维交叉表时才使用pivot_table()。

八、小结

pivot_table()是pandas中实现多维数据汇总的核心函数
掌握index、columns、values、aggfunc四个核心参数可以应对大多数分析场景
合理使用margins、fill_value等参数可以让报表更加完整和专业

九、练习题

练习1

创建一个包含学生成绩的数据集（包含班级、科目、成绩等字段），使用透视表计算每个班级各科目平均分，并添加汇总行。

练习2

编写一个函数，接受DataFrame和配置参数，自动生成带有多种聚合函数的透视表，并处理可能出现的NaN值。

练习3

对比pivot_table()与groupby()的区别，用同一数据集验证两种方法生成相同结果时的性能差异。

常见问题

pivot_table和pivot有什么区别？

pivot()是简单reshape操作，不支持聚合；pivot_table()支持聚合计算，可以处理重复索引的情况。

如何在透视表中使用自定义聚合函数？

将aggfunc参数设置为自定义函数，例如：aggfunc=lambda x: x.max() - x.min()可以计算极差。

透视表如何处理大量数据？

对于大数据集，可以先进行数据预处理过滤无关数据，或者使用Dask等分布式计算库。同时注意选择合适的聚合函数，count比sum更快。

如何保存和导出透视表结果？

透视表返回的是DataFrame，可以使用to_csv()、to_excel()等方法导出，例如：pivot.to_excel('result.xlsx')。

标签： pandas 透视表 pivot_table 数据分析 Python教程

本文涉及AI创作

内容由AI创作，请仔细甄别

当前位置:知识文库 ❯ 图文

Pandas透视表pivot_table完整教程 - 数据分析必备技能

目录

一、透视表概述

二、语法详解

代码示例

三、参数说明

四、返回值

五、代码示例

示例1：基本用法

代码示例

示例2：进阶用法

代码示例

示例3：实际应用

代码示例

六、实际应用场景

七、注意事项

八、小结

九、练习题

练习1

练习2

练习3

常见问题

快速访问

相关推荐

Django静态文件管理教程：STATIC配置、collectstatic与Nginx部署

Django Migration迁移详解 - 数据库版本控制完整指南

Django ORM查询详解 - 数据库操作与优化完整指南

Django中间件详解 - 请求响应钩子系统完整指南

list快速访问

poll相关推荐

Django静态文件管理教程：STATIC配置、collectstatic与Nginx部署

Django Migration迁移详解 - 数据库版本控制完整指南

Django ORM查询详解 - 数据库操作与优化完整指南

Django中间件详解 - 请求响应钩子系统完整指南

快速访问

相关推荐