KyrieChao

Python 数据分析入门:Pandas 实战

2026-03-11

Python 数据分析入门:Pandas 实战

Pandas 是 Python 中最流行的数据分析库。它提供了名为 DataFrame 的强大数据结构,让数据操作变得异常简单。

安装

pip install pandas numpy

基础操作

1. 创建 DataFrame

import pandas as pd
import numpy as np

data = {
    'Name': ['Alice', 'Bob', 'Charlie', 'David'],
    'Age': [24, 27, 22, 32],
    'City': ['New York', 'Los Angeles', 'Chicago', 'Houston']
}

df = pd.DataFrame(data)
print(df)

输出结果:

      Name  Age         City
0    Alice   24     New York
1      Bob   27  Los Angeles
2  Charlie   22      Chicago
3    David   32      Houston

2. 数据筛选

我们可以轻松筛选出满足条件的数据:

# 筛选年龄大于 25 的人
older_than_25 = df[df['Age'] > 25]

print(older_than_25)

3. 数据统计

Pandas 提供了丰富的统计方法:

print(f"平均年龄: {df['Age'].mean()}")
print(f"最大年龄: {df['Age'].max()}")

进阶技巧:分组与聚合

# 按城市分组并计算平均年龄(示例数据量太小,仅作演示)
grouped = df.groupby('City')['Age'].mean()

结语

Pandas 的功能远不止于此。配合 Matplotlib 或 Seaborn,你还可以轻松画出精美的图表。

提示: 在处理大型数据集时,注意内存的使用情况。