Python数据分析入门教程_Pandas基础操作详解

Pandas是Python数据分析核心工具,提供DataFrame和Series等高效数据结构,支持创建、查看、筛选、处理缺失值与重复值、统计及分组计算等全流程操作。

想用Python做数据分析,Pandas是绕不开的核心工具。它提供了高效、灵活的数据结构(如DataFrame和Series),让读取、清洗、计算和可视化数据变得直观又简洁。掌握基础操作,是迈出数据分析第一步的关键。

创建和查看数据:从零开始构建DataFrame

最常用的方式是从字典或列表构造DataFrame,也可以直接读取外部文件。创建后建议立刻用head()info()describe()快速了解数据概况。

  • 用字典创建:`pd.DataFrame({'name': ['Alice', 'Bob'], 'age': [25, 30]})`
  • 读取CSV:`df = pd.read_csv('data.csv')`(注意编码和分隔符参数)
  • 查看前5行:`df.head()`;查看数据类型与缺失值:`df.info()`

选取与筛选:精准定位你需要的行和列

Pandas提供多种索引方式,loc(按标签)、iloc(按位置)和布尔索引是最常用的三种。别混淆它们的使用场景——标签索引适合带明确列名/索引名的操作,位置索引适合按行列号取值。

  • 选一列:`df['age']` 或 `df.age`(推荐前者,更稳定)
  • 选多列:`df[['name', 'age']]`(注意是双层中括号)
  • 条件筛选:`df[df['age'] > 28]`,支持 &(且)、|(或)、~(非)组合

处理缺失值和重复值:让数据更干净

真实数据常有空值(NaN)或重复记录。Pandas提供了简单但有力的方法来识别、填充或删除它们。关键是先检查再处理,避免误删有效信息。

  • 检查缺失:`df.isnull().sum()` 统计每列空值数量
  • 删除空行:`df.dropna()`;删除空列:`df.dropna(axis=1)`
  • 填充空值:`df['age'].fillna(df['age'].mean())` 或用固定值 `.fillna(0)`
  • 去重:`df.drop_duplicates()`(默认所有列都相同才去重,可指定 subset 参数)

简单统计与分组计算:快速获取洞察

不需要写循环,一行代码就能完成常见汇总任务。分组聚合(groupby)是探索性分析的利器,配合 agg 可同时计算多个指标。

  • 基础统计:`df['age'].mean()`、`df['age'].max()`、`df.describe()`
  • 按类别统计:`df.groupby('gender')['salary'].mean()`
  • 多指标聚合:`df.groupby('dept').agg({'salary': ['mean', 'std'], 'age': 'max'})`