【pandas小技巧】--拆分列

2023-08-03 09:55 由 wang_yb 发表于 #后端开发

拆分列是pandas中常用的一种数据操作，它可以将一个包含多个值的列按照指定的规则拆分成多个新列，方便进行后续的分析和处理。
拆分列的使用场景比较广泛，以下是一些常见的应用场景：

处理日期数据：在日期数据中，经常会将年、月、日等信息合并成一列，通过拆分列可以将其拆分成多个新列，方便进行时间序列分析。
处理地址数据：类似于日期数据，在地址数据中也经常会将省、市、区等信息合并成一列，通过拆分列可以将其拆分成多个新列，有利于进行地理位置分析。
处理姓名数据：在一些数据集中，姓名通常会以“姓”、“名”两列呈现，通过拆分列可以将其分别提取出来，方便进行人口统计学分析。
处理文本数据：在一些文本数据中，可能存在多个关键词同时出现的情况，通过拆分列可以将这些关键词拆分成多个新列，方便进行文本分类或聚类分析。

本篇简要介绍下pandas拆分列的常用方法。

1. 拆出列中部分信息

如下测试数据：

import pandas as pd

df = pd.DataFrame(
    {
        "姓名": ["张 三", "李 四", "王 五"],
        "地址": [
            "江苏省,南京市,建邺区",
            "浙江省,杭州市,余杭区",
            "安徽省,合肥市,庐阳区",
        ],
    }
)

df

提取姓和城市信息：

df["城市"] = df["地址"].str.split(",",
                             expand=True)[1]
df["姓"] = df["姓名"].str.split(" ",
                             expand=True)[0]
df

注意要加上 expand=True 参数。

因为：

expand=False：split后的值是Series
expand=True：split后的值是DataFrame

2. 拆分成多列

拆分成多列有两种方式：
第一种：

df[["省", "市", "区"]] = 
	df["地址"].str.split(",", expand=True)
df

第二种：这种方式不需要设置 expand=True

df["省"], df["市"], df["区"] = 
	zip(*df["地址"].str.split(","))
df

3. 使用正则拆分

除了直接按照字符来split列中的数据，也可以用正则表达式来split。
比如如下的场景，需要对客户的手机号进行保密，可以通过正则表达式来截断手机号，只保留最后四位。

df = pd.DataFrame(
    {
        "单号": ["0001", "0002", "0003"],
        "手机号": [
            "13900000001",
            "18922233344",
            "15955566677",
        ],
    }
)


df["截断手机号"] = df["手机号"].str.split(
    r"\d{7}",
    expand=True,
    regex=True,
)[1]
df

通过正则表达式，可以更加灵活的拆分列的数据。

热门相关：恭喜你被逮捕了富贵不能吟锦庭娇异世修真邪君今天也没变成玩偶呢

【pandas小技巧】--反转行列顺序

反转`pandas` `DataFrame`的行列顺序是一种非常实用的操作。在实际应用中，当我们需要对数据进行排列或者排序时，通常会使用到Pandas的行列反转功能。这个过程可以帮助我们更好地理解数据集，发现其中的规律和趋势。同时，行列反转还可以帮助我们将数据可视化，使得图表更加易于理解。除了常规 ...阅读全文

【pandas小技巧】--修改列的名称

重命名 `pandas` 数据中列的名称是一种常见的数据预处理任务。这通常是因为原始数据中的列名称可能不够清晰或准确。例如，列名可能包含空格、大写字母、特殊字符或拼写错误。使用 `pandas` 的 `rename`函数可以帮助我们更改列名，从而使数据更加清晰和易于理解。此外，重命名列名还可以确保 ...阅读全文

【pandas小技巧】--按类型选择列

本篇介绍的是`pandas`选择列数据的一个小技巧。之前已经介绍了很多选择列数据的方式，比如`loc`，`iloc`函数，按列名称选择，按条件选择等等。这次介绍的是按照列的**数据类型**来选择列，按类型选择列可以帮助你快速选择正确的数据类型，提高数据分析的效率。 # 1. 类型种类 `panda ...阅读全文

【pandas小技巧】--随机挑选子集

在 `pandas` 中，如果遇到数据量特别大的情况，随机挑选 DataFrame 的子集可以帮助我们更深入地了解数据，从而更好地进行数据分析和决策。随机挑选子集的用途主要有： 1. 评估数据质量：随机挑选 DataFrame 的子集可以帮助我们检查数据集的质量，以便进一步探索和挖掘数据。例如，我 ...阅读全文

【pandas小技巧】--读取多个文件

日常分析数据时，只有单一数据文件的情况其实很少见，更多的情况是，我们从同一个数据来源定期或不定期的采集了很多数据文件；或者从不同的数据源采集多种不同格式的数据文件。在这样的情况下，分析数据之前，需要将不同的数据集合并起来。合并数据一般有两个维度，一是同构的数据集合并后行数增加；一是异构的数据集合并 ...阅读全文

【pandas小技巧】--创建测试数据

学习`pandas`的过程中，为了尝试`pandas`提供的各类功能强大的函数，常常需要花费很多时间去创造测试数据。在`pandas`中，快速创建测试数据可以更快的评估 `pandas` 函数。通过生成一组测试数据，可以评估例如 `read_csv`、`read_excel`、`groupby`等 ...阅读全文

编译器、链接器和解释器

## 编译器编译器的作用就是将高级编程语言翻译为机器代码。编译器工作过程一般分为： - 词法分析：将高级语言解析成 Token 集合； - 语法分析：将 Token 集合构建成语法树，在这个过程可以判断出语法是否有误，比如 `while` 后面是否 `{` 等等； - 语义分析：判断语法树是否有 ...阅读全文

【go语言】3.1.2 接口的定义和实现

在 Go 中，接口是一种抽象类型，用来描述其他类型应该有哪些方法。它定义了一组方法，但没有实现。这些方法由其他类型实现。 ### 接口的定义接口定义的格式如下： ```go type InterfaceName interface { Method1(param1 type1, param2 ty ...阅读全文

【go语言】2.3.1 错误处理的基本概念

在 Go 语言中，错误处理是通过返回错误值进行的，而不是像一些其他语言那样通过抛出和捕获异常。Go 语言有一个内置的接口类型 `error`，专门用于处理错误。 ### `error` 接口 `error` 是一个内置的接口，定义如下： ```go type error interface { Er ...阅读全文

Docker学习路线13：部署容器

部署容器是使用Docker和容器化管理应用程序更高效、易于扩展和确保跨环境一致性性能的关键步骤。本主题将为您概述如何部署Docker容器以创建和运行应用程序。 ## 概述 Docker容器是轻量级、可移植且自我包含的环境，可以运行应用程序及其依赖项。部署容器涉及启动、管理和扩展这些隔离的环境，以便顺 ...阅读全文