【pandas小技巧】--category类型补充

2023-08-21 09:25 由 wang_yb 发表于 #后端开发

category类型在pandas基础系列中有一篇介绍数据类型的文章中已经介绍过。
category类型并不是python中的类型，是pandas特有的类型。

category类型的优势那篇文章已经介绍过，当时只是介绍了如何将某个列的数据转换成category类型，
以及转换之后给程序性能上带来的好处。

本篇将补充介绍深入使用category类型时，经常会遇到的两个问题。
一个是category类型中各个值的顺序调整；另一个是按照数值的范围转换为category类型。

1. catagory类型顺序

当我们把一个列的数据转换为category类型时，category类型中各个值的默认顺序是按照字母顺序排列的。
比如：

import pandas as pd

df = pd.DataFrame({
    "学号": [1, 2, 3, 4, 5, 6],
    "年级": ["初二", "初一", "初二",
           "初一", "初三", "初三"],
})

df["年级"] = df["年级"].astype('category')
df.sort_values("年级")

我们发现，默认顺序 **初三 **排在 **初二 **之前，与实际情况不符。

所以，需要调整category类型的顺序。

import pandas as pd

df = pd.DataFrame({
    "学号": [1, 2, 3, 4, 5, 6],
    "年级": ["初二", "初一", "初二",
           "初一", "初三", "初三"],
})

g_type = pd.CategoricalDtype(
    categories=["初一", "初二", "初三"],
    ordered=True
)

df["年级"] = df["年级"].astype(g_type)
df.sort_values("年级")

通过CategoricalDtype函数定义category类型，可以在定义时设置各个值的顺序。

2. 按范围转换catagory类型

有时候我们需要将一批的连续的数据按照不同的范围转换为category类型。

比如下面随机生成的100个介于1到80岁的年龄数据：

df = pd.DataFrame(
    np.random.randint(1, 80, (100, 1))
)
df.columns = ["年龄"]
df

希望按照不同的年龄范围划分年龄段，而不是每个年龄都转换为category类型。

这时可以用cut函数来实现：

df["年龄段"] = pd.cut(df["年龄"], 
                bins=[0, 18, 25, 60, 80],
                labels=["儿童", "青年", 
                        "成人", "老人"]
                )
df

按照年龄段来划分不同的category，

bins参数：设置每个category对应的范围
labels参数：category的值，labels列表中值的顺序就是category的顺序

除了cut函数，还有个qcut函数，也可以按照数据范围来生成category类型。
它们的区别主要在于：

cut函数：根据值的大小将数据分为bins。bins的数目可以是等距的，也可以是自定义的。
qcut函数：根据值的频率将数据分为bins，每个bin中含有的数据个数相同或尽可能接近。bins的数量由程序自动确定。

因此，cut函数适合等距离离散化，而qcut函数适合非等距离离散化。
例如，我们有1000个数据点，想要把它们分为10组，
cut函数通常会将数据平均分为长度相同的10个组，
而qcut函数则会将这些数据分为包含大约100个数据点的10个组。

【pandas小技巧】--数据转置

所谓**数据转置**，就是是将原始数据表格沿着对角线翻折，使原来的行变成新的列，原来的列变成新的行，从而更方便地进行数据分析和处理。 `pandas`中`DataFrame`的转置非常简单，每个`DataFrame`对象都有一个`T`属性，通过这个属性就能得到转置之后的`DataFrame`。下面介 ...阅读全文

【pandas小技巧】--日期相关处理

日期处理相关内容之前`pandas基础`系列中有一篇专门介绍过，本篇补充两个常用的技巧。 # 1. 多列合并为日期当收集来的数据中，年月日等信息分散在多个列时，往往需要先合并成日期类型，然后才能做分析处理。合并多列转换为日期类型，可以直接用 `to_datetime`函数来处理： ```pytho ...阅读全文

【pandas小技巧】--列值的映射

映射列值是指将一个列中的某些特定值映射为另外一些值，常用于数据清洗和转换。使用映射列值的场景有很多，以下是几种常见的场景： 1. 将字符串类型的列中的某些值映射为数字。例如，将“男”和“女”分别映射为 0 和 1，以便进行机器学习算法的训练和预测。 2. 将缩写替换为全称。例如，将“USA”和“U ...阅读全文

【pandas小技巧】--字符串转数值

字符串转数字的用途和场景很多，其中主要包括以下几个方面： 1. 数据清洗：在进行数据处理时，经常会遇到一些数据类型不匹配的问题，比如某些列中的字符串类型被误认为是数字类型，此时需要将这些字符串类型转换为数字类型，才能进行后续的数值计算或统计分析。 2. 数据整理：有时候输入的原始数据可能存在格式问题 ...阅读全文

【pandas小技巧】--缺失值的列

在实际应用中，数据集中经常会存在缺失值，也就是某些数据项的值并未填充或者填充不完整。缺失值的存在可能会对后续的数据分析和建模产生影响，因此需要进行处理。 `pandas`提供了多种方法来处理缺失值，例如删除缺失值、填充缺失值等。删除缺失值可能会导致数据量减少，填充缺失值则能够尽量保留原始数据集的完整 ...阅读全文

【pandas小技巧】--拆分列

拆分列是`pandas`中常用的一种数据操作，它可以将一个包含多个值的列按照指定的规则拆分成多个新列，方便进行后续的分析和处理。拆分列的使用场景比较广泛，以下是一些常见的应用场景： 1. 处理日期数据：在日期数据中，经常会将年、月、日等信息合并成一列，通过拆分列可以将其拆分成多个新列，方便进行时间序 ...阅读全文

【pandas小技巧】--反转行列顺序

反转`pandas` `DataFrame`的行列顺序是一种非常实用的操作。在实际应用中，当我们需要对数据进行排列或者排序时，通常会使用到Pandas的行列反转功能。这个过程可以帮助我们更好地理解数据集，发现其中的规律和趋势。同时，行列反转还可以帮助我们将数据可视化，使得图表更加易于理解。除了常规 ...阅读全文

【pandas小技巧】--修改列的名称

重命名 `pandas` 数据中列的名称是一种常见的数据预处理任务。这通常是因为原始数据中的列名称可能不够清晰或准确。例如，列名可能包含空格、大写字母、特殊字符或拼写错误。使用 `pandas` 的 `rename`函数可以帮助我们更改列名，从而使数据更加清晰和易于理解。此外，重命名列名还可以确保 ...阅读全文

【pandas小技巧】--按类型选择列

本篇介绍的是`pandas`选择列数据的一个小技巧。之前已经介绍了很多选择列数据的方式，比如`loc`，`iloc`函数，按列名称选择，按条件选择等等。这次介绍的是按照列的**数据类型**来选择列，按类型选择列可以帮助你快速选择正确的数据类型，提高数据分析的效率。 # 1. 类型种类 `panda ...阅读全文

【pandas小技巧】--随机挑选子集

在 `pandas` 中，如果遇到数据量特别大的情况，随机挑选 DataFrame 的子集可以帮助我们更深入地了解数据，从而更好地进行数据分析和决策。随机挑选子集的用途主要有： 1. 评估数据质量：随机挑选 DataFrame 的子集可以帮助我们检查数据集的质量，以便进一步探索和挖掘数据。例如，我 ...阅读全文