【pandas小技巧】--随机挑选子集

2023-07-26 10:38 由 wang_yb 发表于 #后端开发

在 pandas 中，如果遇到数据量特别大的情况，随机挑选 DataFrame 的子集可以帮助我们更深入地了解数据，从而更好地进行数据分析和决策。

随机挑选子集的用途主要有：

评估数据质量：随机挑选 DataFrame 的子集可以帮助我们检查数据集的质量，以便进一步探索和挖掘数据。例如，我们可以通过随机选择一些行或列来评估数据的分布、离群值、缺失值等情况。
加深理解数据：随机挑选 DataFrame 的子集可以帮助我们更深入地了解数据。例如，我们可以通过随机选择一些列来了解数据的分布、趋势、相关性等情况。
发现潜在模式：随机挑选 DataFrame 的子集可以帮助我们发现潜在的模式或规律。例如，我们可以通过随机选择一些行或列来探索数据之间的相关性或趋势，从而发现潜在的模式或规律。
探索新的数据分析方法：随机挑选 DataFrame 的子集可以帮助我们探索新的数据分析方法。例如，我们可以通过随机选择一些列来探索新的数据分析方法，如时间序列分析、空间分析等。
提高程序性能：随机挑选 DataFrame 的子集可以帮助我们优化程序性能。例如，我们可以通过随机选择一些列来减少计算量，从而提高程序性能。

本篇介绍一种pandas挑选子集的方式，以及子集在机器学习中常用的一个场景。

1. 随机挑选

这次示例中准备的数据来自链家网，我采集了一些南京市建邺区的房产交易数据，共有11290条。

import pandas as pd

fp = "nanjing-jianye.csv"
df = pd.read_csv(fp)
df

1.1. 按百分比挑选

按百分比随机挑选样本的核心参数是 frac 和 random_state。

frac：样本数量占总量的百分比
random_state：随机状态，这个值相同，取出的样本是一样的

df1 = df.sample(frac=0.1, random_state=1111)
df1.sort_index()

上面的示例中 frac=0.1，相当于获取总量10%的样本，总量11290条，所以样本数量1129条。

示例中的random_state=1111，只要改变这个数值，取出的样本就是会变化。

df1 = df.sample(frac=0.1, random_state=2222)
df1.sort_index()

1.2. 按个数挑选

按个数随机挑选样本的核心参数是 n 和 random_state。

n：样本数量
random_state：随机状态，这个值相同，取出的样本是一样的

df2 = df.sample(n=100, random_state=1111)
df2.sort_index()

上面的示例中n=100，随机取100个样本，其中random_state的作用和按百分比挑选一样。

2. 机器学习中使用场景

随机挑选子集的用途开头已经介绍了很多，还有个重要的应用场景是在机器学习时，可以将数据划分为训练集和测试集。

针对这个需求，利用上面介绍的sample函数封装一个平均划分的子集接口。
用于机器学习时分隔训练集和测试集。

import pandas as pd
import random

def split_dataset(df: pd.DataFrame, n = 10):
    """
    df: 带划分的数据集
    n: 划分子集的个数，默认10个
    """
    total = len(df)
    subset_count = total // n

    dataset = []
    df_left = df.copy()
    for i in range(n):
        df_subset = df_left.sample(n=subset_count, random_state=random.randint(1000,9999))
        dataset.append(df_subset.copy())

        df_left = df_left.drop(index=df_subset.index)

    return dataset

比如上面示例的房产成交数据（共11290条），通过此方法可以平均划分成n个数据集。

ds = split_dataset(df, n=10)
ds

ds列表中就是平均划分的10个子集。
应用机器学习的算法时，可以循环任意选择7个作为训练集，剩余3个作为测试集。

3. 附录

本篇中使用的数据下载地址：nanjing-jianye.csv

热门相关：我的治愈系游戏戏精老公今天作死没闺范裙上之臣戏精老公今天作死没

【pandas小技巧】--读取多个文件

日常分析数据时，只有单一数据文件的情况其实很少见，更多的情况是，我们从同一个数据来源定期或不定期的采集了很多数据文件；或者从不同的数据源采集多种不同格式的数据文件。在这样的情况下，分析数据之前，需要将不同的数据集合并起来。合并数据一般有两个维度，一是同构的数据集合并后行数增加；一是异构的数据集合并 ...阅读全文

【pandas小技巧】--创建测试数据

学习`pandas`的过程中，为了尝试`pandas`提供的各类功能强大的函数，常常需要花费很多时间去创造测试数据。在`pandas`中，快速创建测试数据可以更快的评估 `pandas` 函数。通过生成一组测试数据，可以评估例如 `read_csv`、`read_excel`、`groupby`等 ...阅读全文

【go语言】1.2.1 Go 环境安装

Go 语言的安装过程非常简单，无论你使用的是哪种操作系统，都可以按照下面的步骤来进行。 ### Windows 系统 1. 前往 Go 语言的官方下载页面：[https://golang.org/dl/ ↗](https://golang.org/dl/) 2. 根据你的操作系统版本选择对应的安装包 ...阅读全文

[爬虫]2.2.2 使用PhantomJS处理JavaScript

PhantomJS是一个无头（headless）浏览器，它可以解析和执行JavaScript，非常适合用于爬取动态网页。"无头"意味着它可以在没有用户界面的情况下运行，这对于服务器环境和自动化任务非常有用。 ## 安装PhantomJS 首先，你需要下载并安装PhantomJS。你可以从官方网站[下 ...阅读全文

反射 p4 反射获取类的结构信息

# 反射获取类的结构信息 1. **关于Class的API** 1. getName：获取全类名 2. getSimpleName：获取简单类名 3. getFields：获取所有Public修饰的属性，包含本类及其父类（不仅仅是直接父类） 4. getDeclaredFields：获取本类中的所有 ...阅读全文

Python教程(5)——Python的第一个程序

python的环境以及IDE都准备好之后，我们就可以开始Python之旅了。Python的第一个程序通常是打印输出"Hello, World!"，非常简单。以下是一个示例： ```python print("Hello, World!") ``` # 运行python代码首先必须明白python是 ...阅读全文

[爬虫]2.2.1 使用Selenium库模拟浏览器操作

Selenium是一个非常强大的工具，用于自动化Web浏览器的操作。它可以模拟真实用户的行为，如点击按钮，填写表单，滚动页面等。由于Selenium可以直接与浏览器交互，所以它可以处理那些需要JavaScript运行的动态网页。 ## 安装Selenium 首先，我们需要安装Selenium库。你可 ...阅读全文

[爬虫]1.1.1网络爬虫的概念

网络爬虫，也称为网页爬虫或者网页蜘蛛，是一种用来自动浏览互联网的网络机器人。它们会按照特定的规则，从网页上获取信息，然后将这些信息保存下来。网络爬虫的名字来源于它们的工作方式，它们就像是在网络上爬行的蜘蛛，通过链接从一个网页爬到另一个网页。 ## 工作原理网络爬虫的基本工作原理是按照一定的规则，自 ...阅读全文

Docker学习路线9：运行容器

要启动一个新的容器，我们使用 **`docker run`** 命令，后跟镜像名称。基本语法如下： ```Bash docker run [选项] 镜像 [COMMAND] [ARG...] ``` 例如，要运行官方的 Nginx 镜像，我们可以使用： ```Bash docker run -d - ...阅读全文

反射 p1 反射机制

# 反射机制 ## 引出反射 ![](https://img2023.cnblogs.com/blog/3008601/202307/3008601-20230721155417898-1466904713.png) - 这样的需求在学习框架时特别多，即通过外部文件配置，在不修改源码的情况下，来控制 ...阅读全文