机器学习数据顺序随机打乱：Python实现

2023-05-22 12:06 由疯狂学习GIS 发表于 #其他

本文介绍基于Python语言，实现机器学习、深度学习等模型训练时，数据集打乱的具体操作。

1 为什么要打乱数据集

在机器学习中，如果不进行数据集的打乱，则可能导致模型在训练过程中出现具有“偏见”的情况，降低其泛化能力，从而降低训练精度。例如，如果我们做深度学习的分类，其中初始数据的前80%都是第一类，后20%都是第二类，那么如果我们不打乱数据，模型按照数据顺序依次加以训练，则在前面大部分数据中训练出来的结果都是第一类（即形成了惯性，模型认为这些数据只对应着第一类）；而到后20%数据进行训练时，所得结果也往往全都为第一类；所以要打乱。

2 如何打乱

首先引入random。

import random

2.1 数据特征与标签均为一维

DataIndex=[i for i in range(len(TrainX))]
random.shuffle(DataIndex)
TrainX=TrainX[DataIndex]
TrainY=TrainY[DataIndex]

其中，TrainX为一维的训练数据特征，TrainY为一维的训练数据标签。

2.2 数据特征为多维而标签为一维

Datasets=tf.data.Dataset.from_tensor_slices((dict(TrainX),TrainY))
Datasets=Datasets.shuffle(1000)

其中，TrainX需要为多维DataFrame格式的训练数据特征，TrainY为一维Series格式的训练数据标签。但是经过这种方法，我们得到的Datasets为Dataset类的数据，若是接下来需要带入input_fn还可以，如果想单独取出TrainX和TrainY的话就比较麻烦。

因此，我们还可以直接在初始数据划分训练集与测试集时直接将数据打乱：

TrainData=MyData.sample(frac=TrainFrac,random_state=RandomSeed)
TestData=MyData.drop(TrainData.index)

其中，MyData为初始全部数据，TrainData与TestData分别为划分后的训练集与测试集数据。

经过.sample()这一步骤，与原始数据的Index相比，实际上已经实现了TrainData与TestData的随机排列。

至此，大功告成。

热门相关：最强狂兵梦回大明春法医娇宠，扑倒傲娇王爷朕朕

相关文章

抠图党福音：教你一键分割图像

摘要：输入一个图像，通过Segment Anything模型即可获得图像所有目标的分割点位置，再通过位置将图像进行分割保存。本文分享自华为云社区《一键分割图像》，作者：雨落无痕。 Segment Anything Segment Anything Model（SAM）通过点或框等输入提示生成高质 ...阅读全文

网格优化Remesh——Tangential Smooth

一、Laplace平滑简单的拉普拉斯平滑算法的原理是将每个顶点都移动到相邻顶点的平均位置，即采用所谓伞状算子：在伞状结构中表示这样的过程如下图：拉普拉斯平滑算法有很多进一步的变形，首先在求取平均位置时，可以采用不同的加权策略，例如对不同的邻接点采用不同的权值。一般来说，距离中心点P较远的邻接点 ...阅读全文

天涯社区神贴合集（全网最新）

最近几天大家应该发现天涯社区网站打不开了。 ![](http://img.topjavaer.cn/img/202305190848117.png) 天涯社区创办于1999年，此时的中国，互联网产业方兴未艾，那时天涯社区相当火爆。 2007年时，天涯社区的注册用户就突破了2000万，号称是全球最大的 ...阅读全文

天涯社区神贴合集（最网最新）

最近几天大家应该发现天涯社区网站打不开了。 ![](http://img.topjavaer.cn/img/202305190848117.png) 天涯社区创办于1999年，此时的中国，互联网产业方兴未艾，那时天涯社区相当火爆。 2007年时，天涯社区的注册用户就突破了2000万，号称是全球最大的 ...阅读全文

CesiumJS 源码杂谈 - 时间与时钟系统

[TOC] 你知道吗？ - Cesium 是元素 **铯** 的英文单词，而 **铯原子钟** 具有世界上最高的计时精度 - 时间，是时刻间隔的意思，时刻是静态的点；而时间就指有起止时刻的一段范围 - 很多应用都要有一个时钟，例如 GPS 授时、实时渲染系统，时间可以测量很多事物，万物运动也体现了时 ...阅读全文

HTTPS如何优化？

由裸数据传输的 HTTP 协议转成加密数据传输的 HTTPS 协议，给应用数据套了个「保护伞」，提高安全性的同时也带来了性能消耗。因为 HTTPS 相比 HTTP 协议多一个 TLS 协议握手过程，目的是为了通过非对称加密握手协商或者交换出对称加密密钥，这个过程最长可以花费掉 2 RTT，接着后... ...阅读全文

Nginx 入门实战(5)--location 指令说明

1、location 指令介绍 1.1、语法语法位置 location [ = | ~ | ~* | ^~ ] uri { ... }location @name { ... } server, location 1.2、匹配类型类型说明 = 精确匹配空或 ^~ 字符串匹配如果 ^~ ...阅读全文

AtCoder Beginner Contest 302

## [A - Attack (abc302 a)](https://atcoder.jp/contests/abc302/tasks/abc302_a) ### 题目大意给定怪物的血量$a$和你每次攻击扣除的血量 $b$，问打多少次怪物才会死。 ### 解题思路答案即为$\lceil \fra ...阅读全文

OpenAI 官宣首个 ChatGPT iOS 应用

最近，OpenAI 宣布推出官方 iOS 应用，允许用户随时随地访问其高人气 AI 聊天机器人，此举也打破了近几个月内苹果 App Store 上充斥似是而非的山寨服务的窘境。 ![](http://img.topjavaer.cn/img/202305200923464.png) 该应用程序是 C ...阅读全文

Codeforces Round 874 (Div. 3)

# [A.Musical Puzzle](https://codeforces.com/contest/1833/problem/A "A.Musical Puzzle") ### 题意：用最少的长度为2的字符串按一定规则拼出s。规则是：前一个字符串的尾与后一个字符串的首相同。 ### 分析：统 ...阅读全文