简单的用Python抓取动态网页数据，实现可视化数据分析

2023-11-24 15:42 由轻松学Python 发表于 #后端开发

一眨眼明天就周末了，一周过的真快！

今天咱们用Python来实现一下动态网页数据的抓取

最近不是有消息说世界首富马上要变成中国人了吗，这要真成了，可就是历史上首位中国世界首富了！

那我们就以富豪排行榜为例，爬取一下2023年国内富豪五百强，最后实现一下可视化分析。

准备工作

环境使用

Python
Pycharm

模块使用

re 正则表达式
csv <表格文件> 内置模块保存数据
requests >>> 数据请求
pandas >>> 保存表格
pyecharts >>> 可视化模块

实现流程: <基本公式>

数据来源分析

明确需求: 明确采集的网站以及数据内容
- 目标网址
抓包分析: 通过浏览器自带工具 (开发者工具)
- 打开开发者工具: F12 / 右键点检查选择network (网络)
- 点击下一页按钮
数据包地址

代码实现步骤

发送请求 -> 模拟浏览器对于url地址发送请求
url地址: 分析找到链接地址
获取数据 -> 获取服务器返回响应数据
解析数据 -> 提取我们自己需要数据
保存数据 -> 保存到表格文件里面

代码解析

发送请求

for page in range(1, 35):
    print(f'{page}' * 20)
    # url地址: 请求网址
    url = f'https://service.ikuyu.cn/XinCaiFu2/pcremoting/bdListAction.do?method=getPage&callback=jsonpCallback&sortBy=assets&order=asc&type=4&keyword=&pageSize=15&year=2023&pageNo={page}&from=jsonp&_=1700739728273'
    # 模拟浏览器: 请求头
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/119.0.0.0 Safari/537.36'
    }
    # 发送请求: 请求方法 <开发者工具>
    response = requests.get(url=url, headers=headers)

获取数据

 data = response.text

解析数据

re.findall(‘匹配数据’, ‘数据源’) -> 从什么地方去获取什么数据

# json字符串数据
html = re.findall('jsonpCallback\((.*)', data)[0].replace(')', '')
print(html)
# 转成json字典 当你转json数据报错的时候 html不是完整json数据格式
json_data = json.loads(html)
# 键值对取值 提取 rows 列表 (根据冒号左边的内容[键], 提取冒号右边的内容[值])
rows = json_data['data']['rows']
# for循环遍历
for row in rows:

创建文件对象

f = open('data.csv', mode='w', encoding='utf-8', newline='')
csv_writer = csv.DictWriter(f, fieldnames=[
    '财富',
    '姓名',
    '主要公司',
    '相关行业',
    '公司总部省份',
    '公司总部城市',
    '性别',
    '年龄',
    '年份',
])
csv_writer.writeheader()

保存数据

dit = {
    '财富': row['assets'],
    '姓名': row['name'],
    '主要公司': row['company'],
    '相关行业': row['industry'],
    '公司总部省份': row['addr'][:2],
    '公司总部城市': row['addr'][-2:],
    '性别': row['sex'],
    '年龄': row['age'],
    '年份': row['year'],
}
csv_writer.writerow(dit)
print(row)
# 源码+wei❤:python1018 领取

采集数据+可视化代码我都打包好了，还有视频讲解，都在最后一段代码中。

效果展示

好了，本次分享就到这结束了，咱们下次见~

热门相关：厨道仙途跟总裁假结婚的日子青莲剑说龙印战神龙印战神

如何通过C++ 给PDF文档添加文字水印

因PDF文档具有较好的稳定性和兼容性，现在越来越多的合同、研究论文、报告等都采用PDF格式。为了进一步保护这些重要文档内容免受未经授权的复制或使用，我们可以添加水印以表明其状态、所有权或用途。针对工作中可能出现的在 C++ 应用程序中给 PDF 文档添加文字水印的需求，本文将详细展示如何通过第三方国 ...阅读全文

30. 干货系列从零用Rust编写正反向代理，HTTP的组装之旅（中间件）

wmproxy wmproxy已用Rust实现http/https代理, socks5代理, 反向代理, 静态文件服务器，四层TCP/UDP转发，七层负载均衡，内网穿透，后续将实现websocket代理等，会将实现过程分享出来，感兴趣的可以一起造个轮子项目地址国内: https://gitee. ...阅读全文

全网最全图解Kafka适用场景

消息系统消息系统被用于各种场景，如解耦数据生产者，缓存未处理的消息。Kafka 可作为传统的消息系统的替代者，与传统消息系统相比，kafka有更好的吞吐量、更好的可用性，这有利于处理大规模的消息。根据经验，通常消息传递对吞吐量要求较低，但可能要求较低的端到端延迟，并经常依赖kafka可靠的dur ...阅读全文

还在手动造轮子？试试这款可以轻松集成多种支付渠道的工具！

IJPay 的宗旨是让支付触手可及。封装了微信支付、QQ 支付、支付宝支付、京东支付、银联支付、PayPal 支付等常用的支付方式以及各种常用的接口。 ...阅读全文

Spring Boot 3.2发布：大量Java 21的支持上线，改进可观测性

就在今天凌晨，Spring Boot 3.2正式发布了！该版本是在Java 21正式发布之后的重要支持版本，所以在该版本中包含大量对Java 21支持的优化。下面，我们分别通过Spring官方发布的博文和Josh Long长达80+分钟的介绍视频，一起认识一下Spring Boot 3.2最新版本 ...阅读全文

深度学习中实现PyTorch和NumPy之间的数据转换知多少？

在深度学习中，PyTorch和NumPy是两个常用的工具，用于处理和转换数据。PyTorch是一个基于Python的科学计算库，用于构建神经网络和深度学习模型。NumPy是一个用于科学计算的Python库，提供了一个强大的多维数组对象和用于处理这些数组的函数。在深度学习中，通常需要将数据从NumP ...阅读全文

Java开发者的Python快速进修指南：面向对象基础

作为一名有着Java背景的开发者，你无疑已经习惯了Java那严格的类型系统和细致的访问控制机制。转向Python，你会发现一个截然不同的编程世界。Python的面向对象编程（OOP）方式为代码组织提供了更高的自由度和灵活性，这种变化可能会给你带来新鲜感，同时也是一个挑战。需要注意的是，Python的... ...阅读全文

python 装饰器

装饰器(Decorators)是 Python 的一个重要部分。其功能主要为：在不修改函数定义的基础下，增加或修改函数的功能；有助于让我们的代码更简短，也更Pythonic（Python范儿）。预备知识一切皆对象在python中一切皆对象，函数也是对象，因此函数可以作为变量、函数参数、函数返 ...阅读全文

C++ 指针进阶：动态分配内存

C++ 动态实例化（new 和 malloc) malloc / free 工作原理 malloc 是 stdlib.h 库中的函数，声明为 void *__cdecl malloc(size_t _Size); 原理： malloc 函数沿空闲链表（位于内存堆空间中）申请一块满足需求的内存块， ...阅读全文

十五、联合体（union）

十五、联合体（union） 1、union语法联合体和结构体都是自定义数据类型，通过union可以创建一个联合体，union中的成员变量共享内存（即内存中有重叠的部分），因此union的数据类型大小由其最大的成员变量决定。 //联合体union语法 union 联合体名称 { 变量类型变量 ...阅读全文