简单的用Python采集下微博评论，制作可视化词云图

2023-12-27 20:15 由轻松学Python 发表于 #后端开发

简单的用Python来获取微博评论，制作词云图。

首先准备环境模块

环境使用

Python 3.8或以上版本即可
Pycharm 任意版本

模块使用

import requests 
import wordcloud 
import jieba

以上三个模块都需要安装，直接pip install 加上模块名安装即可。

爬虫基本流程

一. 数据来源分析

明确需求: 明确采集的网站以及数据内容
- 网址: https://weibo.com/2803301701/NxcPMvW2l
- 数据: 评论内容
抓包分析: 通过开发者工具进行抓包
- 打开开发者工具: F12
- 刷新网页
- 通过关键字查找对应的数据
关键字: 评论的内容
数据包地址: https://weibo.com/ajax/statuses/buildComments?is_reload=1&id=4979141627611265&is_show_bulletin=2&is_mix=0&count=10&uid=2803301701&fetch_level=0&locale=zh-CN

二. 代码实现步骤

发送请求 -> 模拟浏览器对于url地址发送请求
获取数据 -> 获取服务器返回响应数据
解析数据 -> 提取评论内容
保存数据 -> 保存本地文件 (文本 csv Excel 数据库)

代码展示

数据采集部分

1、发送请求 -> 模拟浏览器对于url地址发送请求

# 模拟浏览器
headers = {
    # Referer 防盗链
    'Referer':'https://weibo.com/2803301701/NxcPMvW2l',
    # User-Agent 用户代理
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36'
}

# 请求网址
url = 'https://weibo.com/ajax/statuses/buildComments'
# 请求参数
data = {
    'is_reload': '1',
    'id': '4979141627611265',
    'is_show_bulletin': '2',
    'is_mix': '0',
    'max_id': max_id,
    'uid': '2803301701',
    'fetch_level': '0',
    'locale': 'zh-CN',
}
# 发送请求
response = requests.get(url=url, params=data, headers=headers)

2、获取数据 -> 获取服务器返回响应数据

json_data = response.json()
print(json_data)

3、解析数据 -> 提取评论内容

# 提取评论所在列表
content_list = json_data['data']
# for循环遍历, 提取列表里面元素
for index in content_list:
    content = index['text_raw']
    print(content)

4、保存数据

保存文本

with open('data.txt', mode='a', encoding='utf-8') as f:
    f.write(content)
    f.write('\n')
print(content)

保存表格

    with open('data.txt', mode='a', encoding='utf-8') as f:
        f.write(content)
        f.write('\n')
    print(content)

df = pd.DataFrame(lis)
df.to_excel(excel_writer:'data.xlsx', index=False) 
# 数据采集和可视化我还录制了详细的视频讲解 
# 跟代码一起打包好放在这个抠裙了 708525271

可视化部分

# 导入结巴分词
import jieba
# 导入词云图模块
import wordcloud
 
"""词云分析"""
# 读取文件内容
f = open('data.txt', encoding='utf-8').read()
# 分词
txt = jieba.lcut(f)
# 把列表合并成字符串
string = ' '.join(txt)
# 制作词云图配置
wc = wordcloud.WordCloud(
    font_path='msyh.ttc',
    width=1000,  # 宽
    height=700, # 高
    background_color='white', # 背景颜色 默认黑色
)
# 导入内容
wc.generate(string)
wc.to_file('词云_3.png')
print(txt)

词云图效果展示

好了，本次分享就结束了，下次再见！

热门相关：惊世第一妃：魔帝，宠上身！山神酒店供应商都市极品小医圣都市最强小村医

使用aiohttp异步调用API+request上传文件中文文档名乱码解决方案

有时候在调用需要用异步调用API接口。在python中有很多框架，比如 asyncio， Celery，Quart 等。这里我选择了 asyncio。Python 3.5以上版本内置了asyncio库，可以用来编写单线程的并发代码。可以使用此库与aiohttp结合来发送异步HTTP请求。 Pytho ...阅读全文

Spring Boot学习随笔- 后端实现全局异常处理（HandlerExceptionResolver），前后端解决跨域问题（@CrossOrigin（局部解决）自定义跨域配置类（全局））

第十七章着重讲解了异常处理的方法。传统单体架构下，全局异常处理类通过实现HandlerExceptionResolver接口实现异常的统一处理，可以根据不同异常返回不同的错误页面。但在前后端分离的开发中，使用@ControllerAdvice和@ExceptionHandler注解更为方便。@Con... ...阅读全文

一个完整Python实战项目：selenium识别验证码实现自动登录，自动操作浏览器获取某东数据

最近都没啥时间，很久没更新了。今天分享一下，如何用selenium识别验证码，实现自动登录以及获取数据。目标：某东话不多说直接开始准备工作环境 Python 3.10 Pycharm 模块使用 import random import time from selenium import w ...阅读全文

使用Mybatis自定义插件实现不侵入业务的公共参数自动追加

背景后台业务开发的过程中，往往会遇到这种场景：需要记录每条记录产生时间、修改时间、修改人及添加人，在查询时查询出来。以往的做法通常是手动在每个业务逻辑里耦合上这么一块代码，也有更优雅一点的做法是写一个拦截器，然后在Mybatis拦截器中为实体对象中的公共参数进行赋值，但最终依然需要在业务SQL上 ...阅读全文

C++ Qt开发：TableView与TreeView组件联动

Qt 是一个跨平台C++图形界面开发库，利用Qt可以快速开发跨平台窗体应用程序，在Qt中我们可以通过拖拽的方式将不同组件放到指定的位置，实现图形化开发极大的方便了开发效率，本章将重点介绍`TableView`与`TreeView`组件联动的常用方法及灵活运用。本章我们继续实现表格的联动效果，当读者点... ...阅读全文

面试官：MySQL 到底是 join 性能好，还是 in 一下更快呢？被问懵逼了…

来源：https://juejin.cn/post/7169567387527282701 先总结：数据量小的时候，用join更划算数据量大的时候，join的成本更高，但相对来说join的速度会更快数据量过大的时候，in的数据量过多，会有无法执行SQL的问题，待解决事情是这样的，去年入职的新 ...阅读全文

香橙派5plus从ssd启动Ubuntu

官方接口图我实际会用到的就几个接口，背面的话就一个M.2固态的位置：其中WIFI模块的接口应该也可以插2230的固态，不过是pcie2.0的速度，背面的接口则是pcie3.0*4的速度，差距还是挺大的。开始安装系统准备工作一张内存卡(如果买的时候没有emmc的话) 下载并安装balenaE ...阅读全文

Windows 安装 Rust 并设置镜像加速

目录下载rustup-init.exe（Rust安装工具）使用镜像加速rustup安装安装Rust安装标准库源码使用镜像加速cargo包下载安装结果确认更新、卸载和文档查看参考文档下载rustup-init.exe（Rust安装工具）下载安装程序 https://www.rust-lang.or ...阅读全文

八字命运API接口：预测未来，把握机遇

随着人们对个人命运的关注度不断提高，很多人开始寻找各种方法来预测未来，把握机遇。而其中一种被广泛使用的方法就是八字预测。通过分析个人的生辰八字，可以揭示出一个人未来的发展趋势和潜在的机遇。如今，挖数据平台提供了一个八字命运API接口，可以帮助用户进行八字预测，免费算命，让人们更好地了解自己的未来。 ...阅读全文

Go语言编程教程-基本数据类型

课程要点了解布尔类型了解整数类型了解浮点数类型了解复数类型了解字符串类型了解字符类型布尔类型类型名称取值范围说明 bool 布尔类型 true或false 默认值为false 示例 ok := true println(ok) 整数类型类型名称取值范围说明 uint8 ...阅读全文