Python爬虫爬取B站up主所有动态内容

2024-05-08 14:31 由 qiao39gs 发表于 #后端开发

请注意，爬虫的使用应遵守网站的爬虫政策和法律法规，不要对网站造成不必要的负担或违反服务条款。

通过浏览器审查元素查看网络日志，发现每次获取动态信息的请求地址都相同，首次加载时offset为空：

https://api.bilibili.com/x/polymer/web-dynamic/v1/feed/space?host_mid=25470223&offset=

随着网页的不断下拉，offset参数无规律变换，第二次及以后的offset就在上一次次请求返回的json里的"offset"中，将"offset"的值带入下一次请求的参数中即可循环爬取。动态下拉到头时，json中"has_more"会由true变为false，可以以此判断是否结尾。此时的代码如下：

def fetch_data(offset):

    # 请求的URL
    url = "https://api.bilibili.com/x/polymer/web-dynamic/v1/feed/space"

    # 请求参数
    params = {
        "offset": offset,
        "host_mid": 25470223
    }

    # 发送请求
    response = requests.get(url, params=params, headers=headers)
    print(response.text)

    # 检查是否还有更多数据
    if data['data']['has_more']:
        # 如果有更多数据，使用新的offset发起新的请求
        fetch_data(data['data']['offset'])

# 从offset为空开始
fetch_data("")

直接爬取时，无法直接获取到数据，经网上查询为鉴权错误
{"code":-352,"message":"-352","ttl":1}

这时需要添加请求头及必要的cookie，添加后可以正常爬取，"response.text"即为响应json字符串，可自行存储后单独处理。并添加延时参数防止以后都逛不了B站：

import json
import time
import requests

# 添加请求头
headers = {
    'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.7',
    'Accept-Language': 'zh-CN,zh;q=0.9',
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/116.0.0.0 Safari/537.36',
    'Cookie':'buvid3=...; b_nut=...; _uuid=...; buvid4=...;' # up主动态页审查元素自行获取，必传
}

def fetch_data(offset):

    # 每次请求时延时0.1秒
    time.sleep(0.1)

    # 请求的URL
    url = "https://api.bilibili.com/x/polymer/web-dynamic/v1/feed/space"

    # 请求参数
    params = {
        "offset": offset,
        "host_mid": 25470223 # up主id，up主动态页审查元素自行获取
    }

    # 发送请求
    response = requests.get(url, params=params, headers=headers)
    print(response.text) #自行处理json

    # 检查是否还有更多数据
    if data['data']['has_more']:
        # 如果有更多数据，使用新的offset发起新的请求
        fetch_data(data['data']['offset'])

# 从offset为空开始
fetch_data("")

2024 年 5 月 7 日周二晴常（324 字）

正文早上两头跑应付工作时，客户部的同事说我像被吸干了阳气。没办法啊，觉没睡够不就应该这样吗…… 休息好了肯定不这样。另外，才知道这周六补班，那一瞬间有些想死（笑。文竹的末端叶子好像还是没有变绿呢。有些担心。或许应该有点耐心？鱼儿的手机似乎坏了，于是也买了一个红米 Note 12T Pro，有 ...阅读全文

同事使用 insert into select 迁移数据，开开心心上线，上线后被公司开除！

作者：xlecho 链接：https://juejin.cn/post/6931890118538199048 血一般的教训，请慎用 insert into select。同事应用之后，导致公司损失了近10w元，最终被公司开除。事情的起因公司的交易量比较大，使用的数据库是mysql，每天的增量差 ...阅读全文

cpp的lambda表达式

在C++中，lambda表达式提供了一种方便的方式来定义匿名函数。Lambda可以用来创建简单的函数对象，常用于算法库中的函数参数，特别是在STL（Standard Template Library）中。 Lambda表达式的语法是这样的： [ capture ] ( parameters ) -> ...阅读全文

selenium操作浏览器的一些配置

selenium操作浏览器的一些配置 #设置用户代理 USER_AGENTS = [ 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safa ...阅读全文

九、贪吃蛇之蛇身控制

九、贪吃蛇之蛇身控制 1. 目标 (1) 游戏难度决定蛇身移动的速度； (2) 蛇身增长； (3) 蛇身移动。 2. 蛇身速度控制用计数器来控制蛇身移动的时间间隔，间隔短，移动快，游戏难度就越难。在游戏难度选择界面，用SW[2:0]选择难度。 //蛇身移动速度 else begin clk_cnt ...阅读全文

拿去面试！一个基于 DDD 的高性能短链系统

众所周知，商城、RPC、秒杀、论坛、外卖、点评等项目早早就烂大街了，翻开同学的简历一看 10 个里面有 9 个是这些，翻遍全网再很难找到一个既有含金量又能看得懂的项目，针对此，我研发了这样一个可以快速上手又具有较多技术点的短链项目：高性能短链系统 EZLink！技术栈如下： DDD 架构 Rea ...阅读全文

从零手写实现 tomcat-03-基本的 socket 实现

创作缘由平时使用 tomcat 等 web 服务器不可谓不多，但是一直一知半解。于是想着自己实现一个简单版本，学习一下 tomcat 的精髓。系列教程从零手写实现 apache Tomcat-01-入门介绍从零手写实现 apache Tomcat-02-web.xml 入门详细介绍从零手 ...阅读全文

【GUI软件】调用YouTube的API接口，采集关键词搜索结果，并封装成界面工具！

目录一、背景介绍1.1 爬取目标1.2 演示视频1.3 软件说明二、代码讲解2.1 调用API-搜索接口2.2 调用API-详情接口2.3 API_KEY说明2.4 软件界面模块2.5 日志模块三、获取源码及软件一、背景介绍 1.1 爬取目标您好！我是@马哥python说，一名10年程序猿。我 ...阅读全文

02-大厂电商设计解析之商品管理系统

1 雪花算法使用 IdWorker idWorker=new IdWorker(1,1); for(int i=0;i<10000;i++){ long id = idWorker.nextId(); System.out.println(id); } 配置分布式ID生成器将IdWorker.ja ...阅读全文

NumPy 数组切片及数据类型介绍

NumPy 数组切片 NumPy 数组切片用于从数组中提取子集。它类似于 Python 中的列表切片，但支持多维数组。一维数组切片要从一维数组中提取子集，可以使用方括号 [] 并指定切片。切片由起始索引、结束索引和可选步长组成，用冒号 : 分隔。语法： arr[start:end:step] ...阅读全文