一个完整Python实战项目：selenium识别验证码实现自动登录，自动操作浏览器获取某东数据

2023-12-27 16:22 由轻松学Python 发表于 #后端开发

最近都没啥时间，很久没更新了。

今天分享一下，如何用selenium识别验证码，实现自动登录以及获取数据。

目标：某东

话不多说直接开始

准备工作

环境

Python 3.10
Pycharm

模块使用

import random
import time
from selenium import webdriver
import pyautogui
import base64
import ddddocr
import csv

win + R 输入cmd 输入安装命令 pip install 模块名 (如果你觉得安装速度比较慢, 你可以切换国内镜像源)

selenium: 自动化测试模块，模拟人的行为去操作浏览器 (获取网页相关数据内容)

正常浏览网站流程

打开浏览器访问网站
输入商品名称, 回车/点击搜索
输入账号密码
浏览器商品数据信息 (第一页)
继续浏览下一页

浏览器

webdriver.Chrome() # 谷歌
webdriver.Edge() # Edge
webdriver.Firefox() # 火狐

建议大家用谷歌

打开浏览器可能会出现问题

报错大概率原因是因为浏览器驱动问题
- 驱动路径
I. 当你驱动文件和你代码放在一起 / 你驱动文件在python目录下面 (可以不用写路径)
II. 给驱动文件路径
- 驱动版本
浏览器可能自动更新 --> 驱动文件版本也要更新
大版本一样, 小版本最相近的即可
打开浏览器之后闪退
原因: 你的selenium版本是4.0的需要加阻塞
运行完成程序之后, 自动结束程序…

代码展示

获取数据部分

selenium自动操作浏览器

# 打开浏览器
driver = webdriver.Chrome() # 谷歌
# 最大化浏览器窗口
driver.maximize_window()
# 访问网站
driver.get('https://www.jd.com/')

输入商品名称, 回车/点击搜索按钮

通过元素定位, 找到搜索框/输入框, 然后输入内容

driver.find_element_by_id() 按 ID 查找元素
driver.find_element_by_class_name() 按类名查找元素
driver.find_element_by_css_selector() 通过 CSS 选择器查找元素
driver.find_element_by_xpath() 通过 XPath 查找元素
driver.find_element_by_id('key').send_keys('口红') # 输入关键字
driver.find_element_by_class_name('button').click() # 点击搜索按钮
# 设置等待元素加载
driver.implicitly_wait(10)

# 文章不理解的话，我还专门录制了视频讲解
# 和源码一起打包好了，都放在这个抠裙了：708525271

输入账号密码, 登陆

driver.find_element_by_id('loginname').send_keys(account) # 输入账号
driver.find_element_by_id('nloginpwd').send_keys(password) # 输入密码
driver.find_element_by_id('loginsubmit').click() # 点击登陆

获取商品的数据信息

找到商品数据对应标签位置

find_element 定位获取一个
find_elements 定位获取多个

执行页面滚动的操作

def drop_down():
    """执行页面滚动的操作"""  # javascript
    for x in range(1, 12, 2):# 1 3 5 7 9  在你不断的下拉过程中, 页面高度也会变的
        time.sleep(1)
        j = x / 9  # 1/9  3/9  5/9  9/9
        # document.documentElement.scrollTop  指定滚动条的位置
        # document.documentElement.scrollHeight 获取浏览器页面的最大高度
        js = 'document.documentElement.scrollTop = document.documentElement.scrollHeight * %f' % j
        driver.execute_script(js)

#设置等待元素加载过程
driver.implicitly_wait(10)
#下滑网页页面操作 通过selenium执行JS代码
drop_down()
# 返回列表
lis = driver.find_elements_by_class_name('gl-item')
# for循环遍历, 提取列表里面元素
for li in lis:
    title = li.find_element_by_css_selector('.p-name em').text
    price = li.find_element_by_css_selector('.p-price strong i').text
    commit = li.find_element_by_css_selector('.p-commit strong a').text
    shop = li.find_element_by_css_selector('.p-shop span a').text
    dit = {
        '标题': title,
        '价格': price,
        '评价': commit,
        '店铺': shop,
    }
    print(dit)

验证码识别

模块

from selenium import webdriver
import base64
import time
import ddddocr
import pyautogui
import random
from password import account, password

模拟登录

driver = webdriver.Edge(r'D:\自游\京东商品\msedgedriver.exe')
driver.get('https://passport.jd.com/new/login.aspx')
driver.maximize_window()
driver.find_element_by_id('loginname').send_keys(account) # 输入账号
driver.find_element_by_id('nloginpwd').send_keys(password) # 输入密码
driver.find_element_by_id('loginsubmit').click() # 点击登陆
time.sleep(1)

获取验证码图片

# 滑块
img_base6_1 = driver.find_element_by_css_selector('.JDJRV-smallimg img').get_attribute('src').split(',')[-1]
# 缺口
img_base6_2 = driver.find_element_by_css_selector('.JDJRV-bigimg img').get_attribute('src').split(',')[-1]
img_content_1 = base64.b64decode(img_base6_1)
with open('yzm_1.png', mode='wb') as f:
    f.write(img_content_1)
img_content_2 = base64.b64decode(img_base6_2)
with open('yzm_2.png', mode='wb') as f:
    f.write(img_content_2)

识别验证码滑块到缺口距离

det = ddddocr.DdddOcr(det=False, ocr=False)
res = det.slide_match(img_content_1, img_content_2, simple_target=True)
target = res['target'][0] * 0.67

滑动滑块识别验证

pyautogui.click(x=1502, y=482, button='left') # 按住鼠标
pyautogui.dragTo(x=1502+target, y=482, duration=1.5)
print(res)

# 代码自取扣裙 708525271

文章不理解的话，我还专门录制了视频讲解，和源码一起打包好了，上方自取

今天的分享就到这里，溜了溜了~

热门相关：我有一张均富卡贴身侍卫我寄人间万道龙皇诛天至极

Spring Boot学习随笔- 后端实现全局异常处理（HandlerExceptionResolver），前后端解决跨域问题（@CrossOrigin（局部解决）自定义跨域配置类（全局））

第十七章着重讲解了异常处理的方法。传统单体架构下，全局异常处理类通过实现HandlerExceptionResolver接口实现异常的统一处理，可以根据不同异常返回不同的错误页面。但在前后端分离的开发中，使用@ControllerAdvice和@ExceptionHandler注解更为方便。@Con... ...阅读全文

C++ Qt开发：TableView与TreeView组件联动

Qt 是一个跨平台C++图形界面开发库，利用Qt可以快速开发跨平台窗体应用程序，在Qt中我们可以通过拖拽的方式将不同组件放到指定的位置，实现图形化开发极大的方便了开发效率，本章将重点介绍`TableView`与`TreeView`组件联动的常用方法及灵活运用。本章我们继续实现表格的联动效果，当读者点... ...阅读全文

面试官：MySQL 到底是 join 性能好，还是 in 一下更快呢？被问懵逼了…

来源：https://juejin.cn/post/7169567387527282701 先总结：数据量小的时候，用join更划算数据量大的时候，join的成本更高，但相对来说join的速度会更快数据量过大的时候，in的数据量过多，会有无法执行SQL的问题，待解决事情是这样的，去年入职的新 ...阅读全文

香橙派5plus从ssd启动Ubuntu

官方接口图我实际会用到的就几个接口，背面的话就一个M.2固态的位置：其中WIFI模块的接口应该也可以插2230的固态，不过是pcie2.0的速度，背面的接口则是pcie3.0*4的速度，差距还是挺大的。开始安装系统准备工作一张内存卡(如果买的时候没有emmc的话) 下载并安装balenaE ...阅读全文

Windows 安装 Rust 并设置镜像加速

目录下载rustup-init.exe（Rust安装工具）使用镜像加速rustup安装安装Rust安装标准库源码使用镜像加速cargo包下载安装结果确认更新、卸载和文档查看参考文档下载rustup-init.exe（Rust安装工具）下载安装程序 https://www.rust-lang.or ...阅读全文

八字命运API接口：预测未来，把握机遇

随着人们对个人命运的关注度不断提高，很多人开始寻找各种方法来预测未来，把握机遇。而其中一种被广泛使用的方法就是八字预测。通过分析个人的生辰八字，可以揭示出一个人未来的发展趋势和潜在的机遇。如今，挖数据平台提供了一个八字命运API接口，可以帮助用户进行八字预测，免费算命，让人们更好地了解自己的未来。 ...阅读全文

Go语言编程教程-基本数据类型

课程要点了解布尔类型了解整数类型了解浮点数类型了解复数类型了解字符串类型了解字符类型布尔类型类型名称取值范围说明 bool 布尔类型 true或false 默认值为false 示例 ok := true println(ok) 整数类型类型名称取值范围说明 uint8 ...阅读全文

Flask Web API构建实例：GET、POST文件上传、静态资源下载一网打尽

以下是一个通过 Flask 构建 Web API 服务的详细示例，包含了各类请求（GET、POST、文件上传、静态资源下载）、每个方法独立配置路由、参数接收和解析、请求日志记录以及异常日志记录。请确保你已经安装了 Flask，你可以使用以下命令进行安装： pip install Flask 接下来是 ...阅读全文

Excel数据处理利器：C++中三款精选开源类库推荐与示例代码详解

在C++中，由于该语言本身不提供直接处理Excel文件的标准库，常常需要借助第三方类库。以下是一些在C++中用于处理Excel的热门开源类库： SimpleXlsxWriter: 功能： SimpleXlsxWriter是一个轻量级的C++库，用于生成Microsoft Excel 2007+ xl ...阅读全文

rust 过程宏

简介 Rust 编程语言里面有两种宏系统，一种是声明宏（Declarative Macros），另一种为过程宏（Procedural Macros）。声明宏和过程宏是两种基本上完全不一样的宏系统，编写的方式也完全不一致，使用方式除了函数式外也不一致。关于声明宏学习，Rust 宏小册里面有比较详细的 ...阅读全文