selenium爬虫学习1

2024-08-29 11:26 由积分别忘C 发表于 #后端开发

简介

Selenium是广泛使用的模拟浏览器运行的库，它是一个用于Web应用程序测试的工具。 Selenium测试直接运行在浏览器中，就像真正的用户在操作一样，并且支持大多数现代 Web 浏览器。

函数介绍


重点方法
1.find_element方法是 Selenium WebDriver 提供的一种用于查找页面上某个符合条件的元素的方法。
2.find_elements 方法是 Selenium WebDriver 提供的一种用于查找页面上所有符合条件的元素的方法。与 find_element 不同，find_elements 返回的是一个列表，其中包含所有匹配的元素。如果没有找到任何元素，则返回一个空列表。
以下是 find_element(s) 方法的一些常见用法：
By.ID：通过元素的 ID 查找。
By.NAME：通过元素的 name 属性查找。
By.CLASS_NAME：通过元素的类名查找。
By.TAG_NAME：通过元素的标签名查找。
By.LINK_TEXT：通过链接文本查找。
By.PARTIAL_LINK_TEXT：通过部分链接文本查找。
By.CSS_SELECTOR：通过 CSS 选择器查找。
By.XPATH：通过 XPath 表达式查找。
driver.find_element对象具有.click()方法，就是点击这个元素
3.driver.window_handles获取当前所有窗口句柄
4.driver.switch_to.window()跳转到某个窗口

练习代码

from selenium import webdriver
from selenium.webdriver.common.by import By
import time
# 初始化浏览器驱动
driver = webdriver.Chrome()

# 打开百度首页
driver.get("https://avd.aliyun.com/")
time.sleep(2)

# 定位输入框并输入关键字
search_box = driver.find_element(By.XPATH, "/html/body/header/nav/div/form/input")
search_box.send_keys("MySQL")

# 点击搜索按钮
search_button = driver.find_element(By.XPATH, '/html/body/header/nav/div/form/button')
search_button.click()
# 等待2秒
time.sleep(2)
res_header=driver.find_element(By.ID,'itl-header')
print(res_header.text)
tr_elements = driver.find_elements(By.XPATH,"/html/body/main/div[2]/div/div[2]/table/tbody")
for tr in tr_elements:
    # 在这里对每个tr元素进行操作，例如提取文本内容
    print(tr.text)
link = driver.find_element(By.PARTIAL_LINK_TEXT, "AVD-2024-21177")
link.click()
all_windows = driver.window_handles
driver.switch_to.window(all_windows[-1])
searchclass=driver.find_elements(By.CSS_SELECTOR, '.border-bottom.border-gray.pb-2.mb-0')
for search in searchclass:
    print(search.text)
input("Press Enter to close the browser...")
# 关闭浏览器

driver.quit()

运行效果

运行过程

运行后先是打开浏览器进入阿里云漏洞库，紧接着搜索MYSQL相关漏洞，结果如下

通过html的id属性找到“搜索结果关于[mysql]的搜索数据”这几个字打印出来

tr_elements = driver.find_elements(By.XPATH,"/html/body/main/div[2]/div/div[2]/table/tbody")
res_header=driver.find_element(By.ID,'itl-header')
print(res_header.text)

通过xpath找到tbody里面所有行，遍历并打印内容

tr_elements = driver.find_elements(By.XPATH,"/html/body/main/div[2]/div/div[2]/table/tbody")
for tr in tr_elements:
    # 在这里对每个tr元素进行操作，例如提取文本内容
    print(tr.text)

随便定位一个漏洞介绍的链接点进去：

link = driver.find_element(By.PARTIAL_LINK_TEXT, "AVD-2024-21177")
link.click()
all_windows = driver.window_handles  # 获取所有窗口的句柄
driver.switch_to.window(all_windows[-1])#有的浏览器并不会自动跳转到点开的标签页，所以可以获取当前所有标签页再利用函数跳转

打印所有class="border-bottom border-gray pb-2 mb-0"的元素

searchclass=driver.find_elements(By.CSS_SELECTOR, '.border-bottom.border-gray.pb-2.mb-0')
for search in searchclass:
    print(search.text)

因为class的值包含空格所以不能直接By.CLASS寻找，用By.CSS_SELECTOR，每个值用点号分隔

关闭浏览器

博弈论基础

$\texttt{SG}$ 函数，巴什博弈$\texttt{(Bash)}$，尼姆博弈$\texttt{(Nim)}$，反尼姆博弈，斐波那契博弈$\texttt{(Fibonacci)}$ ...阅读全文

[golang]查询ssl证书剩余有效天数并邮件提醒

前言自从云厂商的免费ssl证书改成3个月，而且证书数量还是20个之后，自己网站的ssl证书就换成了其它免费方案。但是免费方案不会提醒证书过期，所以写个工具每天定时查询证书剩余有效天数，如果证书即将过期，就发送邮件提醒。基本实现最基本的代码功能就是检测网站ssl证书的有效天数，可以用命令行传参的 ...阅读全文

CMake构建学习笔记10-OsgQt库的构建

笔者使用的OsgQt库是Github上openscenegraph仓库中托管的项目（地址），该库的功能是将Osg嵌入到Qt窗体中。不过该库的使用总是有点问题，具体的介绍笔者在之前的两篇博文中论述过： OSG嵌入QT的简明总结 OSG嵌入QT的简明总结2 因此，这里笔者还是将这个库分成了两个版本进行构 ...阅读全文

P10786 [NOI2024] 百万富翁

讲解 P10786 [NOI2024] 百万富翁。先爆搜出 t>=9 的部分分，然后考虑使用动态规划算法进行常数优化跑出答案。 ...阅读全文

入职后，我发现工作内容和自己想象中的不太一致。。

2018年6月，大三暑假进行时，实习第二天上班昨天王工跟我说最好统一开发工具用eclipse，今早我瞄到其实也有同事用idea。 eclipse还得学习，用idea算了，随便上网找个盗版的就好咯，不纠结这么多。公司被逮到，也是公司的问题，公司没有禁止使用idea，一定就不是我的问题。一大早上班 ...阅读全文

P10789 [NOI2024] 登山

讲解 P10789 [NOI2024] 登山。首先使用朴素的动态规划，前缀和优化到平方，考虑特殊性质的部分分，使用树剖进行优化，由特殊性质推到整体，使用主席树再次进行优化，中间需要多次倍增跳跃。 ...阅读全文

Java异常详解(全文干货)

介绍 Throwable Throwable 是 Java 语言中所有错误与异常的超类。 Throwable 包含两个子类：Error（错误）和 Exception（异常），它们通常用于指示发生了异常情况。 Throwable 包含了其线程创建时线程执行堆栈的快照，它提供了 printStackTr ...阅读全文

【爬虫实战】——利用bs4和sqlalchemy操作mysql数据库，实现网站多行数据表格爬取数据

前言此篇接上一篇的内容，在其基础上爬取网站的多行表格数据，以及把数据写入到mysql数据库中目录一、定位表格查找元素二、提取数据三、写入mysql数据库四、附录一、定位表格查找元素首先打开网站，如图需要爬取多行数据的表格，利用查找元素定位，看图中分析得知我要爬取的是tr下的td数据， ...阅读全文

Netty 学习笔记

Java 网络编程早期的 Java API 只支持由本地系统套接字库提供的所谓的阻塞函数，下面的代码展示了一个使用传统 Java API 的服务器代码的普通示例 // 创建一个 ServerSocket 用以监听指定端口上的连接请求 ServerSocket serverSocket = new ...阅读全文

Python流程控制

本篇是 Python 系列教程第 7 篇，更多内容敬请访问我的 Python 合集 Python和Java一样，也有条件语句（if）、循环语句（for 和 while）以及跳转语句（break 和 continue）。 1 条件语句 (if, elif, else) 语法: if condition ...阅读全文