selenuim网页操作_心得技巧

心得技巧

html5 HTML/Xhtml CSS XML/XSLT Dreamweaver教程 Frontpage教程心得技巧

上一篇: 前端JS生成二维码下一篇:TOC - 轴流式通风机实用技术- 昌...

selenuim网页操作

发布时间：2022-07-04 发布网站：脚本宝典

脚本宝典收集整理的这篇文章主要介绍了selenuim网页操作，脚本宝典觉得挺不错的，现在分享给大家，也给大家做个参考。

selenuim其他操作

获取属性

tag.get_attribue('src')

获取文本内容

tag.text

获取标签id，位置，名称，大小（了解）

print(tag.id)
print(tag.location)
print(tag.tag_name)
print(tag.size)

模拟浏览器前进后退

browser.back()
browser.forward()

cookies管理

browser.get_cookies()  # 获取cookie
browser.add_cookie({'k1':'xxx','k2':'yyy'})  # 设置cookie

运行js

from selenium import webdriver
import time
bro=webdriver.Chrome()
bro.get("http://www.baidu.com")
bro.execute_script('window.scrollTo(0,200)') # 鼠标滚轮移动
time.sleep(5)

选项卡管理

import time
from selenium import webdriver
browser=webdriver.Chrome()
browser.get('https://www.baidu.com')
browser.execute_script('window.open()')
print(browser.window_handles)  # 获取所有的选项卡
browser.switch_to_window(browser.window_handles[1])
browser.get('https://www.taobao.com')
time.sleep(3)
browser.switch_to_window(browser.window_handles[0])
browser.get('https://www.sina.com.cn')
browser.close()

动作链（滑动验证码没有代码破解的必要，不如手动滑获取cookie即可）

动作链（页面上嵌套页面>>>iframe）

from selenium import webdriver
from selenium.webdriver import ActionChains
import time

driver = webdriver.Chrome()
driver.get('http://www.runoob.com/try/try.php?filename=jqueryui-api-droppable')

driver.switch_to.frame('iframeResult')  # 必须要指定iframe标签
sourse = driver.find_element_by_id('draggable')
target = driver.find_element_by_id('droppable')

方式一：基于同一个动作链串行执行（速度太快不真实）

# actions = ActionChains(driver)  # 拿到动作链对象
# actions.drag_and_drop(sourse, target)  # 把动作放到动作链中，准备串行执行
# actions.perform()

方法二：不同的动作链，每次移动的位移都不同

actions = ActionChains(driver)
actions.click_and_hold(sourse)
distance = target.location['x'] - sourse.location['x']
track = 0
while track < distance:
    actions.move_by_offset(xoffset=2, yoffset=0).perform()
    track += 5
    time.sleep(0.5)
actions.release()

driver.close()

iframe界面

有时候一个页面上还是会叠加其他完整的html页面

　　该页面一般都是iframe标签，内部含有完整的html文档结构

　　　　在查找该标签内部的标签时需要指定一个参数

driver.switch_to.frame('iframeResult')

滑动验证码

针对滑动验证码也是可以通过selenuim自动完成的

（滑动验证码很多时候不推荐使用程序破解，太过繁琐）

　　很多时候还不如自己亲自手动滑动来的方便

　　（即：在代码移动到登陆界面时设置time.sleep代码，然后自己在sleep的期间完成登陆，再等待代码继续运行）

（滑动验证码在拖动的时候速度不能太快，内部可能会有监测机制

速度太快会被认为是爬虫程序）

无界面操作

　　后台按照正常的方式运行，但不会把过程展示出来

from selenium.webdriver.chrome.options import Options
chrome_options = Options()
chrome_options.add_argument('--headless')
chrome_options.add_argument('--disable-gpu')
bro = webdriver.Chrome(chrome_options=chrome_options)
bro.get('https://www.baidu.com')
# 如何获取页面html代码
driver.page_source  '''可以去药品许可证界面尝试'''

针对selenuim防爬

　　很多程序是可以分辨出来当前浏览器是否被selenuim操作，我们可以在代码中添加如下配置即可避免被识破

from selenium.webdriver import ChromeOptions
option = ChromeOptions()
option.add_experimental_option('excludeSwitchers',['enable-automation'])
bro = webdriver.Chrome(options=option)

cookie登陆

import requests
from selenium import webdriver
import time
import json

# 使用selenium打开网址,然后让用户完成手工登录,再获取cookie
# url = 'https://account.cnblogs.com/signin?returnUrl=https%3A%2F%2Fwww.cnblogs.com%2F'
# driver = webdriver.Chrome()
# driver.get(url=url)
# time.sleep(30)  # 预留时间让用户输入用户名和密码
# driver.refresh()  # 刷新页面
# c = driver.get_cookies()  # 获取登录成功之后服务端发返回的cookie数据
# print(c)
# with open('xxx.txt', 'w') as f:
#     json.dump(c, f)

cookies = {}
with open('xxx.txt', 'r') as f:
    di = json.load(f)
# 获取cookie中的name和value,转化成requests可以使用的形式
for cookie in di:
    cookies[cookie['name']] = cookie['value']

使用该cookie完成请求

response = requests.get(url='https://i-beta.cnblogs.com/api/user', cookies=cookies)
response.encoding = response.apparent_encoding
print(response.text)

seleuinm拿cookierequests拿cookie去模拟爬取数据

图片验证码

思路1：完全使用代码破解

　　图像识别技术

　　　　软件：Tesseract-ocr

　　　　模块：pytesseract

思路2：打码平台

　　花钱买第三方服务

　　　　先使用代码识别，如果识别不出来则转人工肉眼识别

思路3：自己肉眼识别

（即：在代码移动到登陆界面时设置time.sleep代码，然后自己在sleep的期间完成登陆，再等待代码继续运行）

（建议所有验证码全用这招，一力降十会了属于是）

b站视频案例

　　代码无需掌握，只需要思路会说即可

　　https://www.cnblogs.com/xiaoyuanqujing/articles/12016934.html　　https://www.cnblogs.com/xiaoyuanqujing/articles/12014416.html

（b站有很多视频是一分为二的

　　分为视频（只有画面没有声音）和音频（只有声音没有画面））

红薯网小说案例（扫地僧的水平）

https://www.cnblogs.com/xiaoyuanqujing/protected/articles/11868250.html

密码：xiaoyuanqujing@666

1.小说详情页鼠标左右键全部禁用

　　小漏洞：支持F12跳出控制台

2.小说文字不是直接加载

　　查找相关的二次请求

3.在请求中发现可疑数据

　　https://www.hongshu.com/bookajax.do

　　content：加密数据

　　other：加密数据

　　bid：3052

　　jid：3317

　　cid：98805

4.文字内容的解密过程发生在浏览器本地（因为返回的数据是加密的）

　　涉及到数据解密肯定需要写js代码，并且一般都会出现关键字decrypt

　　通过浏览器查找相应的js代码

　　文字主要内容的界面

　　　　utf8to16(hs_decrypt(base64decode(data.content), key))

　　解密之后仍然存在数据缺失的情况

　　　　utf8to16(hs_decrypt(base64decode(data.other), key))

　　解密之后是一段js代码

　　（怀疑缺失的数据与解析出来的js代码有很大关系）

5.自己新建一个html文件

　　将content内部拷贝到body内

　　将js代码引入到该html文件夹

脚本宝典总结

以上是脚本宝典为你收集整理的selenuim网页操作全部内容，希望文章能够帮你解决selenuim网页操作所遇到的问题。

如果觉得脚本宝典网站内容还不错，欢迎将脚本宝典推荐好友。

本图文内容来源于网友网络收集整理提供，作为学习参考使用，版权属于原作者。
如您有任何意见或建议可联系处理。小编QQ：384754419，请注明来意。

标签：

上一篇: 前端JS生成二维码下一篇:TOC - 轴流式通风机实用技术- 昌...

猜你在找的心得技巧相关文章

clion结合vcpkg以及GTest的使用 2022-07-07
EGF 2022-06-06
ExtJS 布局-Column布局（Column layout） 2022-06-05
颜色之ARGB与RGB、RGBA的区别与介绍 2022-04-15
rgba中的a是什么意思 CSS之RGBA颜色指南 2022-04-15
rootfs -根文件系统制作 2022-07-07
网页简单布局之结构与表现原则分享 2022-04-15
小项目中怎么防止Vue的闪现画面效果 2022-04-15
隐藏 Web 中的元素方法及优缺点教程详解 2022-04-15
告别硬编码让你的前端表格自动计算的实例代码 2022-04-15

全站导航更多