selenuim网页操作

发布时间:2022-07-04 发布网站:脚本宝典
脚本宝典收集整理的这篇文章主要介绍了selenuim网页操作脚本宝典觉得挺不错的,现在分享给大家,也给大家做个参考。

selenuim其他操作

获取属性

tag.get_attribue('src')

获取文本内容

tag.text

获取标签id,位置,名称,大小(了解)

print(tag.id)
print(tag.location)
print(tag.tag_name)
print(tag.size)

模拟浏览器前进后退

browser.back()
browser.forward()

cookies管理

browser.get_cookies()  # 获取cookie
browser.add_cookie({'k1':'xxx','k2':'yyy'})  # 设置cookie

运行js

 

from selenium import webdriver
import time
bro=webdriver.Chrome()
bro.get("http://www.baidu.com")
bro.execute_script('window.scrollTo(0,200)') # 鼠标滚轮移动
time.sleep(5)

 

选项卡管理

import time
from selenium import webdriver
browser=webdriver.Chrome()
browser.get('https://www.baidu.com')
browser.execute_script('window.open()')
print(browser.window_handles)  # 获取所有的选项卡
browser.switch_to_window(browser.window_handles[1])
browser.get('https://www.taobao.com')
time.sleep(3)
browser.switch_to_window(browser.window_handles[0])
browser.get('https://www.sina.com.cn')
browser.close()

动作链(滑动验证码没有代码破解的必要,不如手动滑获取cookie即可)

动作链(页面上嵌套页面>>>iframe)

from selenium import webdriver
from selenium.webdriver import ActionChains
import time

driver = webdriver.Chrome()
driver.get('http://www.runoob.com/try/try.php?filename=jqueryui-api-droppable')

driver.switch_to.frame('iframeResult')  # 必须要指定iframe标签
sourse = driver.find_element_by_id('draggable')
target = driver.find_element_by_id('droppable')

方式一:基于同一个动作链串行执行(速度太快不真实)

# actions = ActionChains(driver)  # 拿到动作链对象
# actions.drag_and_drop(sourse, target)  # 把动作放到动作链中,准备串行执行
# actions.perform()

方法二:不同的动作链,每次移动的位移都不同

actions = ActionChains(driver)
actions.click_and_hold(sourse)
distance = target.location['x'] - sourse.location['x']
track = 0
while track < distance:
    actions.move_by_offset(xoffset=2, yoffset=0).perform()
    track += 5
    time.sleep(0.5)
actions.release()

driver.close()

iframe界面

 

有时候一个页面上还是会叠加其他完整的html页面

  该页面一般都是iframe标签,内部含有完整的html文档结构

    在查找该标签内部的标签时需要指定一个参数

driver.switch_to.frame('iframeResult')

滑动验证码

针对滑动验证码也是可以通过selenuim自动完成的

(滑动验证码很多时候不推荐使用程序破解,太过繁琐)

  很多时候还不如自己亲自手动滑动来的方便

  (即:在代码移动到登陆界面时设置time.sleep代码,然后自己在sleep的期间完成登陆,再等待代码继续运行)

(滑动验证码在拖动的时候速度不能太快,内部可能会有监测机制

速度太快会被认为是爬虫程序)

无界面操作

  后台按照正常的方式运行,但不会把过程展示出来

from selenium.webdriver.chrome.options import Options
chrome_options = Options()
chrome_options.add_argument('--headless')
chrome_options.add_argument('--disable-gpu')
bro = webdriver.Chrome(chrome_options=chrome_options)
bro.get('https://www.baidu.com')
# 如何获取页面html代码
driver.page_source  '''可以去药品许可证界面尝试'''

针对selenuim防爬

  很多程序是可以分辨出来当前浏览器是否被selenuim操作,我们可以在代码中添加如下配置即可避免被识破

from selenium.webdriver import ChromeOptions
option = ChromeOptions()
option.add_experimental_option('excludeSwitchers',['enable-automation'])
bro = webdriver.Chrome(options=option)

cookie登陆

import requests
from selenium import webdriver
import time
import json

# 使用selenium打开网址,然后让用户完成手工登录,再获取cookie
# url = 'https://account.cnblogs.com/signin?returnUrl=https%3A%2F%2Fwww.cnblogs.com%2F'
# driver = webdriver.Chrome()
# driver.get(url=url)
# time.sleep(30)  # 预留时间让用户输入用户名和密码
# driver.refresh()  # 刷新页面
# c = driver.get_cookies()  # 获取登录成功之后服务端发返回的cookie数据
# print(c)
# with open('xxx.txt', 'w') as f:
#     json.dump(c, f)

cookies = {}
with open('xxx.txt', 'r') as f:
    di = json.load(f)
# 获取cookie中的name和value,转化成requests可以使用的形式
for cookie in di:
    cookies[cookie['name']] = cookie['value']

使用该cookie完成请求

response = requests.get(url='https://i-beta.cnblogs.com/api/user', cookies=cookies)
response.encoding = response.apparent_encoding
print(response.text)

seleuinm拿cookierequests拿cookie去模拟爬取数据

图片验证码

思路1:完全使用代码破解

  图像识别技术

    软件:Tesseract-ocr

    模块:pytesseract

思路2:打码平台

  花钱买第三方服务

    先使用代码识别,如果识别不出来则转人工肉眼识别

思路3:自己肉眼识别

(即:在代码移动到登陆界面时设置time.sleep代码,然后自己在sleep的期间完成登陆,再等待代码继续运行)

(建议所有验证码全用这招,一力降十会了属于是)

b站视频案例

  代码无需掌握,只需要思路会说即可

 

  https://www.cnblogs.com/xiaoyuanqujing/articles/12016934.html  https://www.cnblogs.com/xiaoyuanqujing/articles/12014416.html

(b站有很多视频是一分为二的

  分为视频(只有画面没有声音)和音频(只有声音没有画面))

红薯网小说案例(扫地僧的水平)

https://www.cnblogs.com/xiaoyuanqujing/protected/articles/11868250.html

密码:xiaoyuanqujing@666

1.小说详情页鼠标左右键全部禁用

  小漏洞:支持F12跳出控制台

2.小说文字不是直接加载

  查找相关的二次请求

3.在请求中发现可疑数据

  https://www.hongshu.com/bookajax.do

  content:加密数据

  other:加密数据

  bid:3052

  jid:3317

  cid:98805

4.文字内容的解密过程发生在浏览器本地(因为返回的数据是加密的)

  涉及到数据解密肯定需要写js代码,并且一般都会出现关键字decrypt

  通过浏览器查找相应的js代码

  文字主要内容的界面

    utf8to16(hs_decrypt(base64decode(data.content), key))

  解密之后仍然存在数据缺失的情况

    utf8to16(hs_decrypt(base64decode(data.other), key))

  解密之后是一段js代码

  (怀疑缺失的数据与解析出来的js代码有很大关系)

5.自己新建一个html文件

  将content内部拷贝到body内

  将js代码引入到该html文件夹

 

脚本宝典总结

以上是脚本宝典为你收集整理的selenuim网页操作全部内容,希望文章能够帮你解决selenuim网页操作所遇到的问题。

如果觉得脚本宝典网站内容还不错,欢迎将脚本宝典推荐好友。

本图文内容来源于网友网络收集整理提供,作为学习参考使用,版权属于原作者。
如您有任何意见或建议可联系处理。小编QQ:384754419,请注明来意。
标签: