脚本宝典收集整理的这篇文章主要介绍了爬虫---08.selenium,脚本宝典觉得挺不错的,现在分享给大家,也给大家做个参考。
概念 基于浏览器自动化的模块
自动化可以通过代码指定一系列的行为动作 然后将其作用到浏览器中
pip install selenium
selenium和爬虫之间的关联
简单实例
注意:网页里可以直接复制xpath路径 在代码部分右键
from selenium import webdriver
from time import sleep
# 基于浏览器的驱动程序实例化一个浏览器对象
bro = webdriver.Chrome(executable_path='./chromedriver')
# 对目的网站发起请求
bro.get('http://www.jd.com/')
# 标签定位
search_text = bro.find_element_by_xpath('//*[@id="key"]')
search_text.send_keys('iphoneX') # 向标签中录入数据
btn = bro.find_element_by_xpath('//*[@id="search"]/div/div[2]/button')
btn.click()
sleep(2)
# 在搜索结果页面进行滚轮向下滑动的操作(执行JS操作:js注入)
bro.execute_script('window.scrollTo(0, document.body.scrollHeight)')
-------------------------------------------------------------------------------------------------------------
from selenium import webdriver
from time import sleep
from lxml import etree
url = "http://scxk.nmpa.gov.cn:81/xk/"
bro = webdriver.Chrome(executable_path='./chromedriver.exe')
bro.get(url)
page_text_list = [] # 每一页的页面源码数据
sleep(1)
# 捕获到当前页面对应的页面源码数据
# 当前页面全部加载完毕后对应的所有数据
page_text = bro.page_source
page_text_list.append(page_text)
# 点击下一页
for i in range(2):
next_page = bro.find_element_by_xpath('//*[@id="pageIto_next"]')
next_page.click()
sleep(1)
page_text_list.append(bro.page_source)
tree = etree.HTML(page_text)
li_lst = tree.xpath('//*[@id="gzlist"]/li')
print(li_lst)
for li in li_lst:
name = li.xpath('./dl/@title')[0]
print(name)
sleep(2)
bro.quit()
selenium的弊端,效率低
动作链ActionChains 指的是一系列连续的动作(滑动动作)
selenium规避检测 有的网站会检测请求是否为selenium发起, 如果是的话则该次请求失败 规避检测的方法是使用浏览器接管技术
这里的步骤是原始的 下边部分是另外看到的 都没尝试过
步骤
1.必须将你电脑中安装的谷歌浏览器的驱动程序所在目录找到。且将目录添加到环境变量中。
2.打开cmd 输入上边的指令 chrome.exe --remote-debugging-port=9222 --user-data-dir='C:selenumAutomationProfile'(后边跟的是一个空文件夹目录) 指定执行结束后 会打开你本机安装好的谷歌浏览器
3.执行如下代码 可以使用下边代码接管步骤2打开的真实的浏览器
from selenium import webdriver
from selenium.webdriver.chrome.options import Options
chrome_options = Options()
chrome_options.add_experimental_option('debuggerAddress', '127.0.0.1:9222')
chrome_driver = 'C:Program Files(x86)GoogleChromeApplicationchromedriver.exe' #(本机安装好的谷歌驱动程序路径)
driver = webdriver.Chrome(executable_path=chrome_driver, chrome_options=chrome_options)
print(driver.title)
无头浏览器 即无可视化界面的浏览器
谷歌无头浏览器(推荐)
phantomJs from selenium import webdriver from selenium.webdriver.chrome.options import Options import time
# 创建一个参数对象 用来控制chrome以无界面模式打开
chrome_options = Options()
chrome_options.add_argument('--headless')
chrome_options.add_argument('--disable-gpu')
# 创建浏览器对象
browser = webdriver.Chrome(executable_path='./chromedriver', chrome_options=chrome_options)
# 上网
url = 'http://www.baidu.com'
browser.get(url)
time.sleep(3)
# 截图
browser.save_screenshot('baidu.png')
print(browser.page_source)
browser.quit()
以上是脚本宝典为你收集整理的爬虫---08.selenium全部内容,希望文章能够帮你解决爬虫---08.selenium所遇到的问题。
本图文内容来源于网友网络收集整理提供,作为学习参考使用,版权属于原作者。
如您有任何意见或建议可联系处理。小编QQ:384754419,请注明来意。