爬虫---08.selenium_心得技巧

心得技巧

html5 HTML/Xhtml CSS XML/XSLT Dreamweaver教程 Frontpage教程心得技巧

上一篇: ARC128题解下一篇:菜鸟编程练习生之<数一下1到1...

爬虫---08.selenium

发布时间：2022-07-01 发布网站：脚本宝典

脚本宝典收集整理的这篇文章主要介绍了爬虫---08.selenium，脚本宝典觉得挺不错的，现在分享给大家，也给大家做个参考。

概念基于浏览器自动化的模块
自动化可以通过代码指定一系列的行为动作然后将其作用到浏览器中
pip install selenium
selenium和爬虫之间的关联
- 1.便捷的捕获到任意形式动态加载的数据（可见即可得）
- 2.实现模拟登陆

简单实例

注意：网页里可以直接复制xpath路径在代码部分右键

        from selenium import webdriver
        from time import sleep

        # 基于浏览器的驱动程序实例化一个浏览器对象

        bro = webdriver.Chrome(executable_path='./chromedriver')
        # 对目的网站发起请求
        bro.get('http://www.jd.com/')
        # 标签定位
        search_text = bro.find_element_by_xpath('//*[@id="key"]')
        search_text.send_keys('iphoneX')        # 向标签中录入数据

        btn = bro.find_element_by_xpath('//*[@id="search"]/div/div[2]/button')
        btn.click()
        sleep(2)
        # 在搜索结果页面进行滚轮向下滑动的操作(执行JS操作：js注入)
        bro.execute_script('window.scrollTo(0, document.body.scrollHeight)')
        
        -------------------------------------------------------------------------------------------------------------

        from selenium import webdriver
        from time import sleep
        from lxml import etree

        url = "http://scxk.nmpa.gov.cn:81/xk/"

        bro = webdriver.Chrome(executable_path='./chromedriver.exe')
        bro.get(url)
        page_text_list = []         # 每一页的页面源码数据
        sleep(1)

        # 捕获到当前页面对应的页面源码数据
        # 当前页面全部加载完毕后对应的所有数据
        page_text = bro.page_source
        page_text_list.append(page_text)

        # 点击下一页

        for i in range(2):
            next_page = bro.find_element_by_xpath('//*[@id="pageIto_next"]')
            next_page.click()
            sleep(1)
            page_text_list.append(bro.page_source)

        tree = etree.HTML(page_text)
        li_lst = tree.xpath('//*[@id="gzlist"]/li')
        print(li_lst)

        for li in li_lst:
            name = li.xpath('./dl/@title')[0]
            print(name)
        sleep(2)
        bro.quit()

selenium的弊端，效率低
动作链ActionChains 指的是一系列连续的动作(滑动动作)
selenium规避检测有的网站会检测请求是否为selenium发起, 如果是的话则该次请求失败规避检测的方法是使用浏览器接管技术
- 这里的步骤是原始的下边部分是另外看到的都没尝试过
  - 进入cmd 输入命令
  - chrome.exe --remote-debugging-port=9222 --user-data-dir='C:selenumAutomationProfile'
  - 对于-remote-debugging-port值可以指定任何打开的端口
  - 对于-usesr-data-dir标记指定创建新Chrome配置文件的目录。它是为了确保在单独的配置文件中启动chrome,不会污染你的默认配置文件
  - 还有不要忘了在环境变量中PATH里将chrome的路径添加进去
  - 此时会打开一个浏览器页面，我们数据百度网址把它当成一个已存在的浏览器
- 步骤
  - 1.必须将你电脑中安装的谷歌浏览器的驱动程序所在目录找到。且将目录添加到环境变量中。
  - 2.打开cmd 输入上边的指令 chrome.exe --remote-debugging-port=9222 --user-data-dir='C:selenumAutomationProfile'(后边跟的是一个空文件夹目录) 指定执行结束后会打开你本机安装好的谷歌浏览器
  - 3.执行如下代码可以使用下边代码接管步骤2打开的真实的浏览器
```
          from selenium import webdriver
          from selenium.webdriver.chrome.options import Options
          chrome_options = Options()
          chrome_options.add_experimental_option('debuggerAddress', '127.0.0.1:9222')
          chrome_driver = 'C:Program Files(x86)GoogleChromeApplicationchromedriver.exe' #(本机安装好的谷歌驱动程序路径)
          driver = webdriver.Chrome(executable_path=chrome_driver, chrome_options=chrome_options)
          print(driver.title)
```

无头浏览器即无可视化界面的浏览器

谷歌无头浏览器（推荐）

phantomJs from selenium import webdriver from selenium.webdriver.chrome.options import Options import time

                # 创建一个参数对象 用来控制chrome以无界面模式打开
                chrome_options = Options()
                chrome_options.add_argument('--headless')
                chrome_options.add_argument('--disable-gpu')

                # 创建浏览器对象
                browser = webdriver.Chrome(executable_path='./chromedriver', chrome_options=chrome_options)

                # 上网
                url = 'http://www.baidu.com'
                browser.get(url)
                time.sleep(3)
                # 截图
                browser.save_screenshot('baidu.png')
                print(browser.page_source)
                browser.quit()

脚本宝典总结

以上是脚本宝典为你收集整理的爬虫---08.selenium全部内容，希望文章能够帮你解决爬虫---08.selenium所遇到的问题。

如果觉得脚本宝典网站内容还不错，欢迎将脚本宝典推荐好友。

本图文内容来源于网友网络收集整理提供，作为学习参考使用，版权属于原作者。
如您有任何意见或建议可联系处理。小编QQ：384754419，请注明来意。

标签：

上一篇: ARC128题解下一篇:菜鸟编程练习生之<数一下1到1...

猜你在找的心得技巧相关文章

clion结合vcpkg以及GTest的使用 2022-07-07
EGF 2022-06-06
ExtJS 布局-Column布局（Column layout） 2022-06-05
颜色之ARGB与RGB、RGBA的区别与介绍 2022-04-15
rgba中的a是什么意思 CSS之RGBA颜色指南 2022-04-15
rootfs -根文件系统制作 2022-07-07
网页简单布局之结构与表现原则分享 2022-04-15
小项目中怎么防止Vue的闪现画面效果 2022-04-15
隐藏 Web 中的元素方法及优缺点教程详解 2022-04-15
告别硬编码让你的前端表格自动计算的实例代码 2022-04-15

全站导航更多