node网络爬虫实例了解下？_Node.js

上一篇: node.js同步MongoDB数据到MySQL 下一篇:Binary Tree Maximum Path Sum@L...

node网络爬虫实例了解下？

发布时间：2019-06-22 发布网站：脚本宝典

脚本宝典收集整理的这篇文章主要介绍了node网络爬虫实例了解下？，脚本宝典觉得挺不错的，现在分享给大家，也给大家做个参考。

今天给大家分享的是node爬虫，写得不好的大家多关照，指出
背景交代，以下写的demo都是参照《python3网络爬虫开发实战》用node实现的，所以demo的具体思路什么的，大家可以去看书上的介绍，感兴趣的，可以去了解一波。

[x] 3.4 猫眼电影抓取
猫眼电影抓取，没什么难点，非常简单的一个实例。唯一要注意的地方就是正则吧（当然也可以用cheerio库来实现更简单，主要是为了实践下不同的方式）。因为python3有很多现成的方法，所以当用node去写的时候，可能要改变一下，具体的可以看源码


      
      
      let re = /(?:s.*?)*board-index.*?>(d+)(?:s.*?)*data-src="(.*?)"(?:s.*?)*name">(.*?)
s*?s*?(.*?)s*?
(?:s.*?)*releasetime">(.*?)(?:s.*?)*integer">(.*?).*?fraction">(.*?)/g" title="" data-original-title="复制">
      
      
let re = /<dd>(?:s.*?)*board-index.*?>(d+)</i>(?:s.*?)*data-src="(.*?)"(?:s.*?)*name"><a.*?>(.*?)</a></p>s*?<p class="star">s*?(.*?)s*?</p>(?:s.*?)*releasetime">(.*?)</p>(?:s.*?)*integer">(.*?)</i>.*?fraction">(.*?)</i>/g
[x] 6.4 今日头条Ajax街拍图片抓取


      
      
      
      
      
// 主要是有一个疑问，下面这段代码主要是判断文件存不存在，如果不存在的话抛异常再写入文件，但是总感觉这种处理方式有问题，希望能找到更合理的方法
    try {
      fs.accessSync(file_path)
      console.warning('Already Downloaded', file_path)
    } catch (error) {
      response.data.pipe(fs.createWriteStream(file_path))
    }


[x] 7.4 淘宝商品
这里主要介绍的就是puppeteer是 Google Chrome 团队官方的无界面（Headless）Chrome 工具, 通过puppeteer我们很容易的模拟用户的操作


[x] 8 图片验证码识别
这里主要注意的就是node-tesseract库和gm,由于之前一开始用的是tesseract.js库，一直报错可以看下这两个问题issues1和issues2，后来改成node-tesseract就好了，我感觉也是因为墙的原因吧或者是配置的问题



      
      
      
      
      
// 可能把路径指向本地就好了，具体的没测试，后面再找找问题看
window.Tesseract = Tesseract.create({
    workerPath: '/path/to/worker.js',
    langPath: 'https://cdn.rawgit.com/naptha/tessdata/gh-pages/3.02/',
    corePath: 'https://cdn.rawgit.com/naptha/tesseract.js-core/0.1.0/index.js',
})
后面还会更新其他的爬虫demo,希望本文对你有帮助github地址

脚本宝典总结

以上是脚本宝典为你收集整理的node网络爬虫实例了解下？全部内容，希望文章能够帮你解决node网络爬虫实例了解下？所遇到的问题。

如果觉得脚本宝典网站内容还不错，欢迎将脚本宝典推荐好友。

本图文内容来源于网友网络收集整理提供，作为学习参考使用，版权属于原作者。
如您有任何意见或建议可联系处理。小编QQ：384754419，请注明来意。

标签：

上一篇: node.js同步MongoDB数据到MySQL 下一篇:Binary Tree Maximum Path Sum@L...

猜你在找的Node.js相关文章

Node.js v8.3.0 发布，升级 V8 引擎至 6.0 版本 2024-10-16
Node.js安装 2019-06-14
node.js 安装 2019-07-03
ubuntu install node npm bower 2019-06-13
linux下安装node.js 2019-06-06
Node.js 指南（目录） 2019-06-29
node 相关笔记 2019-06-03
Linux环境升级node版本 2019-06-16
Node的边界 2019-07-16
Redis的Node.js扩展包 node_redis 示例代码 2018-11-10

全站导航更多

最新Node.js教程

热门Node.js教程