用node.js实现验证码简单识别

发布时间:2019-07-17 发布网站:脚本宝典
脚本宝典收集整理的这篇文章主要介绍了用node.js实现验证码简单识别脚本宝典觉得挺不错的,现在分享给大家,也给大家做个参考。

概述

在验证码识别上,node.js其实也只是打酱油的角色,因为已经有成熟的工具做这个事情,而node只需要做调度就行了。

用node.js实现验证码简单识别

所需工具

那么介绍一下这些工具吧

  • Tesseract 开源的 OCR 识别工具,目前由 Google 维护,支持中文,默认的识别率很低哈,特别是中文,但是可以自己提供样本,训练提高识别率。

  • graphicsmagick 非常实用的图像处理工具,下面会讲到用途。

Tesseract的使用

以下操作均在 Mac 环境下,Windows 其实也差不多,请自行区分 :-)。

安装

brew install tesseract --all-languages

使用

tesseract 1.jpg -psm 7 r

-psm 7 表示识别的内容是文本,r是保存识别内容的文件。

然后你会发现识别结果很坑.. (⊙o⊙)..

用node.js实现验证码简单识别

提高识别率

之所以是这样,是因为验证码上有无关的图像干扰,例如噪点什么的,理论上去掉了干扰的元素,识别率就会极大的提高。
用阈值处理图片是个很方便的办法,在Photoshop中可以模拟这种操作

用node.js实现验证码简单识别

再试一次

这里配置为55%的阈值,再来一次。

用node.js实现验证码简单识别

成功了!( ⊙ o ⊙ )!虽然多了个空格,但是已经完整识别出来了。

用node.js实现

最后在node.js中整合上面的操作,其中图像处理用 graphicsmagick 代替。
直接上源码吧,里面用到了 tesseractgraphicsmagicknode.js中对应的包装。

var fs        = require('fs');
var tesseract = require('node-tesseract');
var gm        = require('gm');

processImg('1.jpg', 'test_1.jpg')
    .then(recognizer)
    .then(text => {
        console.log(`识别结果:${text}`);
    })
    .catch((err)=> {
        console.error(`识别失败:${err}`);
    });

/**
 * 处理图片为阈值图片
 * @param imgPath
 * @param newPath
 * @param [thresholdVal=55] 默认阈值
 * @returns {Promise}
 */
function processImg (imgPath, newPath, thresholdVal) {
    return new Promise((resolve, reject) => {
        gm(imgPath)
            .threshold(thresholdVal || 55)
            .write(newPath, (err)=> {
                if (err) return reject(err);

                resolve(newPath);
            });
    });
}

/**
 * 识别图片
 * @param imgPath
 * @param options tesseract options
 * @returns {Promise}
 */
function recognizer (imgPath, options) {
    options = Object.assign({psm: 7}, options);

    return new Promise((resolve, reject) => {
        tesseract
            .process(imgPath, options, (err, text) => {
                if (err) return reject(err);
                resolve(text.replace(/[rns]/gm, ''));
            });
    });
}

最后

写完之后才发现示例中的验证码的第一个字符其实是 G,而不是识别出来的C。
默认样本对相近字符识别还是挺低的,可以搜索 tesseract 训练,提高相近字符的识别率。

资源

本文同时发布在 think2011的博客 2016-01-31 17:49:08

脚本宝典总结

以上是脚本宝典为你收集整理的用node.js实现验证码简单识别全部内容,希望文章能够帮你解决用node.js实现验证码简单识别所遇到的问题。

如果觉得脚本宝典网站内容还不错,欢迎将脚本宝典推荐好友。

本图文内容来源于网友网络收集整理提供,作为学习参考使用,版权属于原作者。
如您有任何意见或建议可联系处理。小编QQ:384754419,请注明来意。
标签: