博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
node网络爬虫实例了解下?
阅读量:6878 次
发布时间:2019-06-26

本文共 1222 字,大约阅读时间需要 4 分钟。

今天给大家分享的是node爬虫,写得不好的大家多关照,指出

背景交代,以下写的demo都是参照用node实现的,所以demo的具体思路什么的,大家可以去看书上的介绍,感兴趣的,可以去了解一波。

  • [x] 3.4

    猫眼电影抓取,没什么难点,非常简单的一个实例。唯一要注意的地方就是正则吧(当然也可以用cheerio库来实现更简单,主要是为了实践下不同的方式)。因为python3有很多现成的方法,所以当用node去写的时候,可能要改变一下,具体的可以看源码
let re = /
(?:\s.*?)*board-index.*?>(\d+)<\/i>(?:\s.*?)*data-src="(.*?)"(?:\s.*?)*name">
(.*?)<\/a><\/p>\s*?

\s*?(.*?)\s*?<\/p>(?:\s.*?)*releasetime">(.*?)<\/p>(?:\s.*?)*integer">(.*?)<\/i>.*?fraction">(.*?)<\/i>/g

  • [x] 6.4
// 主要是有一个疑问,下面这段代码主要是判断文件存不存在,如果不存在的话抛异常再写入文件,但是总感觉这种处理方式有问题,希望能找到更合理的方法    try {      fs.accessSync(file_path)      console.warning('Already Downloaded', file_path)    } catch (error) {      response.data.pipe(fs.createWriteStream(file_path))    }
  • [x] 7.4

    这里主要介绍的就是 是 Google Chrome 团队官方的无界面(Headless)Chrome 工具, 通过puppeteer我们很容易的模拟用户的操作
  • [x] 8

    这里主要注意的就是node-tesseract库和gm,由于之前一开始用的是tesseract.js库,一直报错可以看下这两个问题 和 ,后来改成node-tesseract就好了,我感觉也是因为墙的原因吧或者是配置的问题
// 可能把路径指向本地就好了,具体的没测试,后面再找找问题看window.Tesseract = Tesseract.create({    workerPath: '/path/to/worker.js',    langPath: 'https://cdn.rawgit.com/naptha/tessdata/gh-pages/3.02/',    corePath: 'https://cdn.rawgit.com/naptha/tesseract.js-core/0.1.0/index.js',})

后面还会更新其他的爬虫demo,希望本文对你有帮助

转载地址:http://ocgfl.baihongyu.com/

你可能感兴趣的文章
struct内存对齐
查看>>
套接字基础
查看>>
【转】配置Editplus调试PHP程序入门教程
查看>>
iphone-common-codes-ccteam源代码 CCKeyboard.h
查看>>
Javascript中的原型prototype
查看>>
个人随想:对于一个.Neter来说,如果一直想走技术路线,该怎么走下去
查看>>
深浅拷贝
查看>>
Mysql 解锁处理
查看>>
源码来袭!!!基于jquery的ajax分页插件(demo+源码)
查看>>
JDBC的基本用法
查看>>
二分查找的递归和非递归实现
查看>>
Hadoop基本命令
查看>>
TCP协议与UDP协议的区别
查看>>
 P2152 [SDOI2009]SuperGCD (luogu)
查看>>
8086汇编——作业总结1——ASCII码0~9转为8位二进制输出
查看>>
查询01_DML锁和DDL锁的处理
查看>>
下载(打开)PDF文件 代码
查看>>
effective c++ 思维导图
查看>>
谈一下我们是怎么做数据库单元测试(Database Unit Test)的
查看>>
007-请问你怎么看待软件测试的潜力和挑战
查看>>