Beanbun

多进程Beanbun是写在PHP框架网络爬虫,它具有良好的开放性,高可扩展性。
项目地址:
文件接收地址:

起源

我想爬行动物框架:在简单需求的情况下,您可以快速构建用最少的代码功能齐全的爬行动物; 如果你愿意,你可以让你想爬行动物的任何变化。人们很自然地支持分布式,支持多进程(或线程),使用波塞尔,你可以轻松地构建一个强大的履带式。
该函数写一个履带式切不断调整之前之后,有电流Beanbun,这个名字来自作者的家猫,这只猫名叫门鼎“鼎门”是一个糕点北。门丁 - > BEAN - >豆包子。
在这里,我希望能够启动,继续改进和大家Beanbun。

特征

  • 支持后台程序和普通模式(daemon模式只支持Linux服务器)

  • 狂饮默认爬

  • 分布式支持

  • 支持多种方式的队列内存,Redis的,等。

  • 支持自定义过滤器URI

  • 支持广度优先和深度优先爬行两种途径

  • 按照PSR-4标准

  • 爬行页面被划分成多个步骤,每个步骤支持自定义动作(例如添加剂,修改用户代理等。)

  • 柔性延伸机构,框架可以容易地制造小部件:自定义队列中,定制的方式爬行。

安装

Beanbun可以通过耍大牌安装。


一个简单的例子

创建文件启动。PHP,包括以下


执行命令行


然后,你可以看到爬网日志。


最后

我会回来的许多不同类型的站的,写一些小例子来实现爬行动物与Beanbun,欢迎大家继续。


HTTP:// segmentfault。COM / A / 1190000009142085?utm_source =标签最新

本文链接:Beanbun: 简单开放的 PHP 爬虫框架

您可能也会喜欢

友情链接:

心经唱诵 大悲咒注音 经文