关于QueryList

这是一个简单的,优雅的,可扩展的PHP采集工具(履带),基于phpQuery。

特性

  • 它正好与jQuery的CSS3选择器DOM相同
  • jQuery有相同的DOM操作API
  • 通用汽车已经收集程序的列表
  • 它具有很强的HTTP请求,比如轻松的套件:模拟登陆,假的浏览器,这意味着一个复杂的网络请求的HTTP代理等。
  • 有乱码的解决方案
  • 拥有强大的内容过滤,您可以使用jQuey选择过滤内容
  • 它具有高度的模块化设计,可扩展性
  • API有表现
  • 它具有高品质的文档
  • 它具有丰富的插件
  • 专业和社区Q&A交流群

它可以通过插件,比如可以轻松实现:

  • 多线程集
  • 页面的JavaScript的收购动态渲染(PhantomJS /无头WebKit的)
  • 图片本地化
  • 模拟浏览器的行为,如:提交表格表格
  • 网络爬虫

环境要求

  • PHP> = 7.0

如果你还在PHP5的PHP版本,或将不使用波塞尔,你可以选择使用QueryList3,QueryList3支持PHP5.3,并手动安装。QueryList3文件:

安装

通过波塞尔安装:

使用

操作元件

  • 集“尼克地图”解决所有图片
  • 收购百度的搜索结果
  • 更多的使用

收购名单

收购百度的搜索结果列表和链接的标题:

收购的结果:

转码

HTTP网络操作(GuzzleHttp)

  • 携带的cookie登录微博
  • 使用HTTP代理
  • 登录模拟

表格形式的行动

模拟登陆GitHub上

扩展绑定

自定义扩展方法:

包体达到或类,而这种结合:

插件使用

  • 使用PhantomJS插件页面的JavaScript的收购动态渲染:
  • 卷曲采用多线程插件,多线程收集GitHub的列表:

插头

  • :页面的使用PhantomJS收购的JavaScript动态渲染
  • :曲集多线程
  • :以绝对路径相对转换URL路径
  • :谷歌搜索引擎
  • :百度搜索引擎

查看更多插件和QueryList基于QueryList产品:

贡献

欢迎来稿代码QueryList。关于贡献插头可以查看:

求助?

  • QueryList主页:
  • QueryList文件:
  • QueryList Q&A:
  • QueryList交流QQ群:
  • GitHub的:
  • Git的@ OSC:

原文地址:


文/信息/ 86490551

本文链接:php爬虫采集类-phpQuery:支持抓取网站,非常强大的php类库

您可能也会喜欢

友情链接:

大悲咒注音 经文 心经唱诵