摘要:本文介绍PHP抓取网页内容的技术,使用PHP卷曲扩展获取页面,你也可以抢人头页面,设置曲奇饼,处理302跳。

A,卷曲安装

使用来源安装的PHP必要时配置当您添加一个配置项,

CD PHP

安装完毕,可以使用PHP -m命令检查,是否支持卷曲传播。

PHP -m | grep的卷曲

您还可以使用的phpinfo检查是否支持卷曲传播。

二,获得页面

卷曲它支持多种网络协议,如HTTPHTTPSFTP等待。使用普通页面HTTP协议的一些安全使用网页的HTTPSHTTPS协议使用数据加密,交换密钥,公开密钥加密的内容传输技术。因此,使用HTTPS页协议,通过链路传输的是加密数据。?。g百度使用HTTPS协议,您输入加密网络传输协议的关键字,甚至运营商可以获取所有的数据无法获得的内容数据。HTTPS协议具有的加密计算花费时间的缺点,因此HTTPS站会比较慢,而且大多数站都基于HTTP协议)。HTTP协议定义了两种方法得到POSTPOST该方法常用表单提交,大的数据文件可以提交。得到用于获取数据页的方法,您也可以提交数据量小。本文介绍了使用得到协议获取的数据页,然后详细讲解未来POST卷曲技术。

我们看一些浏览器是如何工作的,开放浏览器,F12进入开发模式将切换到工具栏工作,如以下所示,使用工具可以查看有关文件互传信息。

要加载浏览器页面,先下载HTML文件,然后下载JSCSS,图片等资源文件渲染加载之前。通常只需要抓住数据抓取HTML文件,下图是工具显示下载HTTP该文件的内容。

三,PHP实现

基本设置,返回页面内容。

四,获取HTTP头设置曲奇饼

有些站点将使用曲奇饼技术。当收集程序没有关联曲奇饼,该站很容易被认定为“机器人”,并拒绝了他们的服务。通过调试,找曲奇饼它被包含在标题信息。因此,我们需要两个步骤(1HTTP报头信息获取曲奇饼2)加入时的发送请求曲奇饼

它包含头信息设置为Cookie

刷新页面,查看头部信息,请求包含曲奇饼信息

获得cookie

返回结果

饼干:ABTEST = 0 || V17; IPLOC = 1100; SUID = 3295CB6FA00000000FD

设置cookie的

五,抢302跳转

在百度搜索关键字,返回的结果是一个链接,百度的加密连接,通过二级真实地址跳转。(360防止爬行百度,结果被加密)。

我们可以抢在标题位置信息找到真正的地址,

302跳转夹持实施例有一种使用整流OB的另一种方式,并且被提供以允许新的地址跳转到卷曲。代码显示如下


本文链接:PHP爬虫技术(一)

您可能也会喜欢

友情链接:

大悲咒注音 经文 心经唱诵