摘要:详细介绍卷曲爬行HTML技术数据。爬虫收集的数据处理技术也是非常重要的一部分。处理HTML数据可以是搜索字符串也可以使用正则表达式,但使用大教堂治疗是目前最先进的方法。

现在,我们必须检索中国家庭军队“军事新闻媒体要对”第一块内容,

通过浏览器工具查看页面元素,安慰检索数据。我们通过上图可以看到下面的浏览器,我们可以方便地调用jQuery的DOM查找功能轻松找到数据,PHP是否有这样的工具可以轻松应对DOM

github上找出PHP的DOM解析我们发现sunra / PHP的简单的HTML DOM解析器,用户几乎。这里,我们介绍了如何使用PhpDomParse组件,推出了直接的参考,波塞尔ThinkPhp如何使用。

1。直接引用

首选下载文件夹组件,在当前项目目录执行

在这一点上,该项目目录会更PHP-simpple-HTML,DOM解析器文件夹,文件夹目录如下所示

引用HtmlDomParaer。PHP

2。波塞尔调用该方法

安装在项目目录波塞尔。药业,创建波塞尔。JSON文件,

跑,PHP的姿势。药业安装

波塞尔它会根据波塞尔。JSON目录,下载所需文件,后安装成功,项目文件夹,如下所示,

下面的代码,该系统会自动加载\ Sunra \ PhpSimple \ HtmlDomParse

3,thinkPHP

我也每天都在使用TP框架,有些读者可能不TP介绍了在其他框架。TP提供了一种机制,使框架内,我们将Sunra文件夹中的“安装路径- > ThinkPHP->库 - >供应商“目录,其结构如下所示,

项目代码如下

附录

PHP耍大牌。药业安装,就会出现以下错误,

SSL3_GET_SERVER_CERTIFICATE:证书验证失败

解,

(1)的wget

(2)修改php。INI,添加

OpenSSL的。凭证档案错误=“/选择/ LAMPP / CACERT。PEM“


本文链接:PHP爬虫(2)DOM处理

您可能也会喜欢

友情链接:

心经唱诵 大悲咒注音 经文