用户数据提取1.1万元,数据分析结果如下:

准备开发

安装Linux系统(Ubuntu14.04),安装在Ubuntu的VMWare虚拟机;

安装PHP5。版本6或以上;

MySQL5的安装。5或以上;

安装卷曲,PTL延伸。

使用PHP的curl扩展的数据抓取页面。

PHP PHP的curl扩展支持与各种服务器允许您使用不同类型的连接和通信协议库的。

这个过程被称为几乎抢用户数据,能够访问用户的个人页面,访问用户登录。当我们在浏览器用户头像的网页链接到页面的用户的个人中心,点击,当用户能够看到的信息,因为点击链接时,浏览器会帮你放在一起提交到一个新的本地饼干页面,这样你就可以进入用户的个人中心页面。因此,我们需要实现访问您的个人页面之前,得到用户的cookie信息,然后把Cookie信息,每次卷曲的请求。在收购,我已经使用了cookie的cookie信息方面,您可以看到您在网页中的cookie信息:

一个副本,以“__utma =? ; __ UTMB =? ; 在cookie字符串的形式“这样的组合物。然后你可以使用cookie字符串发送请求。

最初的例子:

$ URL =“这里猜拳虎表示用户ID $ CH = curl_init($网址); //初始化会话curl_setopt($ CH,CURLOPT_HEADER,0); curl_setopt($ CH,CURLOPT_COOKIE,$这 - > config_arr [ ‘user_cookie’]); //设置请求COOKIE curl_setopt($ CH,CURLOPT_USERAGENT,$ _SERVER [ ‘HTTP_USER_AGENT’]); curl_setopt($ CH,CURLOPT_RETURNTRANSFER,1); //是curl_exec()返回的而不是直接输出到文件流的形式所获得的信息,。curl_setopt($ CH,CURLOPT_FOLLOWLOCATION,1); $结果= curl_exec($ CH); 返回$结果; //读取结果

运行上面的代码可以猜拳虎用户的个人中心页面。有了这个结果,然后使用正则表达式来处理页面,你可以得到的信息如姓名,性别等。需要抓取。

图片防盗链

当返回的结果常规后处理个人信息的输出,我们发现无法打开头像页输出。通过查阅资料得知,因为图片也知道几乎防盗链流程。该解决方案是一种假照片时提前的referer在请求中所请求。

以链接到该图像的正则表达式之后,再发一次请求,此时,以使图像请求源,该请求被从几乎站已知的描述转发。具体实例如下:

起作用GETIMG($网址,$ U_ID){如果(file_exists(“带引荐参数)); $上下文= stream_context_create($ context_options); $ IMG =的file_get_contents(” “目标=” _空白“>

本文链接:PHP爬虫:百万级别知乎用户数据爬取与分析

您可能也会喜欢

友情链接:

心经唱诵 大悲咒注音 经文