在本文中,动态的爬行动物蟒蛇,当传统的静态页面抓取,经常的urllib2得到用Python实现整个HTML页面的共享及共享的例子,然后从HTML文件中找到相应的关键字逐字。如下:

然而,在一个动态页面,内容通过HTML页面往往不能给出显示,但通过调用JS,等,以获得从数据库中的数据。呼应页面。

国家发改委站“记录信息”(例如,你想抓住一些项目本页记录。?。G”

然后,在浏览器中打开页面:

相关资料显示非常充分,但如果之前的做法是:

它不是上面爬。

我们看一下这个页面对应的源代码:

由于可以从源中可以看出,“记录确认”属于形式来“填空”,HTML文本模板提供,JS提供不同的变量取决于ID,“输入”到文本模板,具体的形成“记录确认”。因此,抓住这个简单的HTML,你只能得到一些文字模板,而不能获得具体内容。

那么,你如何找到这些细节尚未?Chrom?可能会使用“开发工具”发现谁是真正的内容提供商。

打开Chrome浏览器,按F12键盘可以呼出工具。如下所示:

这时,选择“工作”标签,进入该页面的“浏览器将分析在地址栏的响应,而红色框中的文件的全过程,这是响应,通信和Web浏览器的所有后端。

由于获得对应不同的企业不同的信息,浏览器发送一个请求到服务器,里面会有与当前的业务ID的参数。

因此,参数是多少?有一个网址,是“JSP?ID =”,问号,以指示呼叫的参数,参数号后面是正在被呼叫的ID。通过分析这些和几个文件,很显然,在“indexinvestment存在企业信息。行动“文件。

但是,双击打开文件并不能得到企业的信息,但一串代码。因为对应于指示数不显示信息没有参数。。数字:

所以,你应该如何向它传递参数?在这个时候,我们仍然看到F12窗口:

“页眉”列清楚地示出该过程的反应:

目标URL,用POST方式,传递一个id参数。

让我们来看看手册。JS参数是如何调用它?是的,上面说:问号+ + +等于对应于所述可变数字变量名。也就是说,提交ID参数为“此页面应添加到URL

“?ID =”,我。e。,

我们这个URL粘贴到浏览器中看到:

它似乎有内容的一个点,而是出现乱码啊,怎么破?熟悉的朋友可能看起来,这是一个编码的问题。。因为响应返回给浏览器的默认内容以不同的方式编码。在右上角的Chrome菜单,只是 - “自动检测”按钮 - 更多工具 - 编码。(事实上,这被编码成UTF-8和Chrome默认为简体中国)。如下所示:

那么,信息的真实来源已经被挖出,其余处理这些页面上使用Python字符串时,再切,拼接,重新形成新的“备案书项目”的。

然后使用,而循环系统,批量进入这些“备案书”。

正如“无论是静态网页,动态网页,登陆模拟等。,他们分析,了解逻辑,去写代码,说:”编程语言只是一种工具,它要解决思维的问题是非常重要的。有了想法,然后方便地找到工具来解决,OK。

这些都是动态蟒蛇爬行动物份额例子的细节,请PHP的中国其他相关文章!


本文链接:python动态爬虫的实例分享

您可能也会喜欢

友情链接:

经文 大悲咒注音 心经唱诵