PHP爬虫抓取网页分析文件分析的内容
<?php

//获取所有内容保存到文件的URL
功能get_index($ SAVE_FILE,$ PREFIX = “_索引”){
$计数= 68;
$ I = 1;
如果(file_exists($ SAVE_FILE))@unlink($ SAVE_FILE);
$ Fp的=的fopen($ SAVE_FILE, “A +”)或死亡( “打开”,$ SAVE_FILE 。“失败”);
而($ I<$count){
$ URL = $前缀 。$ I 。“。HTM“;
回声“获取”。$网址 。“。“;
$ URL_STR = get_content_url(GET_URL($ URL));
回声 “OK”,正“;
FWRITE($ FP,$ URL_STR);
++ $ I;

FCLOSE($ FP);


//获取目标的多媒体对象
功能的get_object($ url_file,$ SAVE_FILE,$分= “| - :] [ - |”){
如果(!file_exists($ url_file))模具($ url_file 。“不存在”);
$文件_arr =文件($ url_file);
如果(! $网址_arr = array_unique($ file_arr);
如果(file_exists($ SAVE_FILE))@unlink($ SAVE_FILE);
$ Fp的=的fopen($ SAVE_FILE, “A +”)或死亡( “打开文件保存”。$ SAVE_FILE 。“失败”);
的foreach($ url_arr为$ URL){
如果(空($网址))继续;
回声“获取”。$网址 。“。“;
$ Html_str = GET_URL($网址);
回声$ html_str;
回声$网址;
出口;
$ Obj_str = get_content_object($ html_str);
回声 “OK ", n”;
FWRITE($ FP,$ obj_str);

FCLOSE($ FP);


//获取文件目录遍历内容
功能get_dir($ SAVE_FILE,$ DIR){
$ DP =执行opendir($ DIR);
如果(file_exists($ SAVE_FILE))@unlink($ SAVE_FILE);
$ Fp的=的fopen($ SAVE_FILE, “A +”)或死亡( “打开文件保存”。$ SAVE_FILE 。“失败”);
而(($文件= READDIR($ DP)) !=假){
如果($文件!=“。“&& $文件!=“。“){
回声“阅读文件”。$ File 。“。“;
$ = FILE_CONTENT的file_get_contents($ DIR 。$文件);
$ Obj_str = get_content_object($ FILE_CONTENT);
回声 “OK \ n”;
FWRITE($ FP,$ obj_str);


FCLOSE($ FP);



//获取指定的URL内容
功能GET_URL($网址){
$注册=“/
如果(!的preg_match($ REG,$网址))模具($网址 。“无效”);
$ Fp的=的fopen($网址, “R”)或死亡( “打开URL:”。$网址 。“失败。“);
而($ FC =的fread($ FP,8192)){
$内容 。= $的Fc;

FCLOSE($ FP);
如果(空($内容)){
死亡(“获取网址:”。$网址 。“含量不合格。“);

返回$内容;


//获取使用插座指定的页面
功能get_content_by_socket($网址,$主机){
$ Fp的=的fsockopen($主机,80)或管芯( “打开”。$网址 。“失败”);
$部首= “GET /”。$ Url 。“HTTP / 1.1 \ r \ n“个;
$头 。= “接受:* I”;
$注册=“/ ^(下。*?\。,





, 。, 。,。,








,。*?,





, 。, 。, 。,




?,

<?php



,!,
,。,



?,




<?php



,!,



,。,。,。,














,。,。,。,


,。,。,。,


, ,。,。,。,。,


,。,。,。,。,

?,








,!,



,。,。,。,













,。,。,。,
,。,。,。,?,。,










<?php




, !,
,!,。,!,。,
,。,。,

,。,


,。,











?,


<?php
,。


,。,



>
?,


<?php

,。,?>



  • 本文链接:php网页分析 内容抓取 爬虫 资料分析

    您可能也会喜欢

    友情链接:

    心经唱诵 大悲咒注音 经文