PHP的模拟Snoopy类
snoopy是一个php类,用来模拟web浏览器的功能,它能完成获取网页内容和发送表单的任务。
下面是它的一些特征:
-
方便抓取网页的内容
-
方便抓取网页的文字(去掉HTML代码)
-
方便抓取网页的链接
-
支持代理主机
-
支持基本的用户/密码认证模式
-
支持自定义用户agent,referer,cookies和header内容
-
支持浏览器转向,并能控制转向深度
-
能把网页中的链接扩展成高质量的url(默认)
-
方便提交数据并且获取返回值
-
支持跟踪HTML框架(v0.92增加)
-
支持再转向的时候传递cookies
抓取网站内容
<?
include "Snoopy.class.php";
$snoopy = new Snoopy;
$snoopy->fetch("http://www.xxx.com");
echo $snoopy->results;
?>
下面是简单的例子,下面是抓取纯文字的内容
<?
include "Snoopy.class.php";
$snoopy = new Snoopy;
$snoopy->fetchtext("http://www.xxx.com");
echo $snoopy->results;
?>
抓取链接
<?
include "Snoopy.class.php";
$snoopy = new Snoopy;
$snoopy->fetchlinks("http://www.xxx.com");
print_r($snoopy->results);
但snoopy虽好,如果用他拿来采集是很耗服务器资源的,所以用时一定要根据实际情况慎用。
更新时间:2010-5-25
|