控制面板 - 帮助中心 - 付款方式 - 常用文档 - 软件下载 -   
服务中心
当前位置:首页 - 服务中心 - 网络学院

PHP的模拟Snoopy类

  snoopy是一个php类,用来模拟web浏览器的功能,它能完成获取网页内容和发送表单的任务。

  下面是它的一些特征:

  1. 方便抓取网页的内容
  2. 方便抓取网页的文字(去掉HTML代码)
  3. 方便抓取网页的链接
  4. 支持代理主机
  5. 支持基本的用户/密码认证模式
  6. 支持自定义用户agent,referer,cookies和header内容
  7. 支持浏览器转向,并能控制转向深度
  8. 能把网页中的链接扩展成高质量的url(默认)
  9. 方便提交数据并且获取返回值
  10. 支持跟踪HTML框架(v0.92增加)
  11. 支持再转向的时候传递cookies

  抓取网站内容

<?
include "Snoopy.class.php";
$snoopy = new Snoopy;
$snoopy->fetch("http://www.xxx.com");
echo $snoopy->results;
?>

  下面是简单的例子,下面是抓取纯文字的内容

<?
include "Snoopy.class.php";
$snoopy = new Snoopy;
$snoopy->fetchtext("http://www.xxx.com");
echo $snoopy->results;
?>

  抓取链接

<?
include "Snoopy.class.php";
$snoopy = new Snoopy;
$snoopy->fetchlinks("http://www.xxx.com");
print_r($snoopy->results);

  但snoopy虽好,如果用他拿来采集是很耗服务器资源的,所以用时一定要根据实际情况慎用。

更新时间:2010-5-25

7*24小时咨询热线:400-628-6536 0371-86013552 19937165195
传真:0371-86013552-6612 服务邮箱:web@3a88.com 代理邮箱:agent@3a88.com 备案邮箱:beian@3a88.com
运营商:郑州金飞科技有限公司 工商营业执照号:9141010567945717XL
公司地址:郑州高新技术产业开发区木兰里9号1号楼1单元14层310号 邮政编码:450000 豫ICP备12025635号-1 豫公网安备 41010502003077号