以下就是几种常用的用php抓取网页中的内容的方法。

1.file_get_contents

PHP代码

代码如下:>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>

$url = "http://www.jb51.net";

$contents = file_get_contents($url);

//如果出现中文乱码使用下面代码

//$getcontent = iconv("gb2312", "utf-8",$contents);

echo $contents;

?>

2.curl

PHP代码

代码如下:>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>

$url = "http://www.jb51.net";

$ch = curl_init();

$timeout = 5;

curl_setopt($ch, CURLOPT_URL, $url);

curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);

curl_setopt($ch, CURLOPT_CONNECTTIMEOUT, $timeout);

//在需要用户检测的网页里需要增加下面两行

//curl_setopt($ch, CURLOPT_HTTPAUTH, CURLAUTH_ANY);

//curl_setopt($ch, CURLOPT_USERPWD, US_NAME.":".US_PWD);

$contents = curl_exec($ch);

curl_close($ch);

echo $contents;

?>

3.fopen->fread->fclose

PHP代码

代码如下:>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>

$handle = fopen ("http://www.jb51.net", "rb");

$contents = "";

do {

$data = fread($handle, 1024);

if (strlen($data) == 0) {

break;

}

$contents .= $data;

} while(true);

fclose ($handle);

echo $contents;

?>

注意:

1.使用file_get_contents和fopen必须空间开启allow_url_fopen。方法:编辑php.ini,设置allow_url_fopen = On,allow_url_fopen关闭时fopen和file_get_contents都不能打开远程文件。

2.使用curl必须空间开启curl。方法:windows下修改php.ini,将extension=php_curl.dll前面的分号去掉,而且需要拷贝ssleay32.dll和libeay32.dll到C:\WINDOWS\system32下;Linux下要安装curl扩展。

Java 抓取网页中的内容【持续更新】

背景:前几天复习Java的时候看到URL类,当时就想写个小程序试试,迫于考试没有动手,今天写了下,感觉还不错 内容1. 抓取网页中的URL 知识点:Java URL+ 正则表达式 import jav ...

浅谈如何使用python抓取网页中的动态数据

我们经常会发现网页中的许多数据并不是写死在HTML中的,而是通过js动态载入的.所以也就引出了什么是动态数据的概念, 动态数据在这里指的是网页中由Javascript动态生成的页面内容,是在页面加载到 ...

Python抓取网页中的图片到本地

今天在网上找了个从网页中通过图片URL,抓取图片并保存到本地的例子: #!/usr/bin/env python # -*- coding:utf- -*- # Author: xixihuang # ...

python 解决抓取网页中的中文显示乱码问题

关于爬虫乱码有很多各式各样的问题,这里不仅是中文乱码,编码转换.还包括一些如日文.韩文 .俄文.藏文之类的乱码处理,因为解决方式是一致的,故在此统一说明. 网络爬虫出现乱码的原因 源网页编码和爬取下来 ...

python抓取网页中图片并保存到本地

#-*-coding:utf-8-*- import os import uuid import urllib2 import cookielib '''获取文件后缀名''' def get_file ...

用正则表达式抓取网页中的ul 和 li标签中最终的值!

获取你要抓取的页面 const string URL = "http://www.hn3ddf.gov.cn/price/GetList.html?pageno=1& ...

python抓取网页中的动态数据

一.概念 网页中的许多数据并不是写死在HTML中的,而是通过js动态载入的.所以也就引出了什么是动态数据的概念,动态数据在这里指的是网页中由Javascript动态生成的页面内容,是在页面加载到浏览器 ...

利用pandas库中的read_html方法快速抓取网页中常见的表格型数据

本文转载自:https://www.makcyun.top/web_scraping_withpython2.html 需要学习的地方: (1)read_html的用法 作用:快速获取在html中页面 ...

走过路过不要错过~教你用java抓取网页中你想要的东东~~

学习了正则之后,打算用java玩一玩,所以就决定用它来实现一个好玩的idea import java.io.BufferedReader; import java.io.IOException; im ...

随机推荐

debian系统root用户登录

Debian默认不允许root登录,所以修改之. 让Debian以root登录 1).首先修改gdm3的设定文件(/etc/gdm3/deamon.conf),在[security]字段后面追加如下一 ...

Linux学习之CentOS--CentOS6.4下Mysql数据库的安装与配置【转】

如果要在Linux上做j2ee开发,首先得搭建好j2ee的开发环境,包括了jdk.tomcat.eclipse的安装(这个在之前的一篇随笔中已经有详细讲解了Linux学习之CentOS(七)--C ...

php中常用的运算符

运算符 运算符是告诉PHP做相关运算的标识符号. PHP运算符一般分为算术运算符.赋值运算符.比较运算符.三元运算符.逻辑运算符.字符串连接运算符.错误控制运算符. 1.变量名记得加“$” 符: 2. ...

Javascript 错误捕获

一.一般写JS代码很少捕获异常,建议捕获异常,具体代码如下: 1.写法一: try { //具体代码 } catch(error) { alert("Error:" + error ...

UVa OJ 10055

Problem A Hashmat the brave warrior Input: standard input Output: standard output Hashmat is a brave ...

c++中参数传递和函数返回简析

1.参数传递: 每次调用函数时,都会重新创建该函数所有的形参,此时所传递的实参将会初始化对应的形参.形参的初始化与变量的初始化一样. 非引用类型:如果形参具有非引用类型,则复制实参的值.普通的非引用类 ...

html5 新特性

1.querySelector 返回文档中匹配指定css选择器的一个元素. 注意:uerySelector() 方法仅仅返回匹配指定选择器的第一个元素 如果你需要返回所有的元素,请使用 querySe ...

迭代的是人,递归的是神。——L. Peter Deutsch

递归,数学里面叫recursion,其实就是递推关系. 中学数学有一部分其实就是递归的非常典型的做法,不过老师们都没怎么扩展,新课标必修五第二章数列应该算是我们第一次接触递推的概念了.  其实说到递归 ...

HTML4,HTML5,XHTML 之间有什么区别?

原始日期:2014-10-25 14:12 我来从HTML的历史谈谈他们3者的区别.在HTML的早期发展中,W3C成立之前,很多标准的制定都是在浏览器的开发者们互相讨论的情况下完成的,比如HTML 2 ...

ios和android的发展前景比较

详见:http://blog.yemou.net/article/query/info/tytfjhfascvhzxcyt164 一直都有很多人在讨论未来的IOS和android市场哪个前景更好,现在 ...

php抓取标签内的内容,php抓取网页中的内容相关推荐

  1. avascript怎么获取指定url网页中的内容

    目录 一.总结 一句话总结:推荐jquery中ajax,简单方便. 1.js能跨域操作么? 二.用php获取 三.jquery中ajax获取 四.通过node.js获取 回到顶部 >  一.总结 ...

  2. 网页中嵌套网页flush_如何修改网页中的内容?

    注意:请勿将本文中提到的技术用于违法行为,因此造成的损失我不承担任何责任. 简介 之前在内测群里聊天,我才发现几乎没有人知道如何修改一个网页中的内容,除了相关领域.可能是因为我已经接触了前端的一些知识 ...

  3. 使用jspdf插件将网页中的内容导出为高保真的pdf文件

    文章目录 使用jspdf插件将网页中的内容导出为高保真的pdf文件 1. 将网页中的内容导出为pdf文件的四种方式比较 2. 第一种方式:html2canvas + jspdf 导出网页内容 2.1 ...

  4. 一分钟修改网页中的内容

    欢迎访问新博客~ 有时候需要修改网页中的内容,一般采取的做法是截图网页然后使用PS或特殊工具修改,这种方法麻烦又费力,而且修改后的效果往往不是很好. 现在介绍一种小技巧,可以直接在网页上修改内容,简单 ...

  5. 修改html不显示内容,记录网友修改网页导致文章内容不显示的问题

    一个网友联系老蒋,自己的网站在之前修改模板添加广告的,但是不清楚什么问题导致目前网站首页能正常打开,但是内容页只能显示标题,内容是无法打开的.而且这个问题其实在十几天前有修改过页面,自己后来都没有动过 ...

  6. html打印指定区域内容,js print打印网页指定区域内容

    比较简单的办法 使用CSS,定义一个.noprint的class,将不打印的内容放入这个class内. 细如下: 代码如下 .noprint{visibility:hidden} 要打印的内容.哈哈! ...

  7. python替换文件内容_Python实现替换文件中指定内容的方法

    本文实例讲述了Python实现替换文件中指定内容的方法.分享给大家供大家参考,具体如下: 这里使用python编写的程序,实现如下功能:将文件中的指定子串 修改为 另外的子串 编写的python程序, ...

  8. 如何从其他网页中复制内容、并保留markdown格式

    一.使用软件:Typora 基本流程:A网页-->Typora-->复制Markdown格式到B网页 1.将网页A中的内容,复制到Typora中,基本能看出不是存文件格式 2.在Typor ...

  9. 【Java爬虫】爬取网页中的内容,提取其中文字

    挺乱的,临时存一下 package cn.hanquan.craw;import java.io.FileWriter; import java.io.IOException; import java ...

最新文章

  1. 微生物学综合性英文期刊mLife入选高起点新刊
  2. 根据标签分布来选择损失函数
  3. html5 go语言运行环境,GO环境搭建-Go语言中文社区
  4. add-apt-repository:找不到命令_手把手教你使用nodejs编写cli(命令行)
  5. Spring Security——根据请求Header[Accept]不同返回不同类型资源解决方案
  6. PAT (Basic Level) Practice (中文)1003 我要通过! (20 分)
  7. Java知识整理——ServletJSP
  8. class 和 struct的区别
  9. Jedis的使用及SpringBoot整合Redis
  10. 什么时候出来的_DNF手游官网正版什么时候出来?地下城手游上线日期分享
  11. 百度十年,我从技术走到管理
  12. 外包征集令:一个Android TV酒店项目
  13. 「大数据干货」基于Hadoop的大数据平台实施——整体架构设计
  14. opencv之颜色空间转换(cvtColor)
  15. python练习题---矩阵求和
  16. 机器人时代 - 电子书下载(高清版PDF格式+EPUB格式)
  17. Dynamic CRM9.0 环境安装部署手册步骤和遇到的一些问题解决方案(包含ADFS部署)
  18. 2020年最后15天总结
  19. 解决 no such file or directory, scandir ‘node_modules\node-sass\vendor 报错
  20. [软工导论①]复习题库

热门文章

  1. 解析:图像技术在直播中怎么用?聊一聊美女主播背后的美颜技术
  2. 200 SMART PLC回原方法汇总(脉冲轴)
  3. 打造高质量视频,创造视觉奇观!Camtasia 2023为你升级!
  4. 在SWT中使用JxBrowser-Using JxBrowser in SWT
  5. 来一起用 Vue3.0 造轮子
  6. 程序员编程艺术第一 十章集锦与总结 教你如何编程 持续更新中
  7. NFT乱象蚂蚁、微信惩处违规账号超百个
  8. 穿越时空的老故事、看见经典的味道
  9. Bonaparte:贝叶斯网在灾难遇难者识别(DVI)中的应用
  10. Windows服务器设置IIS定时重启的方法,带图详解