python爬虫入门urllib库的使用

urllib库的使用，非常简单。

import urllib2response = urllib2.urlopen("http://www.baidu.com")
print response.read()

只要几句代码就可以把一个网站的源代码下载下来。

官方文档：https://docs.python.org/2/library/urllib2.html

urllib2.urlopen(url[, data[, timeout[, cafile[, capath[, cadefault[, context]]]]])

urlopen 只要用到前面3个参数，url, data：提交的数据. timeout：超时

也可以这样使用：

import urllib2request = urllib2.Request("http://www.baidu.com")
response = urllib2.urlopen(request)
print response.read()

这种用法比较常见。

我们用php创建一个表单，然后用urllib2模拟表单提交

<!doctype html>
<html><head><meta charset="utf-8" /></head><body><?phpif( isset( $_REQUEST['submit'] ) ) {$username = $_REQUEST['username'];$userpwd = $_REQUEST['password'];if( $username == 'ghostwu' && $userpwd = 'abc123') {echo "login success";
}else{echo "login error";
}}?><form action="/index.php" method="get">username: <input type="text" name="username" /><br/>password: <input type="password" name="password" /><br/><input type="submit" value="submit" name="submit" /></form></body>
</html>

接下来，我们先用get方式提交【备注：域名是我本地的，你需要用本地host映射，相应的服务器域名和ip】

#coding:utf-8

import urllib
import urllib2values = { "username" : "ghostwu", "password" : "abc123", "submit" : "submit" }
data = urllib.urlencode( values )
url = "http://mesite.ghostwu" + "?" + data
request = urllib2.Request( url )
response = urllib2.urlopen( request )
print response.read()

执行之后，如果把用户名或者密码该错，就会出现login error.

post提交方式，当然你要把php表单改成post提交.

#!/usr/bin/python
#coding:utf-8

import urllib
import urllib2values = { "username" : "ghostwu2", "password" : "abc123", "submit" : "submit" }
data = urllib.urlencode( values )
url = "http://mesite.ghostwu"
request = urllib2.Request( url, data )
response = urllib2.urlopen( request )
print response.read()

转载于:https://www.cnblogs.com/ghostwu/p/9124310.html

python爬虫入门urllib库的使用相关推荐

python爬虫之urllib库详解
python爬虫之urllib库详解前言一.urllib库是什么? 二.urllib库的使用 urllib.request模块 urllib.parse模块利用try-except,进行超时处理 ...
python urllib.request 爬虫数据处理-python 爬虫之 urllib库
文章更新于:2020-03-02 注:代码来自老师授课用样例. 一.初识 urllib 库在 python2.x 版本,urllib 与urllib2 是两个库,在 python3.x 版本,二者合 ...
Python 爬虫之urllib库的使用
urllib库 urllib库是Python中一个最基本的网络请求库.可以模拟浏览器的行为,向指定的服务器发送一个请求,并可以保存服务器返回的数据. urlopen函数: 在Python3的urlli ...
python怎么安装requests库-Python爬虫入门requests库的安装与使用
Requests库的详细安装过程对于初学Python爬虫小白,认识和使用requests库是第一步,requests库包含了网页爬取的常用方法.下面开始安装requests库. 1.检查是否安装过 ...
Python爬虫中urllib库的使用进阶--cookie的使用
什么是cookie: 在网站中,http请求是无状态的.也就是说即使第一次和服务器连接后并且登录成功后,第二次请求服务器依然不能知道当前请求是哪个用户.cookie的出现就是为了解决这个问题,第一次登 ...
[转载]Python爬虫入门三之Urllib库的基本使用
python爬虫系列教程http://cuiqingcai.com/1052.html 1.分分钟扒一个网页下来怎样扒网页呢?其实就是根据URL来获取它的网页信息,虽然我们在浏览器中看到的是一幅幅优 ...
Python爬虫入门（4）：Urllib库的高级用法
Python爬虫入门(1):综述 Python爬虫入门(2):爬虫基础了解 Python爬虫入门(3):Urllib库的基本使用 Python爬虫入门(4):Urllib库的高级用法 Python爬虫 ...
Python爬虫入门（3）：Urllib库的基本使用
Python爬虫入门(1):综述 Python爬虫入门(2):爬虫基础了解 Python爬虫入门(3):Urllib库的基本使用 Python爬虫入门(4):Urllib库的高级用法 Python爬虫 ...
Python爬虫入门之Urllib库的基本使用
那么接下来,小伙伴们就一起和我真正迈向我们的爬虫之路吧. 1.分分钟扒一个网页下来怎样扒网页呢?其实就是根据URL来获取它的网页信息,虽然我们在浏览器中看到的是一幅幅优美的画面,但是其实是由浏览器解 ...

python爬虫入门urllib库的使用

python爬虫入门urllib库的使用相关推荐

最新文章

热门文章