简单request对象爬取练习

#爬取百度首页的页面数据
import requests
if __name__ == "__main__":#指定urlurl = "https://www.baidu.com/"#发起请求,成功之后会返回响应对象response = requests.get(url=url)#获取响应数据,用一个response对象去接收#text返回的是字符串形式的响应数据page_text = response.textprint(page_text)#持久化存储with open('./sougou.html','w',encoding='utf-8') as fp:fp.write(page_text)print('爬取结束')

结果

<!DOCTYPE html><!--STATUS OK--><html> <head><meta http-equiv=content-type content=text/html;charset=utf-8><meta http-equiv=X-UA-Compatible content=IE=Edge><meta content=always name=referrer><link rel=stylesheet type=text/css href=https://ss1.bdstatic.com/5eN1bjq8AAUYm2zgoY3K/r/www/cache/bdorz/baidu.min.css><title>ç¾åº¦ä¸ä¸ï¼ä½ å°±ç¥é</title></head> <body link=#0000cc> <div id=wrapper> <div id=head> <div class=head_wrapper> <div class=s_form> <div class=s_form_wrapper> <div id=lg> <img hidefocus=true src=//www.baidu.com/img/bd_logo1.png width=270 height=129> </div> <form id=form name=f action=//www.baidu.com/s class=fm> <input type=hidden name=bdorz_come value=1> <input type=hidden name=ie value=utf-8> <input type=hidden name=f value=8> <input type=hidden name=rsv_bp value=1> <input type=hidden name=rsv_idx value=1> <input type=hidden name=tn value=baidu><span class="bg s_ipt_wr"><input id=kw name=wd class=s_ipt value maxlength=255 autocomplete=off autofocus=autofocus></span><span class="bg s_btn_wr"><input type=submit id=su value=ç¾åº¦ä¸ä¸ class="bg s_btn" autofocus></span> </form> </div> </div> <div id=u1> <a href=http://news.baidu.com name=tj_trnews class=mnav>æ°é»</a> <a href=https://www.hao123.com name=tj_trhao123 class=mnav>hao123</a> <a href=http://map.baidu.com name=tj_trmap class=mnav>å°å¾</a> <a href=http://v.baidu.com name=tj_trvideo class=mnav>è§é¢</a> <a href=http://tieba.baidu.com name=tj_trtieba class=mnav>è´´å§</a> <noscript> <a href=http://www.baidu.com/bdorz/login.gif?login&amp;tpl=mn&amp;u=http%3A%2F%2Fwww.baidu.com%2f%3fbdorz_come%3d1 name=tj_login class=lb>ç»å½</a> </noscript> <script>document.write('<a href="http://www.baidu.com/bdorz/login.gif?login&tpl=mn&u='+ encodeURIComponent(window.location.href+ (window.location.search === "" ? "?" : "&")+ "bdorz_come=1")+ '" name="tj_login" class="lb">ç»å½</a>');</script> <a href=//www.baidu.com/more/ name=tj_briicon class=bri style="display: block;">æ´å¤äº§å</a> </div> </div> </div> <div id=ftCon> <div id=ftConw> <p id=lh> <a href=http://home.baidu.com>å³äºç¾åº¦</a> <a href=http://ir.baidu.com>About Baidu</a> </p> <p id=cp>&copy;2017&nbsp;Baidu&nbsp;<a href=http://www.baidu.com/duty/>使ç¨ç¾åº¦åå¿è¯»</a>&nbsp; <a href=http://jianyi.baidu.com/ class=cp-feedback>æè§åé¦</a>&nbsp;京ICPè¯030173å·&nbsp; <img src=//www.baidu.com/img/gs.gif> </p> </div> </div> </div> </body> </html>

RE模块正则匹配表达练习

content = '''
01 web安全的关键点1
02前端基础12
03前端黑客之xss 72
04前端黑客之csrf 83
05前端黑客之界面操作劫持97
06 漏洞挖掘123
07漏洞利用206
08 html5安全277
09 web蠕虫293
10关于防御336
'''import re
pattern = re.compile(r'前端.*')#匹配所有前端字符,*的意思是后面是任意的字符,创建的patten相当于一个对象
print(pattern.findall(content))#pattern是一个列表类型,打印列表类型需要for循环
for line in  pattern.findall(content):print(line)

结果

"E:\Pycharm\SimpleRev\Learning Machine\Scripts\python.exe" "E:/Pycharm/Learning Machine/Re练习.py"
['前端基础12', '前端黑客之xss 72', '前端黑客之csrf 83', '前端黑客之界面操作劫持97']
前端基础12
前端黑客之xss 72
前端黑客之csrf 83
前端黑客之界面操作劫持97Process finished with exit code 0
content = '''
01 web安全的关键点1
02前端基础12
03前端黑客之xss 72
04前端黑客之csrf 83
05前端黑客之界面操作劫持97
06 漏洞挖掘123
07漏洞利用206
08 html5安全277
09 web蠕虫293
10关于防御336
'''#正则匹配
import re
#想要抓取章节号   \d:抓取数字  *代表哦抓取全部数字  ^表示从开头开始匹配re.MULTILINE表示开启多行模式
patten = re.compile(r'^\w*' , re.MULTILINE)
for line in patten.findall(content):#print(line)

结果

"E:\Pycharm\SimpleRev\Learning Machine\Scripts\python.exe" "E:/Pycharm/Learning Machine/Re练习.py"01
02前端基础12
03前端黑客之xss
04前端黑客之csrf
05前端黑客之界面操作劫持97
06
07漏洞利用206
08
09
10关于防御336Process finished with exit code 0
content1 = '''
aaaaabbbbb
aaaabbbb
aaabbb
aabb
a
'''import re
#a*b*表示a出现任意次,b出现任意次  a*b+表示b必须出现至少一次
#a{3}b{3}$表示a出现3次b出现3次,从结尾开始匹配
patten = re.compile(r'a{3}b{3}$',re.MULTILINE)
for line in patten.findall(content1):print(line)

结果

"E:\Pycharm\SimpleRev\Learning Machine\Scripts\python.exe" "E:/Pycharm/Learning Machine/Re练习.py"
aaabbbProcess finished with exit code 0

简单模拟登录注册

import requests
headers = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/102.0.0.0 Safari/537.36','referer': 'https://hgame.vidar.club/login'#从哪一个页面来的
}def login():data = {'password': "991206wxyWXY",'uid': "910196400@qq.com"}response = requests.get('https://hgame.vidar.club/api/user/sign-in',data=data,headers=headers)print(response)print(response.url)#response.url查看最终请求的URL
login()

会出现requests.exceptions.ProxyError: HTTPSConnectionPool(host='hgame.vidar.club',目标主机拒绝连接问题

解决办法

Python requests.exceptions.ProxyError的解决办法

json数据表单

关掉

PYTHON脚本练习相关推荐

  1. 命令行运行Python脚本时传入参数的三种方式

    三种常用的方式 如果在运行python脚本时需要传入一些参数,例如gpus与batch_size,可以使用如下三种方式. python script.py 0,1,2 10 python script ...

  2. Python脚本语言写法

    Python脚本语言写法 脚本语言的开始行,是指文件中的代码用什么可执行程序去运行它,就这么简单. #!/usr/bin/python是告诉操作系统执行这个脚本的时候,调用/usr/bin下的pyth ...

  3. python 脚本撞库国内“某榴”账号

    其实日常生活中我们的用户名和密码就那么几个,所以这给撞库带来了可能,本文主要给出python脚本撞库的一点粗浅代码.这里只讨论技术本生,代码中某榴的地址也已经改掉,避免被管理员误解禁言等发生,谢谢大家 ...

  4. python脚本编写_【PyQGIS】编写用于处理框架(QGIS3)的Python脚本

    可以编写可通过QGIS中的Python控制台运行的独立pyqgis脚本.进行一些调整,即可使您的独立脚本通过处理框架运行.这具有几个优点.首先,获取用户输入和写入输出文件要容易得多,因为Process ...

  5. python脚本——图片重命名、图片合成视频、faster-rcnn画P-R曲线

    调试faster rcnn算法实用的python脚本 目录 调试faster rcnn算法实用的python脚本 一.前言 二.常用python脚本 三.后记 一.前言 最近在做关于目标检测算法的研究 ...

  6. Blender中的Python脚本介绍学习教程

    Blender中的Python脚本介绍学习教程 MP4 |视频:h264,1280×720 |音频:AAC,48000 Hz 语言:英语+中英文字幕(根据原英文字幕机译更准确)|大小解压后:1.63 ...

  7. 【python】使用python脚本将LFW数据中1672组同一个人多张照片拷贝出来

    使用python脚本将LFW数据中1672组同一个人多张照片拷贝出来 dataCleaning4multiple.py 源码如下: import os, random, shutil import s ...

  8. 【Python】深度学习中将数据按比例随机分成随机 训练集 和 测试集的python脚本

    深度学习中经常将数据分成 训练集 和 测试集,参考博客,修改python脚本 randPickAITrainTestData.py . 功能:从 输入目录 中随机检出一定比例的文件或目录,移动到保存 ...

  9. 写了个Python脚本监控nginx进程

    写了个Python脚本监控nginx进程 « Xiaoxia[PG] 写了个Python脚本监控nginx进程 接上一文用iptables让SSH服务对陌生人说不.还是有点担心这个学期内,nginx可 ...

  10. python 没反应 生成exe_通过 pyinstaller 将 python 脚本打包成可执行程序!

    1. 引言 很多时候,我们需要在 windows 环境编写和执行 python 脚本,但是去搭建一整套 python 运行环境看上去就过于繁琐了,即便是拥有 python 运行环境,脚本的执行也并不方 ...

最新文章

  1. 探索.NET中事件机制(续)——虚事件和事件重写问题,微软的Bug?!
  2. cmd常见错误及解决方法
  3. 调整/home和/root空间容量
  4. 里面如何配置库_【专享】SolidWorks管道库国标模型下载SolidWorks Routing管道设计学习必备...
  5. 如何在 ASP.Net Core 中使用 Lamar
  6. python基础实训_python基础实践(三)
  7. 计算机基础理论知识的论文,计算机基础毕业论文
  8. 《2018中国区块链行业分析报告》(50页PPT全文)
  9. stats | 介绍三个与数学规划函数
  10. windows10没有nfs服务_CentOS 7集群间实现NFS文件共享
  11. 7-36 BCD解密 (10 分)
  12. 如何成功将qlv格式转换成mp4,方法免费简单好用
  13. Linux文件与管理(还是多记)
  14. 微信小程序识别图片并提取文字_微信小程序图片上传(文字识别)
  15. 个人网站、个人博客的设计案例,仅供参考
  16. “百度有啊”可以访问了,大家预测一把其前景如何?
  17. 随笔---ubuntu下通过ifstat查看实时网速
  18. 数据结构:数组和链表的区别以及各自的优缺点
  19. raspberry 4b|点亮树莓派桌面(以及坑总结)
  20. 【深入kotlin】 - 与Java互操作:kotlin调用java

热门文章

  1. Max Pooling核运算
  2. 学生不做作业,如何与家长联系
  3. 蓝牙锁定计算机,大神教你处理win10系统创意者启用动态蓝牙锁功能的详细办法...
  4. win10 Face_recognition教程
  5. 关于互联网内容服务的公共协议(ICCP)[1]
  6. 计算机软件的反向工程,计算机软件反向工程是否合法?
  7. AT24C128 EEPROM数据手册中文翻译
  8. 全员在家办公的小微企业,该怎么度过?
  9. 博士生入职华为百万年薪不算高吧?
  10. README 模板分享