python大作业爬虫_Python爬虫大作业
1 import requests#请求库
2 import re#表达式解析库
3 importcsv4 def html_save(s):#爬取内容保存函数
5 with open('save3.csv','a', newline='')as f:#以追加的方式存数据newline控制文本模式之下,一行的结束字符
6 writer = csv.writer(f)#将数据写入csv文件
7 writer.writerow(s)8
9 def get_url(n):#保存网址
10 urls=[]11 for i in range(1,101):#测试得出网址范围
12 urls.append('http://www.nymbler.com/nymbler/more/%s'%i)13 returnurls14 pass
15
16 def get_detail(url):#对网页内容进行解析获取
17 headers = {'Cookie':"heroku-session-affinity=AECDaANoA24IAaj0sYj+//8HYgAH2hNiAAsB42EDbAAAAANtAAAABXdlYi4zbQAAAAV3ZWIuMm0AAAAFd2ViLjFqTiF9lGfQyz4HBcluZEIivsLibgo_; PLAY_SESSION=e625836109d6e09af14be41657c35e808ca31e72-session_id=240bcff7-ebb5-49ee-8fa4-ffcc5ba32e48; _ga=GA1.2.408125030.1575511582; _gid=GA1.2.1377013858.1575511582; td_cookie=18446744071831041204; _gat_gtag_UA_1763772_1=1"}#反爬虫请求头
18 response = requests.post(url)#解析网页
19 docx=(response.text)#得到解析文本
20 name=re.findall(r'"name":"([^"]+)"',docx)#正则匹配name的value
21 gender=re.findall(r'"gender":"([^"]+)"',docx) #正则匹配gender的value
22 info=re.findall(r'"info":"([^"]+)"',docx)23 meaning=re.findall(r'"meaning":"([^"]+)"',docx)24 for i in range(len(meaning)):#将获取的信息进行有序处理
25 tmp=[]26 tmp.append(name[i])27 tmp.append(gender[i])28 tmp.append(meaning[i])29 tmp.append(info[i])30 html_save(tmp)#对信息进行保存
31 returntmp32 pass
33
34 def get_all(n):#获取所有网页的信息
35 alldata=[]36 for url inget_url(n):37 alldata.extend(get_detail(url))#将get_url(n)内的所有网页一一进行解析保存
38 returnalldata39 pass
40
41 get_all(100)#函数调用
python大作业爬虫_Python爬虫大作业相关推荐
- python 正则表达式提取数据_Python爬虫教程-19-数据提取-正则表达式(re)
本篇主页内容:match的基本使用,search的基本使用,findall,finditer的基本使用,匹配中文,贪婪与非贪婪模式 Python爬虫教程-19-数据提取-正则表达式(re) 正则表达式 ...
- origin和python有什么不同_python爬虫之git的使用(origin说明)
1.首先我们回忆两个命令 #git remote add origin 远程仓库链接 #git push -u origin master 我们一起看看这个命令,git是git的一级命令,push就是 ...
- python编程理论篇_Python爬虫入门实战之猫眼电影数据抓取(理论篇)
前言 本文可能篇幅较长,但是绝对干货满满,提供了大量的学习资源和途径.达到让读者独立自主的编写基础网络爬虫的目标,这也是本文的主旨,输出有价值能够真正帮助到读者的知识,即授人以鱼不如授人以渔,让我们直 ...
- hadoop 爬虫_python爬虫知识点梳理:带你全面入门python爬虫
今天主要跟大家谈谈爬虫,尤其是刚入门的伙伴,少走弯路!文末附全套的视频版Python学习教程,含爬虫教程!希望大家能够把文字部分看完!做一个梳理! 在学习爬虫之前我们需要明白的一个问题: 爬虫能做什么 ...
- python从入门到爬虫_python爬虫从入门到放弃(一)之初识爬虫
什么是爬虫? 网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本.另外一些不常使用的名字还有蚂蚁.自动索引. ...
- python二手交易平台代码_PYTHON爬虫实战_垃圾佬闲鱼爬虫转转爬虫数据整合自用二手急速响应捡垃圾平台_3(附源码持续更新)...
说明 文章首发于HURUWO的博客小站,本平台做同步备份发布. 如有浏览或访问异常图片加载失败或者相关疑问可前往原博客下评论浏览. 原文链接 PYTHON爬虫实战_垃圾佬闲鱼爬虫转转爬虫数据整合自用二 ...
- 51自学网python爬虫_Python爬虫基本流程
爬虫定义 爬虫是请求网站并提取自己所需要数据的过程.通过我们的程序,可以代替我们向服务器发送请求,然后进行批量的数据下载. 爬虫基本流程 发起请求 通过url向服务器发送requests请求,请求可以 ...
- python大作业爬虫_Python爬虫学习-爬取大规模数据(10w级)
编译环境:python v3.5.0, mac osx 10.11.4 python爬虫基础知识: Python爬虫学习-基础爬取 了解数据库 MongoDB 数据库是储存数据的地方,可以将如下的字典 ...
- python 豆瓣评论数据分析_Python爬虫实战案例:豆瓣影评大数据分析报告之网页分析...
个人希望,通过这个完整的爬虫案例(预计总共4篇短文),能够让爬虫小白学会怎么做爬虫的开发,所以在高手们看来,会有很多浅显的废话,如果觉得啰嗦,可以跳过一些内容~ 上一篇文章给大家简单介绍了Python ...
最新文章
- 聚焦AI发展 | 这可能是今年最干货的线上分享会了
- 用WidgeDuino创建一个SCADA(监控与数据採集)系统
- pyrealsense2 设置摄像头曝光值 get_active_profile.get_device().query_sensors set_option() rs.option.exposure
- 学习C#以及C还有数据库
- python语言格式化输出_Python字符串格式化输出
- joomla 标准激活的php mail 功能,php 通过joomla jmail 类使用 gmail smtp 账号发送邮件的简单示例...
- 我犯的错误--关于主键
- css类选择器类名覆盖优先级
- 20个正则表达式,举一反三,相信对你很有用
- 从入门到入土:Python爬虫学习|Selenium自动化模块学习|简单入门|轻松上手|自动操作浏览器进行处理|chrome|PART01
- jsp中文乱码现象解决办法
- 扩展欧几里得算法的实现
- 淘宝客如何赚钱?为什么很多人做淘宝客赚不到钱?
- 群晖经典第三方套件_强烈推荐群晖下载套件玩物下志
- 我的大学六年 郭天祥
- CheckListBox的实现方式分析
- 【数论】狄利克雷卷积
- 重启计算机连线的标志是,win10右下角总出现一个小地球图标怎么办_win10电脑网络连接图标变成地球如何解决...
- 分布式系统设计和开发_计划,设计和开发设计系统
- 【一头扎进JMS】(2)----ActiviteMQ点对点消息实现
热门文章
- 数说机场(二):首都第二个机场——北京大兴国际机场的野心
- Activiti7 + Spring Boot + mybatis Plus + Oracle 数据库整合-学习篇(二)
- 如何通过大数据赋能产业园区高质量发展
- 推荐个好用的安卓记事本便签软件
- 计算机教学简案,电子表格EXCEL教学教案 简案 授课便签
- .net 工具集,支持.net fx和.net core
- postfix空壳邮件服务
- Scala中解析json工具对比
- 最大的矩形问题(201312-3)
- CelebA人脸属性数据集解析