python大作业爬虫_Python爬虫大作业

1 import requests#请求库

2 import re#表达式解析库

3 importcsv4 def html_save(s):#爬取内容保存函数

5 with open('save3.csv','a', newline='')as f:#以追加的方式存数据newline控制文本模式之下，一行的结束字符

6 writer = csv.writer(f)#将数据写入csv文件

7 writer.writerow(s)8

9 def get_url(n):#保存网址

10 urls=[]11 for i in range(1,101):#测试得出网址范围

12 urls.append('http://www.nymbler.com/nymbler/more/%s'%i)13 returnurls14 pass

16 def get_detail(url):#对网页内容进行解析获取

17 headers = {'Cookie':"heroku-session-affinity=AECDaANoA24IAaj0sYj+//8HYgAH2hNiAAsB42EDbAAAAANtAAAABXdlYi4zbQAAAAV3ZWIuMm0AAAAFd2ViLjFqTiF9lGfQyz4HBcluZEIivsLibgo_; PLAY_SESSION=e625836109d6e09af14be41657c35e808ca31e72-session_id=240bcff7-ebb5-49ee-8fa4-ffcc5ba32e48; _ga=GA1.2.408125030.1575511582; _gid=GA1.2.1377013858.1575511582; td_cookie=18446744071831041204; _gat_gtag_UA_1763772_1=1"}#反爬虫请求头

18 response = requests.post(url)#解析网页

19 docx=(response.text)#得到解析文本

20 name=re.findall(r'"name":"([^"]+)"',docx)#正则匹配name的value

21 gender=re.findall(r'"gender":"([^"]+)"',docx) #正则匹配gender的value

22 info=re.findall(r'"info":"([^"]+)"',docx)23 meaning=re.findall(r'"meaning":"([^"]+)"',docx)24 for i in range(len(meaning)):#将获取的信息进行有序处理

25 tmp=[]26 tmp.append(name[i])27 tmp.append(gender[i])28 tmp.append(meaning[i])29 tmp.append(info[i])30 html_save(tmp)#对信息进行保存

31 returntmp32 pass

34 def get_all(n):#获取所有网页的信息

35 alldata=[]36 for url inget_url(n):37 alldata.extend(get_detail(url))#将get_url(n)内的所有网页一一进行解析保存

38 returnalldata39 pass

41 get_all(100)#函数调用

python大作业爬虫_Python爬虫大作业相关推荐

python 正则表达式提取数据_Python爬虫教程-19-数据提取-正则表达式(re)
本篇主页内容:match的基本使用,search的基本使用,findall,finditer的基本使用,匹配中文,贪婪与非贪婪模式 Python爬虫教程-19-数据提取-正则表达式(re) 正则表达式 ...
origin和python有什么不同_python爬虫之git的使用（origin说明）
1.首先我们回忆两个命令 #git remote add origin 远程仓库链接 #git push -u origin master 我们一起看看这个命令,git是git的一级命令,push就是 ...
python编程理论篇_Python爬虫入门实战之猫眼电影数据抓取(理论篇)
前言本文可能篇幅较长,但是绝对干货满满,提供了大量的学习资源和途径.达到让读者独立自主的编写基础网络爬虫的目标,这也是本文的主旨,输出有价值能够真正帮助到读者的知识,即授人以鱼不如授人以渔,让我们直 ...
hadoop 爬虫_python爬虫知识点梳理：带你全面入门python爬虫
今天主要跟大家谈谈爬虫,尤其是刚入门的伙伴,少走弯路!文末附全套的视频版Python学习教程,含爬虫教程!希望大家能够把文字部分看完!做一个梳理! 在学习爬虫之前我们需要明白的一个问题: 爬虫能做什么 ...
python从入门到爬虫_python爬虫从入门到放弃（一）之初识爬虫
什么是爬虫? 网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本.另外一些不常使用的名字还有蚂蚁.自动索引. ...
python二手交易平台代码_PYTHON爬虫实战_垃圾佬闲鱼爬虫转转爬虫数据整合自用二手急速响应捡垃圾平台_3(附源码持续更新)...
说明文章首发于HURUWO的博客小站,本平台做同步备份发布. 如有浏览或访问异常图片加载失败或者相关疑问可前往原博客下评论浏览. 原文链接 PYTHON爬虫实战_垃圾佬闲鱼爬虫转转爬虫数据整合自用二 ...
51自学网python爬虫_Python爬虫基本流程
爬虫定义爬虫是请求网站并提取自己所需要数据的过程.通过我们的程序,可以代替我们向服务器发送请求,然后进行批量的数据下载. 爬虫基本流程发起请求通过url向服务器发送requests请求,请求可以 ...
python大作业爬虫_Python爬虫学习－爬取大规模数据(10w级）
编译环境:python v3.5.0, mac osx 10.11.4 python爬虫基础知识: Python爬虫学习-基础爬取了解数据库 MongoDB 数据库是储存数据的地方,可以将如下的字典 ...
python 豆瓣评论数据分析_Python爬虫实战案例：豆瓣影评大数据分析报告之网页分析...
个人希望,通过这个完整的爬虫案例(预计总共4篇短文),能够让爬虫小白学会怎么做爬虫的开发,所以在高手们看来,会有很多浅显的废话,如果觉得啰嗦,可以跳过一些内容~ 上一篇文章给大家简单介绍了Python ...

python大作业爬虫_Python爬虫大作业

python大作业爬虫_Python爬虫大作业相关推荐

最新文章

热门文章