python 简单爬虫 --- 人民日报
1.这个代码仅仅是用到了简单的爬虫知识,没有用自动化之类的库,
因为是简单爬取,所有没有考虑太多的操作
2.将人民日报对这次新冠肺炎疫情的报道的内容进行爬取,仅仅对文字进行爬取
3.没有考虑反爬的情况,所有运行的时候又可能会保错,但是多运行几次就可以了,当然,因为反爬和没有对所有文章都分析html里的文章所在的标签,所以保存的有的文件内容会少且乱
from urllib import request
from urllib import parse
import urllib
import re
import timeMAX_NUM = 30package = 1save_path = r"C:\Users\pc\Desktop\python学习\课堂作业\NLP作业\data"punctuation = [',', '”', "。", "?", "!", ":", ";", "‘", "’", "”"]headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.61 Safari/537.36 Edg/83.0.478.37'}url = "https://news.sogou.com/news?mode=1&sort=0&fixrank=1&"
params = {'query': '新冠肺炎报道人民日报'}
qs = parse.urlencode(params)
url = url + qs + "&shid=hb1" + "&page=" + str(package)
print("访问: ", package, "\n", url)
package += 1
req = urllib.request.Request(url=url, headers=headers)resp = request.urlopen(req)
info = resp.read()info = info.decode('utf-8', "ignore")
# 状态码
print(resp.getcode())urls = re.findall('<a href="http.*?html"', info, re.I)num = 0
while num < MAX_NUM:for u in urls:u = u.replace("<a href=\"", "")[:-1]print(u)req = urllib.request.Request(url=u, headers=headers)resp = request.urlopen(req)if resp.getcode() == 200:info = resp.read()info = info.decode('utf-8', "ignore")if len(info) > 30000:word = re.findall('<p.*?</p>', info, re.S)for i in re.findall('<div.*?</div>', info, re.S):word.append(i)if len(word) > 5:num += 1f = open(save_path + "\data_" + str(num) + '.txt', 'w', encoding="utf-8")for w in word:for i in w:if '\u4e00' <= i <= '\u9fff':f.write(str(i))elif i in punctuation:f.write(" ")f.close()print("over" + str(num))time.sleep(1)url = "https://news.sogou.com/news?mode=1&sort=0&fixrank=1&"params = {'query': '新冠肺炎报道人民日报'}qs = parse.urlencode(params)url = url + qs + "&shid=hb1" + "&page=" + str(package)print("访问: ", package, "\n", url)package += 1req = urllib.request.Request(url=url, headers=headers)resp = request.urlopen(req)info = resp.read()info = info.decode('utf-8', "ignore")# 状态码print(resp.getcode())urls = re.findall('<a href="http.*?html"', info, re.I)
python 简单爬虫 --- 人民日报相关推荐
- python简单爬虫
python简单爬虫某网站简历模板 from lxml import etree import requestsdef main():url = "https://sc.chinaz.com ...
- python简单爬虫 指定汉字的笔画动图下载
python简单爬虫 指定汉字的笔画动图下载 分析过程 打开网址首页http://www.hanzi5.com 选择一个字,比如"虐" 查看该汉字动图地址 右键该汉字动图,选择在新 ...
- Python 简单爬虫下载小说txt
Python 简单爬虫下载小说txt #第一次写爬虫代码 欢迎交流指正 我们范例爬取的对象是笔趣阁的<圣墟> (最近非常火的连载小说) ##为什么选择笔趣阁# 主要是因为笔趣阁的源代码没有 ...
- Python简单爬虫第六蛋!(完结撒花)
第六讲: 今天我们来实战一个项目,我本人比较喜欢看小说,有一部小时叫<圣墟>不知道大家有没有听说过,个人觉得还是不错的,现在联网的时候,都可以随时随地用手机打开浏览器搜索查看,但是有时候也 ...
- python简单爬虫程序分析_[Python专题学习]-python开发简单爬虫
掌握开发轻量级爬虫,这里的案例是不需要登录的静态网页抓取.涉及爬虫简介.简单爬虫架构.URL管理器.网页下载器(urllib2).网页解析器(BeautifulSoup) 一.爬虫简介以及爬虫的技术价 ...
- python简单爬虫课题_VS2019python爬虫入门
VS2019新建python项目 在vs2019中添加python编译环境 创建python控制台应用程序项目 配置python环境 安装requests第三方库 管理程序包,执行安装requests ...
- 可爱的python下载_GitHub - palxiao/PythonWebSpider: 一个可爱的python简单爬虫
Python网络爬虫 语言环境:Python2.7 运行爬虫入口开始爬取 output.html查看结果 简单py爬虫,修改入口及解析器改变规则 新增存入数据库操作 需要插件(MySql) 补充:(折 ...
- Python简单爬虫入门-爬取链家租房网上的租房信息
.又到了毕业季,租房成为广大毕业生关注的话题,考虑到只用到广州的租房信息,所以只爬取广州各个地区的租房信息,下面是用Python3.4.4编写简单爬虫爬取租房网信息的代码: #coding:utf-8 ...
- python简单爬虫入门一_Python简单爬虫入门二
接着上一次爬虫我们继续研究BeautifulSoup 上一次我们爬虫我们已经成功的爬下了网页的源代码,那么这一次我们将继续来写怎么抓去具体想要的元素 首先回顾以下我们BeautifulSoup的基本结 ...
最新文章
- 澎思科技获IDG资本数千万元Pre-A轮融资 推出AI安防全场景软硬件解决方案
- 民营企业SAP项目客户的几种心态
- Python学习札记(二十) 函数式编程1 介绍 高阶函数介绍
- web頁面優化以及SEO
- git add remote_收藏向 | Git命令与原理速查手册
- php远程文件包含攻击,PHP “is_a()”函数远程文件包含漏洞
- Java并发常用方法 sleep 和 wait
- Android开发笔记(一百三十)截图和录屏
- element-ui的密码验证
- 山重水复 Thinkpad T61改装记
- html中支持的常用中文字体
- 2019111 控制台上实现极乐净土(有图有背景音乐)
- WBS(Work Breakdown Structure)
- 【数据挖掘】K-Means 一维数据聚类分析示例
- 使用IntelliJ IDEA打开一个项目步骤
- Win10 WSL初体验
- parker派克柱塞泵PV046R1K1T1NUDM
- Python的return语句中使用条件判断
- 【HTML】HTML网页设计----模仿汉服前端设计
- 在学RTX之前的操作系统知识
热门文章
- the default discovery settings are unsuitable for production use; at least one of [discovery.seed_h
- 思科ccna认证VRRP负载均衡技术详解
- @Scheduled(cron = 0 0 * * * ?)实现定时任务
- 直播app源代码,验证码输入页面
- SCSI PRs命令研究总结2 - PRs命令规范
- 如何通过IPFS 下载国学经典书籍
- Mendeley操作指南
- word如何转换成PDF转换器简单方法介绍
- 《Unity开发实战》——2.8节用Shuriken制作粒子效果
- C#设计模式之原型模式