1.这个代码仅仅是用到了简单的爬虫知识,没有用自动化之类的库,
因为是简单爬取,所有没有考虑太多的操作

2.将人民日报对这次新冠肺炎疫情的报道的内容进行爬取,仅仅对文字进行爬取

3.没有考虑反爬的情况,所有运行的时候又可能会保错,但是多运行几次就可以了,当然,因为反爬和没有对所有文章都分析html里的文章所在的标签,所以保存的有的文件内容会少且乱

from urllib import request
from urllib import parse
import urllib
import re
import timeMAX_NUM = 30package = 1save_path = r"C:\Users\pc\Desktop\python学习\课堂作业\NLP作业\data"punctuation = [',', '”', "。", "?", "!", ":", ";", "‘", "’", "”"]headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.61 Safari/537.36 Edg/83.0.478.37'}url = "https://news.sogou.com/news?mode=1&sort=0&fixrank=1&"
params = {'query': '新冠肺炎报道人民日报'}
qs = parse.urlencode(params)
url = url + qs + "&shid=hb1" + "&page=" + str(package)
print("访问: ", package, "\n", url)
package += 1
req = urllib.request.Request(url=url, headers=headers)resp = request.urlopen(req)
info = resp.read()info = info.decode('utf-8', "ignore")
# 状态码
print(resp.getcode())urls = re.findall('<a href="http.*?html"', info, re.I)num = 0
while num < MAX_NUM:for u in urls:u = u.replace("<a href=\"", "")[:-1]print(u)req = urllib.request.Request(url=u, headers=headers)resp = request.urlopen(req)if resp.getcode() == 200:info = resp.read()info = info.decode('utf-8', "ignore")if len(info) > 30000:word = re.findall('<p.*?</p>', info, re.S)for i in re.findall('<div.*?</div>', info, re.S):word.append(i)if len(word) > 5:num += 1f = open(save_path + "\data_" + str(num) + '.txt', 'w', encoding="utf-8")for w in word:for i in w:if '\u4e00' <= i <= '\u9fff':f.write(str(i))elif i in punctuation:f.write(" ")f.close()print("over" + str(num))time.sleep(1)url = "https://news.sogou.com/news?mode=1&sort=0&fixrank=1&"params = {'query': '新冠肺炎报道人民日报'}qs = parse.urlencode(params)url = url + qs + "&shid=hb1" + "&page=" + str(package)print("访问: ", package, "\n", url)package += 1req = urllib.request.Request(url=url, headers=headers)resp = request.urlopen(req)info = resp.read()info = info.decode('utf-8', "ignore")# 状态码print(resp.getcode())urls = re.findall('<a href="http.*?html"', info, re.I)

python 简单爬虫 --- 人民日报相关推荐

  1. python简单爬虫

    python简单爬虫某网站简历模板 from lxml import etree import requestsdef main():url = "https://sc.chinaz.com ...

  2. python简单爬虫 指定汉字的笔画动图下载

    python简单爬虫 指定汉字的笔画动图下载 分析过程 打开网址首页http://www.hanzi5.com 选择一个字,比如"虐" 查看该汉字动图地址 右键该汉字动图,选择在新 ...

  3. Python 简单爬虫下载小说txt

    Python 简单爬虫下载小说txt #第一次写爬虫代码 欢迎交流指正 我们范例爬取的对象是笔趣阁的<圣墟> (最近非常火的连载小说) ##为什么选择笔趣阁# 主要是因为笔趣阁的源代码没有 ...

  4. Python简单爬虫第六蛋!(完结撒花)

    第六讲: 今天我们来实战一个项目,我本人比较喜欢看小说,有一部小时叫<圣墟>不知道大家有没有听说过,个人觉得还是不错的,现在联网的时候,都可以随时随地用手机打开浏览器搜索查看,但是有时候也 ...

  5. python简单爬虫程序分析_[Python专题学习]-python开发简单爬虫

    掌握开发轻量级爬虫,这里的案例是不需要登录的静态网页抓取.涉及爬虫简介.简单爬虫架构.URL管理器.网页下载器(urllib2).网页解析器(BeautifulSoup) 一.爬虫简介以及爬虫的技术价 ...

  6. python简单爬虫课题_VS2019python爬虫入门

    VS2019新建python项目 在vs2019中添加python编译环境 创建python控制台应用程序项目 配置python环境 安装requests第三方库 管理程序包,执行安装requests ...

  7. 可爱的python下载_GitHub - palxiao/PythonWebSpider: 一个可爱的python简单爬虫

    Python网络爬虫 语言环境:Python2.7 运行爬虫入口开始爬取 output.html查看结果 简单py爬虫,修改入口及解析器改变规则 新增存入数据库操作 需要插件(MySql) 补充:(折 ...

  8. Python简单爬虫入门-爬取链家租房网上的租房信息

    .又到了毕业季,租房成为广大毕业生关注的话题,考虑到只用到广州的租房信息,所以只爬取广州各个地区的租房信息,下面是用Python3.4.4编写简单爬虫爬取租房网信息的代码: #coding:utf-8 ...

  9. python简单爬虫入门一_Python简单爬虫入门二

    接着上一次爬虫我们继续研究BeautifulSoup 上一次我们爬虫我们已经成功的爬下了网页的源代码,那么这一次我们将继续来写怎么抓去具体想要的元素 首先回顾以下我们BeautifulSoup的基本结 ...

最新文章

  1. 澎思科技获IDG资本数千万元Pre-A轮融资  推出AI安防全场景软硬件解决方案
  2. 民营企业SAP项目客户的几种心态
  3. Python学习札记(二十) 函数式编程1 介绍 高阶函数介绍
  4. web頁面優化以及SEO
  5. git add remote_收藏向 | Git命令与原理速查手册
  6. php远程文件包含攻击,PHP “is_a()”函数远程文件包含漏洞
  7. Java并发常用方法 sleep 和 wait
  8. Android开发笔记(一百三十)截图和录屏
  9. element-ui的密码验证
  10. 山重水复 Thinkpad T61改装记
  11. html中支持的常用中文字体
  12. 2019111 控制台上实现极乐净土(有图有背景音乐)
  13. WBS(Work Breakdown Structure)
  14. 【数据挖掘】K-Means 一维数据聚类分析示例
  15. 使用IntelliJ IDEA打开一个项目步骤
  16. Win10 WSL初体验
  17. parker派克柱塞泵PV046R1K1T1NUDM
  18. Python的return语句中使用条件判断
  19. 【HTML】HTML网页设计----模仿汉服前端设计
  20. 在学RTX之前的操作系统知识

热门文章

  1. the default discovery settings are unsuitable for production use; at least one of [discovery.seed_h
  2. 思科ccna认证VRRP负载均衡技术详解
  3. @Scheduled(cron = 0 0 * * * ?)实现定时任务
  4. 直播app源代码,验证码输入页面
  5. SCSI PRs命令研究总结2 - PRs命令规范
  6. 如何通过IPFS 下载国学经典书籍
  7. Mendeley操作指南
  8. word如何转换成PDF转换器简单方法介绍
  9. 《Unity开发实战》——2.8节用Shuriken制作粒子效果
  10. C#设计模式之原型模式