python 简单爬虫 --- 人民日报

1.这个代码仅仅是用到了简单的爬虫知识，没有用自动化之类的库，
因为是简单爬取，所有没有考虑太多的操作

2.将人民日报对这次新冠肺炎疫情的报道的内容进行爬取，仅仅对文字进行爬取

3.没有考虑反爬的情况，所有运行的时候又可能会保错，但是多运行几次就可以了，当然，因为反爬和没有对所有文章都分析html里的文章所在的标签，所以保存的有的文件内容会少且乱

from urllib import request
from urllib import parse
import urllib
import re
import timeMAX_NUM = 30package = 1save_path = r"C:\Users\pc\Desktop\python学习\课堂作业\NLP作业\data"punctuation = ['，', '”', "。", "？", "！", "：", "；", "‘", "’", "”"]headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.61 Safari/537.36 Edg/83.0.478.37'}url = "https://news.sogou.com/news?mode=1&sort=0&fixrank=1&"
params = {'query': '新冠肺炎报道人民日报'}
qs = parse.urlencode(params)
url = url + qs + "&shid=hb1" + "&page=" + str(package)
print("访问： ", package, "\n", url)
package += 1
req = urllib.request.Request(url=url, headers=headers)resp = request.urlopen(req)
info = resp.read()info = info.decode('utf-8', "ignore")
# 状态码
print(resp.getcode())urls = re.findall('<a href="http.*?html"', info, re.I)num = 0
while num < MAX_NUM:for u in urls:u = u.replace("<a href=\"", "")[:-1]print(u)req = urllib.request.Request(url=u, headers=headers)resp = request.urlopen(req)if resp.getcode() == 200:info = resp.read()info = info.decode('utf-8', "ignore")if len(info) > 30000:word = re.findall('<p.*?</p>', info, re.S)for i in re.findall('<div.*?</div>', info, re.S):word.append(i)if len(word) > 5:num += 1f = open(save_path + "\data_" + str(num) + '.txt', 'w', encoding="utf-8")for w in word:for i in w:if '\u4e00' <= i <= '\u9fff':f.write(str(i))elif i in punctuation:f.write(" ")f.close()print("over" + str(num))time.sleep(1)url = "https://news.sogou.com/news?mode=1&sort=0&fixrank=1&"params = {'query': '新冠肺炎报道人民日报'}qs = parse.urlencode(params)url = url + qs + "&shid=hb1" + "&page=" + str(package)print("访问： ", package, "\n", url)package += 1req = urllib.request.Request(url=url, headers=headers)resp = request.urlopen(req)info = resp.read()info = info.decode('utf-8', "ignore")# 状态码print(resp.getcode())urls = re.findall('<a href="http.*?html"', info, re.I)

python 简单爬虫 --- 人民日报相关推荐

python简单爬虫
python简单爬虫某网站简历模板 from lxml import etree import requestsdef main():url = "https://sc.chinaz.com ...
python简单爬虫指定汉字的笔画动图下载
python简单爬虫指定汉字的笔画动图下载分析过程打开网址首页http://www.hanzi5.com 选择一个字,比如"虐" 查看该汉字动图地址右键该汉字动图,选择在新 ...
Python 简单爬虫下载小说txt
Python 简单爬虫下载小说txt #第一次写爬虫代码欢迎交流指正我们范例爬取的对象是笔趣阁的<圣墟> (最近非常火的连载小说) ##为什么选择笔趣阁# 主要是因为笔趣阁的源代码没有 ...
Python简单爬虫第六蛋！（完结撒花）
第六讲: 今天我们来实战一个项目,我本人比较喜欢看小说,有一部小时叫<圣墟>不知道大家有没有听说过,个人觉得还是不错的,现在联网的时候,都可以随时随地用手机打开浏览器搜索查看,但是有时候也 ...
python简单爬虫程序分析_[Python专题学习]-python开发简单爬虫
掌握开发轻量级爬虫,这里的案例是不需要登录的静态网页抓取.涉及爬虫简介.简单爬虫架构.URL管理器.网页下载器(urllib2).网页解析器(BeautifulSoup) 一.爬虫简介以及爬虫的技术价 ...
python简单爬虫课题_VS2019python爬虫入门
VS2019新建python项目在vs2019中添加python编译环境创建python控制台应用程序项目配置python环境安装requests第三方库管理程序包,执行安装requests ...
可爱的python下载_GitHub - palxiao/PythonWebSpider: 一个可爱的python简单爬虫
Python网络爬虫语言环境:Python2.7 运行爬虫入口开始爬取 output.html查看结果简单py爬虫,修改入口及解析器改变规则新增存入数据库操作需要插件(MySql) 补充:(折 ...
Python简单爬虫入门-爬取链家租房网上的租房信息
.又到了毕业季,租房成为广大毕业生关注的话题,考虑到只用到广州的租房信息,所以只爬取广州各个地区的租房信息,下面是用Python3.4.4编写简单爬虫爬取租房网信息的代码: #coding:utf-8 ...
python简单爬虫入门一_Python简单爬虫入门二
接着上一次爬虫我们继续研究BeautifulSoup 上一次我们爬虫我们已经成功的爬下了网页的源代码,那么这一次我们将继续来写怎么抓去具体想要的元素首先回顾以下我们BeautifulSoup的基本结 ...

python 简单爬虫 --- 人民日报

python 简单爬虫 --- 人民日报相关推荐

最新文章

热门文章