目录

  • 爬虫概念
  • 创建虚拟环境并爬取数据
    • .1 爬取网站 http://www.51mxd.cn/
    • .2 爬取http://news.cqjtu.edu.cn/xxtz.html中消息的日期和标题
  • 总结
  • 参考

爬虫概念

爬虫又被称为网页蜘蛛、网络机器人,有时也被称为网页追逐者,是一种按照一定的规则,自动地抓取互联网上网页中相应信息(文本、图片等)的程序或脚本,然后把抓取的信息存储到自己的计算机上。简单来说,爬虫就是抓取目标网站内容的工具,一般是根据定义的行为自动进行抓取,更智能的爬虫会自动分析目标网站结构,类似于搜索引擎的爬虫。

创建虚拟环境并爬取数据

在anaconda环境下准备自己的虚拟环境,并安装python。创建成功后可查询到:

且在anaconda中可看到:

.1 爬取网站 http://www.51mxd.cn/

在Spyder,新建.py文件
以代码:

# -*- coding: utf-8 -*-
"""
Created on Sun Nov 14 20:50:12 2021@author: hp
"""
import requests
from bs4 import BeautifulSoup
import csv
from tqdm import tqdm# 模拟浏览器访问
Headers = 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.25 Safari/537.36 Core/1.70.3741.400 QQBrowser/10.5.3863.400'# 表头
csvHeaders = ['题号', '难度', '标题', '通过率', '通过数/总提交数']# 题目数据
subjects = []# 爬取题目
print('题目信息爬取中:\n')
for pages in tqdm(range(1, 11 + 1)):r = requests.get(f'http://www.51mxd.cn/problemset.php-page={pages}.htm', Headers)r.raise_for_status()r.encoding = 'utf-8'soup = BeautifulSoup(r.text, 'html.parser')td = soup.find_all('td')subject = []for t in td:if t.string is not None:subject.append(t.string)if len(subject) == 5:subjects.append(subject)subject = []# 存放题目
with open('NYOJ_Subjects.csv', 'w', newline='') as file:fileWriter = csv.writer(file)fileWriter.writerow(csvHeaders)fileWriter.writerows(subjects)print('\n题目信息爬取完成!!!')

得到结果:

.2 爬取http://news.cqjtu.edu.cn/xxtz.html中消息的日期和标题

以代码:

# -*- coding: utf-8 -*-
"""
Created on Sun Nov 14 21:17:21 2021@author: hp
"""
import requests
from bs4 import BeautifulSoup
import csv
from tqdm import tqdm# 模拟浏览器访问Headers ={ 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/95.0.4638.69 Safari/537.36 Edg/95.0.1020.44'
}
#csv的表头
cqjtu_head=["日期","标题"]
#存放内容
cqjtu_infomation=[]#获取新闻标题和时间
def get_time_and_title(page_num,Headers):#页数,请求头if page_num==66 :url='http://news.cqjtu.edu.cn/xxtz.htm'else :url=f'http://news.cqjtu.edu.cn/xxtz/{page_num}.htm'r=requests.get(url,headers=Headers)r.raise_for_status()r.encoding="utf-8"array={#根据class来选择'class':'time',}title_array={'target':'_blank'}page_array={'type':'text/javascript'}soup = BeautifulSoup(r.text, 'html.parser')time=soup.find_all('div',array)title=soup.find_all('a',title_array)temp=[]for i in range(0,len(time)):time_s=time[i].stringtime_s=time_s.strip('\n                                    ')time_s=time_s.strip('\n                                ')#清除空格temp.append(time_s)temp.append(title[i+1].string)cqjtu_infomation.append(temp)temp=[]# 爬取题目
print('新闻信息爬取中:\n')
for pages in tqdm(range(66, 0,-1)):get_time_and_title(pages,Headers)# 存放题目
with open('cqjtu_news.csv', 'w', newline='') as file:fileWriter = csv.writer(file)fileWriter.writerow(cqjtu_head)fileWriter.writerows(cqjtu_infomation)print('\n新闻信息爬取完成!!!')

得到结果:

总结

对于anaconda的虚拟环境,需要从anaconda prompt中进入jupyter notebook,对于网页信息的爬取,需要知道网页源码的标签信息。

参考

爬虫爬取学校通知信息(python))

爬虫入门python相关推荐

  1. python爬虫入门-python爬虫入门,8分钟就够了,最简单的基础教学!

    一.基础入门 1.1什么是爬虫 爬虫(spider,又网络爬虫),是指向网站/网络发起请求,获取资源后分析并提取有用数据的程序. 从技术层面来说就是 通过程序模拟浏览器请求站点的行为,把站点返回的HT ...

  2. Python爬虫入门-python之jieba库制作词云图

    在简书上看了很多人分享高大上的词云图的制作,在研究了一番之后,决定自己也动手试一试,奈何小白一个,中间碰到问题老是卡壳老半天,写一写制作过程,啥什么忘了我再来看看. 在看了 向右奔跑大哥的文章后,知道 ...

  3. python爬虫入门-Python 爬虫从入门到进阶之路(一)

    通用爬虫和聚焦爬虫 根据使用场景,网络爬虫可分为 通用爬虫 和 聚焦爬虫 两种. 通用爬虫 通用网络爬虫 是 捜索引擎抓取系统(Baidu.Google.Yahoo等)的重要组成部分.主要目的是将互联 ...

  4. Python爬虫入门-python之爬取pexels高清图片

    先上张图片: 首先打开网址:https://www.pexels.com/,然后下来会发现下面的图片是慢慢的加载出来的,也就是通过Ajax请求得到的.在搜索框中输入关键字:beauty,打开F12,刷 ...

  5. python免费教学视频400集-如何入门 Python 爬虫?400集免费教程视频带你从0-1全面掌握...

    学习Python大致可以分为以下几个阶段: 1.刚上手的时候肯定是先过一遍Python最基本的知识,比如说:变量.数据结构.语法等,基础过的很快,基本上1~2周时间就能过完了,我当时是在这儿看的基础: ...

  6. python爬虫百科-python爬虫百科

    广告关闭 腾讯云双11爆品提前享,精选热门产品助力上云,云服务器首年88元起,买的越多返的越多,最高满返5000元! 专业点来说就是应用多台机器同时实现爬虫任务,这多台机器上的爬虫,就是称作分布式爬虫 ...

  7. 一个月入门Python爬虫,轻松爬取大规模数据

    如果你仔细观察,就不难发现,懂爬虫.学习爬虫的人越来越多,一方面,互联网可以获取的数据越来越多,另一方面,像 Python这样一个月入门Python爬虫,轻松爬的编程语言提供越来越多的优秀工具,让爬虫 ...

  8. python爬虫入门教程--优雅的HTTP库requests(二)

    requests 实现了 HTTP 协议中绝大部分功能,它提供的功能包括 Keep-Alive.连接池.Cookie持久化.内容自动解压.HTTP代理.SSL认证等很多特性,下面这篇文章主要给大家介绍 ...

  9. python爬虫入门教程--快速理解HTTP协议(一)

    http协议是互联网里面最重要,最基础的协议之一,我们的爬虫需要经常和http协议打交道.下面这篇文章主要给大家介绍了关于python爬虫入门之快速理解HTTP协议的相关资料,文中介绍的非常详细,需要 ...

最新文章

  1. SQL Server中临时表与表变量的区别
  2. MINA系列学习-IoAccpetor
  3. adb 操作安卓模拟器--备忘
  4. 工程化专题之Maven(下)
  5. 当期收益率(Current Yield)
  6. 加密 lua_三、Lua相关知识
  7. 教您如何在MathType中输入空白区域
  8. php ci框架开发手册,CodeIgniter 教程 - php CodeIgniter 框架 - CodeIgniter手册
  9. Java项目开发实战入门 PDF 扫描完整版
  10. IPQ4019MTD分区生成的过程
  11. 如何在Excel 2007中创建数据透视表
  12. SPSS基础教程:认识SPSS的主要窗口
  13. HTML-W3school首页制作
  14. 最新版面具隐藏root过检测教程(免刷机)
  15. c语言 众数,C语言实现查找一组数中的众数
  16. 2019级软件工程应用与实践-人工智能快递柜(代码分析9)
  17. 调整HTML5画布中图像的大小
  18. wechat-0051,微信公众号,第三方登录—扫码绑定
  19. kaldi mobvoihotwords 唤醒词识别教程
  20. 详细分析stm32f10x.h

热门文章

  1. 一条视频涨粉10万,在快手引来千万人围观的“jio”有什么魅力?
  2. 移动商城第一篇【搭建项目环境+数据模型】
  3. 各大巨头纷纷出手 数据中心市场硝烟弥漫
  4. 图像处理3-经典空间域增强——空域滤波
  5. 【MindSpore易点通】深度学习系列-那些介于模糊与清楚之间的一些概念
  6. Map对象转化为JavaBean
  7. IntelliJ IDEA 14,15 使用教程,实战总结,倾囊相授,内附PDF学习文档
  8. 2015-2016规划
  9. 使用Qgis按属性批量裁剪
  10. 更改xrdp,设置一个端口