爬虫：爬取浙江某大学导师的一些信息

写在前面：
这是最简单的爬虫了吧，咱们大学也没什么恶心的反爬系统，不会说什么不换IP地址就不给爬（大前端和房源网真的搞得我头发都白了，现在回去爬一下，发现也就是换个IP地址的事情），但即使是这么简单的一个爬虫依旧耗了我两个小时。哎，还是不够熟练呀

不得不说日月光华的网课讲的很好，其中的条理，像内网页什么的，就是我这样一点天赋都没得的人都能慢慢弄明白。但是呢我的思想有些局限于网课了（也不能怪网课，怪我自己笨），下意识地认为自己爬不了一系列网页某些部分没有规律地情况。。。其实是大错特错了。。完全可以通过前置网页来获取内部网的信息呀！！！还好室友提醒了我一下，不然鬼知道我要走多少弯路。

其实代码还没有完全完成，还没有用正则表达式处理数据和将数据存入数据库中。。。不管了明天再搞

最气的是！！！！晚上的一个小时debug！！！我居然！！！是因为少加了一个括号！！！气得我当场去世，诶，我要是脑子清醒一点也不至于犯这种错了

8说了，写完博客就去来一把剑魔安慰一下我受伤的内心
下面是代码~完整版明天再贴上

import requests
from lxml import etree
import random
from string import punctuation
import re
import timedef download(url):headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.169 Safari/537.36'}time.sleep(1)r = requests.get(url,headers=headers)r.encoding='utf-8'return etree.HTML(r.text)def spider_detail(list_url):selector = download(list_url)jianjie = selector.xpath('string(/html/body/div[2]/div/div[2]/div/div[1]/div[3]/div[1])')[0:].strip()lingyu = selector.xpath('string(/html/body/div[2]/div/div[2]/div/div[1]/div[5]/div[1])')[0:].strip()lianxi = selector.xpath('string(/html/body/div[2]/div/div[2]/div/div[1]/div[7]/div[1])')[0:].strip()bumen = selector.xpath('/html/body/div[2]/div/div[2]/div/div[2]/div[2]/p[1]/text()')[0]name = selector.xpath('/html/body/div[2]/div/div[2]/div/div[2]/div[2]/h3[1]/text()')[0]write_down(jianjie,lingyu,lianxi,name,bumen)def write_down(jianjie,lingyu,lianxi,name,bumen):with open(name+'.txt','wt',encoding='utf-8')as f:f.write(jianjie+'\n')f.write(lingyu+'\n')f.write(lianxi+'\n')    print('正在下载   '+name+bumen)def spider_url(total_url):selection = download(total_url)lists =  selection.xpath('//*[@target="_blank"]')x_url = []for list in lists:t_url = list.xpath('@href') if list == lists[-1]:passelse:x_url.append('http://dsxxcx.zstu.edu.cn'+t_url[0])for i in x_url:spider_detail(i)dict = {'理学院':14,"材料与纺织学院":11,"服装学院":5,"信息学院":6,"机械与自动控制学院":10,"建筑工程学院":5,"生命科学学院":7,"经济管理学院":7,"艺术与设计学院":6,"法政学院":3,"外国语学院":3,"文化传播学院":2,"马克思主义学院":3,"启新学院":2,"继续教育学院":2,"科技与艺术学院":2,"校外单位":6}
for x in dict:for i in range(1,dict[x]):spider_url('http://dsxxcx.zstu.edu.cn/master/index.php?r=site/college&college={}&page={}'.format(x,str(i)))

爬虫：爬取浙江某大学导师的一些信息相关推荐

利用爬虫爬取看看豆网站站的数据信息
其实很早我就开始关注爬虫技术,这两天特别学习了一下,并且做了一个简单的demo.爬取了看看豆网站的数据信息.总共11751本书,爬取了不到3个小时,基本每秒爬取1条.速度慢的原因主要是单线程,使用my ...
python爬虫爬商品库存_利用Python爬虫爬取指定天猫店铺全店商品信息
本编博客是关于爬取天猫店铺中指定店铺的所有商品基础信息的爬虫,爬虫运行只需要输入相应店铺的域名名称即可,信息将以csv表格的形式保存,可以单店爬取也可以增加一个循环进行同时爬取. 源码展示首先还是完 ...
利用Python爬虫爬取指定天猫店铺全店商品信息
本编博客是关于爬取天猫店铺中指定店铺的所有商品基础信息的爬虫,爬虫运行只需要输入相应店铺的域名名称即可,信息将以csv表格的形式保存,可以单店爬取也可以增加一个循环进行同时爬取. 源码展示首先还是完 ...
java爬虫爬取天猫指定店铺下全部商品详细信息(实时价格、尺码、库存等) 超详细（思路篇）！
前言前段时间需要做一个获取天猫店铺中所有商品详情的程序,包括获取对应的商品的尺码.吊牌价.实时售价(促销价).库存等信息.自己倒是写过一些爬虫,不过对于这类电商信息的爬取倒是第一次接触,听说天猫的反 ...
【python】使用爬虫爬取动漫之家漫画更新信息
网站名称为: https://manhua.dmzj.com/update_1.shtml 本篇仅在于交流学习 1.首先将相应的库导入: import re import requests from ...
Python爬虫爬取猫眼电影风语咒影评评论信息
风语咒作为扛起国漫崛起的又一国漫之作,爬取风语咒猫眼的电影评论数据,以便对其评论做之后的数据分析. 此次demo的流程图如下: 一.找到猫眼电影中风语咒影评得json数据: l 找出url后,往下滚动 ...
python爬虫爬取58同城北京品牌公寓租房信息
from bs4 import BeautifulSoup from urllib.parse import urljoin import requests import csvurl = " ...
python爬取贴吧所有帖子-python 爬虫爬取百度贴吧，获取海量信息
需要用到的库:requests,re,xpath 首先打开随便一个贴吧:贴吧首页通过观察发现每一个帖子的链接是这样的:帖子链接我们只需要获取后面灰色部分就可以了,点击f12 按ctrl+f 找到链 ...
python3网络爬虫--爬取b站视频评论用户信息（附源码）
文章目录一．准备工作 1．工具二．思路 1．整体思路 2．爬虫思路三．分析网页 1.分析网页加载方式 2.分析数据接口 3.获取oid 四．撰写爬虫五．存储数据六．总结你爱我,我爱你,蜜雪 ...

爬虫：爬取浙江某大学导师的一些信息

爬虫：爬取浙江某大学导师的一些信息相关推荐

最新文章

热门文章