写在前面:
这是最简单的爬虫了吧,咱们大学也没什么恶心的反爬系统,不会说什么不换IP地址就不给爬(大前端和房源网真的搞得我头发都白了,现在回去爬一下,发现也就是换个IP地址的事情),但即使是这么简单的一个爬虫依旧耗了我两个小时。哎,还是不够熟练呀

不得不说日月光华的网课讲的很好,其中的条理,像内网页什么的,就是我这样一点天赋都没得的人都能慢慢弄明白。但是呢我的思想有些局限于网课了(也不能怪网课,怪我自己笨),下意识地认为自己爬不了一系列网页某些部分没有规律地情况。。。其实是大错特错了。。完全可以通过前置网页来获取内部网的信息呀!!!还好室友提醒了我一下,不然鬼知道我要走多少弯路。

其实代码还没有完全完成,还没有用正则表达式处理数据和将数据存入数据库中。。。不管了明天再搞

最气的是!!!!晚上的一个小时debug!!!我居然!!!是因为少加了一个括号!!!气得我当场去世,诶,我要是脑子清醒一点也不至于犯这种错了

8说了,写完博客就去来一把剑魔安慰一下我受伤的内心
下面是代码~完整版明天再贴上

import requests
from lxml import etree
import random
from string import punctuation
import re
import timedef download(url):headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.169 Safari/537.36'}time.sleep(1)r = requests.get(url,headers=headers)r.encoding='utf-8'return etree.HTML(r.text)def spider_detail(list_url):selector = download(list_url)jianjie = selector.xpath('string(/html/body/div[2]/div/div[2]/div/div[1]/div[3]/div[1])')[0:].strip()lingyu = selector.xpath('string(/html/body/div[2]/div/div[2]/div/div[1]/div[5]/div[1])')[0:].strip()lianxi = selector.xpath('string(/html/body/div[2]/div/div[2]/div/div[1]/div[7]/div[1])')[0:].strip()bumen = selector.xpath('/html/body/div[2]/div/div[2]/div/div[2]/div[2]/p[1]/text()')[0]name = selector.xpath('/html/body/div[2]/div/div[2]/div/div[2]/div[2]/h3[1]/text()')[0]write_down(jianjie,lingyu,lianxi,name,bumen)def write_down(jianjie,lingyu,lianxi,name,bumen):with open(name+'.txt','wt',encoding='utf-8')as f:f.write(jianjie+'\n')f.write(lingyu+'\n')f.write(lianxi+'\n')    print('正在下载   '+name+bumen)def spider_url(total_url):selection = download(total_url)lists =  selection.xpath('//*[@target="_blank"]')x_url = []for list in lists:t_url = list.xpath('@href') if list == lists[-1]:passelse:x_url.append('http://dsxxcx.zstu.edu.cn'+t_url[0])for i in x_url:spider_detail(i)dict = {'理学院':14,"材料与纺织学院":11,"服装学院":5,"信息学院":6,"机械与自动控制学院":10,"建筑工程学院":5,"生命科学学院":7,"经济管理学院":7,"艺术与设计学院":6,"法政学院":3,"外国语学院":3,"文化传播学院":2,"马克思主义学院":3,"启新学院":2,"继续教育学院":2,"科技与艺术学院":2,"校外单位":6}
for x in dict:for i in range(1,dict[x]):spider_url('http://dsxxcx.zstu.edu.cn/master/index.php?r=site/college&college={}&page={}'.format(x,str(i)))

爬虫:爬取浙江某大学导师的一些信息相关推荐

  1. 利用爬虫爬取看看豆网站站的数据信息

    其实很早我就开始关注爬虫技术,这两天特别学习了一下,并且做了一个简单的demo.爬取了看看豆网站的数据信息.总共11751本书,爬取了不到3个小时,基本每秒爬取1条.速度慢的原因主要是单线程,使用my ...

  2. python爬虫爬商品库存_利用Python爬虫爬取指定天猫店铺全店商品信息

    本编博客是关于爬取天猫店铺中指定店铺的所有商品基础信息的爬虫,爬虫运行只需要输入相应店铺的域名名称即可,信息将以csv表格的形式保存,可以单店爬取也可以增加一个循环进行同时爬取. 源码展示 首先还是完 ...

  3. 利用Python爬虫爬取指定天猫店铺全店商品信息

    本编博客是关于爬取天猫店铺中指定店铺的所有商品基础信息的爬虫,爬虫运行只需要输入相应店铺的域名名称即可,信息将以csv表格的形式保存,可以单店爬取也可以增加一个循环进行同时爬取. 源码展示 首先还是完 ...

  4. java爬虫爬取天猫指定店铺下全部商品详细信息(实时价格、尺码、库存等) 超详细(思路篇)!

    前言 前段时间需要做一个获取天猫店铺中所有商品详情的程序,包括获取对应的商品的尺码.吊牌价.实时售价(促销价).库存等信息.自己倒是写过一些爬虫,不过对于这类电商信息的爬取倒是第一次接触,听说天猫的反 ...

  5. 【python】使用爬虫爬取动漫之家漫画更新信息

    网站名称为: https://manhua.dmzj.com/update_1.shtml 本篇仅在于交流学习 1.首先将相应的库导入: import re import requests from ...

  6. Python爬虫爬取猫眼电影风语咒影评评论信息

    风语咒作为扛起国漫崛起的又一国漫之作,爬取风语咒猫眼的电影评论数据,以便对其评论做之后的数据分析. 此次demo的流程图如下: 一.找到猫眼电影中风语咒影评得json数据: l 找出url后,往下滚动 ...

  7. python爬虫爬取58同城北京品牌公寓租房信息

    from bs4 import BeautifulSoup from urllib.parse import urljoin import requests import csvurl = " ...

  8. python爬取贴吧所有帖子-python 爬虫爬取百度贴吧,获取海量信息

    需要用到的库:requests,re,xpath 首先打开随便一个贴吧:贴吧首页 通过观察发现每一个帖子的链接是这样的:帖子链接 我们只需要获取后面灰色部分就可以了,点击f12 按ctrl+f 找到链 ...

  9. python3网络爬虫--爬取b站视频评论用户信息(附源码)

    文章目录 一.准备工作 1.工具 二.思路 1.整体思路 2.爬虫思路 三.分析网页 1.分析网页加载方式 2.分析数据接口 3.获取oid 四.撰写爬虫 五.存储数据 六.总结 你爱我,我爱你,蜜雪 ...

最新文章

  1. AnsiToUtf8 和 Utf8ToAnsi
  2. [android]am自动化测试框架(原创)
  3. java工厂模式 uml_简单工厂模式的UML类图与源码实现(转) | 学步园
  4. CSDN问答频道“华章杯”7月排行榜活动开始,丰厚奖品等你拿
  5. Java 洛谷 P1200 [USACO1.1]你的飞碟在这儿 Your Ride Is Here
  6. Linux shutdown关机命令
  7. 在 SAP BTP Kyma Runtime 上使用 Redis 读取和存储数据
  8. POJ 1797 Heavy Transportation 解题报告
  9. leetcode 1818. 绝对差值和
  10. 超牛!读博期间,他以第一作者发表7篇文章
  11. CCF 201403-2 窗口
  12. session和cookie的区别和联系,session的生命周期,多个服务部署时session管理
  13. ASP.NET Core默认注入方式下如何注入多个实现(多种方式) - sky 胡萝卜星星 - CSDN博客...
  14. 新辰:传统行业进军互联网 怎样颠覆网络获得新生?
  15. QQ群导出群成员名单
  16. Python福彩3D单选单复式排列计算器
  17. Asp.net的CheckBox控件和CheckBoxList控件
  18. 前端工程师就业班Sass基础+进阶+案例开发经验【JS++前端】-艾小野-专题视频课程...
  19. 自相关和相关的物理意义
  20. 信号反射原理及其典型应用

热门文章

  1. 处理基于nginx上线项目后,history模式下出现的刷新后路由丢失问题
  2. 很实用的PR视频剪辑教程:如何在Adobe Premiere Pro Mac时间轴中使用标记
  3. python(四个数字能生成多少个互不相同且无重复数字的三位数,实现命令行提示符)
  4. 张小龙详细解读:微信小程序扫描二维码可进入(附实录)
  5. 为了让你们少加班,我昨天被骂得很惨
  6. 华为云等保解决方案提供一站式信息安全保障体系,为您的企业安全保驾护航
  7. U盘和e盘部分文件夹变成.exe文件
  8. html如何打包文件发送,手把手教你webpack如何打包才能输出最优生产文件
  9. 如何使用PS中的消失点
  10. ndroid 提供 MP3 录音功能.边录边转码,暂停可播,方法安全,回调丰富,6.0 以下权限也适配了