前言

项目来源:4天前的码市上的一个小项目

网站解析:

一、用xpath解析网页获取标题

import requests
import parselurl = 'http://epaper.qjrb.cn/html/2021-06/09/node_2.htm'r = requests.get(url)
r.encoding = 'utf-8'
html_data = r.text
selector = parsel.Selector(html_data)
#抓取标题,在类class="default1"中的<a标签里面。
ls = selector.xpath('//tr[@class="default1"]')
for li in ls:title = li.xpath('.//td[2]/a/text()').get()print(title)

抓取标题,在类class="default1"中的<a标签里面。

二、正则表达式获取相应新闻的URL

import requests
import rer = requests.get('http://epaper.qjrb.cn/html/2021-06/09/node_2.htm')
txt = r.text
pattern = re.compile(r'content[^\s]*.htm')
urllist = re.findall(pattern, txt)
print(urllist)



如上图所示,单个新闻的URL实际上就是把主网页的URL的node_2换成content_189543(对应的内容url)

#主页面的URL
url = 'http://epaper.qjrb.cn/html/2021-06/09/node_2.htm'
#单个新闻的URL
url = http://epaper.qjrb.cn/html/2021-06/09/content_189543.htm

总结

这是一个小项目,对方要求其实也是比较简单,给刚接触爬虫的人来说,是个不错的练习机会。但是实际上,找个靠谱的接单外包的平台是非常不容易的;当你学习的时候,还是先重点是打好基础,如果真的想做爬虫可以找个公司,去实际的应用自己的知识,也锻炼一下自己的能力。这样锻炼的同时也是在积累自己的资源,这样才能去找到外包的资源。
同时维护自己的渠道也是在这个过程中值得注意的。

爬虫真的可以接单吗?爬虫实践(一)相关推荐

  1. 学爬虫如何才能接到大单,爬虫接单有什么要求?

    三月一直很忙,难得有空,于是特意挤出时间,后台看看朋友们的留言. 发现大家主要有两大类问题: 学习了一段时间爬虫,想用技术涨收入,但学习效果不太明显,有没有快速进阶的速成方法,能出个爬虫速成教程吗? ...

  2. python爬虫爬取音乐单曲_Python爬取qq音乐的过程实例

    一.前言 qq music上的音乐还是不少的,有些时候想要下载好听的音乐,但有每次在网页下载都是烦人的登录什么的.于是,来了个qqmusic的爬虫.至少我觉得for循环爬虫,最核心的应该就是找到待爬元 ...

  3. python 爬虫下载网易歌单歌曲

    python 爬虫下载网易歌单歌曲 可以根据歌单 id 来下载歌单中的所有音乐,付费音乐除外 可以自己输入歌单 id 来进行单个歌单下载,也可以结合上一篇文章 爬取网易云音乐所有歌单信息 先取到所有的 ...

  4. 【Python】爬取理想论坛单帖爬虫

    代码: # 单帖爬虫,用于爬取理想论坛帖子得到发帖人,发帖时间和回帖时间,url例子见main函数 from bs4 import BeautifulSoup import requests impo ...

  5. java爬取网易云歌单_爬虫爬取网易云歌单

    一.主题式网络爬虫设计方案 1.主题式网络爬虫名称:爬取网易云音乐歌单 2.主题式网络爬虫爬取的内容与数据特征分析 爬取网易云音乐歌单前十页歌单,轻音乐类型的歌单名称.歌单播放量.歌单链接.用户名称. ...

  6. python爬虫 - 起点女生榜单爬取 - 1

    python爬虫 - 起点女生榜单爬取 ​ 最近一直在追庆余年,顺带瞄了一眼小说,真真是精彩(虽然因为范闲多妻的设定接受不了就放弃了). ​ 说来说去,还是钟爱女频的修仙小说,所以就想爬一下起点女生网 ...

  7. python爬虫 知乎荐书_python爬虫必看书籍推荐

    网络爬虫(又称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本.另外一些不常使用的名字还有蚂蚁.自动索引.模拟程序或者蠕虫 ...

  8. python爬虫有什么实际作用-Python爬虫的作用与地位(附爬虫技术路线图)

    小编说:网络爬虫是一种伴随着互联网诞生与演化的"古老"的网络技术,随着互联网进入大数据时代,爬虫技术迎来了一波新的振兴浪潮. 本文通过企业内部与互联网两个场景向大家讲书爬虫发挥了哪 ...

  9. Python爬虫怎么挣钱?解析Python爬虫赚钱方式,轻轻松松月入两万,再也不用为钱发愁啦

    Python爬虫怎么挣钱?解析Python爬虫赚钱方式,想通过自己学到的专业技能赚钱,首先需要掌握Python爬虫技术,专业能力强才能解决开发过程中出现的问题,可以通过Python爬虫外包项目.整合信 ...

最新文章

  1. 手动将web项目的class文件打成jar包,手动打jar包,java -cvf,IDE打包底层指令
  2. HOG特征过程解释(转)
  3. python【Matlibplot绘图库】-主要概念
  4. android view可视区域,Android使用WindowManager构造悬浮view
  5. 鸟哥的Linux私房菜(基础篇)-第一章、Linux是什么(一.3. Linux的特色)
  6. 常见索引结构—二叉搜索树
  7. 五天学习MySQL数据库(一)1.3MySQL 基本介绍
  8. springboot主线程_Springboot对多线程的支持详解
  9. MyEclipse配置Tomcat 6
  10. [转] TF-IDF与余弦相似性的应用(三):自动摘要
  11. 21 PP配置-生产计划-定义计划订单编号范围
  12. 面向程序员编程——精研排序算法
  13. 【Processing-日常1】小圆碰撞
  14. Maven : invalid item Maven: xxx in the dependencies
  15. NodeJs开发框架fortjs
  16. mongodb 备份压缩_MongoDB-备份和恢复
  17. Selenium2(WebDriver)总结(一)---启动浏览器、设置profile加载插件
  18. (转)Top Ten Web Hacking Techniques of 2011
  19. 第二阶段 站立会议 10
  20. 云计算如何与企业管理协同作战

热门文章

  1. java面试笔试题大汇总 ~很全面
  2. python处理表格和ppt_Python 操作Word(Excel、PPT等通用)
  3. get request remoteAddr
  4. vue-router3 源码注释系列 /src/util/path.js
  5. 如何做短视频推广?抖音短视频推广方案
  6. 25存储器的地址分配和片选
  7. [转]内容匹配广告投放技术
  8. python面试宝典2018最新版
  9. 关于MathType编辑公式“~”等符号无法显示的问题
  10. 【Java进阶】Java并发类库提供的线程池有哪几种? 分别有什么特点?