爬虫真的可以接单吗?爬虫实践(一)
前言
项目来源:4天前的码市上的一个小项目
网站解析:
一、用xpath解析网页获取标题
import requests
import parselurl = 'http://epaper.qjrb.cn/html/2021-06/09/node_2.htm'r = requests.get(url)
r.encoding = 'utf-8'
html_data = r.text
selector = parsel.Selector(html_data)
#抓取标题,在类class="default1"中的<a标签里面。
ls = selector.xpath('//tr[@class="default1"]')
for li in ls:title = li.xpath('.//td[2]/a/text()').get()print(title)
抓取标题,在类class="default1"中的<a标签里面。
二、正则表达式获取相应新闻的URL
import requests
import rer = requests.get('http://epaper.qjrb.cn/html/2021-06/09/node_2.htm')
txt = r.text
pattern = re.compile(r'content[^\s]*.htm')
urllist = re.findall(pattern, txt)
print(urllist)
如上图所示,单个新闻的URL实际上就是把主网页的URL的node_2换成content_189543(对应的内容url)
#主页面的URL
url = 'http://epaper.qjrb.cn/html/2021-06/09/node_2.htm'
#单个新闻的URL
url = http://epaper.qjrb.cn/html/2021-06/09/content_189543.htm
总结
这是一个小项目,对方要求其实也是比较简单,给刚接触爬虫的人来说,是个不错的练习机会。但是实际上,找个靠谱的接单外包的平台是非常不容易的;当你学习的时候,还是先重点是打好基础,如果真的想做爬虫可以找个公司,去实际的应用自己的知识,也锻炼一下自己的能力。这样锻炼的同时也是在积累自己的资源,这样才能去找到外包的资源。
同时维护自己的渠道也是在这个过程中值得注意的。
爬虫真的可以接单吗?爬虫实践(一)相关推荐
- 学爬虫如何才能接到大单,爬虫接单有什么要求?
三月一直很忙,难得有空,于是特意挤出时间,后台看看朋友们的留言. 发现大家主要有两大类问题: 学习了一段时间爬虫,想用技术涨收入,但学习效果不太明显,有没有快速进阶的速成方法,能出个爬虫速成教程吗? ...
- python爬虫爬取音乐单曲_Python爬取qq音乐的过程实例
一.前言 qq music上的音乐还是不少的,有些时候想要下载好听的音乐,但有每次在网页下载都是烦人的登录什么的.于是,来了个qqmusic的爬虫.至少我觉得for循环爬虫,最核心的应该就是找到待爬元 ...
- python 爬虫下载网易歌单歌曲
python 爬虫下载网易歌单歌曲 可以根据歌单 id 来下载歌单中的所有音乐,付费音乐除外 可以自己输入歌单 id 来进行单个歌单下载,也可以结合上一篇文章 爬取网易云音乐所有歌单信息 先取到所有的 ...
- 【Python】爬取理想论坛单帖爬虫
代码: # 单帖爬虫,用于爬取理想论坛帖子得到发帖人,发帖时间和回帖时间,url例子见main函数 from bs4 import BeautifulSoup import requests impo ...
- java爬取网易云歌单_爬虫爬取网易云歌单
一.主题式网络爬虫设计方案 1.主题式网络爬虫名称:爬取网易云音乐歌单 2.主题式网络爬虫爬取的内容与数据特征分析 爬取网易云音乐歌单前十页歌单,轻音乐类型的歌单名称.歌单播放量.歌单链接.用户名称. ...
- python爬虫 - 起点女生榜单爬取 - 1
python爬虫 - 起点女生榜单爬取 最近一直在追庆余年,顺带瞄了一眼小说,真真是精彩(虽然因为范闲多妻的设定接受不了就放弃了). 说来说去,还是钟爱女频的修仙小说,所以就想爬一下起点女生网 ...
- python爬虫 知乎荐书_python爬虫必看书籍推荐
网络爬虫(又称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本.另外一些不常使用的名字还有蚂蚁.自动索引.模拟程序或者蠕虫 ...
- python爬虫有什么实际作用-Python爬虫的作用与地位(附爬虫技术路线图)
小编说:网络爬虫是一种伴随着互联网诞生与演化的"古老"的网络技术,随着互联网进入大数据时代,爬虫技术迎来了一波新的振兴浪潮. 本文通过企业内部与互联网两个场景向大家讲书爬虫发挥了哪 ...
- Python爬虫怎么挣钱?解析Python爬虫赚钱方式,轻轻松松月入两万,再也不用为钱发愁啦
Python爬虫怎么挣钱?解析Python爬虫赚钱方式,想通过自己学到的专业技能赚钱,首先需要掌握Python爬虫技术,专业能力强才能解决开发过程中出现的问题,可以通过Python爬虫外包项目.整合信 ...
最新文章
- 手动将web项目的class文件打成jar包,手动打jar包,java -cvf,IDE打包底层指令
- HOG特征过程解释(转)
- python【Matlibplot绘图库】-主要概念
- android view可视区域,Android使用WindowManager构造悬浮view
- 鸟哥的Linux私房菜(基础篇)-第一章、Linux是什么(一.3. Linux的特色)
- 常见索引结构—二叉搜索树
- 五天学习MySQL数据库(一)1.3MySQL 基本介绍
- springboot主线程_Springboot对多线程的支持详解
- MyEclipse配置Tomcat 6
- [转] TF-IDF与余弦相似性的应用(三):自动摘要
- 21 PP配置-生产计划-定义计划订单编号范围
- 面向程序员编程——精研排序算法
- 【Processing-日常1】小圆碰撞
- Maven : invalid item Maven: xxx in the dependencies
- NodeJs开发框架fortjs
- mongodb 备份压缩_MongoDB-备份和恢复
- Selenium2(WebDriver)总结(一)---启动浏览器、设置profile加载插件
- (转)Top Ten Web Hacking Techniques of 2011
- 第二阶段 站立会议 10
- 云计算如何与企业管理协同作战
热门文章
- java面试笔试题大汇总 ~很全面
- python处理表格和ppt_Python 操作Word(Excel、PPT等通用)
- get request remoteAddr
- vue-router3 源码注释系列 /src/util/path.js
- 如何做短视频推广?抖音短视频推广方案
- 25存储器的地址分配和片选
- [转]内容匹配广告投放技术
- python面试宝典2018最新版
- 关于MathType编辑公式“~”等符号无法显示的问题
- 【Java进阶】Java并发类库提供的线程池有哪几种? 分别有什么特点?