python爬虫,爬取贝壳网数据简单案例
文章说明
这一篇主要演示比较简易的爬虫过程
利用了
1.正则表达式
2.python操作文件编写
3.requests模块
思路
进入网站,并且读取网页源代码,爬取目标:贝壳成都二手房‘名称’,’价格‘,‘面积’
代码实现
#导入模块
import requests
from re import findall进入网页并且获取源代码
YDM=requests.get("https://cd.ke.com/ershoufang/")
wb=YDM.text#分段截取,由于网页较为简单,直接通关字获取需要的内容
r = findall(r'target="_blank" title="(.+)"', wb)
rr=findall(r'<span class=""> (\d+)', wb)
rrr=findall(r'<i>(\w)</i>', wb)
rrrr=findall(r'\d+平米|\d+\.\d+平米', wb)#在当前目录创建一个txt文件,把上面获取的字符写进去
f=open('房子信息.txt', 'a', encoding='utf-8')
for i in range(len(r)):f.write(f'{r[i]}\n')f.write(f'{rr[i]}')f.write(f'{rrr[i]}')f.write(f'{rrrr[i]}\n')
#关闭文件
f.close()
效果图
python爬虫,爬取贝壳网数据简单案例相关推荐
- python爬虫 爬取贝壳网中所有行政区内的二手房 将获取信息存于excle中--Excel文件 含分析
-- coding: utf-8 -- """ Created on Sat Feb 29 19:13:37 2020 @author: acliu "&quo ...
- [python爬虫]爬取天气网全国所有县市的天气数据
[python爬虫]爬取天气网全国所有县市的天气数据 访问URL 解析数据 保存数据 所要用到的库 import requests from lxml import etree import xlwt ...
- 在当当买了python怎么下载源代码-python爬虫爬取当当网
[实例简介]python爬虫爬取当当网 [实例截图] [核心代码] ''' Function: 当当网图书爬虫 Author: Charles 微信公众号: Charles的皮卡丘 ''' impor ...
- python爬虫爬取当当网的商品信息
python爬虫爬取当当网的商品信息 一.环境搭建 二.简介 三.当当网网页分析 1.分析网页的url规律 2.解析网页html页面 书籍商品html页面解析 其他商品html页面解析 四.代码实现 ...
- python爬虫爬取知网
python爬虫爬取知网 话不多说,直接上代码! import requests import re import time import xlrd from xlrd import open_wor ...
- Python爬虫爬取东方财富网的股票信息
简单的Python爬虫应用 目标:爬取东方财富网的股票信息 1.先找到要爬取的网页 2.第二步开始爬取信息 2.1 通过requests获取网页信息 2.2再通过BeautifulSoup解析: 2. ...
- python爬取网页代码-python爬虫爬取网页所有数据详细教程
Python爬虫可通过查找一个或多个域的所有 URL 从 Web 收集数据.Python 有几个流行的网络爬虫库和框架.大家熟知的就是python爬取网页数据,对于没有编程技术的普通人来说,怎么才能快 ...
- python爬虫爬取东方财富网股票走势+一些信息
一.目标 我们的目标是爬取东方财富网(https://www.eastmoney.com/)的股票信息 我的目标是爬取100张股票信息图片 经过实际测试我的爬取范围为000001-000110,000 ...
- python爬虫爬取慕课网中的图片
我们简单地爬取慕课网中免费课程下的第一页的图片,如想爬取多页图片,可以添加for循环自行实现 python版本:3.6.5 爬取网址:http://www.imooc.com/course/list ...
- python爬虫爬取58网站数据_Python爬虫,爬取58租房数据 字体反爬
Python爬虫,爬取58租房数据 这俩天项目主管给了个爬虫任务,要爬取58同城上福州区域的租房房源信息.因为58的前端页面做了base64字体加密所以爬取比较费力,前前后后花了俩天才搞完. 项目演示 ...
最新文章
- 面试官 100% 会严刑拷打的 CMS 垃圾回收器,下次面试就拿这篇文章怼回去!
- 如何配note,打补丁
- SAP Spartacus 因为 refresh token 刷新令牌过期后显示用户重新登录页面的逻辑
- [RCNN]-[YOLO]-[SSD]目标检测算法
- cent6.8 nginx php,CentOS 6.8 安装Nginx
- rdlc 固定前两列每页都显示_现在的大学生,都不会论文排版了
- 怎么估算空间利用率?新研发传感器分分钟搞定!
- 树莓派的命令和linux一样吗,常用的linux命令
- java连接hive类找不着_JDBC 连接 hive2 遇到的java.lang.ClassNotFoundException: org.apache.hive.jdbc.HiveDriver...
- 如何在html页面跳转的时候携带数据(页面跳转时参数传递问题)?
- Ubuntu 截图编辑_编辑截图工具
- pass语句|python
- moses gcc link failed
- c++ opencv fitLine函数拟合直线
- Kotlin:对let,apply,run,also等作用域函数的理解
- BAPI_ALM_ORDER_MAINTAIN 修改维修工单组件示例
- 惠民工程(最小生成树)
- ajax重名检测,jQuery+Ajax实现用户名重名实时检测
- vue element表格图片点击放大
- 京东商城导航logo---用js