贝壳二手房爬虫,搞搞房价
本次要爬取的目标网站是贝壳二手房 网址如下:
https://nt.ke.com/xiaoqu/
import requests
from bs4 import BeautifulSoup
import time
import xlwt#网址如下
#https://nt.ke.com/xiaoqu/def main(): #主函数for i in range(1,101):url=f"https://nt.ke.com/xiaoqu/pg{i}/"fun(url,i)#break#fun1(html)#break#print(html)#fun1(html)def fun(url,i): #数据获取resp=requests.get(url).text #请求数据,得数据print(i) #表示得到网页的数量i+=1#print(resp)time.sleep(1)fun1(resp)lis1=[] #存储价格
lis2=[] #存储整体数据def fun1(html): #数据进行解析,根据Beautifulsoup进行解析print('aa')html1=BeautifulSoup(html,'html.parser') #" parser "表示html解析器shuju=html1.find("ul" ,class_="listContent" ).find_all("li",class_="clear xiaoquListItem CLICKDATA" )monei=html1.find("ul" ,class_="listContent" ).find_all("div" ,class_="xiaoquListItemPrice")for i in shuju:i1=i.find_all('a')lis=[] #存储其他数据for j in i1:#print(j)#print(j.text)lis.append(j.text) #表示解析数据lis2.append(lis[1:]) #简单清洗数据for j in monei:lis1.append(j.find("div" ,class_="totalPrice").text)#print(lis1)#print(len(lis1))#fun2(lis1,lis2)def fun2(lis1,lis2): #数据处理a=0for i in lis2:i.append(lis1[a])#print('bb')a+=1lis3=[]for i in lis2:if len(i)==7:lis3.append(i) #清洗数据,剔除无效数据fun3(lis3)'''for i in lis2:print(i)'''def fun3(lis3): #保存数据print("开始存储!")book = xlwt.Workbook(encoding="utf-8", style_compression=0) # 创建"workbook"对象sheet = book.add_sheet("房价数据", cell_overwrite_ok=True) # 创建工作表col = ["小区名称", "90天成交额", "所剩房子数量", "所在经济区","所在商务区","该小区所以房子数量","价格"]for i in range(0, len(col)):sheet.write(0, i, col[i]) # 列名for i in range(1, len(lis3)):print('已经存储', i - 1, '行数据')for j in range(0, len(lis3[i])):sheet.write(i, j, lis3[i - 1][j])book.save("房价数据4.xls")if __name__ == '__main__':main()fun2(lis1,lis2)
最终得到数据如下:
贝壳二手房爬虫,搞搞房价相关推荐
- 房天下网站二手房爬虫、数据清洗及可视化(python)
房天下网站二手房爬虫.数据清洗及可视化(python) 爬虫代码 ###爬取完的数据存入MangoDB中,需自行下载MangoDB import requests, json, threading f ...
- 举一反三的贝壳网爬虫
文章目录 前言 一.基本库介绍 二.具体实现步骤 1.引入库和请求头的初始化 2.获取移动端接口的数据 3.存储和解析 4.获取多页数据 5.可视化数据 总结 前言 写过各种爬虫代码,但一直没有写过具 ...
- 基于Web的二手房爬虫系统案例
全套资料下载地址:https://download.csdn.net/download/sheziqiong/85585280?spm=1001.2014.3001.5503 摘 要 时代在进步,科技 ...
- 基于Scrapy的链家二手房爬虫
摘要 本项目是python课程的期末练手项目,在简要学习完python和爬虫相关的Scrapy框架后,基于这两者的运用最终完成了对于链家网站二手房页面的信息进行爬取,并将爬取的数据存放于MongoDB ...
- 链家网页爬虫_分享最近做的一个链家二手房爬虫和对爬到的数据进行可视化分析的案例...
本帖最后由 super谦 于 2020-12-4 10:29 编辑 # 爬虫部分 # 导入必要的包 from bs4 import BeautifulSoup import pandas as pd ...
- [python]赶集网二手房爬虫插件【可用任意扩展】
最近应一个老铁的要求,人家是搞房产的,所以就写了这个二手房的爬虫,因为初版,所以比较简单,有能力的老铁可用进行扩展. import requests import osfrom bs4 import ...
- 线程池+进程池爬虫—深圳房价+数据分析+pyecharts可视化
这一部分转载于自己本人微信公众号: 眼光梭映一世豪,欢迎骚扰!这篇文字只出于想要玩一下数据分析,小白一个,欢迎大家指点批评. 文章目录 01 第一部分,制作缘由. 02第二部分:爬虫的过程 03 第三 ...
- Scrapy十秒钟爬取贝壳二手房3000条房源信息
此文章由码上风云原创! 1.安装 Scrapy 爬虫框架:pip install Scrapy 2.创建一个 Scrapy 项目:Scrapy startproject beike 3.将创建好的项目 ...
- python二手房课程设计_【Python】赶集网二手房爬虫 (可扩展)
[Python] 纯文本查看 复制代码import requests import os from bs4 import BeautifulSoup class GanJi(): "&quo ...
最新文章
- mysql设置远程访问
- mac idea用自带的maven还是_免费版的 IDEA 为啥不能使用 Tomcat ?
- python2.7.13环境搭建
- MyBatisPlus条件构造器带条件查询selectList使用
- Parent属性也可释放子对象
- WinForm窗体缩放动画
- Python问答环节(2)
- [算法][包围盒]AABB简单类
- 国内一些SCM相关论坛站点
- 将字符'0'-'9'转换为数字(c语言)
- 爬虫 | 破解APP中阿里云滑动验证码
- 计算机更新有用吗,驱动有必要升级吗_n卡驱动有必要更新吗
- 序列化和反序列化(示例)
- 【量化】验证《股市操盘宝典》对周期论
- S3C2440 GPS串口配置以及数据读写
- AVX-512指令_mm512_shuffle_epi8分析
- 台式计算机没有任务栏,台式电脑没有声音该怎么办
- 网页打开手机连接到服务器失败,手机服务器无法连接到服务器失败
- sql按客户号累计求和并且排序
- 3次根号如何用python表达_python怎么表示根号运算
热门文章
- 【EE308FZ Lab3-2-1】Sprint Plan: RISD-IoT-Group
- 今天情人节,程序员该如何绝地反击?
- Wish旺季促销活动安排路透,让无数跨境人趋之若鹜!备战重点已划好...
- java过滤器python是啥_过滤器如何在python中使用softlayer API
- 关于如何学习日语的最快方法
- linux做界面切换,linux两个界面之间的切换
- android 联想云盘,附文:联想云盘安装_联想 小新Air 12 LTE版_笔记本评测-中关村在线...
- 实例:用C#.NET手把手教你做微信公众号开发(7)--普通消息处理之位置消息
- ZABBIX短信告警-创蓝短信平台
- Win10安装glove-python方法