python爬虫 爬取爱企查公司信息
目录
一、思路
1.1输入网址,查看源代码
1.2 F12抓包,寻找数据包。
1.3查看数据包的URL和是否有传递的参数
1.4编写代码
一、思路
1.1输入网址,查看源代码
可以看到源代码中没有我们想要的数据,就需要考虑使用抓包工具,找到我们需要的数据包
1.2 F12抓包,寻找数据包。
全部包都看了一遍,发现没有我们需要的包,那么数据跑哪去了呢?我尝试着,先清除数据包,然后点击下一页,果然,存在数据的包出现了,所以如果你也遇到过这种问题,不要急。
类似这种首页无法抓取的网页,或者看不到包的网页,不妨试试看文中的“以退为进,投机取巧”方法,说不定有妙用 。
1.3查看数据包的URL和是否有传递的参数
1.4编写代码
OK,思路已经理顺,找到了数据包的url和传递的参数,下面就是编写代码,值得注意的是,在编写代码的时候,需要为请求头加上防盗链。
# -*- coding: utf-8 -*-
# @Author : 代码永不报错
# @File : 爱企查.py
import requestsdef main(key_word, num):params = {"q": key_word,"t": "","p": num,"s": "10","o": "0","f": "{}"}headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36","Referer": "https://aiqicha.baidu.com/s?q=%E6%95%B0%E6%8D%AE&t=0" # 防盗链}url = "https://aiqicha.baidu.com/s/advanceFilterAjax"response = requests.get(url, headers=headers, params=params)# print(response.json())resultList = response.json()["data"]["resultList"]for item in resultList:print(item)if __name__ == '__main__':key_word = "科技" # 搜索公司num = "2" # 页码main(key_word, num)
针对本文中的网页,除了文章在抓包时,找不到,而使用了这种“投机取巧”方法外,用selenium抓取也是可行的,速度慢一些,但是可以满足要求。小编相信肯定还有其他的方法的,也欢迎大家在评论区谏言。
python爬虫 爬取爱企查公司信息相关推荐
- python爬虫爬取当当网的商品信息
python爬虫爬取当当网的商品信息 一.环境搭建 二.简介 三.当当网网页分析 1.分析网页的url规律 2.解析网页html页面 书籍商品html页面解析 其他商品html页面解析 四.代码实现 ...
- python爬虫爬取大众点评店铺简介信息
python爬虫爬取大众点评店铺简介信息 写作目的: 爬取目标 大众点评的保护机制 应对方法 还存在的问题 写作目的: 今天帮朋友一个忙,要爬取一些大众点评上的数据.结果发现大众点评的防爬机制还挺多的 ...
- python爬取企业电话_如何用python抓取爱企查企业信息
前段时间,经理让我去找一些企业的信息,我平常习惯于使用爱企查.所以,便想着写一个程序来实现这个,所以有以下的代码:import json import requests import re from ...
- Python爬虫爬取爱歌词网歌词(适合新手)
一.前言 自学爬虫有半年多了,终于能够实战演习了,废话不多说,上代码 二.爬取流程 1.引入库和请求头 代码如下(示例): import requests from lxml import etree ...
- Python爬虫爬取智联招聘职位信息
目的:输入要爬取的职位名称,五个意向城市,爬取智联招聘上的该信息,并打印进表格中 #coding:utf-8 import urllib2 import re import xlwtclass ZLZ ...
- 【Python爬虫案例学习20】Python爬虫爬取智联招聘职位信息
目的:输入要爬取的职位名称,五个意向城市,爬取智联招聘上的该信息,并打印进表格中 ####基本环境配置: Python版本:2.7 开发工具:pycharm 系统:win10 ####相关模块: im ...
- python爬虫爬取19楼相亲女信息
最近在温习python爬虫知识,写了个简单的爬虫. 能爬取500页相亲女的信息 #coding=utf8 import requests import re import xlrd import xl ...
- 简单使用Python爬虫爬取淘宝网页商品信息
最近在学习爬虫,本人还是入门级的小白,自己跟着老师写了一些代码,算是自己的总结,还有一些心得,跟大家分享一下,如果不当,还请各位前辈斧正. 这是代码: # 导入库 import requests im ...
- python爬虫爬取链家网房价信息
打开链家网页:https://sh.lianjia.com/zufang/ :用F12以页面中元素进行检查 <a target="_blank" href="/z ...
最新文章
- 关于表单的java的程序_JAVA BOT程序模拟人类用户填写表单 并 发送
- MySQL Cluster集群配置方案
- [置顶] 贝叶斯分类(一)
- 提高 服务器 内存 利用率_怎样提高AI服务器的利用率
- c语言窗口程序 画圆,C语言画圆问题。怎么跳过画图界面直接出来了?
- 经常被人忽视的:Pandas 文本数据处理!
- GStreamer(一)
- 利用 pywin32 操作 excel
- php中__autoload()方法详解
- DeepMind科学家:强化学习足以满足通用AI需求
- Linux x86-64 IOMMU详解(五)——Intel IOMMU初始化流程
- cpu怎么开启php,win10开启cpu虚拟化的方法
- MateMask连接本地私有链节点ganache
- python+opencv实现人脸识别|采用现成训练好的模型
- 关于VMBox重启无法打开虚拟机问题
- recycler上下拉刷新view
- AMD完成对ATI并购 07年推CPU/GPU集成平台
- ajax带参数get,使用jQuery ajax方法传递GET参数
- 香港大学计算机科学排名,香港大学计算机专业排名
- iOS开发之 简易随机点名册的设计
热门文章
- LightHouse是什么?
- QQ删除好友后,对方还能否在好友列表看到本人?
- 百度央视春晚秀自动驾驶技术,无人车队驶上港珠澳大桥
- 写了个清理新浪微博页面的油猴子脚本
- 游戏设计的艺术:一本透镜的书——第二十二章 其他玩家往往会形成社区
- 设计机器人 计算机教案,小学信息技术机器人教案.doc
- 基于Unity3D(UGUI)的背包系统(装备系统,锻造系统,购买系统)
- ARMv7-A 处理器窥探(2) —— CP15 协处理器
- android 大屏幕平台,三大平台大屏旗舰速度比拼!苹果完爆安卓/WP
- matlab plot两点画线问题