Python爬虫综合案例
import requests
import xlwt
from bs4 import BeautifulSoup
from urllib.parse import unquote,quote

#创建表格
w=xlwt.Workbook(encoding=‘utf-8’)

#添加一个sheet页
ws=w.add_sheet(‘京东爬取结果’)

#设置样式
style=xlwt.XFStyle() # 初始化样式
font=xlwt.Font() # 为样式创建字体
font.name=‘Times New Roman’ #设置字体 font.bold = True # 黑体 font.underline = True # 下划线 font.italic = True # 斜体字
style.font=font # 设定样式

#写入表格头标题内容
ws.write(0,0,‘排名’)
ws.write(0,1,‘链接’)
ws.write(0,2,‘商品名’)
ws.write(0,3,‘商店名’)
ws.write(0,4,‘价格’)

#抓取商品ID，构造每个产品的访问连接
keyword = quote(‘口红’,encoding=‘utf-8’)
url = “https://search.jd.com/Search?keyword=”+keyword+"&enc=utf-8&qrst=1&rt=1&stop=1&vt=2&stock=1&psort=3&click=0"

header = {
“user-agent”: “Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.109 Safari/537.36”
}

session = requests.session()#获得session，能够保持代码证session的统一
requests.packages.urllib3.disable_warnings()#忽略warning警告
response = session.get(url, headers = header , verify = False)#解决ssl安全链接报错问题

soup = BeautifulSoup(response.text,‘html.parser’)#构造bs4解析器
product_id = soup.select(’.gl-item’)#得到所有class=gl-item的标签

for i in range(len(product_id)): #对每个标签构造访问链接，获得对应商品信息
##for i in range(1):
sku_link = “https://item.jd.com/”+product_id[i].get(‘data-sku’)+".html"

##获取商品信息
response = session.get(sku_link, headers = header, verify = False)
soup = BeautifulSoup(response.text,'html.parser')#商品名称
sku_name = soup.select_one('.sku-name').text#商店名称
try:sku_shopname = soup.find(clstag='shangpin|keycount|product|dianpuname1').text #商店名称 国内
except:sku_shopname = soup.find(clstag='shangpin|keycount|product|dianpu_oversea').text #商店名称 跨境
sku_price = soup.find('span',{'class':'p-price'})#商品价格
sku_pricelink = 'https://p.3.cn/prices/mgets?skuIds=J_'+product_id[i].get('data-sku')
response = session.get(sku_pricelink, headers = header, verify = False)
sku_price = response.json()[0]['p']#商品评论 未完成
##    在线json解析网址：http://www.bejson.com/
##    header['Host'] = 'club.jd.com'
##    header['Referer'] = 'https://item.jd.com/2349751.html'
##    link_comment ='https://club.jd.com/comment/skuProductPageComments.action?\
##                            callback=fetchJSON_comment98vv16692\
##                            &productId=2349751\
##                            &score=0\
##                            &sortType=5\
##                            &page=0\
##                            &pageSize=10\
##                            &isShadowSku=0'
##    response = session.get(link_comment, headers = header, verify = False)
##    print(response.text)#打印
sku_rank = str(i+1)
print("排名："+ sku_rank)
print("商品连接："+sku_link)
print("商品名称："+sku_name.strip())
print("商店名称："+sku_shopname.strip())
print("商品价格："+ sku_price)#写入excel
print('开始写入excel,请稍等...',end='')
sku_info = [sku_rank,sku_link,sku_name.strip(),sku_shopname.strip(),sku_price]
for k in range(5):ws.write(i+1,k,sku_info[k])   #两个参数 ： 行号，写入内容
print('写入成功')
print('')

w.save(‘京东爬虫结果.xls’)

欢迎使用Markdown编辑器

你好！这是你第一次使用 Markdown编辑器 所展示的欢迎页。如果你想学习如何使用Markdown编辑器, 可以仔细阅读这篇文章，了解一下Markdown的基本语法知识。

新的改变

我们对Markdown编辑器进行了一些功能拓展与语法支持，除了标准的Markdown编辑器功能，我们增加了如下几点新功能，帮助你用它写博客：

全新的界面设计 ，将会带来全新的写作体验；
在创作中心设置你喜爱的代码高亮样式，Markdown 将代码片显示选择的高亮样式 进行展示；
增加了 图片拖拽 功能，你可以将本地的图片直接拖拽到编辑区域直接展示；
全新的 KaTeX数学公式 语法；
增加了支持甘特图的mermaid语法¹ 功能；
增加了 多屏幕编辑 Markdown文章功能；
增加了 焦点写作模式、预览模式、简洁写作模式、左右区域同步滚轮设置 等功能，功能按钮位于编辑区域与预览区域中间；
增加了 检查列表 功能。

功能快捷键

撤销：Ctrl/Command + Z
重做：Ctrl/Command + Y
加粗：Ctrl/Command + B
斜体：Ctrl/Command + I
标题：Ctrl/Command + Shift + H
无序列表：Ctrl/Command + Shift + U
有序列表：Ctrl/Command + Shift + O
检查列表：Ctrl/Command + Shift + C
插入代码：Ctrl/Command + Shift + K
插入链接：Ctrl/Command + Shift + L
插入图片：Ctrl/Command + Shift + G
查找：Ctrl/Command + F
替换：Ctrl/Command + G

合理的创建标题，有助于目录的生成

直接输入1次#，并按下space后，将生成1级标题。
输入2次#，并按下space后，将生成2级标题。
以此类推，我们支持6级标题。有助于使用TOC语法后生成一个完美的目录。

如何改变文本的样式

强调文本 强调文本

加粗文本 加粗文本

标记文本

删除文本

引用文本

H₂O is是液体。

2¹⁰ 运算结果是 1024.

插入链接与图片

链接: link.

图片:

带尺寸的图片:

居中的图片:

居中并且带尺寸的图片:

当然，我们为了让用户更加便捷，我们增加了图片拖拽功能。

如何插入一段漂亮的代码片

去博客设置页面，选择一款你喜欢的代码片高亮样式，下面展示同样高亮的 代码片.

// An highlighted block
var foo = 'bar';

生成一个适合你的列表

项目
- 项目
  - 项目

项目1
项目2
项目3

计划任务
完成任务

创建一个表格

一个简单的表格是这么创建的：

项目	Value
电脑	$1600
手机	$12
导管	$1

设定内容居中、居左、居右

使用:---------:居中
使用:----------居左
使用----------:居右

第一列	第二列	第三列
第一列文本居中	第二列文本居右	第三列文本居左

SmartyPants

SmartyPants将ASCII标点字符转换为“智能”印刷标点HTML实体。例如：

TYPE	ASCII	HTML
Single backticks	`'Isn't this fun?'`	‘Isn’t this fun?’
Quotes	`"Isn't this fun?"`	“Isn’t this fun?”
Dashes	`-- is en-dash, --- is em-dash`	– is en-dash, — is em-dash

创建一个自定义列表

Markdown: Text-to- HTML conversion tool
Authors: John; Luke

如何创建一个注脚

一个具有注脚的文本。²

注释也是必不可少的

Markdown将文本转换为 HTML。

KaTeX数学公式

您可以使用渲染LaTeX数学表达式 KaTeX:

Gamma公式展示 Γ ( n ) = ( n − 1 ) ! ∀ n ∈ N \Gamma(n) = (n-1)!\quad\forall n\in\mathbb N Γ(n)=(n−1)!∀n∈N 是通过欧拉积分

Γ ( z ) = ∫ 0 ∞ t z − 1 e − t d t . \Gamma(z) = \int_0^\infty t^{z-1}e^{-t}dt\,. Γ(z)=∫0∞tz−1e−tdt.

你可以找到更多关于的信息 LaTeX 数学表达式here.

新的甘特图功能，丰富你的文章

Mon 06 Mon 13 Mon 20 已完成进行中计划一计划二现有任务 Adding GANTT diagram functionality to mermaid

关于 甘特图 语法，参考这儿,

UML 图表

可以使用UML图表进行渲染。 Mermaid. 例如下面产生的一个序列图：

张三李四王五你好！李四, 最近怎么样? 你最近怎么样，王五？我很好，谢谢! 我很好，谢谢! 李四想了很长时间, 文字太长了不适合放在一行. 打量着王五... 很好... 王五, 你怎么样? 张三李四王五

这将产生一个流程图。:

链接

长方形

圆

圆角长方形

菱形

关于 Mermaid 语法，参考这儿,

FLowchart流程图

我们依旧会支持flowchart的流程图：

Created with Raphaël 2.2.0 开始我的操作确认？结束 yes no

关于 Flowchart流程图 语法，参考这儿.

导出与导入

导出

如果你想尝试使用此编辑器, 你可以在此篇文章任意编辑。当你完成了一篇文章的写作, 在上方工具栏找到 文章导出 ，生成一个.md文件或者.html文件进行本地保存。

导入

如果你想加载一篇你写过的.md文件，在上方工具栏可以选择导入功能进行对应扩展名的文件导入，
继续你的创作。

mermaid语法说明 ↩︎
注脚的解释 ↩︎

python爬虫京东口红销售排行相关推荐

python 爬虫-京东用户评论数据和用户评分
python 爬虫-京东用户评论数据和用户评分在京东页面查找(例如:oppo r15),选择第一个商品点击进入. 点击第一个评论页面: 点击第二个评论页面: 第三个评论页面: 发现第二页和第三页的网 ...
Python爬虫-京东商品到货自动邮件通知
文章目录前言京东爬虫网页分析代码实现效果演示小结前言前阵子疫情严重期间,口罩遭到疯抢,各大电商平台口罩供不应求.本文简述如何通过 Python 爬虫不断监控京东商品是否有货,并在到货时 ...
Python爬虫—京东在线抢购
转载自:http://group.jobbole.com/22908/ 京东抢购 Python爬虫,自动登录京东网站,查询商品库存,价格,显示购物车详情等. 可以指定抢购商品,自动购买下单,然后手动去 ...
python爬虫京东，苏宁，小米众筹网站信息爬取
可代写python爬虫,收费可协商,用途需提前说明. 下面爬虫爬到的数据有100天左右,100家众筹的完整数据,需要的或者有写爬虫需求的同学可发邮件至starinsunriseabovesea@ali ...
Python爬虫——京东商品信息前期准备
我们想用Python编写京东商品爬虫,其实很简单.可以使用Python的第三方爬虫框架(比如BeautifulSoup, requests等)结合学习HTTP请求和页面解析. 可以利用requests ...
python爬虫获取网站销售情况（内置源码）
在现在这个信息爆炸的时代,要想高效的获取数据,爬虫是非常好用的.而用python做爬虫也十分简单方便,下面通过一个简单的小爬虫程序来看一看写爬虫的基本过程: 注:此处猫咪销售网站中的内容本来就可以免费 ...
python爬虫京东中文乱码_python3爬虫中文乱码之请求头‘Accept-Encoding’：br 的问题...
当用python3做爬虫的时候,一些网站为了防爬虫会设置一些检查机制,这时我们就需要添加请求头,伪装成浏览器正常访问. header的内容在浏览器的开发者工具中便可看到,将这些信息添加到我们的爬虫代码 ...
python爬虫京东评论_python爬京东评论
我,找回,密码了! 就是这个网址助我! # In[sy_final]: #!/usr/bin/python import requests import json #这个headers害惨了我,一定要 ...
python爬虫-京东登录
在写爬虫的时候,解决登陆问题往往是比较麻烦的事情.这里介绍一下京东网站的登陆方法. 登陆到京东的首页,我们看到最上方有一个登陆链接,点进去之后是这样: https://passport.jd.com/ ...

python爬虫京东口红销售排行