python爬虫京东口红销售排行
Python爬虫综合案例
import requests
import xlwt
from bs4 import BeautifulSoup
from urllib.parse import unquote,quote
#创建表格
w=xlwt.Workbook(encoding=‘utf-8’)
#添加一个sheet页
ws=w.add_sheet(‘京东爬取结果’)
#设置样式
style=xlwt.XFStyle() # 初始化样式
font=xlwt.Font() # 为样式创建字体
font.name=‘Times New Roman’ #设置字体 font.bold = True # 黑体 font.underline = True # 下划线 font.italic = True # 斜体字
style.font=font # 设定样式
#写入表格头标题内容
ws.write(0,0,‘排名’)
ws.write(0,1,‘链接’)
ws.write(0,2,‘商品名’)
ws.write(0,3,‘商店名’)
ws.write(0,4,‘价格’)
#抓取商品ID,构造每个产品的访问连接
keyword = quote(‘口红’,encoding=‘utf-8’)
url = “https://search.jd.com/Search?keyword=”+keyword+"&enc=utf-8&qrst=1&rt=1&stop=1&vt=2&stock=1&psort=3&click=0"
header = {
“user-agent”: “Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.109 Safari/537.36”
}
session = requests.session()#获得session,能够保持代码证session的统一
requests.packages.urllib3.disable_warnings()#忽略warning警告
response = session.get(url, headers = header , verify = False)#解决ssl安全链接报错问题
soup = BeautifulSoup(response.text,‘html.parser’)#构造bs4解析器
product_id = soup.select(’.gl-item’)#得到所有class=gl-item的标签
for i in range(len(product_id)): #对每个标签构造访问链接,获得对应商品信息
##for i in range(1):
sku_link = “https://item.jd.com/”+product_id[i].get(‘data-sku’)+".html"
##获取商品信息
response = session.get(sku_link, headers = header, verify = False)
soup = BeautifulSoup(response.text,'html.parser')#商品名称
sku_name = soup.select_one('.sku-name').text#商店名称
try:sku_shopname = soup.find(clstag='shangpin|keycount|product|dianpuname1').text #商店名称 国内
except:sku_shopname = soup.find(clstag='shangpin|keycount|product|dianpu_oversea').text #商店名称 跨境
sku_price = soup.find('span',{'class':'p-price'})#商品价格
sku_pricelink = 'https://p.3.cn/prices/mgets?skuIds=J_'+product_id[i].get('data-sku')
response = session.get(sku_pricelink, headers = header, verify = False)
sku_price = response.json()[0]['p']#商品评论 未完成
## 在线json解析网址:http://www.bejson.com/
## header['Host'] = 'club.jd.com'
## header['Referer'] = 'https://item.jd.com/2349751.html'
## link_comment ='https://club.jd.com/comment/skuProductPageComments.action?\
## callback=fetchJSON_comment98vv16692\
## &productId=2349751\
## &score=0\
## &sortType=5\
## &page=0\
## &pageSize=10\
## &isShadowSku=0'
## response = session.get(link_comment, headers = header, verify = False)
## print(response.text)#打印
sku_rank = str(i+1)
print("排名:"+ sku_rank)
print("商品连接:"+sku_link)
print("商品名称:"+sku_name.strip())
print("商店名称:"+sku_shopname.strip())
print("商品价格:"+ sku_price)#写入excel
print('开始写入excel,请稍等...',end='')
sku_info = [sku_rank,sku_link,sku_name.strip(),sku_shopname.strip(),sku_price]
for k in range(5):ws.write(i+1,k,sku_info[k]) #两个参数 : 行号,写入内容
print('写入成功')
print('')
w.save(‘京东爬虫结果.xls’)
欢迎使用Markdown编辑器
你好! 这是你第一次使用 Markdown编辑器 所展示的欢迎页。如果你想学习如何使用Markdown编辑器, 可以仔细阅读这篇文章,了解一下Markdown的基本语法知识。
新的改变
我们对Markdown编辑器进行了一些功能拓展与语法支持,除了标准的Markdown编辑器功能,我们增加了如下几点新功能,帮助你用它写博客:
- 全新的界面设计 ,将会带来全新的写作体验;
- 在创作中心设置你喜爱的代码高亮样式,Markdown 将代码片显示选择的高亮样式 进行展示;
- 增加了 图片拖拽 功能,你可以将本地的图片直接拖拽到编辑区域直接展示;
- 全新的 KaTeX数学公式 语法;
- 增加了支持甘特图的mermaid语法1 功能;
- 增加了 多屏幕编辑 Markdown文章功能;
- 增加了 焦点写作模式、预览模式、简洁写作模式、左右区域同步滚轮设置 等功能,功能按钮位于编辑区域与预览区域中间;
- 增加了 检查列表 功能。
功能快捷键
撤销:Ctrl/Command + Z
重做:Ctrl/Command + Y
加粗:Ctrl/Command + B
斜体:Ctrl/Command + I
标题:Ctrl/Command + Shift + H
无序列表:Ctrl/Command + Shift + U
有序列表:Ctrl/Command + Shift + O
检查列表:Ctrl/Command + Shift + C
插入代码:Ctrl/Command + Shift + K
插入链接:Ctrl/Command + Shift + L
插入图片:Ctrl/Command + Shift + G
查找:Ctrl/Command + F
替换:Ctrl/Command + G
合理的创建标题,有助于目录的生成
直接输入1次#,并按下space后,将生成1级标题。
输入2次#,并按下space后,将生成2级标题。
以此类推,我们支持6级标题。有助于使用TOC
语法后生成一个完美的目录。
如何改变文本的样式
强调文本 强调文本
加粗文本 加粗文本
标记文本
删除文本
引用文本
H2O is是液体。
210 运算结果是 1024.
插入链接与图片
链接: link.
图片:
带尺寸的图片:
居中的图片:
居中并且带尺寸的图片:
当然,我们为了让用户更加便捷,我们增加了图片拖拽功能。
如何插入一段漂亮的代码片
去博客设置页面,选择一款你喜欢的代码片高亮样式,下面展示同样高亮的 代码片
.
// An highlighted block
var foo = 'bar';
生成一个适合你的列表
- 项目
- 项目
- 项目
- 项目
- 项目1
- 项目2
- 项目3
- 计划任务
- 完成任务
创建一个表格
一个简单的表格是这么创建的:
项目 | Value |
---|---|
电脑 | $1600 |
手机 | $12 |
导管 | $1 |
设定内容居中、居左、居右
使用:---------:
居中
使用:----------
居左
使用----------:
居右
第一列 | 第二列 | 第三列 |
---|---|---|
第一列文本居中 | 第二列文本居右 | 第三列文本居左 |
SmartyPants
SmartyPants将ASCII标点字符转换为“智能”印刷标点HTML实体。例如:
TYPE | ASCII | HTML |
---|---|---|
Single backticks |
'Isn't this fun?'
|
‘Isn’t this fun?’ |
Quotes |
"Isn't this fun?"
|
“Isn’t this fun?” |
Dashes |
-- is en-dash, --- is em-dash
|
– is en-dash, — is em-dash |
创建一个自定义列表
- Markdown
- Text-to- HTML conversion tool
- Authors
- John
- Luke
如何创建一个注脚
一个具有注脚的文本。2
注释也是必不可少的
Markdown将文本转换为 HTML。
KaTeX数学公式
您可以使用渲染LaTeX数学表达式 KaTeX:
Gamma公式展示 Γ ( n ) = ( n − 1 ) ! ∀ n ∈ N \Gamma(n) = (n-1)!\quad\forall n\in\mathbb N Γ(n)=(n−1)!∀n∈N 是通过欧拉积分
Γ ( z ) = ∫ 0 ∞ t z − 1 e − t d t . \Gamma(z) = \int_0^\infty t^{z-1}e^{-t}dt\,. Γ(z)=∫0∞tz−1e−tdt.
你可以找到更多关于的信息 LaTeX 数学表达式here.
新的甘特图功能,丰富你的文章
- 关于 甘特图 语法,参考 这儿,
UML 图表
可以使用UML图表进行渲染。 Mermaid. 例如下面产生的一个序列图:
这将产生一个流程图。:
- 关于 Mermaid 语法,参考 这儿,
FLowchart流程图
我们依旧会支持flowchart的流程图:
- 关于 Flowchart流程图 语法,参考 这儿.
导出与导入
导出
如果你想尝试使用此编辑器, 你可以在此篇文章任意编辑。当你完成了一篇文章的写作, 在上方工具栏找到 文章导出 ,生成一个.md文件或者.html文件进行本地保存。
导入
如果你想加载一篇你写过的.md文件,在上方工具栏可以选择导入功能进行对应扩展名的文件导入,
继续你的创作。
mermaid语法说明 ↩︎
注脚的解释 ↩︎
python爬虫京东口红销售排行相关推荐
- python 爬虫-京东用户评论数据和用户评分
python 爬虫-京东用户评论数据和用户评分 在京东页面查找(例如:oppo r15),选择第一个商品点击进入. 点击第一个评论页面: 点击第二个评论页面: 第三个评论页面: 发现第二页和第三页的网 ...
- Python爬虫-京东商品到货自动邮件通知
文章目录 前言 京东爬虫 网页分析 代码实现 效果演示 小结 前言 前阵子疫情严重期间,口罩遭到疯抢,各大电商平台口罩供不应求.本文简述如何通过 Python 爬虫不断监控京东商品是否有货,并在到货时 ...
- Python爬虫—京东在线抢购
转载自:http://group.jobbole.com/22908/ 京东抢购 Python爬虫,自动登录京东网站,查询商品库存,价格,显示购物车详情等. 可以指定抢购商品,自动购买下单,然后手动去 ...
- python爬虫 京东,苏宁,小米众筹网站信息爬取
可代写python爬虫,收费可协商,用途需提前说明. 下面爬虫爬到的数据有100天左右,100家众筹的完整数据,需要的或者有写爬虫需求的同学可发邮件至starinsunriseabovesea@ali ...
- Python爬虫——京东商品信息 前期准备
我们想用Python编写京东商品爬虫,其实很简单.可以使用Python的第三方爬虫框架(比如BeautifulSoup, requests等)结合学习HTTP请求和页面解析. 可以利用requests ...
- python爬虫获取网站销售情况(内置源码)
在现在这个信息爆炸的时代,要想高效的获取数据,爬虫是非常好用的.而用python做爬虫也十分简单方便,下面通过一个简单的小爬虫程序来看一看写爬虫的基本过程: 注:此处猫咪销售网站中的内容本来就可以免费 ...
- python爬虫京东中文乱码_python3爬虫中文乱码之请求头‘Accept-Encoding’:br 的问题...
当用python3做爬虫的时候,一些网站为了防爬虫会设置一些检查机制,这时我们就需要添加请求头,伪装成浏览器正常访问. header的内容在浏览器的开发者工具中便可看到,将这些信息添加到我们的爬虫代码 ...
- python爬虫京东评论_python爬京东评论
我,找回,密码了! 就是这个网址助我! # In[sy_final]: #!/usr/bin/python import requests import json #这个headers害惨了我,一定要 ...
- python爬虫-京东登录
在写爬虫的时候,解决登陆问题往往是比较麻烦的事情.这里介绍一下京东网站的登陆方法. 登陆到京东的首页,我们看到最上方有一个登陆链接,点进去之后是这样: https://passport.jd.com/ ...
最新文章
- 每个人眼中都有一个哈姆雷特
- [转载] 晓说——第16期:古代科举那些事——由来
- 关于JAVA_HOME, CLASSPATH和PATH的设置
- ZStack张鑫:面对混合云浪潮 我们主动出击
- Bootstrap进度条的颜色
- 【华为云技术分享】深度详解GaussDB bufferpool缓存策略
- 线程同步--关键代码段(一)
- 十 全局结果页面的配置
- Pytorch遍历DataLoader时报错BrokenPipeError: [Errno 32] Broken pipe
- gsp计算机系统测试题答案,新版GSP计算机系统专业知识培训测试题
- 读一本自己心爱的书,冒什么风险都是值得的
- 解决 ModuleNotFoundError: No module named ‘PySide2.QtUiTools‘
- npm安装报错: errno ETIMEDOUT network request toXXX failed, reason: connect ETIMEDOUT
- winrar密码秒破_家用的指纹密码锁好用吗?什么品牌好?
- react-native <0.69 Exceptions.h:5:10: fatal error: ‘fbjni/fbjni.h‘ file not found
- 软件测试时印象深刻的bug案例,请问你遇到过哪些印象深刻的bug,接口测试出现bug的原因有哪些?...
- 18岁还能长高?该怎么做呢?
- RHCE——实施高级存储功能(CSA)
- 供电企业的福音,远程抄表系统无线解决方案,让工程师告别奔波
- mcinabox运行库下载_mcinabox下载-mcinabox运行库(启动器)官网最新版(附使用教程)v0.1.0-完全实况...