Python爬虫综合案例
import requests
import xlwt
from bs4 import BeautifulSoup
from urllib.parse import unquote,quote

#创建表格
w=xlwt.Workbook(encoding=‘utf-8’)

#添加一个sheet页
ws=w.add_sheet(‘京东爬取结果’)

#设置样式
style=xlwt.XFStyle() # 初始化样式
font=xlwt.Font() # 为样式创建字体
font.name=‘Times New Roman’ #设置字体 font.bold = True # 黑体 font.underline = True # 下划线 font.italic = True # 斜体字
style.font=font # 设定样式

#写入表格头标题内容
ws.write(0,0,‘排名’)
ws.write(0,1,‘链接’)
ws.write(0,2,‘商品名’)
ws.write(0,3,‘商店名’)
ws.write(0,4,‘价格’)

#抓取商品ID,构造每个产品的访问连接
keyword = quote(‘口红’,encoding=‘utf-8’)
url = “https://search.jd.com/Search?keyword=”+keyword+"&enc=utf-8&qrst=1&rt=1&stop=1&vt=2&stock=1&psort=3&click=0"

header = {
“user-agent”: “Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.109 Safari/537.36”
}

session = requests.session()#获得session,能够保持代码证session的统一
requests.packages.urllib3.disable_warnings()#忽略warning警告
response = session.get(url, headers = header , verify = False)#解决ssl安全链接报错问题

soup = BeautifulSoup(response.text,‘html.parser’)#构造bs4解析器
product_id = soup.select(’.gl-item’)#得到所有class=gl-item的标签

for i in range(len(product_id)): #对每个标签构造访问链接,获得对应商品信息
##for i in range(1):
sku_link = “https://item.jd.com/”+product_id[i].get(‘data-sku’)+".html"

##获取商品信息
response = session.get(sku_link, headers = header, verify = False)
soup = BeautifulSoup(response.text,'html.parser')#商品名称
sku_name = soup.select_one('.sku-name').text#商店名称
try:sku_shopname = soup.find(clstag='shangpin|keycount|product|dianpuname1').text #商店名称 国内
except:sku_shopname = soup.find(clstag='shangpin|keycount|product|dianpu_oversea').text #商店名称 跨境
sku_price = soup.find('span',{'class':'p-price'})#商品价格
sku_pricelink = 'https://p.3.cn/prices/mgets?skuIds=J_'+product_id[i].get('data-sku')
response = session.get(sku_pricelink, headers = header, verify = False)
sku_price = response.json()[0]['p']#商品评论 未完成
##    在线json解析网址:http://www.bejson.com/
##    header['Host'] = 'club.jd.com'
##    header['Referer'] = 'https://item.jd.com/2349751.html'
##    link_comment ='https://club.jd.com/comment/skuProductPageComments.action?\
##                            callback=fetchJSON_comment98vv16692\
##                            &productId=2349751\
##                            &score=0\
##                            &sortType=5\
##                            &page=0\
##                            &pageSize=10\
##                            &isShadowSku=0'
##    response = session.get(link_comment, headers = header, verify = False)
##    print(response.text)#打印
sku_rank = str(i+1)
print("排名:"+ sku_rank)
print("商品连接:"+sku_link)
print("商品名称:"+sku_name.strip())
print("商店名称:"+sku_shopname.strip())
print("商品价格:"+ sku_price)#写入excel
print('开始写入excel,请稍等...',end='')
sku_info = [sku_rank,sku_link,sku_name.strip(),sku_shopname.strip(),sku_price]
for k in range(5):ws.write(i+1,k,sku_info[k])   #两个参数 : 行号,写入内容
print('写入成功')
print('')

w.save(‘京东爬虫结果.xls’)

欢迎使用Markdown编辑器

你好! 这是你第一次使用 Markdown编辑器 所展示的欢迎页。如果你想学习如何使用Markdown编辑器, 可以仔细阅读这篇文章,了解一下Markdown的基本语法知识。

新的改变

我们对Markdown编辑器进行了一些功能拓展与语法支持,除了标准的Markdown编辑器功能,我们增加了如下几点新功能,帮助你用它写博客:

  1. 全新的界面设计 ,将会带来全新的写作体验;
  2. 在创作中心设置你喜爱的代码高亮样式,Markdown 将代码片显示选择的高亮样式 进行展示;
  3. 增加了 图片拖拽 功能,你可以将本地的图片直接拖拽到编辑区域直接展示;
  4. 全新的 KaTeX数学公式 语法;
  5. 增加了支持甘特图的mermaid语法1 功能;
  6. 增加了 多屏幕编辑 Markdown文章功能;
  7. 增加了 焦点写作模式、预览模式、简洁写作模式、左右区域同步滚轮设置 等功能,功能按钮位于编辑区域与预览区域中间;
  8. 增加了 检查列表 功能。

功能快捷键

撤销:Ctrl/Command + Z
重做:Ctrl/Command + Y
加粗:Ctrl/Command + B
斜体:Ctrl/Command + I
标题:Ctrl/Command + Shift + H
无序列表:Ctrl/Command + Shift + U
有序列表:Ctrl/Command + Shift + O
检查列表:Ctrl/Command + Shift + C
插入代码:Ctrl/Command + Shift + K
插入链接:Ctrl/Command + Shift + L
插入图片:Ctrl/Command + Shift + G
查找:Ctrl/Command + F
替换:Ctrl/Command + G

合理的创建标题,有助于目录的生成

直接输入1次#,并按下space后,将生成1级标题。
输入2次#,并按下space后,将生成2级标题。
以此类推,我们支持6级标题。有助于使用TOC语法后生成一个完美的目录。

如何改变文本的样式

强调文本 强调文本

加粗文本 加粗文本

标记文本

删除文本

引用文本

H2O is是液体。

210 运算结果是 1024.

插入链接与图片

链接: link.

图片:

带尺寸的图片:

居中的图片:

居中并且带尺寸的图片:

当然,我们为了让用户更加便捷,我们增加了图片拖拽功能。

如何插入一段漂亮的代码片

去博客设置页面,选择一款你喜欢的代码片高亮样式,下面展示同样高亮的 代码片.

// An highlighted block
var foo = 'bar';

生成一个适合你的列表

  • 项目

    • 项目

      • 项目
  1. 项目1
  2. 项目2
  3. 项目3
  • 计划任务
  • 完成任务

创建一个表格

一个简单的表格是这么创建的:

项目 Value
电脑 $1600
手机 $12
导管 $1

设定内容居中、居左、居右

使用:---------:居中
使用:----------居左
使用----------:居右

第一列 第二列 第三列
第一列文本居中 第二列文本居右 第三列文本居左

SmartyPants

SmartyPants将ASCII标点字符转换为“智能”印刷标点HTML实体。例如:

TYPE ASCII HTML
Single backticks 'Isn't this fun?' ‘Isn’t this fun?’
Quotes "Isn't this fun?" “Isn’t this fun?”
Dashes -- is en-dash, --- is em-dash – is en-dash, — is em-dash

创建一个自定义列表

Markdown
Text-to- HTML conversion tool
Authors
John
Luke

如何创建一个注脚

一个具有注脚的文本。2

注释也是必不可少的

Markdown将文本转换为 HTML

KaTeX数学公式

您可以使用渲染LaTeX数学表达式 KaTeX:

Gamma公式展示 Γ ( n ) = ( n − 1 ) ! ∀ n ∈ N \Gamma(n) = (n-1)!\quad\forall n\in\mathbb N Γ(n)=(n−1)!∀n∈N 是通过欧拉积分

Γ ( z ) = ∫ 0 ∞ t z − 1 e − t d t . \Gamma(z) = \int_0^\infty t^{z-1}e^{-t}dt\,. Γ(z)=∫0∞​tz−1e−tdt.

你可以找到更多关于的信息 LaTeX 数学表达式here.

新的甘特图功能,丰富你的文章

Mon 06 Mon 13 Mon 20 已完成 进行中 计划一 计划二 现有任务 Adding GANTT diagram functionality to mermaid
  • 关于 甘特图 语法,参考 这儿,

UML 图表

可以使用UML图表进行渲染。 Mermaid. 例如下面产生的一个序列图:

张三 李四 王五 你好!李四, 最近怎么样? 你最近怎么样,王五? 我很好,谢谢! 我很好,谢谢! 李四想了很长时间, 文字太长了 不适合放在一行. 打量着王五... 很好... 王五, 你怎么样? 张三 李四 王五

这将产生一个流程图。:

链接
长方形
圆角长方形
菱形
  • 关于 Mermaid 语法,参考 这儿,

FLowchart流程图

我们依旧会支持flowchart的流程图:

Created with Raphaël 2.2.0 开始 我的操作 确认? 结束 yes no
  • 关于 Flowchart流程图 语法,参考 这儿.

导出与导入

导出

如果你想尝试使用此编辑器, 你可以在此篇文章任意编辑。当你完成了一篇文章的写作, 在上方工具栏找到 文章导出 ,生成一个.md文件或者.html文件进行本地保存。

导入

如果你想加载一篇你写过的.md文件,在上方工具栏可以选择导入功能进行对应扩展名的文件导入,
继续你的创作。


  1. mermaid语法说明 ↩︎

  2. 注脚的解释 ↩︎

python爬虫京东口红销售排行相关推荐

  1. python 爬虫-京东用户评论数据和用户评分

    python 爬虫-京东用户评论数据和用户评分 在京东页面查找(例如:oppo r15),选择第一个商品点击进入. 点击第一个评论页面: 点击第二个评论页面: 第三个评论页面: 发现第二页和第三页的网 ...

  2. Python爬虫-京东商品到货自动邮件通知

    文章目录 前言 京东爬虫 网页分析 代码实现 效果演示 小结 前言 前阵子疫情严重期间,口罩遭到疯抢,各大电商平台口罩供不应求.本文简述如何通过 Python 爬虫不断监控京东商品是否有货,并在到货时 ...

  3. Python爬虫—京东在线抢购

    转载自:http://group.jobbole.com/22908/ 京东抢购 Python爬虫,自动登录京东网站,查询商品库存,价格,显示购物车详情等. 可以指定抢购商品,自动购买下单,然后手动去 ...

  4. python爬虫 京东,苏宁,小米众筹网站信息爬取

    可代写python爬虫,收费可协商,用途需提前说明. 下面爬虫爬到的数据有100天左右,100家众筹的完整数据,需要的或者有写爬虫需求的同学可发邮件至starinsunriseabovesea@ali ...

  5. Python爬虫——京东商品信息 前期准备

    我们想用Python编写京东商品爬虫,其实很简单.可以使用Python的第三方爬虫框架(比如BeautifulSoup, requests等)结合学习HTTP请求和页面解析. 可以利用requests ...

  6. python爬虫获取网站销售情况(内置源码)

    在现在这个信息爆炸的时代,要想高效的获取数据,爬虫是非常好用的.而用python做爬虫也十分简单方便,下面通过一个简单的小爬虫程序来看一看写爬虫的基本过程: 注:此处猫咪销售网站中的内容本来就可以免费 ...

  7. python爬虫京东中文乱码_python3爬虫中文乱码之请求头‘Accept-Encoding’:br 的问题...

    当用python3做爬虫的时候,一些网站为了防爬虫会设置一些检查机制,这时我们就需要添加请求头,伪装成浏览器正常访问. header的内容在浏览器的开发者工具中便可看到,将这些信息添加到我们的爬虫代码 ...

  8. python爬虫京东评论_python爬京东评论

    我,找回,密码了! 就是这个网址助我! # In[sy_final]: #!/usr/bin/python import requests import json #这个headers害惨了我,一定要 ...

  9. python爬虫-京东登录

    在写爬虫的时候,解决登陆问题往往是比较麻烦的事情.这里介绍一下京东网站的登陆方法. 登陆到京东的首页,我们看到最上方有一个登陆链接,点进去之后是这样: https://passport.jd.com/ ...

最新文章

  1. 每个人眼中都有一个哈姆雷特
  2. [转载] 晓说——第16期:古代科举那些事——由来
  3. 关于JAVA_HOME, CLASSPATH和PATH的设置
  4. ZStack张鑫:面对混合云浪潮 我们主动出击
  5. Bootstrap进度条的颜色
  6. 【华为云技术分享】深度详解GaussDB bufferpool缓存策略
  7. 线程同步--关键代码段(一)
  8. 十 全局结果页面的配置
  9. Pytorch遍历DataLoader时报错BrokenPipeError: [Errno 32] Broken pipe
  10. gsp计算机系统测试题答案,新版GSP计算机系统专业知识培训测试题
  11. 读一本自己心爱的书,冒什么风险都是值得的
  12. 解决 ModuleNotFoundError: No module named ‘PySide2.QtUiTools‘
  13. npm安装报错: errno ETIMEDOUT network request toXXX failed, reason: connect ETIMEDOUT
  14. winrar密码秒破_家用的指纹密码锁好用吗?什么品牌好?
  15. react-native <0.69 Exceptions.h:5:10: fatal error: ‘fbjni/fbjni.h‘ file not found
  16. 软件测试时印象深刻的bug案例,请问你遇到过哪些印象深刻的bug,接口测试出现bug的原因有哪些?...
  17. 18岁还能长高?该怎么做呢?
  18. RHCE——实施高级存储功能(CSA)
  19. 供电企业的福音,远程抄表系统无线解决方案,让工程师告别奔波
  20. mcinabox运行库下载_mcinabox下载-mcinabox运行库(启动器)官网最新版(附使用教程)v0.1.0-完全实况...

热门文章

  1. 华为鸿蒙系统手机会卡吗,鸿蒙系统的手机,会像安卓一样越来越卡吗?
  2. 组件测试 软件,测试AUTOSAR软件组件的测试方法及系统专利_专利查询 - 天眼查
  3. 微信小程序----第二天(小程序 - 模板与配置)
  4. 微信小程序自定义组件使用阿里矢量图标库图标
  5. vmdk和img相互转换
  6. 什么是DDOS攻击?怎么抵抗DDOS攻击?
  7. Linux lvm(pv、vg、lv)操作命令收集
  8. 用“等待-通知”机制优化循环等待
  9. 深入浅出!二叉树详解,包含C语言代码
  10. 数据库系统原理(1)--绪论