一、需求分析

爬取网址:http://www.shanbay.com/wordlist/110521/232414/

需求

获取所有的 python 词汇数据,形成字典,存储数据。

二、代码实现

#导入包
from urllib import request
from lxml import etree#词汇表
words = []def shanbei(page):url = "http://www.shanbay.com/wordlist/110521/232414/"print(url)rsp = request.urlopen(url)html = rsp.read()#解析htmlhtml = etree.HTML(html)tr_list = html.xpath("//tr")# 遍历每个tr元素,每一个tr对应一个单词和介绍for tr in tr_list:'''查相应的单词和介绍'''word = {}strong = tr.xpath('.//strong')if len(strong):# strip把找到的内容去掉空格name = strong[0].text.strip()word['name'] = name# 查找单词的释义td_content = tr.xpath('./td[@class="span10"]')if len(td_content):content = td_content[0].text.strip()word['content'] = contentprint(word)if word != {}:words.append(word)if __name__ == '__main__':shanbei(2)

三、运行结果

Python爬取扇贝Python必背词汇相关推荐

  1. python爬取京东python书籍信息

    python爬取京东python书籍信息 直接上代码镇宅......................... 需要用到的库:requests lxml pymongo 需要安装这些库,并且配置好mong ...

  2. python爬取天猫,python如何爬取天猫店铺商品链接?

    在使用python爬虫爬取网页时会遇到很多含有特殊符号的情况,当把链接复制到浏览器打开,发现每个节点都多了个\,直接使用response.xpath()无法定位元素,为避免定位不到元素的问题,应先对响 ...

  3. Python爬取扇贝“【无老师】7天搞定TOEFL单词”

    #!/usr/bin/env python3 from bs4 import BeautifulSoup import requests import csv import bs4 import co ...

  4. Python爬虫-爬取扇贝单词(Xpath)

    爬取扇贝单词 ====================== ====================================================================== ...

  5. 用python爬取考研词汇及其近反义词与例句

    前期准备 运行环境:jupyter notebook 或者 pycharm python版本:python3.x 浏览器:chrome 需要用到的库: requests bs4 os enchant ...

  6. Python爬取豆瓣网影评展示

    Python爬取豆瓣网影评展示 需要的库文件 requests beautifulsoup wordcloud jieba matplotlib 本文思想 1.访问指定的网页 #获取指定url的内容 ...

  7. python爬取三国演义文本,统计三国演义中出场次数前30的人物,并生成词云、图表

    目录 1.目标 2.码前须知 3.操作流程 4.完整代码 5.总结 1.目标 python爬取三国演义,生成词云.图表 2.码前须知 项目目标:三国人物名称及出现次数-----数据统计分析 提出问题: ...

  8. python爬房源信息_用python爬取链家网的二手房信息

    题外话:这几天用python做题,算是有头有尾地完成了.这两天会抽空把我的思路和方法,还有代码贴出来,供python的初学者参考.我python的实战经历不多,所以代码也是简单易懂的那种.当然过程中还 ...

  9. Python 爬取 201865 条《隐秘的角落》弹幕,发现看剧不如爬山?

    作者 | 朱小五 责编 | 屠敏 封图 | CSDN 付费下载自东方 IC 最近又火了一部国产剧:<隐秘的角落>. 如果你没看过,那可能会对朋友圈里大家说的"一起去爬山" ...

最新文章

  1. LSTM情感分类问题再战
  2. python和c-Cpython和Jython的对比介绍
  3. Hadoop综合大作业补交4次作业:获取全部校园新闻,网络爬虫基础练习,中文词频统计,熟悉常用的Linux操作...
  4. flask(一)之路由和视图
  5. LeapMotion使用入门
  6. tomcat服务器安装
  7. 使用Server 2008新GPO做驱动器映射
  8. python模拟足球比赛_博客园仿真足球竞赛平台Python版SDK
  9. 安装应用需要打开未知来源权限_华为盒子安装不了第三方软件?不存在的,简单几步即可搞定...
  10. 深度学习 机器学习 花书免费下载《Deep Learning》
  11. 火星坐标系、WGS84坐标系、百度坐标系和Web墨卡托坐标系相互转换(基于Python实现)
  12. C/C++学习路线总结与分享
  13. 低配置享受3D立体游戏 手把手教你设置
  14. Linux查看设备端口号
  15. DataGrip连接Mysql报08S01解决方案
  16. 不同网段之间访问网上邻居的方法
  17. FICO 财务替代创建
  18. 手机上怎么录制斗鱼直播视频,直播视频怎么录制
  19. 快递查询单号查询,分享简单好用查询技巧
  20. 成年后常用的资源都从哪里来的?原来是在几个网站里面搜索到的!

热门文章

  1. Lua中的垃圾回收机制
  2. leetcode1553. 吃掉 N 个橘子的最少天数(Python3、c++)
  3. 项目中运用cropper插件
  4. 锐洋java web打印控件_锐洋Java web打印控
  5. 分享一个不错的Windows软件
  6. Python:list和dict的数据类型基础操作
  7. android bitmap图片下载三级缓存
  8. LIO_SAM程序实现原理学习笔记(二)
  9. 探讨微博时间流的实现
  10. 一文读懂区块链技术如何改变非洲贸易(下)