Python爬取扇贝Python必背词汇
一、需求分析
爬取网址:http://www.shanbay.com/wordlist/110521/232414/
需求:
获取所有的 python 词汇数据,形成字典,存储数据。
二、代码实现
#导入包
from urllib import request
from lxml import etree#词汇表
words = []def shanbei(page):url = "http://www.shanbay.com/wordlist/110521/232414/"print(url)rsp = request.urlopen(url)html = rsp.read()#解析htmlhtml = etree.HTML(html)tr_list = html.xpath("//tr")# 遍历每个tr元素,每一个tr对应一个单词和介绍for tr in tr_list:'''查相应的单词和介绍'''word = {}strong = tr.xpath('.//strong')if len(strong):# strip把找到的内容去掉空格name = strong[0].text.strip()word['name'] = name# 查找单词的释义td_content = tr.xpath('./td[@class="span10"]')if len(td_content):content = td_content[0].text.strip()word['content'] = contentprint(word)if word != {}:words.append(word)if __name__ == '__main__':shanbei(2)
三、运行结果
Python爬取扇贝Python必背词汇相关推荐
- python爬取京东python书籍信息
python爬取京东python书籍信息 直接上代码镇宅......................... 需要用到的库:requests lxml pymongo 需要安装这些库,并且配置好mong ...
- python爬取天猫,python如何爬取天猫店铺商品链接?
在使用python爬虫爬取网页时会遇到很多含有特殊符号的情况,当把链接复制到浏览器打开,发现每个节点都多了个\,直接使用response.xpath()无法定位元素,为避免定位不到元素的问题,应先对响 ...
- Python爬取扇贝“【无老师】7天搞定TOEFL单词”
#!/usr/bin/env python3 from bs4 import BeautifulSoup import requests import csv import bs4 import co ...
- Python爬虫-爬取扇贝单词(Xpath)
爬取扇贝单词 ====================== ====================================================================== ...
- 用python爬取考研词汇及其近反义词与例句
前期准备 运行环境:jupyter notebook 或者 pycharm python版本:python3.x 浏览器:chrome 需要用到的库: requests bs4 os enchant ...
- Python爬取豆瓣网影评展示
Python爬取豆瓣网影评展示 需要的库文件 requests beautifulsoup wordcloud jieba matplotlib 本文思想 1.访问指定的网页 #获取指定url的内容 ...
- python爬取三国演义文本,统计三国演义中出场次数前30的人物,并生成词云、图表
目录 1.目标 2.码前须知 3.操作流程 4.完整代码 5.总结 1.目标 python爬取三国演义,生成词云.图表 2.码前须知 项目目标:三国人物名称及出现次数-----数据统计分析 提出问题: ...
- python爬房源信息_用python爬取链家网的二手房信息
题外话:这几天用python做题,算是有头有尾地完成了.这两天会抽空把我的思路和方法,还有代码贴出来,供python的初学者参考.我python的实战经历不多,所以代码也是简单易懂的那种.当然过程中还 ...
- Python 爬取 201865 条《隐秘的角落》弹幕,发现看剧不如爬山?
作者 | 朱小五 责编 | 屠敏 封图 | CSDN 付费下载自东方 IC 最近又火了一部国产剧:<隐秘的角落>. 如果你没看过,那可能会对朋友圈里大家说的"一起去爬山" ...
最新文章
- LSTM情感分类问题再战
- python和c-Cpython和Jython的对比介绍
- Hadoop综合大作业补交4次作业:获取全部校园新闻,网络爬虫基础练习,中文词频统计,熟悉常用的Linux操作...
- flask(一)之路由和视图
- LeapMotion使用入门
- tomcat服务器安装
- 使用Server 2008新GPO做驱动器映射
- python模拟足球比赛_博客园仿真足球竞赛平台Python版SDK
- 安装应用需要打开未知来源权限_华为盒子安装不了第三方软件?不存在的,简单几步即可搞定...
- 深度学习 机器学习 花书免费下载《Deep Learning》
- 火星坐标系、WGS84坐标系、百度坐标系和Web墨卡托坐标系相互转换(基于Python实现)
- C/C++学习路线总结与分享
- 低配置享受3D立体游戏 手把手教你设置
- Linux查看设备端口号
- DataGrip连接Mysql报08S01解决方案
- 不同网段之间访问网上邻居的方法
- FICO 财务替代创建
- 手机上怎么录制斗鱼直播视频,直播视频怎么录制
- 快递查询单号查询,分享简单好用查询技巧
- 成年后常用的资源都从哪里来的?原来是在几个网站里面搜索到的!