python爬取金庸小说人物
python 爬虫
python爬取金庸小说人物
‘’’
通过http://www.jinyongwang.com/data/renwu/来获取金庸小说中的人物
输出结果为
小说1
人物1 人物2 人物3 …
小说2
人物1 人物2 人物3 …
…
话不多说直接上码
‘’’
import requests
from bs4 import BeautifulSoup
import re#获取网页内容
def get_html(url):page = requests.get(url)#print(page.content)return page.content#获取小说及人物并写入txt中
def analyse_html(html):#第一次使用BeautifulSoup,感觉perfectsoup = BeautifulSoup(html,'html.parser')body = soup.body#print(body)main = body.find('div',attrs = {'class':'main'})booklist = main.find('div',attrs = {'class':'booklist'})#写入指定txtfile_path = r'E:\names.txt'file = open(file_path,'a',encoding='utf-8')#可以通过使用正则的方式,找到含有小说名的 'h2' 标签,和含有人物名的 'div' 标签for dataname in booklist.find_all(re.compile('h2|div')):# print(dataname)# print(dataname['class'])# print(type(dataname['class']))#可以直接通过 tag['class'] 的方式直接获取 tag 值if dataname['class'][0] == 'dataname':dataname = dataname.find('span')book_name = dataname.get_text()print(book_name+'\n')file.write('\n'+book_name+'\n')elif dataname['class'][0] == 'datapice' :for a in dataname('a'):#含有人物图片的和不含有的获取方式有少许差异# <a href="/data/2752.html"><img alt="郑旦" src="/public/uploads/baike/2015-08-15/95771439622810_120.jpg"/>郑旦</a> 这种含有人物图片的直接通过 get_text() 即可获取if a.find('i') == None:role_name = a.get_text().replace(' ', '')#print(role_name)else:# <a href="/data/2767.html"><i class="icon"></i>卓天雄</a> #这种不含有人物图片的直接通过 get_text() 获取,会多获取到一个 ‘’,暂无其他好办法去掉,只能通过字符串切割的方式去掉role_name = a.get_text(strip=True).replace(' ','')[1:]file.write(role_name+' ')file.close()
if __name__ == '__main__':url = 'http://www.jinyongwang.com/data/renwu/'html = get_html(url)analyse_html(html)
第一次在CSDN上写些东东,感觉还不错~~
python爬取金庸小说人物相关推荐
- 不到30行python代码爬取金庸小说
爬取金庸小说 代码如下: import requests from bs4 import BeautifulSoupdef get_html(url): html=requests.get(url)h ...
- Python爬取金庸人物
Step: 目标文章:鹿鼎记 实现功能: 人物统计 云图 程序源码: -- coding: utf-8 -- """ Created on Sat Jul 7 16:57 ...
- 金庸小说人物知识图谱构建——图谱可视化
读取上步得到的共现矩阵,将人物间的共现频次提取处理,形成如下CSV文件 这一步的代码如下 import xlrddef readxls(path):xl = xlrd.open_workbook(pa ...
- Python 爬取起点的小说(非vip)
Python 爬取起点的小说(非vip) 起点小说网是一个小说种类比较全面的网站,当然,作为收费类网站,VIP类的小说也很多,章节是VIP的话,有一个动态加载,也就 ...
- Python爬取网页所有小说
Python爬取网页所有小说 python 2.7.15 练习beautifulsoup的使用 不了解bs的可以先看一下这个bs文档 一.看URL的规律 因为是要爬取网页上所有的小说,所以不仅要获取网 ...
- 【Python】爬取金庸射雕英雄传连载版以及金庸作品里所有江湖门派
文章目录 爬取射雕英雄传连载版 爬取所有金庸作品集中的江湖门派 爬取射雕英雄传连载版 手机上的一本连载版居然没有目录,哎,没目录看着可难受了. 趁着有空,就写了一个脚本提取了下连载版.下次有空的话,再 ...
- 【Python】手把手教你用Python爬取某网小说数据,并进行可视化分析
网络文学是以互联网为展示平台和传播媒介,借助相关互联网手段来表现文学作品及含有一部分文字作品的网络技术产品,在当前成为一种新兴的文学现象,并快速兴起,各种网络小说也是层出不穷,今天我们使用seleni ...
- python爬取起点vip小说章节_python 爬取起点小说vip章节(失败)
今天心血来潮,想爬取起点vip小说章节,花费了足足0.27大洋后,悟出来一个人生道理,这个应该是爬不下来.但是这0.27大洋也教会了我两个知识点. 1.服务器只会响应客户端的请求,不会主动给客户端发送 ...
- Python爬取喜马拉雅有声小说【转载】
话不多说 直接上源码 爬取喜马拉雅有声小说-夜惊魂 import re import os import json import requests def Night_fright(): start_ ...
最新文章
- python中plot的plt.text_用Python进行数据可视化的第一步,全面详解matplotlib中样式属性...
- [译] 最佳安全实践:在 Java 和 Android 中使用 AES 进行对称加密
- AI公开课:19.05.29 浣军-百度大数据实验室主任《AutoDL 自动化深度学习建模的算法和应用》课堂笔记以及个人感悟
- Android ViewGroup点击效果(背景色)
- Spring Boot 集成 WebSocket通信信息推送!
- Python break/continue - Python零基础入门教程
- lte核心网由哪些设备组成_电气设备安装工程由哪些部分组成?
- Qt文档阅读笔记-Object Model
- 计算机vf的讲解,计算机二级vf重点知识讲解.doc
- 基于XML的AOP配置-转
- C#压缩指定的文件并生成zip文件
- 十一、垃圾回收策略配置
- wps 宏 禁用_WPS宏被禁用如何打开
- 关于安卓刷机的一些基础知识及术语
- 如何在vue中插入语音提示
- 【mysql】大小写规范
- IDEA无法启动:error launching idea (Failed to create JVM )
- 《响应式Web图形设计》一1.4 布置页面内容
- 支付宝沙箱开启以及配置
- 【Android】上下文菜单ContextMenu的使用
热门文章
- 怎样多人配音?推荐下面这三款多人配音软件
- 考研英语近义词与反义词·五
- 计算机主机审计系统,关于计算机审计系统的设想
- Java常用类-StringBuilder
- 「清华名师讲坛」推荐
- 假期旅行什么蓝牙耳机比较好?
- 10分钟精通微信小程序 | 云控制台【四】
- 股票交易系统推荐杨方配资_交易系统首选杨方配资
- Date日期工具类和Calendar日历类实例及其相互转换
- pq和mysql_Go实战--go语言操作PostgreSQL数据库(github.com/lib/pq)