利用Python爬虫,对自己的博客进行数据分析
爬虫部分
1. 读取网页
from bs4 import BeautifulSoup
import requests
r = requests.get('http://www.guofei.site')
soup=BeautifulSoup(r.text,'lxml')
2. 网页读取结果
r.status_code
3. 解析网页
import pandas as pd
a=soup.find_all(name='div',attrs={'id':['page-content']})[0]
all_articles=[]
for i in a.find_all(name='li'):all_articles.append([i.span.text,i.a.text,'http://www.guofei.site'+i.a.attrs['href']])
df_all_articles=pd.DataFrame(all_articles,columns=['date','title','url'])
df_all_articles是一个Pandas.DataFrame,存放博客的日期、标题、链接,我们希望格式化输处,便于黏贴到Markdown上
展示部分
2018年-06月-20日:【积分变换】拉普拉斯变换
2018年-06月-19日:【复变函数3】共形映射
2018年-06月-17日:【复变函数2】级数、留数
2018年-06月-15日:【复变函数1】极限、微积分、解析
2018年-06月-14日:数学模型
2018年-06月-07日:【几何】
2018年-06月-06日:【Python】安全工具
2018年-06月-05日:【Python】sys&os
2018年-06月-04日:git相关工具
2018年-05月-29日:【最优化】应用场景.
2018年-05月-28日:【整数规划】理论.
2018年-05月-27日:【多目标最优化】理论.
2018年-05月-26日:【非线性无约束最优化】理论.
2018年-05月-22日:【AFSA】人工鱼群算法
2018年-05月-21日:【IA】免疫优化算法
2018年-05月-18日:【Python】【matplotlib】img
2018年-05月-10日:【统计时序】Granger因果检验
2018年-05月-07日:贝叶斯参数估计.
2018年-05月-06日:【statsmodels】回归专题(进阶)(补全中)
2018年-05月-05日:【pyecharts】漂亮的可视化
2018年-05月-03日:【Python】爬虫.
2018年-04月-19日:【统计时序1】工具
2018年-04月-14日:【统计时序】非平稳数据的处理
2018年-04月-13日:【代数2】线性映射.
2018年-04月-09日:【代数1】线性空间.
2018年-03月-30日:【spark】DataFrame.
2018年-03月-29日:【spark】RDD.
2018年-03月-27日:【spark】数据读写.
2018年-03月-21日:【python】sqlAlchemy.
2018年-03月-20日:【SQL】select专题.
2018年-03月-01日:【Hive SQL】速查.
2018年-02月-04日:【Linux】常用命令
2018年-02月-03日:【Hive】基础知识.
2018年-01月-29日:【时间序列】总览
2018年-01月-28日:【tkinter】GUI设计
2018年-01月-21日:【SA】模拟退火算法
2018年-01月-18日:【ELM】极限学习机
2018年-01月-08日:微分方程
2018年-01月-06日:【积分变换】傅里叶变换
2018年-01月-05日:Boltzmann机
2018年-01月-01日:2018年书单(读完)
2017年-12月-20日:【LLE】理论与实现
2017年-12月-20日:【Isomap】理论与实现
2017年-12月-19日:【KernelPCA】理论与实现
2017年-12月-18日:LSTM
2017年-12月-17日:【TensorFlow2】激活函数,优化器
2017年-12月-17日:word2vec
2017年-12月-16日:【神经网络8】CNN理论与实现
2017年-12月-15日:【神经网络8】PNN
2017年-12月-14日:【神经网络8】Elman
2017年-12月-13日:【神经网络7】SOM
2017年-12月-12日:【神经网络6】竞争神经网络
2017年-12月-11日:【神经网络5】连续Hopfield
2017年-12月-10日:【神经网络4】离散Hopfield
2017年-12月-09日:【神经网络3】RBF&GRNN
2017年-12月-08日:【Matplotlib】3D视图
2017年-12月-07日:【学习笔记】神经网络(9)
2017年-12月-06日:【神经网络2】误差反向传播算法
2017年-12月-04日:【统计时序2】平稳性
2017年-12月-03日:【判别分析】理论篇
2017年-12月-02日:【Monte】马尔科夫链问题.
2017年-12月-01日:【TensorFlow1】session,变量,运算符
2017年-11月-30日:【ridge&lasso】理论与实现
2017年-11月-29日:【pandas】时间序列
2017年-11月-28日:【DBSCAN】理论与实现
2017年-11月-27日:【ICA】理论与实现
2017年-11月-26日:【Apriori】关联规则
2017年-11月-25日:【MDS】Python实现
2017年-11月-24日:【特征工程】归一化/标准化/正则化
2017年-11月-23日:Linux命令
2017年-11月-22日:【回归分析】理论与实现
2017年-11月-21日:【相关分析】理论篇
2017年-11月-13日:【CRF】理论篇
2017年-11月-11日:【HMM】理论篇
2017年-11月-10日:【GMM】理论与实现
2017年-11月-09日:【EM算法】理论篇
2017年-11月-01日:【Python】可视化方法汇总
2017年-10月-30日:【约束非线性优化】拉格朗日法与KKT.
2017年-10月-29日:【pandas】练习题
2017年-10月-28日:【假设检验】Python实现.
2017年-10月-27日:【统计推断】理论与实现
2017年-10月-26日:多元微积分
2017年-10月-25日:【Naive Bayes】理论与实现
2017年-10月-24日:【KNN】理论与实现
2017年-10月-23日:【感知机】理论简介
2017年-10月-22日:【Python】【datetime】
2017年-10月-21日:【MLP】BP神经网络实现
2017年-10月-20日:【Random Forest】理论与实现
2017年-10月-19日:数据清洗方法
2017年-10月-18日:【pandas】groupby
2017年-10月-18日:【pandas】描述统计&简单作图
2017年-10月-17日:【pandas】index&colums相关
2017年-10月-16日:【pandas】去重、填充、排序
2017年-10月-15日:【pandas】数据筛选
2017年-10月-13日:【FA】理论与实现
2017年-10月-12日:【PCA】理论与实现
2017年-10月-10日:【Python】【面向对象】类的特殊成员
2017年-10月-08日:【Python】【面向对象】字段&方法
2017年-10月-07日:【Python】【面向对象】继承&多态
2017年-10月-06日:【Python】【pickle】
2017年-10月-06日:【Bagging&Boosting】理论与实现
2017年-10月-03日:【交叉验证】介绍
2017年-10月-01日:【Python】【seaborn】绘图示例
2017年-09月-30日:【层次聚类】理论与实现
2017年-09月-29日:【聚类】汇总
2017年-09月-28日:【SVM】理论与实现
2017年-09月-27日:【Python】【matplotlib】动画
2017年-09月-26日:【Python】【matplotlib】键鼠响应事件
2017年-09月-25日:【Python】【matplotlib】绘图函数
2017年-09月-22日:【Python】【matplotlib】面向对象绘图
2017年-09月-20日:【matplotlib】设置&多图&汉字
2017年-09月-18日:【算法理论4】:hash
2017年-09月-17日:【算法理论3】:Tree
2017年-09月-12日:【最小生成树问题】Prim和Kruskal.
2017年-09月-11日:【Python】【heapq】堆结构.
2017年-09月-04日:经典数据集
2017年-08月-29日:【数值计算】若干简介.
2017年-08月-29日:【算法小题】马踏棋盘问题.
2017年-08月-29日:【算法小题】24点问题.
2017年-08月-29日:【算法小题】破碎的砝码.
2017年-08月-28日:简单的算法题小试
2017年-08月-24日:递归
2017年-08月-24日:【huffman】哈夫曼算法原理和实现
2017年-08月-23日:【Python】pymysql
2017年-08月-21日:【Mento Carlo 3】生成指定分布随机数的方法.
2017年-08月-18日:【Mento Carlo 2】随机数发生器.
2017年-08月-17日:【Mento Carlo 1】 背后的数学理论.
2017年-08月-09日:【Python】【scipy】Random Variable.
2017年-08月-08日:【趣味小题】酒鬼90%几率去酒吧.
2017年-08月-07日:【趣味小题】逻辑教授三学生问题
2017年-08月-04日:law of large numbers
2017年-08月-04日:【Python】2 examples of Chebyshev inequality.
2017年-08月-02日:概率测度简介
2017年-08月-02日:条件概率,条件期望,条件方差
2017年-07月-30日:【Real analysis(5)】连续性与拓扑
2017年-07月-23日:【Real analysis(4)】级数,巴拿赫空间与希尔伯特空间
2017年-07月-19日:【Real analysis(3)】Sequence in Metric Space.
2017年-07月-18日:【Probit】理论简介
2017年-07月-17日:【统计时序】GARCH
2017年-07月-10日:【ARIMA】理论与实现
2017年-07月-09日:【时间序列】马尔科夫法
2017年-07月-08日:【智能算法】混合智能算法
2017年-07月-08日:【描述时序】指数平滑法
2017年-07月-06日:【描述时序】趋势、季节和随机性
2017年-07月-05日:【Python】【numpy】ufunc.
2017年-07月-05日:【Python】【numpy】linalg线性代数.
2017年-07月-05日:【Python】【numpy】random随机数生成.
2017年-07月-05日:【Python】【numpy】ndarray
2017年-07月-05日:【趣味小题】随机漫步.
2017年-07月-04日:【pandas】合并数据表
2017年-07月-02日:数据分析的主要流程
2017年-06月-29日:【Real analysis(2)】集合论与拓扑学.
2017年-06月-29日:【逻辑学】连锁悖论、真值度、超赋值理论与认知主义.
2017年-06月-12日:【线性最优化】理论篇.
2017年-06月-09日:【最优化】理论篇.
2017年-06月-09日:【Kmeans】理论与实现
2017年-06月-06日:【最小二乘估计】scipy.optimize.leastsq.
2017年-06月-06日:【最优化】scipy.optimize.fmin.
2017年-06月-06日:【插值】scipy.interpolate.
2017年-06月-06日:【数值积分】scipy.integrate.
2017年-06月-06日:【解方程】scipy.optimize.solve.
2017年-06月-04日:【Real analysis(1)】范数、测度和距离.
2017年-06月-03日:【汇总】统计学知识汇总
2017年-05月-30日:sigmoid-function的林林总总
2017年-05月-26日:scipy的stats库
2017年-05月-26日:常见统计分布(2)
2017年-05月-26日:常见统计分布(1)
2017年-05月-25日:【ACA】蚁群算法
2017年-05月-23日:信息熵
2017年-05月-22日:【Decision Tree】理论与实现
2017年-05月-22日:机器学习模型汇总
2017年-05月-19日:Python特性研究.
2017年-05月-19日:【编程技巧】Matlab
2017年-05月-18日:【算法理论2】:Graph
2017年-05月-18日:【算法理论1】:复杂度
2017年-05月-15日:【pandas】读入与读出
2017年-05月-07日:【logistics】理论与实现
2017年-05月-06日:【jekyll】安装和配置.
2017年-05月-06日:【jekyll】建站日记.
2017年-05月-04日:mermaid语法速查表.
2017年-05月-03日:【Python】【算法小题集】1
2017年-05月-02日:【模型评价】理论与实现
2017年-04月-30日:【Elo模型】理论篇
2017年-04月-29日:文本分词并画词云.
2017年-04月-29日:取上三角和下三角.
2017年-04月-26日:【Python】sqlite
2017年-04月-04日:【Python】运行效率研究.
2017年-04月-01日:【神经网络1】总览
2017年-03月-18日:【Python】运算符.
2017年-03月-17日:【Python】【open】打开.
2017年-03月-16日:【Python】【str】字符串.
2017年-03月-15日:【Python】基本数据类型.
2017年-03月-10日:LaTeX语法速查表.
2017年-02月-10日:git语法速查表.
2017年-02月-02日:markdown语法速查表.
2017年-01月-28日:2017年书单(读完)
2016年-12月-01日:【PSO】粒子群算法
2016年-10月-05日:【GA】遗传算法理论与Python实现
2016年-10月-01日:【遗传算法】Matlab实现
2016年-07月-25日:【随笔】 《谁动了我的奶酪》中的粒子群算法.
2016年-07月-06日:【Matlab工具箱】十几个机器学习代码
2016年-05月-28日:【Matlab】table运行效率研究
2016年-05月-28日:【合集】【Matlab】运行效率研究
2016年-05月-25日:【Dijkstra】Matlab实现
2016年-05月-17日:收藏夹
2016年-05月-06日:【Matlab工具箱】线性神经网络
2016年-05月-06日:【Matlab工具箱】感知机
2016年-05月-06日:【Matlab工具箱】BP神经网络
2016年-05月-06日:【Matlab工具箱】REF径向基网络
2016年-05月-06日:【Matlab】自编代码实现感知机
2016年-05月-04日:【dummies】虚拟变量回归
2016年-04月-05日:【回收】【可视化方法】
2016年-04月-04日:【Matlab】恶俗古风诗歌自动生成器.
2016年-03月-01日:小事记
2016年-02月-20日:【随机模拟试验】枪手博弈问题(一).
2016年-02月-09日:【小实验】有偏分布下的均值、中位数、众数之间的关系.
2016年-01月-28日:2016年书单(读完)
2015年-12月-31日:【蒙特卡洛】DLA分形之雪花的制造.
2015年-12月-22日:【读后感】《进化论与生活》(戴维.斯隆.威尔逊).
2015年-12月-21日:【读后感】《大国空巢》.
2015年-12月-21日:【读后感】《奇点临近》.
2015年-02月-10日:刷证狂
2015年-02月-03日:【SQL】通用语法.
2015年-01月-30日:mySQL配置.
2015年-01月-29日:2015年书单(读完)
2014年-01月-01日:2014年书单(读完)
2013年-01月-01日:早于2014年的书单(读完)
利用Python爬虫,对自己的博客进行数据分析相关推荐
- python爬虫爬取csdn博客专家所有博客内容
python爬虫爬取csdn博客专家所有博客内容: 全部过程采取自动识别与抓取,抓取结果是将一个博主的所有 文章存放在以其名字命名的文件内,代码如下 #coding:utf-8import urlli ...
- python爬虫练习5:博客阅读量助手
目标与环境 爬取csdn博客如"http://blog.csdn.net/nima1994"的文章列表,获取阅读量等,与上次进行比较 使用eclipse+pydev编写,win10 ...
- Python爬虫入门教程:博客园首页推荐博客排行的秘密
1. 前言 虽然博客园注册已经有五年多了,但是最近才正式开始在这里写博客.(进了博客园才知道这里面个个都是人才,说话又好听,超喜欢这里...)但是由于写的内容都是软件测试相关,热度一直不是很高.看到首 ...
- python教程是用什么博客写的-Python爬虫入门教程:博客园首页推荐博客排行的秘密...
1. 前言 虽然博客园注册已经有五年多了,但是最近才正式开始在这里写博客.(进了博客园才知道这里面个个都是人才,说话又好听,超喜欢这里...)但是由于写的内容都是软件测试相关,热度一直不是很高.看到首 ...
- Python爬虫入门教程 54-100 博客园等博客网站自动评论器
爬虫背景 爬虫最核心的问题就是解决重复操作,当一件事情可以重复的进行的时候,就可以用爬虫来解决这个问题,今天要实现的一个基本需求是完成"博客园" 博客的自动评论,其实原理是非常简单 ...
- Python爬虫入门教程 40-100 博客园Python相关40W博客抓取 scrapy
爬前叨叨 第40篇博客吹响号角,爬取博客园博客~本文最终抓取到了从2010年1月1日到2019年1月7日的37W+文章,后面可以分析好多东西了呢 经常看博客的同志知道,博客园每个栏目下面有200页,多 ...
- python 爬虫 爬取序列博客文章列表
python中写个爬虫真是太简单了 import urllib.request from pyquery import PyQuery as PQ# 根据URL获取内容并解码为UTF-8 def ge ...
- python爬虫抓取51cto博客大牛的文章保存到MySQL数据库
脚本实现:获取51cto网站某大牛文章的url,并存储到数据库中. #!/usr/bin/env python #coding:utf-8 from bs4 import BeautifulSoup ...
- python爬虫——Scrapy爬取博客数据
新建一个Scrapy文件: # -*- coding: utf-8 -*- import scrapyclass CsdnBlogSpider(scrapy.Spider):name = 'csdn_ ...
- 【Python】100行Python代码轻松开发个人博客
❝ 本文示例代码已上传至我的Github仓库https://github.com/CNFeffery/DataScienceStudyNotes ❞ 1 简介 这是我的系列教程「Python+Dash ...
最新文章
- Tomcat双向Https验证搭建,亲自实现与主流浏览器、Android/iOS移动客户端超安全通信
- textview 背景变形_西安昆明池桁架舞台背景搭建欢迎致电
- 升级到Windows 8.1
- linux中的bash shell的特性
- SAP UI5库文件的加载细节探讨
- SAP CRM的订单模型移植到S4HANA后,在订单保存功能上作出的改进
- .NET Core 3.0 可卸载程序集原理简析
- 在ASP.NET Core Web API上使用Swagger提供API文档
- Java基础学习总结(97)——合格的Java的架构师需要具备的技术知识
- 多线程—— Queue(储存进程结果)
- 转《js闭包与内存泄漏》
- 图像处理及深度学习开源数据集大全(四万字呕心沥血整理)
- C#自定义控件添加至工具箱的方法
- Springer的latex压缩包上传转不了pdf
- cmake清空缓存 cmake clean
- scandisk.exe 流氓软件的删除
- 移植quectel的GPS模块
- 5月1日起正式实施!图解《关键信息基础设施安全保护要求》
- Python最简单的图形编程
- SkipList原理及实现
热门文章
- 百度关键词质量度如何提高?9个质量度影响因素
- 手机re管理器支持android2.3的,RE管理器安卓版
- linux编译input驱动,Linux驱动开发之input子系统
- 向量的点乘与X乘以及意义
- uniapp chooseimage 图片缓存 (安卓端uni.chooseImage方法在拍照时,有的手机会在应用目录下的files/DCIM文件夹下产生并没有被使用的图片 )
- 烛照幽荧是鸿蒙时期,上古圣兽:太阳烛照与太阴幽荧
- [持续更新] 神经机器翻译论文汇总 Papers on Neural Machine Translation
- 用友U8调拨单、组装拆卸单、盘点单审核后自动审核对应的其他出入库单
- 文章生成器html,【转载】伪原创文章生成器源代码
- 清华大学计算机科学与技术专业本科生课程设置