爬虫部分

1. 读取网页

from bs4 import BeautifulSoup
import requests
r = requests.get('http://www.guofei.site')
soup=BeautifulSoup(r.text,'lxml')

2. 网页读取结果

r.status_code

3. 解析网页

import pandas as pd
a=soup.find_all(name='div',attrs={'id':['page-content']})[0]
all_articles=[]
for i in a.find_all(name='li'):all_articles.append([i.span.text,i.a.text,'http://www.guofei.site'+i.a.attrs['href']])
df_all_articles=pd.DataFrame(all_articles,columns=['date','title','url'])

df_all_articles是一个Pandas.DataFrame,存放博客的日期、标题、链接,我们希望格式化输处,便于黏贴到Markdown上

展示部分

2018年-06月-20日:【积分变换】拉普拉斯变换
2018年-06月-19日:【复变函数3】共形映射
2018年-06月-17日:【复变函数2】级数、留数
2018年-06月-15日:【复变函数1】极限、微积分、解析
2018年-06月-14日:数学模型
2018年-06月-07日:【几何】
2018年-06月-06日:【Python】安全工具
2018年-06月-05日:【Python】sys&os
2018年-06月-04日:git相关工具
2018年-05月-29日:【最优化】应用场景.
2018年-05月-28日:【整数规划】理论.
2018年-05月-27日:【多目标最优化】理论.
2018年-05月-26日:【非线性无约束最优化】理论.
2018年-05月-22日:【AFSA】人工鱼群算法
2018年-05月-21日:【IA】免疫优化算法
2018年-05月-18日:【Python】【matplotlib】img
2018年-05月-10日:【统计时序】Granger因果检验
2018年-05月-07日:贝叶斯参数估计.
2018年-05月-06日:【statsmodels】回归专题(进阶)(补全中)
2018年-05月-05日:【pyecharts】漂亮的可视化
2018年-05月-03日:【Python】爬虫.
2018年-04月-19日:【统计时序1】工具
2018年-04月-14日:【统计时序】非平稳数据的处理
2018年-04月-13日:【代数2】线性映射.
2018年-04月-09日:【代数1】线性空间.
2018年-03月-30日:【spark】DataFrame.
2018年-03月-29日:【spark】RDD.
2018年-03月-27日:【spark】数据读写.
2018年-03月-21日:【python】sqlAlchemy.
2018年-03月-20日:【SQL】select专题.
2018年-03月-01日:【Hive SQL】速查.
2018年-02月-04日:【Linux】常用命令
2018年-02月-03日:【Hive】基础知识.
2018年-01月-29日:【时间序列】总览
2018年-01月-28日:【tkinter】GUI设计
2018年-01月-21日:【SA】模拟退火算法
2018年-01月-18日:【ELM】极限学习机
2018年-01月-08日:微分方程
2018年-01月-06日:【积分变换】傅里叶变换
2018年-01月-05日:Boltzmann机
2018年-01月-01日:2018年书单(读完)
2017年-12月-20日:【LLE】理论与实现
2017年-12月-20日:【Isomap】理论与实现
2017年-12月-19日:【KernelPCA】理论与实现
2017年-12月-18日:LSTM
2017年-12月-17日:【TensorFlow2】激活函数,优化器
2017年-12月-17日:word2vec
2017年-12月-16日:【神经网络8】CNN理论与实现
2017年-12月-15日:【神经网络8】PNN
2017年-12月-14日:【神经网络8】Elman
2017年-12月-13日:【神经网络7】SOM
2017年-12月-12日:【神经网络6】竞争神经网络
2017年-12月-11日:【神经网络5】连续Hopfield
2017年-12月-10日:【神经网络4】离散Hopfield
2017年-12月-09日:【神经网络3】RBF&GRNN
2017年-12月-08日:【Matplotlib】3D视图
2017年-12月-07日:【学习笔记】神经网络(9)
2017年-12月-06日:【神经网络2】误差反向传播算法
2017年-12月-04日:【统计时序2】平稳性
2017年-12月-03日:【判别分析】理论篇
2017年-12月-02日:【Monte】马尔科夫链问题.
2017年-12月-01日:【TensorFlow1】session,变量,运算符
2017年-11月-30日:【ridge&lasso】理论与实现
2017年-11月-29日:【pandas】时间序列
2017年-11月-28日:【DBSCAN】理论与实现
2017年-11月-27日:【ICA】理论与实现
2017年-11月-26日:【Apriori】关联规则
2017年-11月-25日:【MDS】Python实现
2017年-11月-24日:【特征工程】归一化/标准化/正则化
2017年-11月-23日:Linux命令
2017年-11月-22日:【回归分析】理论与实现
2017年-11月-21日:【相关分析】理论篇
2017年-11月-13日:【CRF】理论篇
2017年-11月-11日:【HMM】理论篇
2017年-11月-10日:【GMM】理论与实现
2017年-11月-09日:【EM算法】理论篇
2017年-11月-01日:【Python】可视化方法汇总
2017年-10月-30日:【约束非线性优化】拉格朗日法与KKT.
2017年-10月-29日:【pandas】练习题
2017年-10月-28日:【假设检验】Python实现.
2017年-10月-27日:【统计推断】理论与实现
2017年-10月-26日:多元微积分
2017年-10月-25日:【Naive Bayes】理论与实现
2017年-10月-24日:【KNN】理论与实现
2017年-10月-23日:【感知机】理论简介
2017年-10月-22日:【Python】【datetime】
2017年-10月-21日:【MLP】BP神经网络实现
2017年-10月-20日:【Random Forest】理论与实现
2017年-10月-19日:数据清洗方法
2017年-10月-18日:【pandas】groupby
2017年-10月-18日:【pandas】描述统计&简单作图
2017年-10月-17日:【pandas】index&colums相关
2017年-10月-16日:【pandas】去重、填充、排序
2017年-10月-15日:【pandas】数据筛选
2017年-10月-13日:【FA】理论与实现
2017年-10月-12日:【PCA】理论与实现
2017年-10月-10日:【Python】【面向对象】类的特殊成员
2017年-10月-08日:【Python】【面向对象】字段&方法
2017年-10月-07日:【Python】【面向对象】继承&多态
2017年-10月-06日:【Python】【pickle】
2017年-10月-06日:【Bagging&Boosting】理论与实现
2017年-10月-03日:【交叉验证】介绍
2017年-10月-01日:【Python】【seaborn】绘图示例
2017年-09月-30日:【层次聚类】理论与实现
2017年-09月-29日:【聚类】汇总
2017年-09月-28日:【SVM】理论与实现
2017年-09月-27日:【Python】【matplotlib】动画
2017年-09月-26日:【Python】【matplotlib】键鼠响应事件
2017年-09月-25日:【Python】【matplotlib】绘图函数
2017年-09月-22日:【Python】【matplotlib】面向对象绘图
2017年-09月-20日:【matplotlib】设置&多图&汉字
2017年-09月-18日:【算法理论4】:hash
2017年-09月-17日:【算法理论3】:Tree
2017年-09月-12日:【最小生成树问题】Prim和Kruskal.
2017年-09月-11日:【Python】【heapq】堆结构.
2017年-09月-04日:经典数据集
2017年-08月-29日:【数值计算】若干简介.
2017年-08月-29日:【算法小题】马踏棋盘问题.
2017年-08月-29日:【算法小题】24点问题.
2017年-08月-29日:【算法小题】破碎的砝码.
2017年-08月-28日:简单的算法题小试
2017年-08月-24日:递归
2017年-08月-24日:【huffman】哈夫曼算法原理和实现
2017年-08月-23日:【Python】pymysql
2017年-08月-21日:【Mento Carlo 3】生成指定分布随机数的方法.
2017年-08月-18日:【Mento Carlo 2】随机数发生器.
2017年-08月-17日:【Mento Carlo 1】 背后的数学理论.
2017年-08月-09日:【Python】【scipy】Random Variable.
2017年-08月-08日:【趣味小题】酒鬼90%几率去酒吧.
2017年-08月-07日:【趣味小题】逻辑教授三学生问题
2017年-08月-04日:law of large numbers
2017年-08月-04日:【Python】2 examples of Chebyshev inequality.
2017年-08月-02日:概率测度简介
2017年-08月-02日:条件概率,条件期望,条件方差
2017年-07月-30日:【Real analysis(5)】连续性与拓扑
2017年-07月-23日:【Real analysis(4)】级数,巴拿赫空间与希尔伯特空间
2017年-07月-19日:【Real analysis(3)】Sequence in Metric Space.
2017年-07月-18日:【Probit】理论简介
2017年-07月-17日:【统计时序】GARCH
2017年-07月-10日:【ARIMA】理论与实现
2017年-07月-09日:【时间序列】马尔科夫法
2017年-07月-08日:【智能算法】混合智能算法
2017年-07月-08日:【描述时序】指数平滑法
2017年-07月-06日:【描述时序】趋势、季节和随机性
2017年-07月-05日:【Python】【numpy】ufunc.
2017年-07月-05日:【Python】【numpy】linalg线性代数.
2017年-07月-05日:【Python】【numpy】random随机数生成.
2017年-07月-05日:【Python】【numpy】ndarray
2017年-07月-05日:【趣味小题】随机漫步.
2017年-07月-04日:【pandas】合并数据表
2017年-07月-02日:数据分析的主要流程
2017年-06月-29日:【Real analysis(2)】集合论与拓扑学.
2017年-06月-29日:【逻辑学】连锁悖论、真值度、超赋值理论与认知主义.
2017年-06月-12日:【线性最优化】理论篇.
2017年-06月-09日:【最优化】理论篇.
2017年-06月-09日:【Kmeans】理论与实现
2017年-06月-06日:【最小二乘估计】scipy.optimize.leastsq.
2017年-06月-06日:【最优化】scipy.optimize.fmin.
2017年-06月-06日:【插值】scipy.interpolate.
2017年-06月-06日:【数值积分】scipy.integrate.
2017年-06月-06日:【解方程】scipy.optimize.solve.
2017年-06月-04日:【Real analysis(1)】范数、测度和距离.
2017年-06月-03日:【汇总】统计学知识汇总
2017年-05月-30日:sigmoid-function的林林总总
2017年-05月-26日:scipy的stats库
2017年-05月-26日:常见统计分布(2)
2017年-05月-26日:常见统计分布(1)
2017年-05月-25日:【ACA】蚁群算法
2017年-05月-23日:信息熵
2017年-05月-22日:【Decision Tree】理论与实现
2017年-05月-22日:机器学习模型汇总
2017年-05月-19日:Python特性研究.
2017年-05月-19日:【编程技巧】Matlab
2017年-05月-18日:【算法理论2】:Graph
2017年-05月-18日:【算法理论1】:复杂度
2017年-05月-15日:【pandas】读入与读出
2017年-05月-07日:【logistics】理论与实现
2017年-05月-06日:【jekyll】安装和配置.
2017年-05月-06日:【jekyll】建站日记.
2017年-05月-04日:mermaid语法速查表.
2017年-05月-03日:【Python】【算法小题集】1
2017年-05月-02日:【模型评价】理论与实现
2017年-04月-30日:【Elo模型】理论篇
2017年-04月-29日:文本分词并画词云.
2017年-04月-29日:取上三角和下三角.
2017年-04月-26日:【Python】sqlite
2017年-04月-04日:【Python】运行效率研究.
2017年-04月-01日:【神经网络1】总览
2017年-03月-18日:【Python】运算符.
2017年-03月-17日:【Python】【open】打开.
2017年-03月-16日:【Python】【str】字符串.
2017年-03月-15日:【Python】基本数据类型.
2017年-03月-10日:LaTeX语法速查表.
2017年-02月-10日:git语法速查表.
2017年-02月-02日:markdown语法速查表.
2017年-01月-28日:2017年书单(读完)
2016年-12月-01日:【PSO】粒子群算法
2016年-10月-05日:【GA】遗传算法理论与Python实现
2016年-10月-01日:【遗传算法】Matlab实现
2016年-07月-25日:【随笔】 《谁动了我的奶酪》中的粒子群算法.
2016年-07月-06日:【Matlab工具箱】十几个机器学习代码
2016年-05月-28日:【Matlab】table运行效率研究
2016年-05月-28日:【合集】【Matlab】运行效率研究
2016年-05月-25日:【Dijkstra】Matlab实现
2016年-05月-17日:收藏夹
2016年-05月-06日:【Matlab工具箱】线性神经网络
2016年-05月-06日:【Matlab工具箱】感知机
2016年-05月-06日:【Matlab工具箱】BP神经网络
2016年-05月-06日:【Matlab工具箱】REF径向基网络
2016年-05月-06日:【Matlab】自编代码实现感知机
2016年-05月-04日:【dummies】虚拟变量回归
2016年-04月-05日:【回收】【可视化方法】
2016年-04月-04日:【Matlab】恶俗古风诗歌自动生成器.
2016年-03月-01日:小事记
2016年-02月-20日:【随机模拟试验】枪手博弈问题(一).
2016年-02月-09日:【小实验】有偏分布下的均值、中位数、众数之间的关系.
2016年-01月-28日:2016年书单(读完)
2015年-12月-31日:【蒙特卡洛】DLA分形之雪花的制造.
2015年-12月-22日:【读后感】《进化论与生活》(戴维.斯隆.威尔逊).
2015年-12月-21日:【读后感】《大国空巢》.
2015年-12月-21日:【读后感】《奇点临近》.
2015年-02月-10日:刷证狂
2015年-02月-03日:【SQL】通用语法.
2015年-01月-30日:mySQL配置.
2015年-01月-29日:2015年书单(读完)
2014年-01月-01日:2014年书单(读完)
2013年-01月-01日:早于2014年的书单(读完)

利用Python爬虫,对自己的博客进行数据分析相关推荐

  1. python爬虫爬取csdn博客专家所有博客内容

    python爬虫爬取csdn博客专家所有博客内容: 全部过程采取自动识别与抓取,抓取结果是将一个博主的所有 文章存放在以其名字命名的文件内,代码如下 #coding:utf-8import urlli ...

  2. python爬虫练习5:博客阅读量助手

    目标与环境 爬取csdn博客如"http://blog.csdn.net/nima1994"的文章列表,获取阅读量等,与上次进行比较 使用eclipse+pydev编写,win10 ...

  3. Python爬虫入门教程:博客园首页推荐博客排行的秘密

    1. 前言 虽然博客园注册已经有五年多了,但是最近才正式开始在这里写博客.(进了博客园才知道这里面个个都是人才,说话又好听,超喜欢这里...)但是由于写的内容都是软件测试相关,热度一直不是很高.看到首 ...

  4. python教程是用什么博客写的-Python爬虫入门教程:博客园首页推荐博客排行的秘密...

    1. 前言 虽然博客园注册已经有五年多了,但是最近才正式开始在这里写博客.(进了博客园才知道这里面个个都是人才,说话又好听,超喜欢这里...)但是由于写的内容都是软件测试相关,热度一直不是很高.看到首 ...

  5. Python爬虫入门教程 54-100 博客园等博客网站自动评论器

    爬虫背景 爬虫最核心的问题就是解决重复操作,当一件事情可以重复的进行的时候,就可以用爬虫来解决这个问题,今天要实现的一个基本需求是完成"博客园" 博客的自动评论,其实原理是非常简单 ...

  6. Python爬虫入门教程 40-100 博客园Python相关40W博客抓取 scrapy

    爬前叨叨 第40篇博客吹响号角,爬取博客园博客~本文最终抓取到了从2010年1月1日到2019年1月7日的37W+文章,后面可以分析好多东西了呢 经常看博客的同志知道,博客园每个栏目下面有200页,多 ...

  7. python 爬虫 爬取序列博客文章列表

    python中写个爬虫真是太简单了 import urllib.request from pyquery import PyQuery as PQ# 根据URL获取内容并解码为UTF-8 def ge ...

  8. python爬虫抓取51cto博客大牛的文章保存到MySQL数据库

    脚本实现:获取51cto网站某大牛文章的url,并存储到数据库中. #!/usr/bin/env python #coding:utf-8 from bs4 import BeautifulSoup ...

  9. python爬虫——Scrapy爬取博客数据

    新建一个Scrapy文件: # -*- coding: utf-8 -*- import scrapyclass CsdnBlogSpider(scrapy.Spider):name = 'csdn_ ...

  10. 【Python】100行Python代码轻松开发个人博客

    ❝ 本文示例代码已上传至我的Github仓库https://github.com/CNFeffery/DataScienceStudyNotes ❞ 1 简介 这是我的系列教程「Python+Dash ...

最新文章

  1. Tomcat双向Https验证搭建,亲自实现与主流浏览器、Android/iOS移动客户端超安全通信
  2. textview 背景变形_西安昆明池桁架舞台背景搭建欢迎致电
  3. 升级到Windows 8.1
  4. linux中的bash shell的特性
  5. SAP UI5库文件的加载细节探讨
  6. SAP CRM的订单模型移植到S4HANA后,在订单保存功能上作出的改进
  7. .NET Core 3.0 可卸载程序集原理简析
  8. 在ASP.NET Core Web API上使用Swagger提供API文档
  9. Java基础学习总结(97)——合格的Java的架构师需要具备的技术知识
  10. 多线程—— Queue(储存进程结果)
  11. 转《js闭包与内存泄漏》
  12. 图像处理及深度学习开源数据集大全(四万字呕心沥血整理)
  13. C#自定义控件添加至工具箱的方法
  14. Springer的latex压缩包上传转不了pdf
  15. cmake清空缓存 cmake clean
  16. scandisk.exe 流氓软件的删除
  17. 移植quectel的GPS模块
  18. 5月1日起正式实施!图解《关键信息基础设施安全保护要求》
  19. Python最简单的图形编程
  20. SkipList原理及实现

热门文章

  1. 百度关键词质量度如何提高?9个质量度影响因素
  2. 手机re管理器支持android2.3的,RE管理器安卓版
  3. linux编译input驱动,Linux驱动开发之input子系统
  4. 向量的点乘与X乘以及意义
  5. uniapp chooseimage 图片缓存 (安卓端uni.chooseImage方法在拍照时,有的手机会在应用目录下的files/DCIM文件夹下产生并没有被使用的图片 )
  6. 烛照幽荧是鸿蒙时期,上古圣兽:太阳烛照与太阴幽荧
  7. [持续更新] 神经机器翻译论文汇总 Papers on Neural Machine Translation
  8. 用友U8调拨单、组装拆卸单、盘点单审核后自动审核对应的其他出入库单
  9. 文章生成器html,【转载】伪原创文章生成器源代码
  10. 清华大学计算机科学与技术专业本科生课程设置