爬取博客园内容并写入数据库

import requests
from lxml import etree
import re
from python_link_mysql import MysqlObject  # 参考上一个博客# 实例化python链接数据库类
mysql = MysqlObject(host="localhost",user="root",password=None,port=3306,database="ai_data")
create_table_sql = """
create table if not exists bokeyuan(
title varchar(150),
context varchar(300),
datetime varchar(50),
reader varchar(10),
preview varchar(10))
"""
# 创建表
mysql.execute(create_table_sql)url ="https://www.cnblogs.com/mxbs/"
header = {"cookie":'_ga=GA1.2.281854837.1645530703; _gid=GA1.2.262901704.1645530703; _gat_gtag_UA_476124_1=1; __gads=ID=0c051b5943fd3333:T=1645530703:S=ALNI_MaQArJ7SiaAn4Rjc9AXaGCRWuKfaQ; .AspNetCore.Antiforgery.b8-pDmTq1XM=CfDJ8GsLOKiGtk1Au0UP1SouGdU8CMKdx0Y8rN5n5xQPJ8L6vKVdNIngzmuFO9O1sFxQ39zyOdTJsoVg97GF7LOqEQm1XeRw0keTULoZD4E0pmaSdbhWjrTGzWU9sV3qXY8t1hDWG4rgerN_5cZFvSBtZjE; Hm_lvt_866c9be12d4a814454792b1fd0fed295=1645530703,1645530726; Hm_lpvt_866c9be12d4a814454792b1fd0fed295=1645530726',"user-agent":'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/98.0.4758.102 Safari/537.36'
}response = requests.get(url=url, headers=header)
res = response.textblogs_xpath = etree.HTML(res)
blogs = blogs_xpath.xpath('//*[@id="mainContent"]/div/div')
for blog in blogs:title = blog.xpath('./div[2]/a/span/text()')if title:  # 最后一个是空列表,为了不报错,需要加上***************************************************************title = re.sub("\n","",title[0])context = re.sub("\n","",blog.xpath('./div[3]/div/text()')[0])datatime = re.findall(r'posted @ (.*)\n',blog.xpath('./div[5]/text()')[0])[0]reader = blog.xpath('./div[5]/span[1]/text()')[0]preview = blog.xpath('./div[5]/span[2]/text()')[0]# 利用sql写入数据库insert_sql = f"""insert into bokeyuan VALUES("{title}","{context}","{datatime}","{reader}","{preview}");"""mysql.execute(insert_sql)

【爬虫_数据库】Python爬取数据库内容并写入数据库相关推荐

  1. python爬取微博热搜写入数据库_python实现爬取微博热搜存入Mysql

    python爬取微博热搜存入Mysql最终的效果 使用的库 目标分析 一:得到数据 二:链接数据库 总代码 最终的效果 废话不多少,直接上图 这里可以清楚的看到,数据库里包含了日期,内容,和网站lin ...

  2. python爬取微博热搜写入数据库_python爬虫爬取微博热搜

    [实例简介] [实例截图] [核心代码] import requests                #数据抓取库 from lxml import etree         #数据解析库 imp ...

  3. Python爬取豆瓣音乐存储MongoDB数据库(Python爬虫实战1)

    Python爬取豆瓣音乐存储MongoDB数据库(Python爬虫实战1) 1.  爬虫设计的技术 1)数据获取,通过http获取网站的数据,如urllib,urllib2,requests等模块: ...

  4. python爬取新闻存入数据库_python 爬取古诗文存入mysql数据库的方法

    使用正则提取数据,请求库requests,看代码,在存入数据库时,报错ERROR 1054 (42S22): Unknown column 'title' in 'field list'.原来是我写s ...

  5. python爬取二手房库存,存数据库,生成折线图(下)

    python爬取二手房库存,存数据库,生成折线图(下) 数据库有了房价的多阶段价格后,即可生成折线图.默认我的数据库已经有很多天的数据了 进入html页面的时候,默认加载房价走势图 在vue 的mou ...

  6. python爬取电影评分_用Python爬取猫眼上的top100评分电影

    代码如下: # 注意encoding = 'utf-8'和ensure_ascii = False,不写的话不能输出汉字 import requests from requests.exception ...

  7. 使用python爬取网站数据并写入到excel中

    文章目录 前言 一.使用python爬取网上数据并写入到excel中 例子一: 例子二: 二.工具类 总结 前言 记录一下使用python将网页上的数据写入到excel中 一.使用python爬取网上 ...

  8. python 翻译库本地库_利用python爬取并翻译GEO数据库

    原标题:利用python爬取并翻译GEO数据库 GEO数据库是NCBI创建并维护的基因表达数据库,始于2000年,收录了世界各国研究机构提交的高通量基因表达数据,现芯片集数据量高达12万以上.想要从这 ...

  9. python爬取电影网站存储于数据库_Python零基础爬虫教程(实战案例爬取电影网站资源链接)...

    前言 好像没法添加链接,文中的链接只能复制到浏览器查看了 这篇是我写在csdn的,那里代码格式支持更好,文章链接 https://blog.csdn.net/d497465762/article/de ...

  10. python如何爬取sci论文_利用python爬取并翻译GEO数据库

    GEO数据库是NCBI创建并维护的基因表达数据库,始于2000年,收录了世界各国研究机构提交的高通量基因表达数据,现芯片集数据量高达12万以上.想要从这里面挖掘(bai piao)数据,发个sci提前 ...

最新文章

  1. Python多线程(3)——Queue模块
  2. P1803 凌乱的yyy / 线段覆盖(选择不相交区间,贪心)
  3. MySQL 怎么给字符串字段加索引?
  4. 红宝书阅读笔记——缓冲区对象
  5. 小工匠聊架构-超高并发秒杀系统设计 03_热点数据的处理
  6. 辗转相除法(欧几里得算法)求 最大公约数与最小公倍数+推论与证明。
  7. JSF简单Ajax示例
  8. 西瓜书+实战+吴恩达机器学习(十二)监督学习之AdaBoost
  9. OAuth2.0 使用 JWT令牌
  10. Spring Boot的优点入门
  11. word20161219
  12. vscode java
  13. Center7.8服务器配置Tor服务和obfs4
  14. 校验子解码问题(Syndrome Decoding)
  15. [RK3399][Android7.1.1]系统强制App横屏显示
  16. 为何苹果赚取智能手机市场大部分利润?
  17. SVG格式转json文件
  18. DHCP协议说明及报文分析
  19. 人类高质量代码解约瑟夫环问题
  20. 纯白的月光石(《月光石》中文版)

热门文章

  1. 文件压缩、解压 (ZipTool.exe)
  2. 乐高幻影忍者系列诞生十周年,推出复刻经典套装与时尚联名系列
  3. Echarts 快速上手柱状图
  4. 苹果浏览器样式重置submit
  5. sysinfo函数使用方法
  6. MSSQL 的QUOTENAME函数
  7. Unity Shader凹凸映射
  8. 输出《荷塘月色》的歌词
  9. Hibernate配置Oracle
  10. 蓝桥—回文日期(c语言)