【爬虫_数据库】Python爬取数据库内容并写入数据库
爬取博客园内容并写入数据库
import requests
from lxml import etree
import re
from python_link_mysql import MysqlObject # 参考上一个博客# 实例化python链接数据库类
mysql = MysqlObject(host="localhost",user="root",password=None,port=3306,database="ai_data")
create_table_sql = """
create table if not exists bokeyuan(
title varchar(150),
context varchar(300),
datetime varchar(50),
reader varchar(10),
preview varchar(10))
"""
# 创建表
mysql.execute(create_table_sql)url ="https://www.cnblogs.com/mxbs/"
header = {"cookie":'_ga=GA1.2.281854837.1645530703; _gid=GA1.2.262901704.1645530703; _gat_gtag_UA_476124_1=1; __gads=ID=0c051b5943fd3333:T=1645530703:S=ALNI_MaQArJ7SiaAn4Rjc9AXaGCRWuKfaQ; .AspNetCore.Antiforgery.b8-pDmTq1XM=CfDJ8GsLOKiGtk1Au0UP1SouGdU8CMKdx0Y8rN5n5xQPJ8L6vKVdNIngzmuFO9O1sFxQ39zyOdTJsoVg97GF7LOqEQm1XeRw0keTULoZD4E0pmaSdbhWjrTGzWU9sV3qXY8t1hDWG4rgerN_5cZFvSBtZjE; Hm_lvt_866c9be12d4a814454792b1fd0fed295=1645530703,1645530726; Hm_lpvt_866c9be12d4a814454792b1fd0fed295=1645530726',"user-agent":'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/98.0.4758.102 Safari/537.36'
}response = requests.get(url=url, headers=header)
res = response.textblogs_xpath = etree.HTML(res)
blogs = blogs_xpath.xpath('//*[@id="mainContent"]/div/div')
for blog in blogs:title = blog.xpath('./div[2]/a/span/text()')if title: # 最后一个是空列表,为了不报错,需要加上***************************************************************title = re.sub("\n","",title[0])context = re.sub("\n","",blog.xpath('./div[3]/div/text()')[0])datatime = re.findall(r'posted @ (.*)\n',blog.xpath('./div[5]/text()')[0])[0]reader = blog.xpath('./div[5]/span[1]/text()')[0]preview = blog.xpath('./div[5]/span[2]/text()')[0]# 利用sql写入数据库insert_sql = f"""insert into bokeyuan VALUES("{title}","{context}","{datatime}","{reader}","{preview}");"""mysql.execute(insert_sql)
【爬虫_数据库】Python爬取数据库内容并写入数据库相关推荐
- python爬取微博热搜写入数据库_python实现爬取微博热搜存入Mysql
python爬取微博热搜存入Mysql最终的效果 使用的库 目标分析 一:得到数据 二:链接数据库 总代码 最终的效果 废话不多少,直接上图 这里可以清楚的看到,数据库里包含了日期,内容,和网站lin ...
- python爬取微博热搜写入数据库_python爬虫爬取微博热搜
[实例简介] [实例截图] [核心代码] import requests #数据抓取库 from lxml import etree #数据解析库 imp ...
- Python爬取豆瓣音乐存储MongoDB数据库(Python爬虫实战1)
Python爬取豆瓣音乐存储MongoDB数据库(Python爬虫实战1) 1. 爬虫设计的技术 1)数据获取,通过http获取网站的数据,如urllib,urllib2,requests等模块: ...
- python爬取新闻存入数据库_python 爬取古诗文存入mysql数据库的方法
使用正则提取数据,请求库requests,看代码,在存入数据库时,报错ERROR 1054 (42S22): Unknown column 'title' in 'field list'.原来是我写s ...
- python爬取二手房库存,存数据库,生成折线图(下)
python爬取二手房库存,存数据库,生成折线图(下) 数据库有了房价的多阶段价格后,即可生成折线图.默认我的数据库已经有很多天的数据了 进入html页面的时候,默认加载房价走势图 在vue 的mou ...
- python爬取电影评分_用Python爬取猫眼上的top100评分电影
代码如下: # 注意encoding = 'utf-8'和ensure_ascii = False,不写的话不能输出汉字 import requests from requests.exception ...
- 使用python爬取网站数据并写入到excel中
文章目录 前言 一.使用python爬取网上数据并写入到excel中 例子一: 例子二: 二.工具类 总结 前言 记录一下使用python将网页上的数据写入到excel中 一.使用python爬取网上 ...
- python 翻译库本地库_利用python爬取并翻译GEO数据库
原标题:利用python爬取并翻译GEO数据库 GEO数据库是NCBI创建并维护的基因表达数据库,始于2000年,收录了世界各国研究机构提交的高通量基因表达数据,现芯片集数据量高达12万以上.想要从这 ...
- python爬取电影网站存储于数据库_Python零基础爬虫教程(实战案例爬取电影网站资源链接)...
前言 好像没法添加链接,文中的链接只能复制到浏览器查看了 这篇是我写在csdn的,那里代码格式支持更好,文章链接 https://blog.csdn.net/d497465762/article/de ...
- python如何爬取sci论文_利用python爬取并翻译GEO数据库
GEO数据库是NCBI创建并维护的基因表达数据库,始于2000年,收录了世界各国研究机构提交的高通量基因表达数据,现芯片集数据量高达12万以上.想要从这里面挖掘(bai piao)数据,发个sci提前 ...
最新文章
- Python多线程(3)——Queue模块
- P1803 凌乱的yyy / 线段覆盖(选择不相交区间,贪心)
- MySQL 怎么给字符串字段加索引?
- 红宝书阅读笔记——缓冲区对象
- 小工匠聊架构-超高并发秒杀系统设计 03_热点数据的处理
- 辗转相除法(欧几里得算法)求 最大公约数与最小公倍数+推论与证明。
- JSF简单Ajax示例
- 西瓜书+实战+吴恩达机器学习(十二)监督学习之AdaBoost
- OAuth2.0 使用 JWT令牌
- Spring Boot的优点入门
- word20161219
- vscode java
- Center7.8服务器配置Tor服务和obfs4
- 校验子解码问题(Syndrome Decoding)
- [RK3399][Android7.1.1]系统强制App横屏显示
- 为何苹果赚取智能手机市场大部分利润?
- SVG格式转json文件
- DHCP协议说明及报文分析
- 人类高质量代码解约瑟夫环问题
- 纯白的月光石(《月光石》中文版)