【爬虫_数据库】Python爬取数据库内容并写入数据库

爬取博客园内容并写入数据库

import requests
from lxml import etree
import re
from python_link_mysql import MysqlObject  # 参考上一个博客# 实例化python链接数据库类
mysql = MysqlObject(host="localhost",user="root",password=None,port=3306,database="ai_data")
create_table_sql = """
create table if not exists bokeyuan(
title varchar(150),
context varchar(300),
datetime varchar(50),
reader varchar(10),
preview varchar(10))
"""
# 创建表
mysql.execute(create_table_sql)url ="https://www.cnblogs.com/mxbs/"
header = {"cookie":'_ga=GA1.2.281854837.1645530703; _gid=GA1.2.262901704.1645530703; _gat_gtag_UA_476124_1=1; __gads=ID=0c051b5943fd3333:T=1645530703:S=ALNI_MaQArJ7SiaAn4Rjc9AXaGCRWuKfaQ; .AspNetCore.Antiforgery.b8-pDmTq1XM=CfDJ8GsLOKiGtk1Au0UP1SouGdU8CMKdx0Y8rN5n5xQPJ8L6vKVdNIngzmuFO9O1sFxQ39zyOdTJsoVg97GF7LOqEQm1XeRw0keTULoZD4E0pmaSdbhWjrTGzWU9sV3qXY8t1hDWG4rgerN_5cZFvSBtZjE; Hm_lvt_866c9be12d4a814454792b1fd0fed295=1645530703,1645530726; Hm_lpvt_866c9be12d4a814454792b1fd0fed295=1645530726',"user-agent":'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/98.0.4758.102 Safari/537.36'
}response = requests.get(url=url, headers=header)
res = response.textblogs_xpath = etree.HTML(res)
blogs = blogs_xpath.xpath('//*[@id="mainContent"]/div/div')
for blog in blogs:title = blog.xpath('./div[2]/a/span/text()')if title:  # 最后一个是空列表，为了不报错，需要加上***************************************************************title = re.sub("\n","",title[0])context = re.sub("\n","",blog.xpath('./div[3]/div/text()')[0])datatime = re.findall(r'posted @ (.*)\n',blog.xpath('./div[5]/text()')[0])[0]reader = blog.xpath('./div[5]/span[1]/text()')[0]preview = blog.xpath('./div[5]/span[2]/text()')[0]# 利用sql写入数据库insert_sql = f"""insert into bokeyuan VALUES("{title}","{context}","{datatime}","{reader}","{preview}");"""mysql.execute(insert_sql)

【爬虫_数据库】Python爬取数据库内容并写入数据库相关推荐

python爬取微博热搜写入数据库_python实现爬取微博热搜存入Mysql
python爬取微博热搜存入Mysql最终的效果使用的库目标分析一:得到数据二:链接数据库总代码最终的效果废话不多少,直接上图这里可以清楚的看到,数据库里包含了日期,内容,和网站lin ...
python爬取微博热搜写入数据库_python爬虫爬取微博热搜
[实例简介] [实例截图] [核心代码] import requests #数据抓取库 from lxml import etree #数据解析库 imp ...
Python爬取豆瓣音乐存储MongoDB数据库(Python爬虫实战1)
Python爬取豆瓣音乐存储MongoDB数据库(Python爬虫实战1) 1. 爬虫设计的技术 1)数据获取,通过http获取网站的数据,如urllib,urllib2,requests等模块: ...
python爬取新闻存入数据库_python 爬取古诗文存入mysql数据库的方法
使用正则提取数据,请求库requests,看代码,在存入数据库时,报错ERROR 1054 (42S22): Unknown column 'title' in 'field list'.原来是我写s ...
python爬取二手房库存，存数据库，生成折线图（下）
python爬取二手房库存,存数据库,生成折线图(下) 数据库有了房价的多阶段价格后,即可生成折线图.默认我的数据库已经有很多天的数据了进入html页面的时候,默认加载房价走势图在vue 的mou ...
python爬取电影评分_用Python爬取猫眼上的top100评分电影
代码如下: # 注意encoding = 'utf-8'和ensure_ascii = False,不写的话不能输出汉字 import requests from requests.exception ...
使用python爬取网站数据并写入到excel中
文章目录前言一.使用python爬取网上数据并写入到excel中例子一: 例子二: 二.工具类总结前言记录一下使用python将网页上的数据写入到excel中一.使用python爬取网上 ...
python 翻译库本地库_利用python爬取并翻译GEO数据库
原标题:利用python爬取并翻译GEO数据库 GEO数据库是NCBI创建并维护的基因表达数据库,始于2000年,收录了世界各国研究机构提交的高通量基因表达数据,现芯片集数据量高达12万以上.想要从这 ...
python爬取电影网站存储于数据库_Python零基础爬虫教程（实战案例爬取电影网站资源链接）...
前言好像没法添加链接,文中的链接只能复制到浏览器查看了这篇是我写在csdn的,那里代码格式支持更好,文章链接 https://blog.csdn.net/d497465762/article/de ...
python如何爬取sci论文_利用python爬取并翻译GEO数据库
GEO数据库是NCBI创建并维护的基因表达数据库,始于2000年,收录了世界各国研究机构提交的高通量基因表达数据,现芯片集数据量高达12万以上.想要从这里面挖掘(bai piao)数据,发个sci提前 ...

【爬虫_数据库】Python爬取数据库内容并写入数据库

【爬虫_数据库】Python爬取数据库内容并写入数据库相关推荐

最新文章

热门文章