马上年底了,又到了开始各种总结、述职的时候,虽然每年总结都差不多,但对于我这种文字功底差的人来说写东西无从下手,正好利用最近学的python爬虫知识

源代码:

"""
-*- coding: utf-8 -*-
文件名:爬取好范文网文章.py
作者:nobody
环境: PyCharm,Python 3.9
日期:2022/8/8 21:42
功能:爬取 好范文网 文章,并下载到本地保存为word公文格式
"""
import time
import random
import requests
import re
from bs4 import BeautifulSoup
from w3lib.html import remove_tags
from docx.oxml.ns import qn
from docx import Document
from docx.enum.text import WD_PARAGRAPH_ALIGNMENT  # 设置对象居中、对齐等。
from docx.shared import Inches  # 设置图像大小
from docx.shared import Pt  # 设置像素、缩进等
from docx.shared import RGBColor  # 设置字体颜色# 爬取网页
def get_url(URL, SIGN):headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2228.0 Safari/537.36'}html = requests.get(URL, headers=headers)html.encoding = 'utf-8'soup = BeautifulSoup(html.text, 'lxml')# 根据标签定位text 

利用Python爬取年终总结等文字,并保存为公文格式的word文档相关推荐

  1. python爬取某人所有微博_Python爬取博客的所有文章并存为带目录的word文档(实例67)

    看上博客上一个作者的文章,想一次性下载到一个word文件中,并且可以设置好目录,通过word的"导航窗格"快速定位单篇文章.一劳永逸,从此再也不用去博客上一篇一篇地翻阅了.整理一下 ...

  2. python 翻译库本地库_利用python爬取并翻译GEO数据库

    原标题:利用python爬取并翻译GEO数据库 GEO数据库是NCBI创建并维护的基因表达数据库,始于2000年,收录了世界各国研究机构提交的高通量基因表达数据,现芯片集数据量高达12万以上.想要从这 ...

  3. 利用python爬取2019-nCoV确诊数据并制作pyecharts可视化地图

    1.本章利用python爬取2019-nCoV确诊数据并制作pyecharts可视化地图: 2.主要内容为绘制出中国各省疫情数据,疫情数据从四个维度进行可视化展示:累积确诊人数.现存确诊人数.治愈人数 ...

  4. 利用Python爬取全国250m精度的人口数据(GeoQ)、房价数据和公交站(线路)等数据

    前言 文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者: 中原百科 GIS大师兄 PS:如有需要Python学习资料的小伙伴可 ...

  5. python 怎么爬桌软件数据_如何利用Python爬取并分析红岭创投的数据?

    第一步:爬取数据 通过 selenium + Firefox 的无头模式将需要的数据爬取出来,代码实现不在赘述,详细步骤可查看我的上一篇图文(如何利用Python爬取网易新闻), 由于 seleniu ...

  6. 利用python爬取东方财富网股吧评论并进行情感分析(一)

    利用python爬取东方财富网股吧评论(一) python-东方财富网贴吧文本数据爬取 分享一下写论文时爬数据用到的代码,有什么问题或者改善的建议的话小伙伴们一起评论区讨论.涉及内容在前人的研究基础之 ...

  7. python爬取股票信息_利用Python爬取网易上证所有股票数据(代码

    利用Python爬取网易上证所有股票数据(代码 发布时间:2018-04-14 17:30, 浏览次数:1261 , 标签: Python import urllib.request import r ...

  8. 利用python爬取豆瓣电影top250

    利用python爬取豆瓣电影top250: 注:本内容只是作为个人学习记录 1.业务分析 进入网页https://movie.douban.com/top250 可以看见每部电影都呈现在眼前,点击电影 ...

  9. 利用python爬取丁香医生上新型肺炎数据,并下载到本地,附带经纬度信息

    新增:国外疫情网站介绍 已更新:爬取国外疫情数据 已更新:新型肺炎历史数据下载 2020年3月27日补充: 制作了一个全球肺炎数据查询下载网站,效果如下: 访问地址:http://119.3.227. ...

最新文章

  1. android webview java_Android Webview中调用本地java方法
  2. 牛津教授揭秘AI革命及其前沿进展
  3. realloc函_realloc(重新分配内存空间的函数)
  4. js 数据结构中邻接矩阵的图的直观表示
  5. 【转】一个安全测试的CheckList
  6. java声明_Java继续声明
  7. 知识蒸馏方法的演进历史综述
  8. 【赏析】15个非常棒的使用CSS3的设计组合
  9. UI设计中的图标分为哪些类型?
  10. 项目日报模板_能力再强也要常向领导汇报工作,掌握万能模板,不做职场小透明...
  11. 概率论 方差公式_概率论复习:重要概念和公式
  12. 虚拟机怎样使用代理服务器上网,VMware虚拟机使用NAT模式上网的方法
  13. 非线性最小二乘法拟合 matlab,最小二乘法拟合非线性函数及其Matlab/Excel 实现(转)...
  14. 编译liteos(ubuntu)
  15. [技术评论]龙芯电脑
  16. ffmpeg批量转换m4a为mp3
  17. VLC web插件 js接口
  18. 计算机博士论文 评阅意见,博士论文评阅意见
  19. DCC888 :Instruction Level Parallelism
  20. CSS:text-decoration文本装饰

热门文章

  1. 性能优化与压测引擎一:压测框架gatling
  2. 自组织神经网络SOM原理——结合例子MATLAB实现
  3. 【华为OD机试真题】完美走位(python)100%通过率 超详细代码注释 代码解读
  4. 经济学和企业相关背景
  5. 华为云DevCloud让软件开发更加高效智能, DevOps不止于美
  6. 2021-08-11hit-oslab2系统调用
  7. Mysql无法启动报错19884 ExecStart=/usr/sbin/mysqld --daemonize --pid-file=/var/run/mysqld/mysqld.pid
  8. 9月5日关键点检测学习笔记——人体骨骼点检测:自顶向下
  9. 样本数据异常值处理的三种方法
  10. linux dup跨进程使用,linux下dup/dup2函数的用法