文章目录

  • 完整代码
  • 时间转化和提取
  • 各种对象类型转换
  • 时间序列
  • 类属性
  • 数据转换

完整代码

import jieba.analyseimport jieba.posseg as pseg
from wordcloud import WordCloud
import xlsxwriter
# encoding=gbk
import xlsxwriterf = open('E:/data/xieyangteng/review.txt', 'r', encoding='utf-8')
s = f.read()
print(type(s))# print(s)
def cut_sentences(content):  # 实现分句的函数,content参数是传入的文本字符串# 这个结束符号可以加中文的 ,   但是暂时没有加end_flag = ['?', '!', '.', '?', '!', '。']  # 结束符号,包含中文和英文的content_len = len(content)sentences = []  # 存储每一个句子的列表tmp_char = ''for idx, char in enumerate(content):tmp_char += char  # 拼接字符if (idx + 1) == content_len:  # 判断是否已经到了最后一位sentences.append(tmp_char.strip().replace('\ufeff', ''))breakif char in end_flag:  # 判断此字符是否为结束符号# 再判断下一个字符是否为结束符号,如果不是结束符号,则切分句子next_idx = idx + 1if not content[next_idx] in end_flag:sentences.append(tmp_char.strip().replace('\ufeff', ''))tmp_char = ''return sentences  # 函数返回一个包含分割后的每一个完整句子的列表sentence_list = cut_sentences(s)# 导入Excel
# 一:创建工作簿
workbook = xlsxwriter.Workbook('xieyangteng.xlsx')  # 创建一个excel文件# 二:创建工作表
worksheet1 = workbook.add_worksheet('test-sheet1')  # 在文件中创建一个名为test-sheet1的sheet,不加名字默认为sheet1
worksheet2 = workbook.add_worksheet()  # Sheet2
worksheet3 = workbook.add_worksheet('test-sheet2')
worksheet4 = workbook.add_worksheet()  # Sheet4# 三:设置单元格的值worksheet1.write('A1', '对话语句')  # 在A1单元格写上语句
worksheet1.write('B1', '分类的类别')  # 在B1单元格写上要分类的label# 使用行列方式,下标从0开始
j = 1
for i in sentence_list:worksheet1.write(j, 0, i)  # 第3行第1列(即A3) 写入100worksheet1.set_column(j, 0, 120)worksheet1.set_column(j, 1, 20)print("success!")j += 1workbook.close()

时间转化和提取

00:01:30,050 --> 00:01:44,280
这样一个字符串,如何提取出时间序列。
泪目终于找到我要的代码了开心哭了。

这一串是正则匹配时间提取的核心技术。

各种对象类型转换

参考这个

时间序列

现在成功切分出了
start time 和 end time
start time 00:00:00
end time 00:00:02
格式是这个样子的,
但是 如何计算
参考正则匹配时间序列:
可以学学人家的代码写作思路。

类属性

初始化属性和不初始化属性的区别,
可以在这篇博客 体会一下

数据转换

提取的转为时间的字符串,保存为float 保留

a = 12.3456
a1 = round(a,2) # 保留小数点后两位
a2 = round(a,3) # 保留小数点后三位
print(a1)
print(a2)

时间分开合并的时候有报错

int() argument must be a string, a bytes-like object or a number, not 'built

我这打印过了 都是 str类型00:00:00
分了三个 每个都是str类型
先转成 int()之后在计算,成功解决!

python切分TXT的句子到Excel(复制可用)——以及python切分句子遇到的问题汇总相关推荐

  1. 使用Python处理百万数据量的Excel文件:删除列、切分换行、替换去重

    使用Excel或WPS打开几十万.几百万行数据的文件十分缓慢,进行数据处理很容易卡死崩溃.这几天在处理一份数据文件的时候我尝试边学边用Python,获得了预想的效果. 记录一下处理过程中学到的知识点: ...

  2. python 读取txt文件、转为json文件_使用python操作json文本文件

    使用python读写文本文件内容时,我们知道如果文本文件里的内容无规律,那么修改起来比较麻烦.但是如果文本文件存储是有规律的,比如JSON格式,在利用python内置的函数把JSON格式的数据转成py ...

  3. python通过txt文件将指定图片复制到另一个文件夹

    要求: 存在一个文件夹A,里面有若干图片,存在一个文件夹C,里面有两个txt文件,A.txt里面是全部A中图片名称,B.txt里面是需要复制到文件夹C中的图片名称. 文件夹: 代码: import s ...

  4. python将txt文件批量导入excel

    txtname = 'G:/202008.txt'#txt路径 excelname = 'C:/Users/123/Desktop/202008.xls'#要保存的excel路径fopen = ope ...

  5. python 将txt 表格转化为excel

    import pandas as pddata = pd.read_table('horseColicTraining.txt') data.columns=list(range(data.shape ...

  6. python删除txt文件第三行_真香!Python十大常用文件操作,轻松办公

    日常对于批量处理文件的需求非常多,用Python写脚本可以非常方便地实现,但在这过程中难免会和文件打交道,第一次做会有很多文件的操作无从下手,只能找度娘. 本篇文章整理了10个Python中最常用到的 ...

  7. python在txt文件中提取段落_如何使用python从.txt文件中提取段落?

    我需要从一个.txt文件中提取段落,其中每个段落都以字母摘要开头,如下所示.在 文摘:大规模多输入多输出天线系统.毫米波通信和超密集网络被广泛认为是 促进5G开发和部署的三大关键因素 系统.我们提出了 ...

  8. python读取txt文件并分割成列表_在python中读取文本文件并将其拆分为单个单词

    给定此文件:$ cat words.txt line1 word1 word2 line2 word3 word4 line3 word5 word6 如果一次只需要一个单词(忽略文件中空格和换行符的 ...

  9. python资源论坛_五个亲测可用的Python论坛类网站开源框架

    1.LBForum LBForum是用django开发的论坛系统,LBForum主要注重部署的方便性和易用性,功能方面目前还比较简单. LBForum的开发尽量遵照Django可复用app原则,因此即 ...

  10. python读取txt文件的行数_python读取txt文件符合条件的行数-女性时尚流行美容健康娱乐mv-ida网...

    女性时尚流行美容健康娱乐mv-ida网 mvida时尚娱乐网 首页 美容 护肤 化妆技巧 发型 服饰 健康 情感 美体 美食 娱乐 明星八卦 首页 > 高级搜索 python 关系网图 pyth ...

最新文章

  1. 肠道微生物的研究不复杂,不信看这篇Science
  2. pythonsys模块介绍_sys 模块介绍 - Clarkhedi的个人空间 - OSCHINA - 中文开源技术交流社区...
  3. C/S架构和B/S架构的概念和区别
  4. 大话synchronize底层原理
  5. python windows 安装scrapy_Windows下安装Scrapy
  6. 查看mysql数据用户权限_查看MYSQL数据库中所有用户及拥有权限
  7. 【Flink】Flink AscendingTimestampExtractor - Timestamp monotony violated
  8. RedHat 5.4+ Postfix +Extmail实现基于虚拟用户的邮件系统(三)
  9. 如何快速教妹子学Python?这个方法火了!
  10. 常用机器学习算法汇总
  11. 在Ubuntu 16.04 使用命令行安装Nvidia CUDA-9.0以及cudnn7
  12. 电脑win10黑苹果双系统
  13. Tecplot RS 2020 R1安装教程及新功能
  14. python做var模型_python中VAR模型的条件预测
  15. win7设置护眼模式
  16. 工业以太网与现场总线技术各自优缺点和应用
  17. Flink重启策略Restart-Strategy
  18. Debian虚拟机安装
  19. 携程和12306解绑
  20. 各种Android实现边框

热门文章

  1. 思科交换机配置试题_思科交换机基本配置实例讲解(123)
  2. 【信息安全案例】——信息内容安全(学习笔记)
  3. linux火狐浏览器49.0安装教程,火狐浏览器v49.0.0 正式版以及长期版本(转载)
  4. 5 个骚气满满的项目,诞生了!
  5. 怎么打开红米手机的电池后盖
  6. 你为什么还不够优秀?
  7. word如何弄成两竖列_word文档如何将数字竖列
  8. 爬虫|用Python小数据分析bilibili鬼畜巨头波澜哥(●'◡'●)
  9. 编译安装redis报错zmalloc.h
  10. C语言,进制转换之二进制转八进制,完整代码