csv文件完整操作总结
csv文件完整操作总结
1.概述
csv 模块主要用于处理从电子数据表格Excel或数据库中导入到文本文件的数据,通常简称为 comma-separated value (CSV)格式因为逗号用于分离每条记录的各个字段。
2.读写操作
2.1.测试数据
创建一个test.csv
文件,复制下面内容到文件中
"Title 1","Title 2","Title 3","Title 4"
1,"a",08/18/07,"å"
2,"b",08/19/07,"∫"
3,"c",08/20/07,"ç"
2.2.读取
从 CSV 文件中读取数据,可以使用 reader() 函数来创建一个读取对象。 这个读取对象顺序处理文件的每一行,可以把它当成迭代器使用, 例如:
import csvwith open('test.csv', 'rt') as f:reader = csv.reader(f)for row in reader:print(row)
reader() 的第一个参数指源文本,在这个例子中,是一个文件,但它可以是任何可迭代对象( StringIO 实例,list 等)。第二个参数是可选的,可用于控制输入的数据如何被解析。
['Title 1', 'Title 2', 'Title 3', 'Title 4']
['1', 'a', '08/18/07', 'å']
['2', 'b', '08/19/07', '∫']
['3', 'c', '08/20/07', 'ç']
2.3.写入
写入 CSV 文件和读取它们一样简单。使用 writer() 方法创建一个写入对象,然后使用 writerow() 去输出每一行。
import csvunicode_chars = 'å∫ç'with open('testout.csv', 'wt') as f:writer = csv.writer(f)writer.writerow(('Title 1', 'Title 2', 'Title 3', 'Title 4'))for i in range(3):row = (i + 1,chr(ord('a') + i),'08/{:02d}/07'.format(i + 1),unicode_chars[i],)writer.writerow(row)print(open('testout.csv', 'rt').read())
这个例子的输出和上面读取的例子看起来有些不同,是因为这里有的值没有加引号
Title 1,Title 2,Title 3,Title 4
1,a,08/01/07,å
2,b,08/02/07,∫
3,c,08/03/07,ç
2.4.引号
写入时,默认的引用行为不同,所以之前示例中的第二和第三个字段未被引用。 要添加引号,请将 quoting 参数设置为其他引用模式。
writer = csv.writer(f, quoting=csv.QUOTE_NONNUMERIC)
在这个例子中, QUOTE_NONNUMERIC 会给所有字段值不是数字的值添加引号
"Title 1","Title 2","Title 3","Title 4"
1,"a","08/01/07","å"
2,"b","08/02/07","∫"
3,"c","08/03/07","ç"
有四种不同的引用选项,在 csv 模块中被定义为常量。
- QUOTE_ALL :无论什么类型的字段都会被引用。
- QUOTE_MINIMAL:这是默认的选项,使用指定的字符引用各字段(如果解析器被配置为相同的 dialect 和选项时,可能会让解析器在解析时产生混淆)。
- QUOTE_NONNUMERIC:引用那些不是整数或浮点数的字段。当使用读取对象时,如果输入的字段是没有引号的,那么它们会被转换成浮点数。
- QUOTE_NONE:对所有的输出内容都不加引用,当使用读取对象时,引用字符看作是包含在每个字段的值里(但在正常情况下,它们被当成定界符而被去掉)。
3.编码风格
其实没有一个标准定义这类逗号分隔值的文件,所以解析器需要很灵活,通过很多参数去控制如何解析 csv 或给其写入数据。但这并不是每个参数在写入或读取 csv 时分别传入,而是统一分组为一个 编码风格 对象。
3.1.查看编码风格
Dialect 类可以通过名字注册,因此 csv 模块调用它时不必预先知道相关的参数设置。所有注册过的编码风格列表可以通过 list_dialects() 方法查看。
import csvprint(csv.list_dialects())
标准库提供了三种编码风格,分别为: excel, excel-tabs 和 unix。 excel 编码风格用来处理默认来自 Microsoft Excel 格式的数据的,同样可用于处理来自 LibreOffice 格式的。 unix 编码风格将所有字段通过双引号引用,并用 \n 做为每条记录的分隔符。
['excel', 'excel-tab', 'unix']
3.2.创建一个编码风格
如果不使用逗号分隔字段,输入文件使用竖杠( | ),新建一个testdata.pipes
文件,复制下面内容到文件中作为测试数据。
"Title 1"|"Title 2"|"Title 3"
1|"first line
second line"|08/18/07
使用「竖杠」的编码风格,可以像使用逗号一样读取文件
import csvcsv.register_dialect('pipes', delimiter='|')with open('testdata.pipes', 'rt') as f:reader = csv.reader(f, dialect='pipes')for row in reader:print(row)
运行结果
['Title 1', 'Title 2', 'Title 3']
['1', 'first line\nsecond line', '08/18/07']
3.3.编码风格参数
编码风格指定解析或写入数据文件时使用的所有标记。下表列出了可以设定的属性,从字段的分隔方式到用于转义标记的字符。
属性 | 默认 | 含义 |
---|---|---|
delimiter | , | 字段分隔符(单字符) |
doublequote | True | 控制 quotechar 实例是否翻倍 |
escapechar | None | 用于表示转义序列的字符 |
lineterminator | \r\n | 写入时用来换行的字符 |
quotechar | " | 引用含特殊值字段的字符(一个字符) |
quoting | QUOTE_MINIMAL | 控制前面表述的引用行为 |
skipinitialspace | False | 是否在字段分隔符后忽略空格 |
这段程序演示了当使用几种不同的编码风格格式化时,相同的数据如何展示。
import csv
import syscsv.register_dialect('escaped',escapechar='\\',doublequote=False,quoting=csv.QUOTE_NONE,)
csv.register_dialect('singlequote',quotechar="'",quoting=csv.QUOTE_ALL,)quoting_modes = {getattr(csv, n): nfor n in dir(csv)if n.startswith('QUOTE_')
}TEMPLATE = '''\
Dialect: "{name}"delimiter = {dl!r:<6} skipinitialspace = {si!r}doublequote = {dq!r:<6} quoting = {qu}quotechar = {qc!r:<6} lineterminator = {lt!r}escapechar = {ec!r:<6}
'''for name in sorted(csv.list_dialects()):dialect = csv.get_dialect(name)print(TEMPLATE.format(name=name,dl=dialect.delimiter,si=dialect.skipinitialspace,dq=dialect.doublequote,qu=quoting_modes[dialect.quoting],qc=dialect.quotechar,lt=dialect.lineterminator,ec=dialect.escapechar,))writer = csv.writer(sys.stdout, dialect=dialect)writer.writerow(('col1', 1, '10/01/2010','Special chars: " \' {} to parse'.format(dialect.delimiter)))print()
运行结果
Dialect: "escaped"delimiter = ',' skipinitialspace = 0doublequote = 0 quoting = QUOTE_NONEquotechar = '"' lineterminator = '\r\n'escapechar = '\\'col1,1,10/01/2010,Special chars: \" ' \, to parseDialect: "excel"delimiter = ',' skipinitialspace = 0doublequote = 1 quoting = QUOTE_MINIMALquotechar = '"' lineterminator = '\r\n'escapechar = Nonecol1,1,10/01/2010,"Special chars: "" ' , to parse"Dialect: "excel-tab"delimiter = '\t' skipinitialspace = 0doublequote = 1 quoting = QUOTE_MINIMALquotechar = '"' lineterminator = '\r\n'escapechar = Nonecol1 1 10/01/2010 "Special chars: "" ' to parse"Dialect: "singlequote"delimiter = ',' skipinitialspace = 0doublequote = 1 quoting = QUOTE_ALLquotechar = "'" lineterminator = '\r\n'escapechar = None'col1','1','10/01/2010','Special chars: " '' , to parse'Dialect: "unix"delimiter = ',' skipinitialspace = 0doublequote = 1 quoting = QUOTE_ALLquotechar = '"' lineterminator = '\n'escapechar = None"col1","1","10/01/2010","Special chars: "" ' , to parse"
3.4.自动检测编码风格
配置一个输入文件的编码风格的最好的办法是提前知道哪种编码风格是正确的。对于那些编码风格未知的参数, Sniffer 类可用于做有效的猜测。 sniff() 方法会获取输入数据的一个样本和一个可选参数,给出可能的分隔符。
import csv
from io import StringIO
import textwrapcsv.register_dialect('escaped',escapechar='\\',doublequote=False,quoting=csv.QUOTE_NONE)
csv.register_dialect('singlequote',quotechar="'",quoting=csv.QUOTE_ALL)# 为所有已知的编码风格生成样本数据
samples = []
for name in sorted(csv.list_dialects()):buffer = StringIO()dialect = csv.get_dialect(name)writer = csv.writer(buffer, dialect=dialect)writer.writerow(('col1', 1, '10/01/2010','Special chars " \' {} to parse'.format(dialect.delimiter)))samples.append((name, dialect, buffer.getvalue()))# 猜测样本的编码风格,然后用猜测结果来解析数据。
sniffer = csv.Sniffer()
for name, expected, sample in samples:print('Dialect: "{}"'.format(name))print('In: {}'.format(sample.rstrip()))dialect = sniffer.sniff(sample, delimiters=',\t')reader = csv.reader(StringIO(sample), dialect=dialect)print('Parsed:\n {}\n'.format('\n '.join(repr(r) for r in next(reader))))
sniff() 方法返回一个包含了解析数据的参数的 Dialect 实例。结果并不一定是正确的,例如这个例子中的「escaped」。
python3 csv_dialect_sniffer.pyDialect: "escaped"
In: col1,1,10/01/2010,Special chars \" ' \, to parse
Parsed:'col1''1''10/01/2010''Special chars \\" \' \\'' to parse'Dialect: "excel"
In: col1,1,10/01/2010,"Special chars "" ' , to parse"
Parsed:'col1''1''10/01/2010''Special chars " \' , to parse'Dialect: "excel-tab"
In: col1 1 10/01/2010 "Special chars "" ' to parse"
Parsed:'col1''1''10/01/2010''Special chars " \' \t to parse'Dialect: "singlequote"
In: 'col1','1','10/01/2010','Special chars " '' , to parse'
Parsed:'col1''1''10/01/2010''Special chars " \' , to parse'Dialect: "unix"
In: "col1","1","10/01/2010","Special chars "" ' , to parse"
Parsed:'col1''1''10/01/2010''Special chars " \' , to parse'
csv文件完整操作总结相关推荐
- python csv修改文件_Python实例:对CSV文件的操作
来自PythonABC.org 老师的课程很好,但是每个视频都蛮长的,听着听着就有些晕乎,所以根据视频自己整理了一下,以便记录 用Python来实现CSV文件的一些常用操作 请注意:文件路径需要根据实 ...
- Python 基础 CSV文件的操作
1.CSV文件的打开 CSV文件可以使用open命令打开,但是一定要用close命令关闭. 也可以用with语句打开,操作结束后,自动关闭. with open(文件路径字符串,模式字符) as 文件 ...
- python创建一个csv文件_python操作csv文件
1 importcsv2 data =[3 #使用数字和字符串的数字都可以 4 ("ken","mafe",23),5 ("Tame",&q ...
- [Python从零到壹] 三.语法基础之文件操作、CSV文件读写及面向对象
欢迎大家来到"Python从零到壹",在这里我将分享约200篇Python系列文章,带大家一起去学习和玩耍,看看Python这个有趣的世界.所有文章都将结合案例.代码和作者的经验讲 ...
- 文本操作的相关概念和方法+pickle序列化+csv文件操作+操作系统命令(os和os.path)+shutil模块+zipfile模块+递归算法打印目录树
目录 一.文件操作 1.文本文件和二进制文件 2.文件操作相关模块概述 3.文件文本的写入 4.中文乱码问题的解决 5.close()关闭文件流--try异常管理 6.关闭流要点:_with上下文管理 ...
- 使用.NET类库操作CSV文件
CSV文件,是指使用逗号对数据进行分割的文本数据文件.昨天有人提出了一个问题,就是怎么对CSV文件进行操作,并且给出了一个类的定义.我根据这个类定义实现了一个能够读些CSV文件的类. 由于涉及到了字符 ...
- Python之CSV文件操作
前言 这几年一直在it行业里摸爬滚打,一路走来,不少总结了一些python行业里的高频面试,看到大部分初入行的新鲜血液,还在为各样的面试题答案或收录有各种困难问题 于是乎,我自己开发了一款面试宝典,希 ...
- day08-文本及csv文件操作
day08 文本文件的操作及csv文件的操作 一.文本文件的操作 1.1open()和 close()方法 将数据从瞬时状态转换为持久状态 f = open(参数1,参数2,参数3-) - 打开文件, ...
- Python三大神器(迭代器、生成器、装饰器)和csv文件操作
三大神器和csv文件操作 迭代器 1.什么是迭代器(iter) 迭代器是容器型数据类型 特点: 无法通过打印迭代器查看元素.也无法统计元素个数 需要使用元素的时候必须将元素从迭代器中取出,取出以后该元 ...
最新文章
- 创建cordova项目
- 计算机语言平均数怎么算,使用python怎么求三个数的平均值
- linux将文件下载到本地windows,XSHELL下直接下载文件到本地(Windows)
- 又一个直播平台走到终点?官网无法访问疑似停服,主播讨要薪资
- numpy-ufunc函数
- 我的第一个全栈 Web 应用程序
- MariaDB5.5.32 绿色版下载安装一条龙
- effective Java chapter 2创建和销毁对象
- Flash MX 2004实例制作视频教程:图片切换效果
- 水晶报表CrystalReports很强大也很简单!
- CxImage使用介绍
- 数字地-DGND与模拟-AGND地的大学问
- 微信小程序之直播功能使用详解
- HTML YouTube 视频
- 6.0系统xposed框架安装流程
- eclipse4.6安装tomcate插件 Eclipse4.6(neno)配置Tomcat插件的两种方式
- 信息安全体系建设☞流量可视化(2)sflow
- [1]: the default discovery settings are unsuitable for production use; at least one of [discovery.se
- 全局莫兰指数_关于Moran指数的一些思考
- java去除音频无声_如何给视频消音 把视频中的声音去掉只留视频画面
热门文章
- 简单聊一聊手机端口的识别协议-BC1.2
- GDKOI2016 魔卡少女
- 【备忘】mysql select sleep(1)
- 初识TradingView(K先图)图表工具
- 【源码+图片素材】Java开发经典游戏飞翔的小鸟_Java游戏项目Flappy Bird像素鸟游戏_Java小游戏_Java初级项目_Java课程设计项目
- openresty 概述
- Resharper使用技巧
- 高清立体声千周测试信号的生成
- 点云生成-PointFlow: 3D Point Cloud Generation with Continuous Normalizing Flows
- linux环境下禅道的安装使用