python如何收集数据_用Python做数据清洗:采集几百个xls或csv中的数据并汇总
需求:从几百个CSV或xls中读取某些重要数据,并汇总在一个单独的excel中进行数据分析
Python实现:
# coding:utf-8
# File Name: csv_data_sort
# Description :
# Author : micro
# Date: 2019/9/17
import glob, os
import csv
import xlrd, xlwt
from xlutils.copy import copy
def run():
# 第一步 遍历读取文件夹,获取每个csv的路径
path = r'C:\Users\micro\Desktop\2018流量'
files = glob.glob(os.path.join(path, "*.csv"))
# 第二步 分别遍历每个文件,并获取所需要网站的UV
all_result = []
for file in files:
csvFile = open(file, "r")
reader = csv.reader(csvFile)
for item in reader:
if (len(item) > 1):
if (item[0] == "www.baidu.com"):
xx1 = item[2]
if (item[0] == "www.baidu.com"):
xx2 = item[2]
if (item[0] == 'www.baidu.com'):
xx3 = item[2]
if (item[0] == "www.baidu.com"):
xx4 = item[2]
if (item[0] == "www.baidu.com"):
xx5 = item[2]
if (item[0] == "www.baidu.com"):
xx6 = item[2]
result = [xx1,xx2,xx3,xx4,xx5,xx6]
all_result.append(result)
write_excel_xls_append(r"C:\Users\micro\Desktop\2018.xls", all_result)
def write_excel_xls_append(path, value):
index = len(value) # 获取需要写入数据的行数
workbook = xlrd.open_workbook(path) # 打开工作簿
sheets = workbook.sheet_names() # 获取工作簿中的所有表格
worksheet = workbook.sheet_by_name(sheets[0]) # 获取工作簿中所有表格中的的第一个表格
rows_old = worksheet.nrows # 获取表格中已存在的数据的行数
new_workbook = copy(workbook) # 将xlrd对象拷贝转化为xlwt对象
new_worksheet = new_workbook.get_sheet(0) # 获取转化后工作簿中的第一个表格
for i in range(0, index):
for j in range(0, len(value[i])):
new_worksheet.write(i + rows_old, j, value[i][j]) # 追加写入数据,注意是从i+rows_old行开始写入
new_workbook.save(path) # 保存工作簿
print("xls格式表格【追加】写入数据成功!")
if __name__ == '__main__':
run()
python如何收集数据_用Python做数据清洗:采集几百个xls或csv中的数据并汇总相关推荐
- python如何收集数据库_利用Python操作mysql数据库
本文主要讲解如何利用python中的pymysql库来对mysql数据库进行操作 大家在转行项目中也可以加入这一步操作,提高逼格的同时还能简化流程 正文开始: 先看一下最常见的操作:从数据库中sele ...
- python制作pdf教程_学以致用:Python爬取廖大Python教程制作pdf!
学以致用:Python爬取廖大Python教程制作pdf! python-tutorial-pdf 当我学了廖大的Python教程后,感觉总得做点什么,正好自己想随时查阅,于是就开始有了制作PDF这个 ...
- python绘制基因结构图_使用Python绘制GWAS分析中的曼哈顿图和QQ图
[前言]其实这篇文章是为了简单介绍一下geneview的用法,它是一个Python高级库,建立在matplotlib的基础之上,专门用于基因组数据的可视化,目的是为了使创建高大上(精致)的基因组数据图 ...
- python画圆形螺旋线_【Python基础】利用 Python 搞定精美网络图!
作者:叶庭云 编辑:Lemon 出品:Python数据之道 一.NetworkX 概述NetworkX 是一个用 Python 语言开发的图论与复杂网络建模工具,内置了常用的图与复杂 ...
- python读取xls数据_python_从.mat与.xls类型文件中读取数据
从.xls类型文件中读取数据 在写机器学习算法的时候从UCI下载了一些数据,但是格式不是csv,而是.txt/.data,可以先用excel打开数据,在excel中将数据进行分列后导入python进行 ...
- 批量修改数据_#泰Q头条#065期 四步搞定Excel表中的批量数据修改
『闻道有先后 术业有专攻』 又到每周五我们Offcie小课堂时间,每周学一点儿,知识从未如此简单,也真诚的希望各位能在留言板写下你们宝贵的建议,给您带来更具价值的分享. 这期跟大家带来的Excel表数 ...
- R语言使用单个向量创建矩阵数据、通过byrow参数指定从向量转化为矩阵的过程中的数据排布方式
R语言使用单个向量创建矩阵数据.通过byrow参数指定从向量转化为矩阵的过程中的数据排布方式 目录 R语言使用单个向量创建矩阵数据.通过byrow参数指定从向量转化为矩阵的过程中的数据排布方式 R语言 ...
- 假设有一个字类型的数值arry1,试编写程序统计arry1数值及其后若干数值,在字单元中存储时每个数据中含“1”数据位的个数,并将统计结果保存在res1数组中。数据段的代码定义如下: data seg
假设有一个字类型的数值arry1,试编写程序统计arry1数值及其后若干数值,在字单元中存储时每个数据中含"1"数据位的个数,并将统计结果保存在res1数组中.数据段的代码定义如下 ...
- python做面板数据_用Python做数据分析的基本步骤(持续修改更新)
一.环境搭建 数据分析最常见的环境是Anaconda+Jupyter notebook 二.导入包 2.1数据处理包导入 import numpy as np import pandas as pd ...
最新文章
- linux 瞬间文件数没了,关于linux:如何快速汇总文件中的所有数字?
- linux ora27040,使用RMAN recover database时遇到ORA-01119 ORA-27040 错误的解决办法
- 又搜集一批项目源码,同样改改就能用
- photoshop 常见问题与分析
- Windows系统安全模式妙用全接触
- Ruby-Metasploit的核心
- 又栽了?苹果侵犯高通三项专利需赔偿3100万美元
- 1007 素数对猜想(C语言)
- C#实现动态桌面背景图片切换(续)
- Collectors.collectingAndThen()
- Java实现人力资源管理系统
- ios睡眠分析 卧床 睡眠_在HealthKit中用 Swift 进行睡眠分析
- 二元关系的矩阵和图表示
- 打豆豆游戏c语言编程,《C语言及程序设计》实践参考——打豆豆
- python 千位分隔符_千位分隔符的完整攻略
- 深度学习在美团配送ETA预估中的探索与实践-笔记
- 【Python】两种方法计算平均值、中值、众数、方差、标准差、百分位数
- MFRC522读卡封装(附源代码)
- ai智能电话机器人语音识别技术
- Java方法的案例:求和、判断奇偶数、求最值
热门文章
- R语言四格表的统计分析及假设检验
- R语言glm模型预测(predict)过程及Error in eval(predvars, data, env) 错误原因
- MMD_5b_ComputationalAdvertising
- Python3 函数function
- SRA数据库的各种编号(DRP, ERP 或SRP)
- freemarker中运算符_如何在Web应用系统表示层开发中应用Velocity模板技术
- android 固定底部,如何将view固定在屏幕底部?
- 10.LeetCode第九题--有效的数独--哈希表的经典应用
- 十二、进程的同步与互斥
- 七、处理机调度概念、层次