从别人的论文里找到要用的数据的原始数据自己做过滤

捣鼓了两天觉得代码太慢开始用pandas做处理

不得不说最大的感触就是 pandas 以及numpy在一定程度上在还原MATLAB

比如MATLAB中利用逻辑值取数、元素的用法,pandas中有几乎一样的方法

test:

同时pandas中有很多很好用的方法,猜测使用了很多哈希值

但是pandas同numpy一样,增量添加很慢

也就是pandas适用于 已经确定size的数据的读取操作非常友好,但是把两个dataframe合并,是很慢的操作

实际上先做了数据的拷贝再进行的拼接,可想而知是多慢了

而Python里的list是一个动态数组,比较适合用于动态增长的情况,比如append,+,extends这样的方法

总之记住只对dataframe进行读取就够啦

最后写代码的时候 对于for循环要小心!!!

想清楚这个代码是不是在循环里面还是外面!!

把要在循环外面的代码先写着!!

比如这次把生成dataframe的两行代码写了for循环里面

查了好几遍才发现!! 真的很费时间!!

时间的宝贵使人进步。

加油。

————————————————
版权声明:本文为CSDN博主「HeReCJJ」的原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/HeReCJJ/article/details/81431240

Python处理千万级数据相关推荐

  1. python处理千万级数据_Python批量删除mysql中千万级大量数据的脚本分享

    场景描述 线上Mysql数据库里面有张表保存有每天的统计结果,每天有1千多万条,这是我们意想不到的,统计结果咋有这么多.运维找过来,磁盘占了200G,最后问了运营,可以只保留最近3天的,前面的数据,只 ...

  2. python查询千万级数据_Python批量删除mysql中千万级大量数据

    场景描述 线上mysql数据库里面有张表保存有每天的统计结果,每天有1千多万条,这是我们意想不到的,统计结果咋有这么多.运维找过来,磁盘占了200g,最后问了运营,可以只保留最近3天的,前面的数据,只 ...

  3. php超大树形分页,PHP+MySql千万级数据limit分页优化方案

    PHP+MySql千万级数据limit分页优化方案 1年前 阅读 2750 评论 0 喜欢 0 ### 原因 徒弟突然有个需求,就是他发现limit分页,页数越大之后,mysql的消耗越大,查询时间越 ...

  4. 排序千万级数据_MySQL 对于千万级的大表要怎么优化?我写了6000字的深度解读...

    千万级大表如何优化,这是一个很有技术含量的问题,通常我们的直觉思维都会跳转到拆分或者数据分区,在此我想做一些补充和梳理,想和大家做一些这方面的经验总结,也欢迎大家提出建议. 从一开始脑海里开始也是火光 ...

  5. 如何设计千万级数据的java对账系统之一

    本篇文章主要聊聊如何设计千万级别的对账系统.其他一些业务问题可以参看对账清分设计总概览. 目前系统运行的对账总情况:对账日交易量两千万,交易金额50亿,对账时间5分钟以内 本篇文章分两个模块 第一个模 ...

  6. java千万级数据txt文件导入数据库

      最近在做项目的时候,有要把txt文件导入到数据库,txt文件有千万级,如果使用传统的读文件,写数据库,效率很慢.自己按照这种方式使用100万条数据的txt文件导入到oracle数据库,花费了二十多 ...

  7. oracle导出千万级数据为csv格式

    当数据量小时(20万行内),plsqldev.sqlplus的spool都能比较方便进行csv导出,但是当数据量到百万千万级,这两个方法非常慢而且可能中途客户端就崩溃,需要使用其他方法. 一. sql ...

  8. 6,ORM组件XCode(撬动千万级数据)

    为什么80%的码农都做不了架构师?>>>    有了前面的<动手>,基本上可以进行开发了.本篇我们来试试XCode的基本功功力如何,测试在单表一千万业务数据的环境下查询的 ...

  9. 单表千万级数据 count() 统计优化

    1. 创建一张测试表: DROP TABLE IF EXISTS `user`; CREATE TABLE `user` ( `id` bigint(20) PRIMARY key not null ...

最新文章

  1. 使用 xcworkspace 管理 iOS 工程
  2. 阿里云oss数据迁移到腾讯云cos 方法二(强烈推荐)
  3. python3精要(24)-函数内省、函数注释、函数属性
  4. 【转】时间序列分析——基于R,王燕
  5. 使用RestTemplate模版实现 Rest 服务调用、Swagger 集成、动态修改日志级别
  6. 机器学习中的常用概率分布
  7. TypeScript 里 interface 和 type 的区别
  8. GP学习(五)—ArcGIS Toolbox Reference dialog box
  9. 物联网 云计算 大数据 分布式
  10. 微软将不再把 .NET Framework API 移植到 .NET Core 3.0
  11. 趣味菜单C语言,趣味C语言
  12. linux查找有用日志常用技巧
  13. C++ sort()函数
  14. ERROR: libopenjp2 = 2.1.0 not found using pkg-config
  15. steam服务器102修复,steam社区打不开错误代码102解决方法
  16. 如何提高公文写作水平?公文写作笔杆子写材料经典语句汇编(7类3800多字)
  17. 【微信小程序】从零开始搭建一个英语学习小程序01——基础准备
  18. 【cocos2d-x 2】关于CocosStudio编辑出的csb的简单使用
  19. windows下Git连接使用
  20. 课上认真听讲,课后马上忘记怎么办?

热门文章

  1. linux内核中kset是什么意思,Linux内核之设备驱动-底层数据结构kobject/kset
  2. c语言用hash方式数组去重,js数组去重的hash方法
  3. 「Leetcode-Python」python中利用链表计算两个非负整数之和(链表类型非列表)
  4. 42_ResNet (深度残差网络)---学习笔记
  5. Docker快速安装与快速入门
  6. Java使用Tomcat数据源的方式
  7. nginx中configure脚本支持的常用选项,拍摄自《Nginx高性能Web服务器详解》
  8. Iframe高度自适应(兼容IEFirefox、同域跨域)
  9. Cygwin,Nutch安装配置,检验是否正确(对网友守望者博客的修改---在此感谢守望者)1
  10. mysql用索性的好处_MySql索引的优缺点