201806 数据处理 SQL、python、shell 哪家强...速度PK（上篇）

时间 2021-01-14

最近在工作中，进行大量的数据处理，使用的是mysql5.7.22，发现当数据量级达到几十万之后，SQL执行速度明显变慢。尤其是当多个表join时，于是就尝试用python pandas进行数据处理，发现运行速度明显比SQL运行速度快。于是，决定比较一下千万数据量级之下，SQL、pandas、shell在数据处理上的优劣势。

配置：ubuntu系统64位，8G内存，intel i7处理器

软件环境：mysql5.7.22 , python3下的pandas , shell

测试数据：

数据是使用python随机生成的，订单表的时间跨度是2015年-2018年，共计2000万行，csv文件大小是909M;用户表共计500万行，csv文件大小是284M。

表1：订单表 orderid、ordertime、uid、amount、status

表2：用户表 uid、gender、birthday、mobile、email

使用shell、pandas的话，直接访问，两个表的csv文件，逗号分隔符；mysql的话，将数据先导入到数据库。

一、单表查询 mysql PK shell

1、计数

shell完胜!

（注：有些人有误区，认为count(*) 比 count(字段名) 慢，实际上，count(*)是最快的，count(字段名) 该字段在表中的位置决定运行速度，越靠后越慢，已亲测!）

2、求和

shell 和 SQL 的速度差不多！

3、查找

shell我们用了两种写法，可以看到，当需要对文件进行列分割的时候，速度明显慢了很多。

使用SQL查询，因为orderid是表的主键，对于有索引的列进行查找的时候，速度还是非常快的。（加索引和不加索引的区别，非常的大，尤其是当数据量级大的时候）。

我们再来看一下，对不加索引的列进行查找的话，SQL的速度怎么样。

user表是500万的数据量，这样看来，进行查找时，列加索引和不加索引的区别还是挺明显的。

小结：当SQL对加索引的键，进行筛选查找时，SQL的速度是优于shell的；但是，如果对加索引的列进行函数操作时，还有对不加索引的列进行查找时，速度会明显慢很多。

4、分类汇总按月汇总，每个月下单数量、金额，成交订单数量、金额

根据年份进行汇总之后，都将数据保存到表里，这里shell又是完胜哈！

5、文本处理不同类型邮箱、不同级别用户数量分布

shell写法1：因为使用uniq -c 需要先用sort进行排序，所以速度明显比较慢，要用到8s左右。

shell写法2：使用awk来进行汇总，速度较uniq -c有了明显提升。

SQL：运行速度将近6s，还是挺快的，我还以为对文本进行字符串进行截取会比较慢呢，哈哈。

shell写法2，完胜！

单表查询总结：

（1）使用SQL的话，where用到的列加索引速度比较快；当需要对其进行函数运算时，或者当字段没有加索引时，速度就慢很多，因为需要全表遍历；

（2）数据量级较大时，使用shell进行简单的单表查询，速度明显优于SQL。

（3）使用python的pandas，因为需要现将数据读取到内存中，这部分会耗费一部分时间，所以简单的一句可以搞定的查询，我一般还是比较倾向于使用SQL和shell。但是，当需要，进行多个大表关联进行运算时，pandas的速度还是非常快的，这部分我们下篇见。

二、多表查询（下次更新...写不动了...）

场景1：各个级别用户数量，以及在每一年下单的用户数量，订单量，订单金额，成交订单量，成交订单金额。

场景2：获取2018年，每个月成交订单总金额在前5名的订单详情信息，包括订单表全部字段和用户表全部字段（我们需要对土豪用户进行详细的了解）。