概述
很多云平台(例如品高云 BingoCloudOS)都提供大数据处理服务(EMR–ElasticMapReduce,相当于云中的 hadoop/sprk)由于其实现了大数据应用管理的易用性(易开发、易运维、易集成)、安全性(云中的隔离、安全防护等)、高可用等特性,很多用户会选择把他们 Hadoop、Spark 等集群改造或迁移至 EMR 中。
目前云平台的 EMR 除了支持 Hadoop 原生的基于本地盘或存储卷的 HDFS,也支持使用 S3 来存储数据。存储卷和本地盘在使用方法上是一样的,也最容易被理解。S3 也可以作为和 HDFS 相同级别的数据存储方式,也为 EMR 数据存储提供了一个新的选择。那么使用 S3 有什么优势,又有什么缺点,什么情况下我们会使用 S3 来代替 HDFS,到底使用什么存储方案,这是首先摆在我们面前的一个问题。
这里分别列举各种场景下两种方案的优缺点,各位可以根据实际情况,选择最合适自己业务的一种方式。
优缺点
上云迁移
对于两种存储方式而言,迁移方面可能有两方面的影响。
首先是数据迁移的方法而言。如果是迁移到 HDFS,相当于是两个 HDFS 之间的迁移,可以使用 Distcp。或者 hadoop fs -get 后拷贝过来再-put 到新的 HDFS 上等。而如果是使用 S3 来存储数据,S3 支持用 Distcp 拷入数据。
另外一部分需要考虑的是业务代码的迁移。如果直接使用 HDFS,那业务代码上理论上不需要任何调整。而使用 S3 存储数据的修改不过是在文件的路径上,把文件路径从 HDFS 的路径改成 S3 的路径就可以了。相比而言需要少量的改动。
计算性能
根据测试,使用 S3 存储数据计算上性能上略有降低。随着系统的优化,S3 存储数据的性能还会更好,对于性能要求不高的情况可以考虑使用 S3。对于性能比较看中且数据量较大的场景的可以用存储卷上的 HDFS 的方案。
数据可用性
如果使用存储卷+HDFS 的方案,数据可用性依赖于存储卷的可用性以及 HDFS 的冗余。如果是使用 S3,在使用 3 份副本的情况下数据可用性可以达到 99.99999999%。
弹性存储
如果数据存在 HDFS 上,如果数据写满后需要增加节点,目前 EMR 产品上没有现成的方法,需要用户增加新的弹性服务器并通过开源系统自己的方法添加节点并做 rebalance,操作起来非常麻烦。但是如果使用 S3 来存储数据,可以近似认为 S3 的数据容量是无限的,不再需要考虑数据存储容量的问题。
弹性计算
使用 S3 作为数据源,计算结束结果数据写回到 S3 里,那集群就可以释放了。下个计算周期如果计算量增加,可以弹性得创建一个更大的集群 (或者使用其他的机型来创建集群) 来运行作业。后续 EMR 会支持在创建集群的时候选择竞价型实例,从而减少一笔费用。而如果是使用存储卷 HDFS 的方案,上诉需求均无法实现。
数据湖与数据集成
如果数据存在 HDFS 上,外部数据参与计算需要先通过 ETL 导入到 HDFS 上。同样的,如果计算的结果要为外部应用所用,也需要导出来,多系统集成比较不便。如果是使用 S3 来存储数据,各个应用之间统一使用 S3 进行存储数据和管理,更方便搭建数据湖(也可以直接使用品高的数据湖产品 BingoInsight),并方便和其他的系统做数据交互。
总结
随着 EMR 和 S3 的兼容做的越来越好和云计算网络环境的提升,S3 作为存储会越来越多得体现出其优势。对比两种方案,S3 方案最大的缺点是在读数据的时候性能低于 HDFS,可以把数据的最初读取和最终的结果使用 S3,中间的临时计算变量放到 HDFS 上,可以一定程度上缓解这个问题。当然具体使用什么方案还需要根据实际情况选择最合适自己的才是最好的方案。