自建CDH/HDP迁移至AWS有两个选择:
1、 使用CDH director来部署
CDH需要director组件实现集群管理(收费情况暂时不清楚),利用director可以搭建跟EMR类似的功能的集群https://docs.cloudera.com/documentation/director/latest/topics/director_get_started_aws_install_cm_cdh.html
2、 直接在EC2上直接部署CDH的部署集群
两种方案对比:
自建CDH需要客户有比较强的大数据运维能力,需要定制spark版本/修改代码等需求的客户,会考虑自建CDH
使用EMR的客户基于云原生的大数据分析系统,客户对系统的敏捷性要求较高且不希望在运维方面面临较大压力的,并且对成本又一定要求的,这样的客户会考虑使用EMR
缺点分析:
自建CDH:对与弹性伸缩和Spot的结合不如EMR灵活,使用S3a做访问S3的存储插件,性能比EMRfs会差一些。
迁移至EMR:由于CDH开源版本的问题,像sentry等工具这已经不再被维护,这就需要替代方案,并且替代方案可能会造成迁移的复杂性与周期大大的加长。
建议方案:
1、 像sentry这总问题,可以考虑迁移ranger+EMR解决,如果迁移时间较长,可以考虑先打建CDH集群在AWS,后期再迁移到EMR(迁移会比较容易,数据全全部在S3上,元数据在外部管理,所以迁移会比较容易)
案例:
某风力发电公司是集大型风力发电机组生产销售和风力发电场建设与运营于一身的大型股份制公司,不断的技术创新使其保持了高速增长,占据了全国风电行业20%的份额。其核心的风力发电载荷仿真计算就是一个很好的技术创新例子。
架构示意图
• 计算峰值期间要求每个任务都在10分钟内完成
• 计算峰值期间EC2实例数量可达1000+台
• 单次计算任务处理数据量可达500+GB
• S3桶日增数据1.5TB
• 动态扩展带来强大的计算能力。大任务运行时间从10+小时缩减为10分钟,弹性扩展最高支持数十个计算任务并发执行。
• EMR代替自建Hadoop平台大大减少了运维工作。
• 找准业务上的切入点,精细化的计算为客户节省了约5000吨钢材并提高了项目中标率和市场份额。