Hadoop,Hive和AWS RedShift有什么区别?


回答 1:

Hadoop是一个分布式计算(例如MapReduce)和存储(HDFS)框架。

Hive是hadoop生态系统的一部分,并提供了类似于sql的hadoop接口。

Redshift是Amazon专有的数据库系统。 它的功能与Hadoop之上的Hive相当:但缺少很多选择。 尽管它似乎要快得多,但在第一个基准测试中已有介绍。


回答 2:

不能再说Hadoop不适合SQL。 随着Hive,Impala和Lingual的显着改进,用于访问Hadoop中数据的越来越多的新工具是通过SQL。 随着Spark变得越来越占主导地位,诸如Hive on Spark和Spark SQL之类的工具削弱了Redshift在性能方面的任何优势。


回答 3:

所有这三个术语都属于数据科学。 Hadoop:Hadoop是一个框架,它定义了存储和处理大数据的方式。 最初,它只有两个组件:HDFS(存储层)和MapReduce(处理层),但是现在Hadoop已成为一个大型生态系统,其中存在许多其他高级批处理和流处理框架,例如Spark,Storm,Kafka等。 Hadoop的主要目标是利用分布式计算体系结构的功能执行数据处理。

Hive:Hive是类似于SQL的工具,数据分析师使用它来对存储在HDFS中的数据创建简单查询。 该工具由Facebook开发。 引入Hive是为了减少编写基于Java的程序以检索存储在HDFS中的已处理数据所需的工作量。

AWS RedShift:AWS RedShift是AWS平台上的一项云服务,可帮助组织开发基于云的数据仓库系统。 AWS RedShift可以处理PB级的数据,而无需管理基础架构,软件或平台。 它是PaaS,可用于数据的业务分析。