大数据与Hadoop开发人员和管理员之间有什么区别?


回答 1:

您无法比较大数据和Hadoop,因为大数据是一个问题,而Hadoop提供了解决方案。 Hadoop开发人员和Hadoop管理员是Hadoop的成员。

大数据是一个庞大的数据集合,顾名思义是“大数据”。由于大多数数据生成都是非结构化形式,因此无法通过传统方法进行处理。因此,Hadoop成为解决此问题的一种方法。

因此,让我们详细研究大数据和Hadoop,以便您可以全面了解大数据和Hadoop。

根据Gartner的说法:大数据是海量,快速,多种多样的信息资产,需要创新的平台来增强洞察力和决策能力。

量指数据规模

速度指的是流数据分析

种类称为数据形式

  • 出现第二个问题,为什么我们应该学习大数据

大数据是一种解决所有与数据管理和处理有关的未解决问题的方法,早期的行业曾被用来解决此类问题。借助大数据分析,您可以解锁隐藏的模式并了解客户的360度视图并更好地了解他们的需求。

观看下面的视频,了解大数据。

如果您想了解大数据的历史,请参考下面的大数据历史链接

大数据历史

现在继续使用Hadoop,

Hadoop是ASF的开源工具。 HDFS可靠地存储大量数据。

现在,让我们看看HDFS如何提供解决方案

在Hadoop中,HDFS将巨大的文件分成称为块的小块。这些是文件系统中最小的数据单元。我们(客户端和管理员)对区块没有任何控制,例如区块位置。 Namenode决定所有这些事情。

HDFS将每个文件存储为块。但是,HDFS中的块大小非常大。 HDFS块的默认大小为128MB,您可以根据需要进行配置。文件的所有块都具有相同的大小,但最后一个块可以相同,也可以更小。这些文件被分成128 MB的块,然后存储到Hadoop文件系统中。 Hadoop应用程序负责在多个节点之间分布数据块。

现在,从上面文件大小为518MB的示例中,假设我们使用的块大小为128MB的默认配置。然后创建5个块,前四个块的大小为128MB,而最后一个块的大小仅为6MB。从上面的示例中可以清楚地看出,在HDFS中,存储的每个文件都不必是配置的块大小的精确倍数128mb,256mb等,因此文件的最终块仅使用所需的空间。

有关HDFS的更多详细信息,请参见以下链接:

HDFS-完整指南

现在,让我们转向Hadoop开发人员和Hadoop管理员。

Hadoop开发人员

Hadoop开发人员的工作职责是根据系统设计编写程序,并且必须对编码和编程有充分的了解。 Hadoop开发人员的任务与软件开发人员相似,但属于大数据领域。 Hadoop开发人员的工作还包括理解和致力于解决问题的解决方案,设计和架构以及强大的文档编制能力。

Hadoop管理员

Hadoop管理作业职责与系统管理员作业相似。 Hadoop管理员的角色和职责包括设置Hadoop集群,对其进行备份,恢复和维护。 Hadoop管理员需要对硬件系统和Hadoop体系结构有充分的了解。

因此,要了解更多Hadoop的配置文件,请参考以下链接:

Hadoop中的不同字段及其工作角色

希望我回答了您的查询。


回答 2:

请参考以下描述,以了解Hadoop开发人员和管理员的工作角色。

大数据Hadoop开发人员:

Hadoop开发人员负责Hadoop应用程序的实际编码/编程。该角色是软件开发人员或应用程序开发人员的同义词;指相同的角色,但在大数据域中。 Hadoop的一个组件是MapReduce,您需要在其中编写Java程序。因此,如果您具有Java的基本知识,就足够了。但是,如果您不具备Java知识,但具有任何其他编程语言的知识,则可以快速赶上。

所需技能:

  •  具备撰写MapReduce职位的能力编写Pig拉丁脚本的经验熟悉HiveQL的经验熟悉Flume和Sqoop等数据加载工具,熟悉OozieBig Data Hadoop工作流/调度程序的知识管理员:

Hadoop管理员负责Hadoop基础结构的实施和持续管理。该角色需要与系统工程团队协调,以提议和部署Hadoop所需的新硬件和软件环境,并扩展现有环境。

需要与数据交付团队合作来设置新的Hadoop用户。这项工作包括设置Linux,设置Kerberos主体以及为新用户测试HDFS,Hive,Pig和MapReduce访问。使用Ganglia,Nagios,Cloudera Manager Enterprise,Dell Open Manage等工具进行集群维护以及创建和删除节点。

所需技能:

  •  Hadoop基础架构的实施和持续管理。使用Ganglia,Nagios,Cloudera Manager Enterprise,Dell Open Manage等工具进行集群维护,创建和删除节点。管理和查看Hadoop日志文件。文件系统管理和监视。 HDFS支持和维护配置Pig,Hive,HBase,Oozie等Hadoop生态系统。Hadoop集群和Hadoop MapReduce例程的性能调整

回答 3:

你好谢卡,

对于Hadoop开发人员,您需要用mapreduce编写代码,或者分别用hive和pig进行查询和拉丁脚本。

对于管理员,您已经了解了Linux服务器中的“不同节点”并维护了mapreduce任务。另外,您必须维护商用硬件才能成功运行hadoop节点。


回答 4:

重要的是要了解大数据和Hadoop并非完全相同。

大数据是一个概念,就可用数据量而言,其种类繁多,更像是业务转型的推动力。

Hadoop是用于存储,管理和分析大量数据的技术基础架构。

Hadoop(或Hadoop的任何其他商业变体)开发人员和管理员之间的区别与云开发人员和云管理员相同。开发人员将构建组织中大数据基础架构和管理方面所需的应用程序和实例。这将涉及编码,并与MapReduce,Hive,Sqoop,Oozie,Spark等配合使用。另一方面,管理员将实施,维护和监视进行中的基础架构,设置和部署各种工具和帐户,维护,集群管理,性能调整等。

有关更多信息,请通过[email protected]与我们联系。