Talend Map Reduce


在上一章中,我们了解了 Talend 如何处理大数据。在本章中,让我们了解如何在 Talend 中使用 map Reduce。

创建 Talend MapReduce 作业


让我们学习如何在 Talend 上运行 MapReduce 作业。在这里,我们将运行一个 MapReduce 字数统计示例。

为此,右键单击 Job Design 并创建一个新作业 - MapreduceJob。提及作业的详细信息,然后单击完成。

Map Reduce Job

将组件添加到 MapReduce 作业


要将组件添加到 MapReduce 作业,请将 Talend 的五个组件 - tHDFS输入、tNormalize、tAggregateRow、tMap、t输出 从托盘拖放到设计器窗口。右键单击 tHDFS输入 并创建到 tNormalize 的主链接。

右键单击 tNormalize 并创建到 tAggregateRow 的主链接。然后,右键单击 tAggregateRow 并创建到 tMap 的主链接。现在,右键单击 tMap 并创建到 tHDFS输出 的主链接。

Adding Components Map Reduce

配置组件和转换


在 tHDFS输入 中,选择分发 cloudera 及其版本。请注意,Namenode URI 应为“hdfs://quickstart.cloudera:8020”,用户名应为“cloudera”。在文件名选项中,将输入文件的路径提供给 MapReduce 作业。确保此输入文件存在于 HDFS 上。

现在,根据你的输入文件选择文件类型、行分隔符、文件分隔符和标题。

Transformations

单击编辑架构并将字段“line”添加为字符串类型。

String Type

在 tNomalize 中,要规范化的列将是行,项目分隔符将是空格 -> “”。现在,单击编辑架构。 tNormalize 将有行列,而 tAggregateRow 将有 2 列 word 和 wordcount,如下所示。

Normalize Aggregate Row

在 tAggregateRow 中,将 word 作为输出列放在 Group by 选项中。在操作中,将字数作为输出列,函数作为计数,输入列位置作为行。

Word Count

现在双击 tMap 组件进入地图编辑器并将输入映射到所需的输出。在此示例中,word 与 word 映射,wordcount 与 wordcount 映射。在表达式列中,单击 […] 以进入表达式构建器。

现在,从类别列表和 UPCASE 函数中选择 StringHandling。将表达式编辑为“StringHandling.UPCASE(row3.word)”,然后单击“确定”。将 row3.wordcount 保留在 wordcount 对应的表达式列中,如下所示。

String Handling

在 tHDFS输出 中,连接到我们从属性类型创建的 Hadoop 集群作为存储库。观察字段将自动填充。在文件名中,提供要存储输出的输出路径。保持Action、行分隔符和字段分隔符如下所示。

Field Separator

执行 MapReduce 作业


成功完成配置后,单击运行并执行 MapReduce 作业。

Configuration Success

转到你的 HDFS 路径并检查输出。请注意,所有单词的字数都将大写。

HDFS Path