Talend Map Reduce

在上一章中，我们了解了 Talend 如何处理大数据。在本章中，让我们了解如何在 Talend 中使用 map Reduce。

创建 Talend MapReduce 作业

让我们学习如何在 Talend 上运行 MapReduce 作业。在这里，我们将运行一个 MapReduce 字数统计示例。

为此，右键单击 Job Design 并创建一个新作业 - MapreduceJob。提及作业的详细信息，然后单击完成。

将组件添加到 MapReduce 作业

要将组件添加到 MapReduce 作业，请将 Talend 的五个组件 - tHDFS输入、tNormalize、tAggregateRow、tMap、t输出从托盘拖放到设计器窗口。右键单击 tHDFS输入并创建到 tNormalize 的主链接。

右键单击 tNormalize 并创建到 tAggregateRow 的主链接。然后，右键单击 tAggregateRow 并创建到 tMap 的主链接。现在，右键单击 tMap 并创建到 tHDFS输出的主链接。

配置组件和转换

在 tHDFS输入中，选择分发 cloudera 及其版本。请注意，Namenode URI 应为“hdfs://quickstart.cloudera:8020”，用户名应为“cloudera”。在文件名选项中，将输入文件的路径提供给 MapReduce 作业。确保此输入文件存在于 HDFS 上。

现在，根据你的输入文件选择文件类型、行分隔符、文件分隔符和标题。