Talend 大数据


Open Studio with Big data 的标语是“使用领先的大数据免费开源 ETL 工具简化 ETL 和 ELT”。在本章中,让我们看看 Talend 作为在大数据环境中处理数据的工具的使用。

介绍


Talend Open Studio – Big Data 是一款免费的开源工具,可在大数据环境中轻松处理你的数据。 Talend Open Studio 中有大量可用的大数据组件,只需简单拖放几个 Hadoop 组件即可创建和运行 Hadoop 作业。

此外,我们不需要编写大行 MapReduce 代码; Talend Open Studio Big data 可帮助你使用其中的组件完成此任务。它会自动为你生成 MapReduce 代码,你只需拖放组件并配置几个参数。

它还使你可以选择连接多个大数据发行版,例如 Cloudera、HortonWorks、MapR、Amazon EMR 甚至 Apache。

用于大数据的 Talend 组件


大数据下包含的用于在大数据环境中运行作业的组件的类别列表如下所示:

Big Data

Talend Open Studio 中的大数据连接器和组件列表如下所示:

  • tHDFS连接 :用于连接HDFS(Hadoop分布式文件系统)。

  • tHDFS输入 : 从给定的hdfs路径读取数据,放入talend schema,然后传递给job中的下一个组件。

  • tHDFS列表 : 检索给定hdfs路径下的所有文件和文件夹。

  • tHDFSPut : 将文件/文件夹从本地文件系统(用户定义)复制到给定路径的hdfs。

  • tHDFSGet :将文件/文件夹从hdfs复制到给定路径的本地文件系统(用户定义)。

  • tHDFS删除 :从HDFS中删除文件

  • tHDFS存在 : 检查文件是否存在于 HDFS 上。

  • tHDFS输出 :在HDFS上写入数据流。

  • tCassandraConnection : 打开与 Cassandra 服务器的连接。

  • tCassandraRow :在指定的数据库上运行 CQL(Cassandra 查询语言)查询。

  • tHBaseConnection :打开与HBase数据库的连接。

  • tHBase输入 :从HBase数据库中读取数据。

  • Hive连接 :打开与Hive数据库的连接。

  • tHiveCreateTable :在hive数据库里面创建一个表。

  • tHive输入 : 从 hive 数据库中读取数据。

  • tHiveLoad :将数据写入hive表或指定目录。

  • tHiveRow :在指定的数据库上运行 HiveQL 查询。

  • tPigLoad : 将输入数据加载到输出流。

  • tPigMap : 用于在pig进程中对数据进行转换和路由。

  • tPigJoin :根据join key对2个文件进行join操作。

  • tPigCo 集团 : 对来自多个输入的数据进行分组和聚合。

  • tPigSort :根据一个或多个定义的排序键对给定的数据进行排序。

  • tPigStoreResult : 将pig操作的结果存储在定义的存储空间中。

  • tPigFilterRow :过滤指定的列,以便根据给定的条件拆分数据。

  • tPigDistinct :从关系中删除重复的元组。

  • tSqoopImport : 将数据从 MySQL、Oracle DB 等关系型数据库传输到 HDFS。

  • tSqoopExport : 将数据从 HDFS 传输到 MySQL、Oracle DB 等关系型数据库