Apache Tajo 介绍

数据仓库是为查询和分析而不是事务处理而设计的关系数据库。它是面向主题的、集成的、时变的、非易失性的数据集合。这些数据有助于分析师在组织中做出明智的决策，但关系数据量每天都在增加。

为了克服这些挑战，分布式数据仓库系统跨多个数据存储库共享数据，以实现在线分析处理(OLAP)。每个数据仓库可能属于一个或多个组织。它执行负载平衡和可扩展性。元数据被复制并集中分布。

Apache Tajo 是一个分布式数据仓库系统，它使用 Hadoop 分布式文件系统 (HDFS) 作为存储层，并拥有自己的查询执行引擎，而不是 MapReduce 框架。

Hadoop 上的 SQL 概述

Hadoop 是一个开源框架，允许在分布式环境中存储和处理大数据。它非常快速和强大。但是，Hadoop 的查询能力有限，因此在 SQL on Hadoop 的帮助下可以提高其性能。这允许用户通过简单的 SQL 命令与 Hadoop 进行交互。

SQL on Hadoop 应用程序的一些示例包括 Hive、Impala、Drill、Presto、Spark、HAWQ 和 Apache Tajo。

Apache Tajo 是一个关系和分布式数据处理框架。它专为低延迟和可扩展的临时查询分析而设计。

最新版本的 Tajo 与 Java 程序和第三方数据库(如 Oracle 和 PostGreSQL)的连接性更强。

Apache Tajo 具有以下特点：

Apache Tajo 提供以下好处：

以下是 Apache Tajo 的一些用例：

韩国 SK Telecom 公司对 1.7 TB 的数据运行 Tajo，发现它可以比 Hive 或 Impala 更快地完成查询。

韩国音乐流媒体服务 Melon 使用 Tajo 进行分析处理。 Tajo 执行 ETL(提取-转换-加载过程)作业的速度比 Hive 快 1.5 到 10 倍。

韩国公司 Bluehole Studio 开发了 TERA——一款奇幻多人在线游戏。该公司使用 Tajo 进行游戏日志分析和查找服务质量中断的主要原因。

Apache Tajo 支持以下数据格式：

Tajo支持以下存储格式：