AWS Glue

简单、灵活且经济高效的 ETL

AWS Glue 是完全托管的提取、转换和加载 (ETL) 服务,有了它,您可以轻松地准备并加载数据以进行分析。您只需在 AWS Glue 可视化编辑器中单击几次,即可创建并运行 ETL 作业。您只需将 AWS Glue 指向存储在 AWS 上的数据或兼容 JDBC 的源,AWS Glue 便会发现您的数据,并将关联的元数据(例如表定义和架构)存储到 AWS Glue 数据目录中。存入目录后,您的数据可立即供 ETL 搜索、查询和使用。

AWS Glue 简介 (1:47)

优势

免去很多麻烦

AWS Glue 集成了众多 AWS 服务,在刚开始使用时为您免去了很多麻烦。AWS Glue 为存储在 Amazon Aurora 及其他所有 Amazon RDS 引擎、Amazon Redshift 和 Amazon S3 中的数据,以及在 Amazon EC2 上运行的 Virtual Private Cloud (Amazon VPC) 中的常见数据库引擎和数据库内存储的数据提供原生支持。

经济高效

AWS Glue 没有服务器,因此无需预置或管理基础设施。AWS Glue 可处理在完全托管的横向扩展 Apache Spark 环境中运行 ETL 作业时所需的资源预置、配置和扩展工作。您只需为运行作业期间使用的资源付费。

功能更强大

AWS Glue 可自动执行构建、维护和运行 ETL 作业的大部分工作。AWS Glue 可抓取您的数据源,识别数据格式,并提供架构和转换建议。AWS Glue 可自动生成代码来执行数据转换和加载流程。

工作原理

在 AWS Glue 中选择数据源和数据目标。AWS Glue 将生成使用 Scala 或 Python 语言的 Apache Spark ETL 代码,从源中提取数据,并转换数据以匹配目标架构,然后将其加载到目标中。您可以在 AWS Glue 可视化界面、喜爱的 IDE 或任何笔记本中编辑、调试和测试此代码。

步骤 1:构建数据目录
步骤 1:构建数据目录

首先,使用 AWS 管理控制台注册您的数据源。AWS Glue 将抓取您的数据源,并使用适用于多种常见源格式和数据类型(包括 JSON、CSV、Parquet 等)的预构建分类器来构建您的数据目录。

步骤 2:生成和编辑转换
步骤 2:生成和编辑转换

接下来,选择数据源和数据目标。AWS Glue 将生成使用 Scala 或 Python 语言的 ETL 代码,从源中提取数据,并转换数据以匹配目标架构,然后将其加载到目标中。您可以在喜爱的 IDE 或任何笔记本中通过控制台编辑、调试和测试此代码。

步骤 3:安排和运行作业
步骤 3:安排和运行作业

AWS Glue 可轻松安排重复的 ETL 作业,将多个作业串联在一起,或从其他服务(如 AWS Lambda)中按需调用作业。AWS Glue 可管理各作业之间的依赖关系,自动扩展底层资源,并在作业失败时重试。

请访问 AWS Glue 功能页面,或参阅我们的产品文档了解更多信息。

使用案例

对 Amazon S3 数据湖的查询

数据湖是存储和分析结构化和非结构化数据的一种日趋流行的方式。如果您构建自己的自定义 Amazon S3 数据湖,那么 AWS Glue 可以使您的所有数据无需移动即可直接用于分析。

要想在数天内构建一个安全的数据湖,请了解更多有关 AWS Lake Formation 的信息。

图表 - 查询 Amazon S3 数据湖

分析数据仓库中的日志数据

您可以通过使用 AWS Glue 清理、规范化和丰富数据集,来准备点击流数据或流程日志数据分析。AWS Glue 可为您的半结构化数据生成架构,创建 ETL 代码来转换、压平和丰富数据,并重复加载数据仓库。

图表 - 分析数据仓库中的日志数据

跨多个数据存储的统一数据视图

您可以使用 AWS Glue 数据目录跨多个 AWS 数据集快速发现和搜索数据,而无需移动数据。数据存入目录后,您可立即使用 Amazon Athena、Amazon EMR 和 Amazon Redshift Spectrum 对其进行搜索和查询。

图表 - 跨多个数据存储的数据视图

事件驱动型 ETL 管道

AWS Glue 可以基于事件运行 ETL 作业,如获取新的数据集。例如,新数据在 Amazon S3 中可用后,您可以使用 AWS Lambda 函数来触发 ETL 作业,使其运行。您也可以在 AWS Glue 数据目录中将这个新的数据集注册为 ETL 作业的一部分。

事件驱动型 ETL 管道的图表

新增内容

日期
  • 日期
1
AWS Glue 功能
查看 AWS Glue 的功能

详细了解 AWS Glue 的主要功能。

了解更多 
注册 AWS 账户
注册免费账户

立即享受 AWS 免费套餐。 

注册 
开始在控制台中构建
开始在 AWS Glue 中构建

在 ETL 可视化界面中,使用 AWS Glue 开始构建。

登录