构建机器学习模型
仅限 Amazon SageMaker
Amazon SageMaker Studio 有助于提高工作效率,它是首个适用于机器学习的完全集成式开发环境 (IDE)
Amazon SageMaker Studio 提供了一个基于 Web 的可视化界面,您可以通过该界面执行所有 ML 开发步骤。借助 SageMaker Studio,您可以全面掌控构建、训练和部署模型的每个步骤。您可以快速上传数据、创建新笔记本、训练和调优模型,在步骤之间来回移动以调整实验、对比结果以及将模型部署到生产环境中,而且上述所有工作都在一个地方完成,大大提升了工作效率。您可以在统一的 SageMaker Studio 可视化界面中执行所有 ML 开发活动,包括笔记本、实验管理、自动创建模型、调试以及模型偏差检测。
仅限 Amazon SageMaker
使用 Amazon SageMaker Studio Notebooks 加快构建与协作
管理计算实例以查看、运行或共享笔记本是一项十分繁琐的工作。Amazon SageMaker Studio Notebooks 是一键式 Jupyter 笔记本,可以快速启动。底层计算资源极具弹性,让您可以轻松启用或关闭可用资源,并且更改将在后台自动进行,不会干扰您的工作。SageMaker 还支持一键共享笔记本。您可以与他人轻松共享笔记本,他们将获得保存在同一位置的完全相同的笔记本。
SageMaker 具有数十种预构建笔记本,您可以针对不同的使用案例从中进行选择。您还可以在 AWS Marketplace 中获得数百种可用的算法和预先经过训练的模型,从而轻松快速地上手。
仅限 Amazon SageMaker
使用 Amazon SageMaker Autopilot 自动构建、训练和调优完全可视和可控的模型
Amazon SageMaker Autopilot 是业内首个自动化机器学习功能,可让您完全掌控 ML 模型。常用的自动化机器学习方法无法让您深入了解用于创建模型的数据或用于创建模型的逻辑。所以,即使模型非常普通,也无法让它实现演进。此外,由于常用的自动化 ML 解决方案仅有一种模型可供选择,因此您无法进行灵活协调,例如通过牺牲一定的准确性来实现低延迟预测。
只需单击几下,SageMaker Autopilot 即可自动检查原始数据、应用功能处理器、选择最佳算法集、训练和调优多个模型、跟踪模型性能以及根据性能对模型进行排名。如此一来,您无需像通常情况下训练模型那样耗费时间,只需很少的时间即可部署性能最佳的模型。您可以全面了解模型的创建方式以及模型内容。此外,SageMaker Autopilot 已与 Amazon SageMaker Studio 集成。您可以深入了解 SageMaker Autopilot 在 SageMaker Studio 中生成的 50 余种不同模型,轻松为您的使用案例选择最佳模型。SageMaker Autopilot 适用于各类人群,不具备机器学习经验的人员可以使用它轻松生成模型,经验丰富的开发人员可以使用它快速开发基准模型,供团队进一步迭代。
仅限 Amazon SageMaker
Amazon SageMaker Ground Truth 可将数据标记成本降低多达 70%
成功的机器学习模型建立在大量高质量训练数据的基础之上。但是,创建构建这些模型所需的训练数据的过程通常代价高昂、复杂且耗时。Amazon SageMaker Ground Truth 帮助您快速构建和管理高度准确的训练数据集。Ground Truth 通过 Amazon Mechanical Turk 提供对标签机的便捷访问,并为它们提供预先构建的工作流程和接口以便执行常见的标记任务。您还可以使用自己的标签机或通过 AWS Marketplace 联系 Amazon 推荐的供应商。此外,Ground Truth 持续向人工制作的标签学习以生成高质量的自动注释,从而大大降低标记成本。
70%
Amazon SageMaker 支持领先的深度学习框架
支持的框架包括:TensorFlow、PyTorch、Apache MXNet、Chainer、Keras、Gluon、Horovod、Scikit-learn 和 Deep Graph Library。

训练机器学习模型
仅限 Amazon SageMaker
使用 Amazon SageMaker Experiments 组织、跟踪和评估训练运行情况
Amazon SageMaker Experiments 可帮助您组织和跟踪机器学习模型的迭代。训练 ML 模型通常需要进行多次迭代,以隔离和衡量更改数据集、算法版本和模型参数的影响。在这些迭代过程中,您会生成数百个构件,例如模型、训练数据、平台配置、参数设置和训练指标。跟踪这些实验的机制通常繁冗复杂,例如电子表格。
SageMaker Experiments 通过自动捕获输入参数、配置和结果并将其存储为“实验”来帮助您管理迭代。您可以使用 SageMaker Studio 的可视化界面来浏览进行中的实验,根据实验特征搜索先前的实验、查看先前的实验及结果,以及直观比较实验结果。
仅限 Amazon SageMaker
使用 Amazon SageMaker 调试程序分析、检测和提醒与机器学习相关的问题
一般来说,机器学习训练流程是不透明的,而且训练模型所花费的时间可能较长,且难以优化。因此,要解读和解释模型,通常并非易事。Amazon SageMaker 调试程序能够在训练期间自动捕获实时指标(例如,训练和验证、混淆矩阵和学习梯度),让训练流程更加透明,最终提高模型精度。
SageMaker Studio 中会直观呈现来自 SageMaker 调试程序的指标,以便您理解。检测到常见的训练问题时,SageMaker 调试程序还会生成警告及提供修复建议。借助 SageMaker 调试程序,您可以理解模型的工作原理,而在实现模型可解释性的过程中,这正是早期阶段的一个重要步骤。
AWS 是运行 TensorFlow 的最佳平台
AWS 提供针对 TensorFlow 的优化,能够同时跨数以百计的 GPU 提供近线性扩展效率,因此在云端运行时不存在大量处理开销,可在更短时间内训练更准确、更专业的模型。
90%
将训练成本降低 90%
Amazon SageMaker 提供托管的 Spot 训练,帮助您将训练成本降低高达 90%。此功能使用 Amazon EC2 Spot 实例(AWS 的备用计算容量)。当有可用计算能力时,训练作业将自动运行,并且能在因容量变化而造成中断后恢复,因此您可以灵活选择训练作业的运行时间,从而节省成本。
90%
部署机器学习模型
一键式部署
Amazon SageMaker 可以轻松在生产环境中一键式部署您的受训模型,以便您开始针对实时或批量数据生成预测。您可以跨多个可用区在自动扩展的 Amazon ML 实例上一键部署模型以实现高冗余。您只需指定实例类型以及所需的最小和最大数量,SageMaker 将负责其余工作。SageMaker 将启动实例、部署您的模型,并针对您的应用程序设置安全的 HTTPS 终端节点。您的应用程序只需为此终端节点提供 API 调用,即可实现低延迟、高吞吐量推理。借助此架构,您可以在几分钟内将新模型集成到应用程序,这是因为模型变化不再要求应用程序代码随之变化。
仅限 Amazon SageMaker
使用 Amazon SageMaker 模型监控器让模型保持精确
开发人员能够依靠 Amazon SageMaker 模型监控器来检测和修复概念偏差。现在,影响已部署模型的精度的一个重要因素是,用于生成预测的数据与用于训练模型的数据是否有所不同。例如,日新月异的经济条件可能会推动新利率出台,从而影响购房预测。这就是概念偏差,此时模型用于预测的模式不再适用。SageMaker 模型监控器会自动检测已部署模型中的概念偏差,并提供详细的警报,帮助确定问题的根源。通过 SageMaker 训练的所有模型都会自动发送关键指标,这些指标可以在 SageMaker Studio 中收集和查看。从 SageMaker Studio 内部,您可以配置要收集的数据、查看方式以及警报的接收时间。

在生产环境中监控模型。例如,查看包含重要模型功能和汇总统计数据,观看这些内容随时间的变化情况,并且将其与训练中使用的功能进行比较。当模型在生产环境中运行时,一些功能会出现偏差,这可能表明需要对模型进行再训练。
仅限 Amazon SageMaker
通过人工审核验证预测
许多机器学习应用程序都要求人工审核低置信度预测,以确保结果正确无误。但是,将人工审核构建到工作流中可能比较复杂,不仅耗时,而且成本较高。Amazon Augmented AI 可轻松构建机器学习预测人工审核所需的工作流程。Augmented AI 为常见的机器学习使用案例提供内置的人工审核工作流程。您还可以为基于 Amazon SageMaker 的模型创建自己的工作流程。借助 Augmented AI,您可以在模型无法做出高可信度的预测时,让人工审核者介入。
使用 Kubeflow Pipelines 对作业进行编排和调度
适用于 Kubeflow Pipelines 的 Amazon SageMaker 组件(目前为预览版)是开源插件,借助这些组件,您可以使用 Kubeflow Pipelines 定义您的 ML 工作流,以及使用 SageMaker 执行数据标记、训练和推理步骤。Kubeflow Pipelines 是 Kubeflow 的一个附加件,借助它,您可以构建和部署便携且可扩展的端到端 ML 管道。但是,使用 Kubeflow Pipelines 时,ML 运营团队需要管理带有 CPU 和 GPU 实例的 Kubernetes 群集,并始终保持其高利用率,以降低运营成本。跨数据科学团队实现集群的利用率最大化是充满挑战的,并且会为机器学习运营团结增加运营开销。作为 ML 优化 Kubernetes 群集的替代方案,借助适用于 Kubeflow Pipelines 的 Amazon SageMaker Component,您可以利用强大的 SageMaker 功能,例如数据标记、完全托管的大规模超参数调优、分布式培训作业、一键式安全和可扩展模型部署以及通过 EC2 Spot 实例进行经济高效培训等,无需专门配置和管理 Kubernetes 群集,即可运行机器学习作业。
与 Kubernetes 集成以进行编排管理
Kubernetes 是一种开源系统,用于自动化部署、扩展和管理容器化应用程序。许多客户希望使用 Amazon SageMaker 全面管理的机器学习功能,但也希望平台和基础架构团队继续使用 Kubernetes 进行编排和管理管道。SageMaker 让用户可以使用 Kubernetes 运算符在 SageMaker 中训练和部署模型。
使用 Amazon Elastic Inference 可将机器学习推理成本最高降低至 75%
在大多数深度学习应用程序中,使用经过训练的模型进行预测(称为“推理”的过程)可能是应用程序计算成本的主要因素。完整 GPU 实例的大小过大,无法用于推理。此外,可能难以优化您的深度学习应用程序的 GPU、CPU 和内存需求。Amazon Elastic Inference 可以解决这些问题,因为您可用依靠它将适当数量的 GPU 驱动的推理加速连接到任何 Amazon EC2 或 Amazon SageMaker 实例类型或 Amazon ECS 任务,而无需更改代码。借助 Elastic Inference,您可以选择最适合应用程序的总体 CPU 和内存需求的实例类型,然后单独配置有效使用资源和降低推理运行成本所需的推理加速量级。
75%
在云中获取高性能和低成本推理
借助 Amazon SageMaker,您可以将经过训练的机器学习模型部署到使用 AWS Inferentia 芯片构建的 Amazon Inf1 实例中,以提供高性能和低成本推理。借助 Inf1 实例,您可以运行大规模机器学习推理应用程序,例如图像识别、语音识别、自然语言处理、个性化和欺诈检测。使用 Amazon SageMaker Neo,您可以编译经过训练的机器学习模型以在 Inf1 实例上进行最佳运行,并将编译好的模型轻松部署到 Inf1 实例上进行实时推理。