创建一个数据标注项目,使用 Amazon SageMaker Ground Truth Plus 机
使用 Amazon SageMaker Ground Truth Plus 创建数据标注项目
由 Joydeep Saha 和 Ami Dani 发布于 2024年10月15日 Amazon SageMaker,Amazon SageMaker Ground Truth,人工智能,中级 (200) 永久链接 评论 分享
关键要点
Amazon SageMaker Ground Truth Plus 是一个强大的数据标注服务,提供基于人工标注者的可扩展平台,可用于各种类型的数据标注,包括文本、图像、视频和3D点云。创建标注项目 需填写咨询表单,或在 SageMaker Ground Truth Plus 控制台提交项目申请,AWS 专家将与您沟通具体需求。上传需要标注的数据到 Amazon S3 存储桶,并在项目门户中创建批次以进行标注。SageMaker Ground Truth Plus 团队将负责寻找标注人员,进行培训并创建标注界面,标注完成后将数据返回 S3 存储桶,供您训练机器学习模型。解决方案概述
首先,您需要在 获取开始 Amazon SageMaker Ground Truth 页面填写咨询表单,或者如果您已拥有 AWS 账户,可以在 SageMaker Ground Truth Plus 控制台提交项目请求表。AWS 专家会联系您,审查您的数据标注需求。您可以共享特定的需求,比如主题专业知识、语言要求或标注人员的地理位置。如果您提交了咨询表单,随后还需在 SageMaker Ground Truth Plus 控制台提交项目请求表,在此情况下您的请求会自动批准,无需进一步讨论。如果您直接提交了项目请求,则项目状态将从审核中变更为请求已批准。
接下来,您可以创建项目团队,包括所有参与该项目的人员。每个团队成员会收到邀请加入您的项目。上传需要标注的数据到 Amazon 简易存储服务 (Amazon S3) 的存储桶。为了将该数据添加到项目中,您需要进入项目门户并创建一个批次,包含 S3 存储桶的 URL。每个项目由一个或多个批次构成,每个批次由待标注的数据对象组成。

SageMaker Ground Truth Plus 团队将根据您的具体数据标注需求寻找标注人员,并对其进行标注要求的培训,创建用户界面供其标注您的数据。在标注数据通过内部质量检查后,它将被送回 S3 存储桶,供您用来训练机器学习模型。
以下图表展示了解决方案的架构。
通过本文中的步骤,您能够快速设置您的数据标注项目。这包括请求新项目、设置项目团队和创建批次,方便您标注所需的数据对象。
先决条件
在进行此流程之前,您应该具备以下条件:
拥有一个 AWS 账户。需要您存放数据的 S3 存储桶的 URI,该存储桶需位于美国东部弗吉尼亚北部AWS 区域。拥有 AWS 身份与访问管理 (IAM) 用户。如果您是 AWS 账户的所有者,则您拥有管理员访问权,可以跳过此步骤。如果您的 AWS 账户属于 AWS 组织,您可以请求 AWS 管理员为您的 IAM 用户授予所需的权限。以下基于身份的策略指定了您的 IAM 用户执行本文中的所有步骤所需的最低权限提供您数据存储的 S3 存储桶名称:json{ Version 20121017 Statement [ { Sid VisualEditor0 Effect Allow Action [ groundtruthlabelingListProjects groundtruthlabelingGetIntakeFormStatus groundtruthlabelingCreateProject sagemakerListWorkforces sagemakerPutLabelingPortalPolicy sagemakerGetLabelingPortalPolicy iamGetRole iamPassRole iamListRoles iamCreateRole iamCreatePolicy iamAttachRolePolicy s3ListAllMyBuckets cognitoidpCreateUserPool cognitoidpListUserPools cognitoidpListGroups cognitoidpAdminAddUserToGroup cognitoidpAdminCreateUser cognitoidpCreateGroup cognitoidpCreateUserPoolClient cognitoidpCreateUserPoolDomain cognitoidpDescribeUserPool cognitoidpDescribeUserPoolClient cognitoidpListUsersInGroup cognitoidpUpdateUserPool cognitoidpUpdateUserPoolClient ] Resource } { Effect Allow Action [ s3PutObject s3GetObject s3ListBucket ] Resource [ arnawss3ltyourS3bucketnamegt arnawss3ltyourS3bucketnamegt/ ] } ]}
请求项目
完成以下步骤以请求项目:
在 SageMaker 控制台,在导航面板下选择 Ground Truth 的 Plus。
选择 请求项目。
在 商业电子邮件地址 中输入有效邮箱。
在 项目名称 中输入一个描述性名称,不能有空格或特殊字符。在 任务类型 中选择最适合您的数据类型的选项。在 包含个人隐私信息 中,仅在数据包含 PII 的情况下开启。在 IAM 角色 中,您选择的角色将授权 SageMaker Ground Truth Plus 访问您在 Amazon S3 中的数据并执行标注工作。您可以通过以下选项之一来指定 IAM 角色:选择 创建 IAM 角色推荐,可为您指定的 S3 存储桶提供访问权限,并自动附加所需的权限和信任策略。输入自定义的 IAM 角色 ARN。选择现有角色。如果您没有创建 IAM 角色的权限,可以请求您的 AWS 管理员为您创建角色。在使用现有角色或自定义 IAM 角色 ARN 时,该 IAM 角色应具备以下权限策略和信任策略。
以下是权限策略代码:
json{ Version 20121017 Statement [ { Effect Allow Action [ s3GetObject s3GetBucketLocation s3ListBucket s3PutObject ] Resource [ arnawss3ltinputbucketnamegt arnawss3ltinputbucketnamegt/ arnawss3ltoutputbucketnamegt arnawss3ltoutputbucketnamegt/ ] } ]}
以下是信任策略代码:
json{ Version 20121017 Statement [ { Effect Allow Principal { Service sagemakergroundtruthplusamazonawscom } Action stsAssumeRole } ]}
大象加速器选择 请求项目。在导航面板下的 Ground Truth 中,选择 Plus 可以查看已列出您项目的 项目 部分,状态为 审核中。
AWS 代表将在 72 小时内联系您审查项目需求。审查完成后,您的项目状态会变更为 请求已批准。
创建项目团队
SageMaker Ground Truth 使用 Amazon Cognito 来管理您的工作团队成员。Amazon Cognito 是一项服务,用于为您的工作人员创建身份。完成以下步骤以创建项目团队:
在 SageMaker 控制台中,选择 Ground Truth 下的 Plus。选择 创建项目团队。剩下的步骤取决于您是创建新用户组还是导入现有组。
选项 1:创建新的 Amazon Cognito 用户组
如果您不想在账户中导入现有的 Amazon Cognito 用户组,或者您的账户中没有 Amazon Cognito 用户组,您可以使用此选项。
在创建项目团队时,选择 创建新的 Amazon Cognito 用户组。输入 Amazon Cognito 用户组名称,用无空格的描述性名称。在 电子邮件地址 中输入多达 50 个地址,地址之间用逗号分隔。选择 预览邀请 以查看将发送到提供的电子邮件地址的邮件。选择 创建项目团队。在导航面板下的 Ground Truth 中,选择 Plus 可查看您的项目团队已列出在 项目团队 部分。您添加的电子邮件地址也包含在 成员 部分中。
选项 2:导入现有的 Amazon Cognito 用户组
如果您想导入账户中现有的 Amazon Cognito 用户组,您可以使用此选项。
在创建项目团队时,选择 导入现有 Amazon Cognito 用户组。在 选择现有 Amazon Cognito 用户组 中,选择要导入成员的用户组。选择 创建项目团队。在导航面板下的 Ground Truth 中,选择 Plus 可查看您的项目团队已列出在 项目团队 部分。您添加的电子邮件地址也包含在 成员 部分中。
访问项目门户并创建批次
您可以通过项目门户创建包含标注数据的批次,并跟踪项目中以前创建的批次状态。要访问项目门户,请确保您至少已创建一个项目和至少一个项目团队,且团队内有一个经过验证的成员。
在 SageMaker 控制台中,选择 Ground Truth 下的 Plus。选择 打开项目门户。
使用您在上一步中创建的项目团队用户凭据登录到项目门户。
项目门户上会显示您所有项目的列表。
选择一个项目以打开其详细信息页面。在 批次 部分,选择 创建批次。
输入批次名称、批次描述、输入数据集的 S3 位置和输出数据集的 S3 位置。
选择 提交。要成功创建批次,确保满足以下标准:
您的 S3 存储桶位于美国东部弗吉尼亚北部区域。每个文件的最大大小不超过 2GB。每个批次中的最大文件数量为 10000 个。每个批次的总大小少于 100GB。提交的批次会列在 批次 部分,状态为 请求已提交。数据传输完成后,状态将变为 数据已接收。接下来,SageMaker Ground Truth Plus 团队会设置数据标注工作流,批次状态将更改为 进行中。标注员对数据进行标注,您通过接受或拒绝已标注的数据来完成数据质量检查。被拒绝的对象将返回给标注员重新标注,而被接受的对象将会送回 S3 存储桶,供您用于训练机器学习模型。
结论
SageMaker Ground Truth Plus 提供了一种无缝的解决方案,用于构建高质量的训练数据集,以支持您的机器学习模型。通过使用 AWS 管理的专业标注员并自动化数据标注工作流,SageMaker Ground Truth Plus 消除了构建和管理自身标注团队的负担。凭借其用户友好的界面和一体化工具,您可以轻松提交数据、指定标注要求,并实时监测项目进展。通过获得准确标注的数据,您可以自信地训练模型,保持最佳性能和准确性。利用 SageMaker Ground Truth Plus 的强大功能,简化您的机器学习项目,专注于构建创新的
构建一个实时、低代码的时间序列数据异常检测管道,使用 Amazon Aurora、Amazon Re
构建实时低代码异常检测管道关键要点本文提供了一种使用 Amazon Aurora、Amazon Redshift ML 和 Amazon SageMaker 构建实时低代码异常检测解决方案的方法。该方案可有效监测资产,识别设备异常,支持工业物联网IIoT中的数据分析需求。工业物联网IIOT革命改变了...
使用 Amazon Route 53 CNAME 记录启用对 Oracle Data Guard 环
使用 Amazon Route 53 CNAME 记录实现 Oracle Data Guard 环境的透明连接关键要点:本文介绍如何利用 Amazon Route 53 CNAME 记录在 Oracle Data Guard 环境中实现应用的无缝连接。自动化 DNS 更新和数据库触发器是实现这一目标...