何が変わったか
Huntington Bankは、400M以上のドキュメントを処理する際、従来の方法では数年かかる作業をAWSのツールキットを活用して数か月に短縮しました。この変化は、Amazon Textract、Amazon SageMaker、AWS Step Functions、AWS Lambdaなどのサービスを組み合わせることで実現されました。(出典: Huntington Bank: Redacting sensitive data from 400M+ documents with AWS)
仕組みの詳細
この解決策のアーキテクチャは、オンプレミスのファイル共有からAmazon S3へのデータ転送、Textractによる機械学習によるデータ抽出、Step Functionsによるワークフロー管理、Lambdaによるイベント駆動処理の4段階から構成されます。AWS DataSyncとAWS Direct Connectを活用し、400M以上のドキュメントを暗号化された状態で移行しました。Textractはスキャンされたドキュメントからテキストやテーブルを抽出し、SageMakerでカスタムモデルをトレーニングして機密データを検出します。(出典: Huntington Bank: Redacting sensitive data from 400M+ documents with AWS)
移行手順
- データ移行: AWS DataSyncをオンプレミスにデプロイし、SMBファイル共有からAmazon S3バケットへのデータ転送を設定します。
- ドキュメント処理: Amazon Textractでドキュメントをスキャンし、機械学習モデルで機密情報を抽出します。
- ワークフロー管理: AWS Step Functionsで処理フローを定義し、Lambda関数でイベント駆動の処理を実行します。
- セキュリティ確保: AWS KMSで暗号化を管理し、データの送信中・保存中のセキュリティを確保します。
(出典: Huntington Bank: Redacting sensitive data from 400M+ documents with AWS)
パフォーマンス特性
従来の方法では数年かかる作業が、AWSのツールキットを活用することで数か月に短縮されました。具体的なパフォーマンス数値は公式ドキュメントに記載されていませんが、大規模なドキュメント処理におけるスケーラビリティと効率性が強調されています。(出典: Huntington Bank: Redacting sensitive data from 400M+ documents with AWS)
まとめ
- AWS DataSyncとAmazon S3を活用して大規模ドキュメントの移行を自動化し、セキュリティを確保できます。
- Amazon TextractとSageMakerの組み合わせで機密情報を抽出し、カスタムモデルをトレーニングすることで精度を向上させられます。
- AWS Step FunctionsとLambdaでイベント駆動のワークフローを構築し、処理の効率化とコスト削減が可能です。
- AWS KMSによる暗号化管理でデータの送信中・保存中のセキュリティを強化できます。
- 公式ドキュメント(AWS DataSync、Amazon Textract)を参照し、自社環境に最適な設定を検討してください。