何が変わったか

Huntington Bankは、400M以上のドキュメントを処理する際、従来の方法では数年かかる作業をAWSのツールキットを活用して数か月に短縮しました。この変化は、Amazon TextractAmazon SageMakerAWS Step FunctionsAWS Lambdaなどのサービスを組み合わせることで実現されました。(出典: Huntington Bank: Redacting sensitive data from 400M+ documents with AWS

仕組みの詳細

この解決策のアーキテクチャは、オンプレミスのファイル共有からAmazon S3へのデータ転送、Textractによる機械学習によるデータ抽出、Step Functionsによるワークフロー管理、Lambdaによるイベント駆動処理の4段階から構成されます。AWS DataSyncとAWS Direct Connectを活用し、400M以上のドキュメントを暗号化された状態で移行しました。Textractはスキャンされたドキュメントからテキストやテーブルを抽出し、SageMakerでカスタムモデルをトレーニングして機密データを検出します。(出典: Huntington Bank: Redacting sensitive data from 400M+ documents with AWS

移行手順

  1. データ移行: AWS DataSyncをオンプレミスにデプロイし、SMBファイル共有からAmazon S3バケットへのデータ転送を設定します。
  2. ドキュメント処理: Amazon Textractでドキュメントをスキャンし、機械学習モデルで機密情報を抽出します。
  3. ワークフロー管理: AWS Step Functionsで処理フローを定義し、Lambda関数でイベント駆動の処理を実行します。
  4. セキュリティ確保: AWS KMSで暗号化を管理し、データの送信中・保存中のセキュリティを確保します。
    (出典: Huntington Bank: Redacting sensitive data from 400M+ documents with AWS

パフォーマンス特性

従来の方法では数年かかる作業が、AWSのツールキットを活用することで数か月に短縮されました。具体的なパフォーマンス数値は公式ドキュメントに記載されていませんが、大規模なドキュメント処理におけるスケーラビリティと効率性が強調されています。(出典: Huntington Bank: Redacting sensitive data from 400M+ documents with AWS

まとめ

  • AWS DataSyncとAmazon S3を活用して大規模ドキュメントの移行を自動化し、セキュリティを確保できます。
  • Amazon TextractとSageMakerの組み合わせで機密情報を抽出し、カスタムモデルをトレーニングすることで精度を向上させられます。
  • AWS Step FunctionsとLambdaでイベント駆動のワークフローを構築し、処理の効率化とコスト削減が可能です。
  • AWS KMSによる暗号化管理でデータの送信中・保存中のセキュリティを強化できます。
  • 公式ドキュメントAWS DataSyncAmazon Textract)を参照し、自社環境に最適な設定を検討してください。