Amazon SageMaker は Grounded-SAM を使用して e コマース広告クリエイティブの生成を加速します

Amazon SageMaker で Grounded-SAM を使用する方法

SageMaker Notebook をベースにしたホスト型 AI ペイント視覚化環境を迅速に構築する方法。

1. ソリューションの新機能: ControlNet およびイメージ ブラウザ プラグインのサポート。

2. 電子商取引/広告業界では、このソリューションの新バージョンには最新のビジュアルツールが搭載されています。 制御可能なテキストと画像を生成し、マーケティング資料の出力を加速します。

3. このプログラムに関するよくある質問と回答。

ソリューションを米国東部リージョンの us-east-1 リージョンにデプロイし、ニーズに応じて ml.g4 または ml.g5 シリーズのインスタンス タイプを選択することをお勧めします。

Amazon Web Servicesの無料トライアルにサインアップするクラウドサービスリンク: https://aws.amazon.com/cn/free/

パートI: 新機能

1 拡張機能とプラグイン

1.1 コントロールネット

ControlNetは ControlNetがリリースしたプラグインで、Wenshengtu機能に新たな制御方式を導入し、キャラクターの姿勢、被写界深度、線画の色付けなどをさらに制御できるようになり、出力画面をより安定して制御できます。ControlNetは、入力の種類ごとにモデルを学習します。現在、以下の8つのモデルが公開されています。これらは、Canny、Depth、Hed、MLSD、Normal、Openpose、Scribble、Segmentationです。モデルの説明は以下の表のとおりです。

前処理名対応モデルモデルの説明
賢いコントロールキャニーエッジ検出。元の画像から線画を抽出し、同じ構図の画像を生成します。
深さ制御深度深度検出: 画像の深度をキャプチャし、画像の前景と背景の関係を取得します。
コントロールヘッドエッジ検出ですが、より詳細な情報を保持し、再色付けやスタイル設定に適しています。
mlsdコントロール_mlsd線分認識は人物の認識には非常に不向きですが、建築物には非常に適しています。
法線マップコントロール_ノーマル画像に基づいて法線マップを生成します。CG モデラーに最適です。
オープンポーズコントロールオープンポーズキャラクターのスケルトンポーズを抽出します。
オープンポーズ_手コントロールオープンポーズキャラクター+手のスケルトンのポーズを抽出します。
落書きコントロールオープンポーズ白黒の下書きを抽出します。
偽の落書きコントロール落書きグラフィティ スタイルの抽出 (非常に強力なモデル)。
セグメンテーション制御セグメントセマンティックセグメンテーション。

このソリューションの最新バージョンであるWebUIバージョン0405は、ControlNetプラグインをデフォルトでサポートしています(この記事のパート3のFAQ 1を参照)。以下の手順に従ってモデルをダウンロードするだけで、すぐにControlNetプラグインを使い始めることができます。

  • CloudFormation-Stack-Output(参照前のブログ 4.3 ステップ12)、NotebookURLリンクを見つけてSageMakerノートブックインスタンスを開きます。
Amazon SageMaker は Grounded-SAM を使用して e コマース広告クリエイティブの生成を加速します
  • ターミナルを開いてクリック ファイル->新規->ターミナル
  • ダウンロードを開始するには、以下のコマンドを入力してください。ダウンロード時間はサーバーのネットワーク状況に応じて異なります。
cd SageMaker/sd-webui ./download-controlnet-models.sh
  • ダウンロードが完了するまで待ってから、Stable Diffusion Web UI インターフェースに戻り、ControlNet の「更新」ボタンをクリックしてモデルのダウンロードとインストールを完了します。
Amazon SageMaker は Grounded-SAM を使用して e コマース広告クリエイティブの生成を加速します

1.2 画像ブラウザ

画像ブラウザ プラグインの新しいサポートにより、次の図に示すように、生成された履歴画像を簡単に表示できます。

Amazon SageMaker は Grounded-SAM を使用して e コマース広告クリエイティブの生成を加速します

地域サポート

米国西部(オレゴン)地域を追加しました

パート2:Eコマース広告クリエイティブの創出

1 背景

ECサイトの画像素材作成において、画像の特定の部分を修正することは非常に一般的なタスクです。以前は、デザイナーは専門的な画像編集ソフトウェアを使用し、長い時間をかけてこの作業を行う必要がありました。しかし、現在のAI機能により、このタスクはより簡単かつ効率的に完了できます。

この記事では、新しいバージョンのShenghuamiaobiでStable Diffusion WebUIとGrounded-SAMを使用して、下図に示すエンドツーエンドの画像編集効果を実現する方法を紹介します。 1. コードなし画像編集の実装 (手動マスク)コード開発に慣れていないデザイナーやクリエイターに適しており、 2. エクスプロイトコード自動画像編集  (自動マスク)AIGC に興味のある開発者や愛好家に適しています。

Amazon SageMaker は Grounded-SAM を使用して e コマース広告クリエイティブの生成を加速します

元の写真はインターネットから引用したものです

2. ソリューションモデルの使用

この記事では以下のモデルを使用します。

2.1 現実的なビジョン

現実的なビジョン リアルな画像を生成するモデルを指します。年齢、人種、服装など、様々な人物の非常にリアルな肖像画を、まるで写真のように作成できます。

2.2 コントロールネット

コントロールネット これはStable Diffusion 1.5に基づく事前学習済みモデルです。著者Lvmin Zhang氏の論文では、ControlNetは事前学習済みで入力条件によって制御される大規模拡散モデルであると説明されています。入力画像におけるエッジ特徴、深度特徴、または人間の姿勢のスケルトン特徴を利用し、テキストプロンプトと連携することで、SD 1.5における画像生成結果を正確に誘導することができます。ControlNetには合計8つのモデルがあり、本稿ではControl_cannyモデルを使用します。

2.3 地上SAM

接地セグメント-何でも(地上SAM)は、 DINOの接地(検出器)と 何でもセグメント化 Model (segmenter) によって構築されたマルチモーダル画像生成ワークフローは、人気のオープンソースプロジェクトです。Grounded-SAM は、Stable Diffusion と直接併用することで、制御可能なテキストと画像の生成が可能です。

2.3.1 DINOの接地

DINOの接地: テキストの説明を通じて画像内のオブジェクトを検出し、長方形のボックスを生成できるゼロショット画像検出モデル。

2.3.2 セグメント・エニシング・モデル(SAM)

何でもセグメント化 モデル(SAM):補助点と補助ボックスをプロンプトとして画像セグメンテーションを実行できる高品質な画像セグメンテーションモデルです。トレーニングセットには10億以上のマスクと1,100万枚の画像が含まれており、画像セグメンテーション用としては現時点で最大規模のオープンソースデータセットとなっています。SAMは「物体とは何か」という一般的な概念を学習しているため、追加のトレーニングなしで画像セグメンテーションを実行できると開発者は主張しています。

3. コードフリーの画像編集(手動マスク)

実験手順は次のとおりです。

3.1 読者はクリックしてこここの実験で使用した画像をダウンロードしてください。

3.2 CloudFormation-Stack-Output で、NotebookURL リンクを見つけて、SageMaker Notebook インスタンスを開きます。

Amazon SageMaker は Grounded-SAM を使用して e コマース広告クリエイティブの生成を加速します

3.3 ターミナルをクリックし、次のコマンドを順番に入力して、Realistic Vision V1.3 モデルをダウンロードします。

cd SageMaker/ wget https://huggingface.co/SG161222/Realistic_Vision_V1.3/resolve/main/Realistic_Vision_V1.3-inpainting.ckpt sudo mv Realistic_Vision_V1.3-inpainting.ckpt ./sd-webui/data/StableDiffusion/ 

上記のスクリプトではHuggingFaceを使用しています リアリスティックビジョン V1.3 モデル。CIVITAIの公式サイトから直接ダウンロードすることもできます。 リアリスティックビジョンV2.0、2つの最終的な効果は非常に近いです。

Amazon SageMaker は Grounded-SAM を使用して e コマース広告クリエイティブの生成を加速します

3.4 WebUIで、先ほどダウンロードした学習済みモデル「Realistic Vision V1.3」を基本モデルとして選択し、タスクタイプとしてimg2imgのInpaint関数を選択します。いわゆるInpaintは、実際には画像生成タスクのサブカテゴリであり、マスクによる画像補完(Mask)または部分画像生成を指します。

Amazon SageMaker は Grounded-SAM を使用して e コマース広告クリエイティブの生成を加速します

3.5 元の画像をアップロードし、ブラシを使用して編集する領域のマスクを手動で描画します。

Amazon SageMaker は Grounded-SAM を使用して e コマース広告クリエイティブの生成を加速します

3.6 下の図に従って、インペイント関連のパラメータを設定します。ここでは、マスク部分のみを補完することを選択します。

Amazon SageMaker は Grounded-SAM を使用して e コマース広告クリエイティブの生成を加速します

3.7 元画像をControlNetにアップロードし、以下の通り関連パラメータを設定します。ControlNet機能は、最終画像生成の制御を強化するのに役立ちます。ここでは、Cannyプリプロセッサと対応するCannyモデルを選択してストローク画像を生成します。「Canny下限閾値」を下げると、図に示すように、元画像のエッジの詳細をより多く保持できます。ControlNetモデルのインストールについてはFAQをご参照ください。Cannyおよびその他のモデルの説明については、ControlNetセクションのモデル解釈表をご参照ください。

Amazon SageMaker は Grounded-SAM を使用して e コマース広告クリエイティブの生成を加速します

3.8 次のテンプレートを参照してプロンプト語を入力し、「生成」をクリックします。

プロンプト = 繊細なシースルースリーブ、余分なディテール、(高精細スキン:1.2)、8K UHD、DSLR、ソフトライティング、高品質、フィルムグレイン、Fujifilm XT3、フォトリアリスティックを備えた非常に美しい夢のような白いレースのコットンドレス

ネガティブプロンプト = (変形した虹彩、変形した瞳孔、半リアル、CGI、3D、レンダリング、スケッチ、漫画、描画、アニメ:1.4)、テキスト、クローズアップ、トリミング、フレーム外、最低品質、低品質、 遺物、醜い、複製、病的な、切断された、余分な指、変異した手、下手な手、下手な顔、突然変異、変形した、ぼやけた、脱水状態、解剖学的に不良、バランスが悪い、余分な手足、クローン化された顔、傷ついた、ひどいバランス、奇形の手足、失われた腕、失われた脚、余分な腕、余分な脚、癒合した指、指が多すぎる、長い首

Amazon SageMaker は Grounded-SAM を使用して e コマース広告クリエイティブの生成を加速します

3.9 生成を待つと、次の結果が得られます。

Amazon SageMaker は Grounded-SAM を使用して e コマース広告クリエイティブの生成を加速します

まとめ上記の手順はシンプルで操作も簡単ですが、毎回手動でマスクを生成する必要があると非常に時間がかかります。次に、コードを使って画像を編集する方法を紹介します。

全自動画像編集(自動マスキング)

Grounded-SAMは、Grounding DINO(検出器)とSegment Anything Model(セグメンテーションモデル)という2つの主要コンポーネントを組み合わせることで、非常に強力な視覚アプリケーションコンビネーションとなり、テキストプロンプトによるCVセマンティックセグメンテーションを実現します。Stable Diffusionと組み合わせることで、マルチモーダルなエンジニアリング画像生成の可能性が確実に広がります。実験手順は以下のとおりです。

Amazon SageMaker は Grounded-SAM を使用して e コマース広告クリエイティブの生成を加速します

画像元 https://github.com/IDEA-Research/Grounded-Segment-Anything

4.1 CloudFormation-Stack-Output で、NotebookURL リンクを見つけて、SageMaker Notebook インスタンスを開きます。

Amazon SageMaker は Grounded-SAM を使用して e コマース広告クリエイティブの生成を加速します

4.2 「ターミナル」をクリックし、次の 2 つのコマンドを順番に入力して、コードをローカルに複製します。

cd SageMaker/git clone https://github.com/DearAmber/miaobishenghua2.git
Amazon SageMaker は Grounded-SAM を使用して e コマース広告クリエイティブの生成を加速します
Amazon SageMaker は Grounded-SAM を使用して e コマース広告クリエイティブの生成を加速します

4.3 左側のパスから「miaobishenghua2」を選択し、「g-seg-local.ipynb」ファイルをダブルクリックします。同時に、環境として「conda_pytorch_p39」を選択します。

Amazon SageMaker は Grounded-SAM を使用して e コマース広告クリエイティブの生成を加速します

4.4 すべてのコードスニペットを順番に実行します。全体のプロセスは3つの主要な部分で構成されます。

4.4.1では使用方法を説明します DINOの接地テキスト記述から予測された長方形のボックスを生成します。例えば、ここでは緑のドレスを選択したいので、プロンプトワードとして「緑のドレス」と入力すると、次の画像が表示されます。また、「box_threshold」を調整することで認識の信頼度を調整し、「text_threshold」を調整することでプロンプトワードの関連性を制御し、最終結果をフィルタリングすることもできます(詳細はコードを参照)。この長方形のボックスの結果は、後続のセグメンテーションタスクの補助プロンプトとして使用されます。

Amazon SageMaker は Grounded-SAM を使用して e コマース広告クリエイティブの生成を加速します

プロンプトワードを「青い模様の白いドレス」に変更してみると、次のような長方形のボックスが表示されます。一番左のドレスも白いのですが、青い模様がないため選択されません。

Amazon SageMaker は Grounded-SAM を使用して e コマース広告クリエイティブの生成を加速します

4.4.2では使用方法を説明します 何でもセグメント化 前のステップで予測された矩形に基づいて、セグメンテーションマスクを生成します。ここでは、予測された矩形を補助プロンプトとして入力し、「multimask_output=False」によってセグメンテーションマスクの出力を1つだけに制限します(詳細はコードを参照)。最終的に、下図のような結果が得られます。Segment Anything自体も、補助プロンプトとして単一点と複数点をサポートしているため、元の画像しか存在しない場合でも、迅速かつ自動的にバッチ処理でマスクを生成できます。

Amazon SageMaker は Grounded-SAM を使用して e コマース広告クリエイティブの生成を加速します
Amazon SageMaker は Grounded-SAM を使用して e コマース広告クリエイティブの生成を加速します

4.4.3 Stable Diffusionのインペインティングモデルを用いて、上記のマスク内のコンテンツを置き換える方法を説明します。実験ではml.g5.2xlargeインスタンスを使用しました。インスタンスタイプに応じて調整してください。 os.environ["CUDA_VISIBLE_DEVICES"] = "0"ここでは、stable-diffusion-2-inpainting モデルを使用して次の画像を生成します (詳細についてはコードを参照してください)。

Amazon SageMaker は Grounded-SAM を使用して e コマース広告クリエイティブの生成を加速します

まとめ:上記の方法を用いることで、画像編集とマテリアル生成の完全自動化をより容易かつ効率的に実現できます。実際の制作環境では、ワークフロー全体をさらに最適化するために、より複雑なエンジニアリングアーキテクチャが必要になることがよくあります。なお、このコード部分で使用されている安定拡散は、 HuggingFaceディフューザー一般的な企業では、チーム(デザイナーと技術開発者)間の連携がより緊密になることを考慮すると、Stable Diffusion WebUI APIを使用して、コード化された画像の生成と出力のワークフローを実装し、パラメータなどの情報の統一性を確保することをお勧めします。このソリューション例は、完全自動化ワークフローの迅速な検証のためのリファレンスとしてご利用いただけます。

パート3 よくある質問

1 スキームの最新バージョン(0405)に更新するにはどうすればよいですか?

インストール手順については、「明るく素晴らしいライティング - SageMaker Notebook をベースにした、管理された安定した拡散 AI ペイント可視化環境を迅速に構築」デフォルトの WebUIVersion は 0405 です。現在、既存の環境でのアップデートはサポートされていないため、再インストールする必要があります。

Amazon SageMaker は Grounded-SAM を使用して e コマース広告クリエイティブの生成を加速します

2. ソリューションを導入する際にサービス制限の問題にどのように対処すればよいですか?

このソリューションをデプロイする前に、SageMaker Notebookの対応するリソースクォータ(例えば、ノートブックインスタンス使用時のml.g4dn.2xlarge)が、該当リージョンのサービスクォータで増加されていることを確認してください。具体的な手順については、以下を参照してください。リンク

3 インターネットからダウンロードしたモデルの使用方法

  • 存在する フォーメーションの出力ページを開く ノートブックURL 対応リンク
  • 左のナビゲーションバーで、以下に示すように、sd-webui/dataディレクトリを見つけます。
Amazon SageMaker は Grounded-SAM を使用して e コマース広告クリエイティブの生成を加速します
  • 安定拡散の基本モデルでは、 安定拡散 目次
  • Loraモデルの場合、 ローラ 目次
  • ControlNetモデルの場合は、 コントロールネット 目次
  • ユーザーが微調整したモデルも配置されています 安定拡散 目次

4 Automatic と InvokeAI を切り替えるにはどうすればいいですか?

  • クラウドフォーメーションの出力ページで、 ノートブックURL 対応リンク
  • ターミナルを開いてクリック ファイル->新規->ターミナル
  • 次のディレクトリを入力してください
cd SageMaker/sd-webui
  • 自動WebUIを起動する
./startAuto.sh
  • WebUIを起動する
./startInvoke.sh

5 バージョン管理について

私たちは、この計画の最新の 2 つのバージョンを保持します。 0405 そして 0316

要約する

この記事では、ControlNetおよびImage Browserプラグインの新規サポート、米国西部2(オレゴン)の新規サポートなど、以前のブログソリューションシリーズの新機能についてご紹介します。また、このソリューションと関連するSageMakerサービスに基づいて、Grounded-SAMを使用してeコマース広告業界のマーケティング資料を作成するための方法と手順についても詳しく説明します。具体的には、1. ControlNetのCannyモデルとInpaint機能によるコードフリーの画像編集、2. Grounded-SAM(DINOの接地 そして 何でもセグメント化)コードを使って画像を編集できます。また、「花開く、そして素晴らしい文章」シリーズでは、お客様のシナリオに近いソリューションを今後も追加していく予定です。ご質問やご要望がございましたら、お気軽にお問い合わせください。

5/5 - (1票)

手紙への返信

メールアドレスが変更されることはありません。 支払い欄に必須の項目は必須です