AIでの生成物のレベルが急激に向上している現在、人の手による生成なのかAIによる生成なのかの判別が難しくなってきています。これはフェイク画像や動画のみならず、テキストにも言えることで、そういった状況を悪用するひともこれから増えるでしょう。他国においてはAI生成のものに関してその表示義務を課すような法律を制定しようという動きもありますが、それにしても対象物の判断は難しくなっています。
今回紹介するのは、Googleが開発を進めている SynthID という仕組みで、生成物自体にデジタル透かしというような仕組みをいれることで、人にはわからなくても、AIでは判別可能になる技術です。
以下の文章自体もAIによって生成していますので、その真偽は完全ではありませんが、概ねの内容は理解できるのではないかと思います。
1.SynthIDの概要と仕組み
概要:
SynthIDは、AIが作った画像やテキストに「目には見えないデジタル透かし」を埋め込む技術です。これにより、「このコンテンツはAIが作ったものか?」を後から判別できます。Google DeepMindが開発し、AI生成コンテンツの信頼性を向上させる目的で作られました。
仕組み:
-
デジタル透かしを埋め込む
- 画像やテキストを生成する際に、特殊な情報(透かし)を密かに埋め込みます。
- これは人間には見えず、読んでも違和感がないよう設計されています。
-
後で検出できる
- 透かしが埋め込まれたコンテンツをAIで解析すると、「これはSynthIDで作られたものだ!」と判別できます。
- 画像の場合、多少編集やフィルターをかけても透かしが残る設計になっています。
なぜ重要?
- AI生成コンテンツが増えている中で、「本物かAI製か」を見分けることが重要になっています。
- 偽情報の拡散防止や、クリエイターが自分の作品を守るのに役立ちます。
要するに、SynthIDは「AIが作ったことをバレないようにする技術」ではなく、「AIが作ったことをきちんと証明できる技術」ということですね。
2.SynthIDの情報埋め込み方法
SynthIDの情報埋め込み方法
SynthIDは、画像やテキストに「目には見えない透かし(ウォーターマーク)」を埋め込む技術ですが、その方法はコンテンツの種類によって異なります。
① 画像の場合(デジタル透かし)
画像のピクセルデータに「わずかに変更を加える」ことで透かしを埋め込みます。
- 人間の目には見えないが、AIが解析すると透かしを検出できる。
- 画像の色や明るさを少しだけ変えるが、見た目には影響しない。
- フィルターをかけたり圧縮しても透かしが残るように設計されている。
仕組み(簡単な流れ)
- AIが画像を生成するときに、特定のパターン(透かし)をピクセルの中に埋め込む。
- 透かしは微細なノイズとして埋め込まれ、通常の編集では消えにくい。
- 検出するときは、AIがそのノイズパターンを分析して、SynthIDの透かしが入っているか確認する。
② テキストの場合(統計的ウォーターマーク)
テキストには「特定の単語や文章の並び方」に特徴的なパターンを埋め込む。
- たとえば、ある単語の出現頻度や位置関係を調整することで、AIが生成したときの特性を持たせる。
- 読んでも違和感のない形で、特定のパターンを持つ文章にする。
- 後でAIが解析すると、そのパターンを検出できる。
仕組み(簡単な流れ)
- AIが文章を生成するときに、特定の単語を優先的に選ぶ(自然な文章を維持)。
- 単語の配置や頻度に隠れたルールを持たせる(人間には分からない)。
- 検出するときは、そのルールが含まれているかをAIが分析する。
まとめ
画像の場合 → ピクセルの微細な変更で透かしを埋め込む。
テキストの場合 → 単語の出現頻度や配置に特徴的なパターンを持たせる。
どちらも人間には分からないが、AIが検出できるようになっているのがポイントですね。
SynthIDで埋め込まれる情報
SynthIDのデジタル透かし(ウォーターマーク)には、主に 「コンテンツの出どころや生成情報」 に関するデータが含まれます。これは、AIが生成したことを証明し、偽情報の拡散を防ぐための仕組みです。
埋め込まれる情報の例
① 画像の場合(ピクセル埋め込み)
画像のピクセルデータに、以下のような情報を隠します:
- 生成元のAIモデル(例:Gemini、Imagenなど)
- 作成日時(いつ生成されたか)
- 生成パラメータ(モデルが使った設定やシード値)
- 識別コード(UUIDなど)(個別の識別番号)
この情報は、画像を分析するとAIが読み取れるようになっています。フィルターや圧縮をしても消えにくい設計です。
② テキストの場合(統計的ウォーターマーク)
文章には「単語の出現パターン」によって、以下のような情報を埋め込みます:
- 使用されたAIモデル(どの言語モデルが作ったか)
- 透かしの識別コード(文章ごとに異なる識別ID)
- 生成の確率パターン(どの単語がAI特有のルールで選ばれたか)
例えば、AIがある特定の単語や構造をわずかに優先して選ぶことで、「この文章はSynthIDで透かしが入っている」と検出できます。
SynthIDの特徴
✅ 人間には分からないが、AIには検出できる
✅ 加工や編集をしても透かしが残る(特に画像)
✅ AIが作ったことを証明する情報が含まれる
この技術により、AI生成コンテンツの信頼性を向上させ、「フェイクか本物か?」を判断しやすくすることができます。