とあるAI規制派とAI推進派の議論ログ

備忘録として
3
ケイバリュエーション☻ (鈴木健治) @info_kvaluation

学習済み生成AIモデル、学習した表現を再生可能に記憶していることがテキストでも画像でも明らかになった。 つまり、生成AIモデルの管理者は児童虐待画像や海賊版を所持している。 学習と生成を分ける根拠の一つは失われた。 多層のパラメーター群は、表現をデジタルで多少圧縮して保存する手法の一つでしかない。 小手先でない法学の真摯な研究が望まれる。自由と市場だろう。

2024-01-08 07:14:34
3Dポーズ集 @3dpose

>多層のパラメーター群は、表現をデジタルで多少圧縮して保存する手法の一つでしかない。 シード値、GPUによって出力が変わるような不安定な代物を保存とか。しかも学習元次第であるものにたいしてあらゆる生成モデルも一緒くたにしている暴論。 著作権の大原則である個別案件を無視してるよ。。 twitter.com/info_kvaluatio…

2024-01-08 09:36:37
ケイバリュエーション☻ (鈴木健治) @info_kvaluation

コメントありがとうございます。 シード値のようにランダムな起点とすることや、GPUのような処理能力によって異なる出力となることは、オリジナルを記憶していないことの証明にはなりません。 3Dポーズ集さんの引用コメントからは、生成AIモデルが、学習したコンテンツの表現を記憶していることを、否定する根拠を発見できませんでした。

2024-01-08 10:17:04
3Dポーズ集 @3dpose

記憶と保存は別。 保存の立証が先でしょう。 twitter.com/info_kvaluatio…

2024-01-08 12:53:31
ケイバリュエーション☻ (鈴木健治) @info_kvaluation

保存はstorageで、記憶はmemory、技術的に変わりません。 両者とも、表現を0と1の並びで表現し、それを電気的なプラスマイナスの並びや、磁気のS極N極の並びで一時的または不揮発に担持しておくこと。 数人のコメントを参照して主に圧縮との関係について、もとの発言にぶら下げました。 生成AIモデル自体が、オリジナルの表現を保存なり記憶なりをしていないという有力な指摘はいまのところありません。

2024-01-08 13:24:38
3Dポーズ集 @3dpose

技術的な話としてはメモリとストレージは違う。保存期間が全く異なり、モデルデータはストレージされてるもの。 よって保存が正しい。 twitter.com/info_kvaluatio…

2024-01-08 13:52:39
3Dポーズ集 @3dpose

保存なりしていないではなく、しているの立証が先です。 twitter.com/info_kvaluatio…

2024-01-08 13:44:28
ケイバリュエーション☻ (鈴木健治) @info_kvaluation

@3dpose NYTの訴訟でNYTの記事の文章がそのまま出力されていた。そのまま出力できるように表現が生成AIモデルに記憶され、保持されていたことの証拠。 生成AI画像は著作権のあるキャラクター画像をそのまま出力している。署名が出力された事例も報告されている。

2024-01-08 13:52:22
3Dポーズ集 @3dpose

署名の出力、ロゴの出力は単なる過学習。 保存されたものではないです。 twitter.com/info_kvaluatio…

2024-01-08 13:55:21
ケイバリュエーション☻ (鈴木健治) @info_kvaluation

@3dpose 過学習は未知のデータに上手く応答できないことを指す。不揮発に記憶し、保存していることには変わりない。署名の事例はイラストの方は多少の合成をしているが、複数のオリジナルイラストで同じ位置に署名されていたからその複数のイラストから合成していたことを示唆している。

2024-01-08 13:59:49
3Dポーズ集 @3dpose

>過学習は未知のデータに上手く応答できないことを指す 仕様上ありえんです。 パラメーターの調整ミスでしかないです。 >保存していることには変わりない 学習データが全て遜色なく複製物として出力できるわけではない以上、保存されてないです。 twitter.com/info_kvaluatio…

2024-01-08 14:02:57
3Dポーズ集 @3dpose

>示唆している。 示唆ではなく、複製物である、合成物であると立証してください。 twitter.com/info_kvaluatio…

2024-01-08 14:04:03
ケイバリュエーション☻ (鈴木健治) @info_kvaluation

@3dpose 「公衆送信権」は、アクセスがなくても1つの著作物をアクセス可能にインターネット上に配置したらそれで侵害なので、1つの著作物が再現されたらそれで著作権侵害。 学習したオリジナルの表現にアクセス可能なら、それは保存されており、公衆送信可能に設置したら、著作権侵害。

2024-01-08 14:12:08
ケイバリュエーション☻ (鈴木健治) @info_kvaluation

大規模言語モデルの生成AIモデルがなぜ動作しているか原理的な説明は発見されていないから、出力から合理的に推定することになる。 プロンプトに応じて出力した中心的な画像の生成に際して、 そのプロンプトに応じて動作したニューラル・ネットワークの発火状態で参照されたパラメータの関連性(人間の脳なら記憶)が、同一作者の複数画像でない限り、事後処理なく署名の「文字」が可読可能に再現されることはあり得ない。 他の説明がありえるならどうぞ。

2024-01-08 14:19:59
3Dポーズ集 @3dpose

当該著作物と学習モデルデータは別であるため成立しません。著作物の再現があったものは権利侵害には問えるでしょうが、すべてのAIモデルへの適用は指摘した通り詭弁です。 全てのモデルデータが学習元を複製物として再現可能である前提でなければ成立しません。よって保存を立証してください。 twitter.com/info_kvaluatio…

2024-01-08 14:16:09
3Dポーズ集 @3dpose

ここでいう保存は、学習データとなった著作物の複製の再現です。zipの解凍と同レベルで、すべてのモデルデータから学習元の著作物が複製できる技術が有るのであればご主張を受け入れます。 twitter.com/info_kvaluatio…

2024-01-08 14:21:27
ケイバリュエーション☻ (鈴木健治) @info_kvaluation

@3dpose 著作権侵害は、zipの解凍レベルでなくても成立します。この私のポストに続けます。 twitter.com/3dpose/status/…

2024-01-08 16:45:50
3Dポーズ集 @3dpose

こちらが聞いているのは「著作物の複製物」であると立証してください、です。 著作物の複製物がモデルデータ内に保存されてるんですよね。それはつまり、zipの解凍と同様に、全ての学習元データが再現されるんですよね。その方法を用いて立証してください。どうぞ。 twitter.com/info_kvaluatio…

2024-01-08 16:08:11
ケイバリュエーション☻ (鈴木健治) @info_kvaluation

「技術があるか」との問いは、技術的にありえないし、社会的にも違法であり開発すべきでない、です。 また、著作権侵害は、すべての学習元データを再現できなくても、1枚、再現できれば成立します。 zipレベルの再現性は、同一のハッシュ値がでる完全な一致で、著作権侵害ではそこまでの同一性は必要なく、解像度を落としても、トレースのみでも侵害。(漫画家が背景で他者の写真を使うなど) 生成AIによる「表現の」保存は、zipではなく、jpegやmp3など、視覚や聴覚で感じ取りにくい周波数成分を削除してデータ量を圧縮するタイプの発展型に位置づけられる。 まず、jpegやmp3を仮に大規模言語モデルで実現するなら、フーリエ変換に相当するので、数学的には2層で充分で、多層は不要。 そして、生成AIモデルは多層であり、フーリエ変換がさらに拡張されていて、不連続な表現(関数)を近似できる。 多層の生成モデルは、2層で充分なjpeg等の周波数成分の削除等の圧縮だけでない、重ね合わせか、枝引きをしている。 なぜなら、画像で50億枚など、大量に学習しつつも、モデルは50億枚分のデータ量ではない。そして、ニューラルネットワークだから、コンテンツ(の特徴)を重ね合わせて記憶|保存している。 特徴が同じ表現がパラメーターとして重ね合わされるため、著作権者を特定できないような同一・類似の画像や文章は個別には引き出せない(重なって記憶されている)。 なので、生成AIモデルから学習もとのデータをすべて再現することは、原理的にできない。jpegやmp3も、圧縮にともなって削除された周波数成分は再現できないが、オリジナルのコンテンツをスキャンや録音して、jpegやmp3としても、そのファイルの複写は著作権侵害になる。生成AIモデルも同じ。 ■不鮮明部分 スタンフォード大学研究者は、LAION-5Bから1008件のCSAMを確定した際に、50億のうち3億が不鮮明画像だったとの報告があります。6%は再現できても不鮮明で、再現できないこととほぼ等しい。ここも再現できない。 qiita.com/__dAi00/items/… ■すべてのデータ再現が犯罪になる LION-5Bのサンプル検査で児童の性的虐待画像が3000枚(0.6%)見つかっており、かつ、英語以外は抽出誤差が大きく、イラストも追跡しきれなかったようで、すべてのAIモデルのすべての学習画像を特定することは、おそらくアクセスや所持についてすら違法となる。 すべての植物をかじって見せろ、といわれても、違法な葉っぱもありますよねということです。 個人的には、Stable Diffusion v2-1がどれだけ怪しい画像を学習し、再現できてしまうかに興味をもってますが、まだ情報が少なく、私も個別には調べていません。

2024-01-08 16:56:40
ケイバリュエーション☻ (鈴木健治) @info_kvaluation

@3dpose 文科省への意見提出に向けて論理補強することができました。ありがとうございます。失礼します。

2024-01-08 16:58:17
3Dポーズ集 @3dpose

>「技術があるか」との問いは、技術的にありえないし、社会的にも違法であり開発すべきでない、です。 では権利侵害の立証ができず、保存の立証もできません。モデルデータは一つではなく無数に存在しています。当該画像を使わないモデルデータも違法とはできません。詭弁です。 twitter.com/info_kvaluatio…

2024-01-08 17:02:23
3Dポーズ集 @3dpose

想定する(都合のいい)特定の一つのAIモデルのみを対象としているにもかかわらず、全体的に違法であるとする論調が詭弁と指摘しているのであって、フーリエ変換の話をしているわけではないです。 twitter.com/info_kvaluatio…

2024-01-08 17:05:02