AI関連の用語集を作っています。
※この記事ではLLMに読み込ませることを便宜的にAIに読み込ませると記載している部分があります
※個人的な解釈がとても多いです
※修正が必要だったり間違っているものはお問い合わせなどで優しめでご指摘ください🙇
知識生成プログラミング(Generate Knowledge Prompting)
プロンプトエンジニアリングのひとつ。AIにいきなり結果を求めるよりも、結果に至る過程を訪ね、徐々に生成する方が欲しい結果の精度が高まります。例えば『あなたは〇〇の専門家です』や『〇〇のルールを説明して』といったように、定義となりそうなものを生成することで事前知識としてインプットできます。
文脈内学習(In-context Learning)
プロンプトエンジニアリングのひとつ。ICLともいいます。ドキュメントやURLのルーティング、APIの一覧をAIに読み込ませることで、その精度を上げる試みのことです。AIカスタマイズをガツガツに施さなくても、ICLではプロンプトで学習させるので素早く柔軟な自分用のAIが作れます。ICLの具体的な解釈は諸説あるようですが、今では「公式ドキュメントを読み込ませる」くらいのイメージで大丈夫だと思います。
フューショットプロンプティング(Few-shot prompting)
プロンプトエンジニアリングのひとつ。AIになにかさせる時に、ちょっとだけ例を示して誘導し、その後にやってほしいことを与えた方がうまくいきやすい手法のことです。比較として、何も例を与えないのをゼロショットプロンプティング(Zero-shot prompting)、モデルに対して多くのデータを提供して精度を上げるのをファインチューニング(Fine-tuning)といいます。
位置づけとしてこうなります。
- Fine-tuning
- —–越えられない壁—–
- Few-shot prompting
- Zero-shot prompting
上に行く方が学習コストが高く精度が向上されたものを出力できます。Few-shot promptingとFine-tuningの間には大きな隔たりがあります。それぞれの出力や用途によって使い方が異なるので、どれが一番優れているか競うのではなく、やりたいことによってどれが最適なのかといった観点で選んでいく方が良さそうです。
ヒューマンインザループ(Human-in-the-Loop、HITL)
人間の承認が必要になること。全部AIがやると人間から見てそうじゃないんだけどなーとか、人間が介在しないと危うい場面にならないように、大事そうなところ場面では人間の承認を必要にしようとするアプローチです。エンジニア領域だとAIエディタが「Apply」と聞いてくる機能のことです。
LLM(Large Language Model、大規模言語モデル)
AIに事前学習された大量データのこと。急にAIが発展した契機となったものとしてLLMの進化があります。LLMが進化することによって言葉を理解するようになり、言葉を理解するので言葉を出力できるようになりました。言葉もデータとして扱うので、言葉(テキスト)、画像、動画、音声などデータとして扱えるものはなんでもいけます。
代表的なLLMとして、GPTシリーズ、Claude、Gemini、LLaMA、DeepSeekなどがあります。
機械学習
RLHF(Reinforcement Learning from Human Feedback)
人間のフィードバックを活用する強化学習手法。ChatGPTのGPT-4もこの手法を用いられています。人間の好みや価値観にあわせて作られていくので、人間が使いやすいものができあがります。RLHFは以下の3つのステップで構成されます。
- 事前学習済みモデルの用意
- 人間のフィードバックを利用した報酬モデルの作成
- 強化学習(PPOなど)によるチューニング
簡単に言うと、膨大なデータを事前学習して出力されるものを人間が評価して報酬モデルを作成しこれを学習することです。事前学習済みモデルと報酬モデルの強化学習で精度が改善されます。PPOは次で解説します。
PPO(Proximal Policy Optimization、近接方策最適化)
強化学習の手法の一つ。LLMとRLHFとの調整で使われることが多いアルゴリズムで、GoogleのDeepMindによって開発されました。従来の方法はTRPO(Trust Region Policy Optimization)があり、その弱点として計算コストの高さや学習が不安定になることが挙げられます。PPOはそれらを「クリッピング」により克服しています。
PPOは以下のステップで構成されます。
- データ収集
- 報酬モデルの適用
- 方策の更新
- 学習の繰り返し
PPOの特徴的な「クリッピング」手法を使い、過度な方策の変更を防いでいます。クリッピングにより、方策の更新量を一定範囲(例: ±0.2)内に制限します。急激な学習の変化を防ぐことで、安定性が増してよりシンプルに計算ができるようになりました。
LoRA(Low-Rank Adaptation)
LLMを効率よくファインチューニングする手法です。新しい行列だけを学習して、元のモデルは固定することで計算量を激減させて軽量に適応可能にしています。よくあるのは画像の変更です。
例えばStable DiffusionのLoRA拡張を使うことで、アニメスタイルのLoRAモデル(例: AnythingV3、HakoAnime、Counterfeit など)を適用すると写真をアニメ調に変更できます。アニメ調もさらにいろんな種類があって、手書き風やマンガ風やアニメ映画風など、複数のLoRAモデルの選択で、いろんなスタイル変更ができます。
QLoRA(Quantized LoRA)
LoRAを発展させて、より軽量にファインチューニングを行う手法です。量子化技術を活用しているらしいのですが、勉強不足で何をやっているかまだピンときていないので、筆者の学習が進み次第、更新します。QLoRAのおかげでガチめスペックのサーバーとかを用意しなくても、ギリ一般向けのGPUやメモリを多く積んだPCでもLLMの調整ができるのだそうです。
画像・動画生成
Stable Diffusion(ステイブル ディフュージョン)
https://ja.stability.ai/stable-diffusion
テキストから画像を生成できるオープンソースのAIモデルです。Stability AIが開発していて、モデルやLoRAやControlNetを使って好みの画像を生成できるのが人気です。生成した画像やモデルには著作権やライセンス等がある場合が多いので、使う際や商用利用する際には注意が必要です。Stable DiffusionとMidjourneyは画像生成として2強だと思っています。
SDと略されることもあって、SD3と書かれていたらStable Diffusionのバージョン3のことです。SD3.5ならStable Diffusion 3.5のことです。SDを裏で使って接続し、画像生成しているサービスも多いです。
SDはリアルな日本人っぽいのを出力するのが得意なモデル、アニメっぽくするのが得意なモデル、それぞれのコミュニティで活発に開発されています。モデルだけではなく、AIに与えるプロンプト(呪文)の議論も活況です。
ちなみにControlNetとは、特定のポーズや構造を抽出したり維持しながら別のスタイルの画像を作る拡張機能のことです。画像に人間が海の前に写っている場合、人間のポーズ、人間と背景の境界線、表情などを抽出します。テンプレートみたいなものです。この抽出した情報を使って他のスタイルに適用すると、ポーズは元のままでアニメ絵にして背景を室内とかにすることができます。
Midjourney(ミッドジャーニー)
https://www.midjourney.com/home
2022年7月に公開、画像生成AIとして最初期に登場してからずっと先端を走っています。最初はDiscordによる無料版があったのですが、現在は有料版が中心となっています。それでも利用する人は多くとても人気です。
人気の秘密は、画像の生成の精度が高いだけでなく、スタイルの豊富さや修正のきめ細やかさ、コミュニティの活発さにあります。
コミュニティでは、AIが作ったとは思えない高繊細な画像が公開されています。その画像には画像に対する説明ではなく、画像を生成した時のプロンプトが一緒に公開されています。このプロンプトを用いると自分でも似たような画像を作れるし、そのプロンプトをさらに修正して、またブラッシュアップされた画像を生成することができます。高いスキルを持った人の作品のプロンプトを参考にしたり、さらに似た画像を探すことができるので、また来ようと思えるサービスの作りになっています。
生成した画像を他の動画生成AIに混ぜたりすると、より自分の思い描いている作品を形にできるかもしれません。
Whisk
https://labs.google/fx/ja/tools/whisk
Google labsが出している画像生成AIのサービスです。テンプレートとして用意されているスタイルを選び、そのスタイルとして出力したい画像を選びます。そうすると、画像を解析して、スタイルに合わせた感じで、めちゃくちゃかわいく生成してくれます。ここまでかわいい特化で出力するのは珍しく、筆者は1日中、ずっと遊んでいました。
用意されたテンプレート以外にも、スタイルに自分のイラストをあてがうと、そのスタイルで画像を生成するのでトンマナが揃ったイラスト集とかも作れます。
ImageFX
https://labs.google/fx/tools/image-fx
Googleが出している画像生成AIのサービスです。前述したWhiskも、おそらくImageFXの技術によるものです。無料で使うことができ、プロンプトから画像生成が簡単にできます。できることはとても限られていて、T2I(テキストから画像生成)しかできません。単機能しか提供していないのは、技術評価がベースになっているからかもしれません。
DALL·E3(ダリ)
OpenAIによる画像生成AI。前バージョンのDALL·E2よりも、人間の描写やイラストがうまくなっています。個人的にはうまくなればなるほどむしろAI絵として強調されているような気がしないでもないです。ChatGPTに登録することで使用できます。
Adobe Firefly
Adobeが出している画像系生成AIです。最大の特徴は、商用利用OKな点です。商用利用したかったらとりあえずAdobeのものを使っておけば、他よりはリスクが少ないと思われます(当サイトでは紹介したことによる責任はとれないので、使う際はよく確認してください)。
テキストから画像や動画が作れるものの、他とはちょっと精度というか出力されるものにAIっぽさが残り、他とは2年ほど遅れているような印象があります。あと、画像にテキストをミックスして動画を作るのも今のところできないようです。できるような感じで書いてあるのですが見当たらなかったです。
T2I,T2V,I2I,I2V
T2I = text to image
T2V = text to video
I2I = image to image
I2V = image to video
2はtoのことで、IT界隈ではよく出現します。テキストや画像から、画像や動画への変換のことを指します。
Fotographer ai
I2Iの有料サービスです。主な機能としてはこちら。
- 背景合成
- 照明編集
- アイテム学習
- 画像生成
- 背景削除
画像をうまいこと切り出して、背景を変化させたりすることが得意のようです。商品紹介やポートフォリオに役立ちそうです。LoRA学習やAPIなど、広く使うことを想定しているようです。2025年2月現在において、2024年9月の時点から最新情報が更新されていないので、これからの展開に期待しています。
まだまだ用語集は書いていく予定ですので、ブックマークかXのフォローをお願いいたします。