独自の生成 AI アプリケーションを構築したいですか?ここでは、開始に役立つ AI モデルのリストを示します。
AI モデルは、特定のタスクで非常に優れたパフォーマンスを発揮するニューラル ネットワーク アーキテクチャです。これらには、画像の分類とセグメンテーションのための畳み込みニューラル ネットワーク アーキテクチャ、事前にトレーニングされた生成的な大規模言語モデル、画像生成タスクのための拡散モデル、
最近、画像、音声、テキストなどの生成 AI アプリケーション用の AI モデルが非常に人気になっています。これは研究の進歩と高性能コンピューティングへのアクセスの両方によるものです。
以下で説明する一般的な AI モデルの簡単な概要を次に示します。
モデル | 主要な機能 |
---|---|
GPT-4 | オープンソースの大規模言語モデルを使用して、LLM を利用したアプリケーションを構築できる |
ラマ | チャットボットからコーディングアシスタントまで、さまざまな NLP アプリケーション |
ファルコン | オープンソースの大規模言語モデルを使用して、LLM を利用したアプリケーションを構築できる |
安定した拡散 | テキストから画像への変換、画像のインペイント、アウトペイント、およびアップスケーリング |
ダルイー2 | テキストから画像への生成 |
ささやき | 音声認識、言語翻訳、言語検出 |
StableLM | オープンソースの軽量大規模言語モデル |
クリップ | 質問応答、要約、テキスト生成などのさまざまな NLP タスク |
インターンLM | オープンソースの大規模言語モデル。 LLM を利用したアプリケーションの構築に使用できます |
何でもモデルをセグメント化する | さまざまな画像セグメンテーションタスクのゼロショット一般化 |
ウェーブガン | オーディオの生成 |
サイクルガン | 画像から画像への変換 |
バイオGPT | 生物医学テキストの生成とマイニング |
AI アートからパーソナライズされたコーディング アシスタントの構築まで、興味に基づいてさまざまな生成 AI アプリケーションを構築できます。ここでは、探索できるいくつかの興味深い AI モデルとその主要な機能をリストします。
始めましょう!
GPT-4
今後の旅行計画の旅程の作成から、職務内容に合ったカバーレターの作成まで、ChatGPT は私たちの日常業務の一部になっています。その後継であるGPT-4は、さらに強力な大規模言語モデルです。
これは、ChatGPT よりも優れた推論機能とパフォーマンスを備えた OpenAI の最も強力な AI システムです。
ここでは、GPT-4 の仕組みと、GPT-4 を使用してアプリケーションを構築する方法についての技術的な話をします。
無料の OpenAI アカウントを使用して ChatGPT インターフェイスにアクセスできます。ただし、GPT-4 にアクセスするには、ChatGPT Plus サブスクリプションが必要です。
これらの大規模な言語モデルを使用して構築できるアプリケーションをいくつか紹介します。
- カスタムチャットボット
- CRMプラットフォームの改善
- カスタム コーパスでの質問応答
- 要約やテキスト生成などのその他のタスク
次に、オープンソースの大規模言語モデルをいくつか見ていきます。
ラマ
Meta AI は、2023 年 2 月に 65B パラメーターを備えた基本的な大規模言語モデルである LLaMA をリリースしました。その後、以前のリリースに大幅な改良を加えた LLama 2 がリリースされました。以下にアクセスできます。
- Llama Chat: 微調整された Llama 2
- コード Llama: Llama 2 に基づいて構築されています。 500B トークンを超えるコードでトレーニングされています。最も一般的なプログラミング言語すべてでのコード生成をサポート
アクセスをリクエストすることで、Llama モデルをダウンロードして使用できます。 Python アプリケーションで LLama 2 を使用する方法については、このチュートリアルを参照してください。
ファルコン
Falcon は、 Technology Innovation Institute (UAE) によるもう 1 つのオープンソース言語モデルです。 Falcon LLM スイートのすべてのモデルはオープンソースであり、オープンアクセスで利用できます。したがって、これらを使用して、LLM を利用したアプリケーションを構築できます。
現在、モデル サイズは 1.3B、7.5B、40B、180B の 4 つです。いくつかのベンチマークよりも優れたパフォーマンスを発揮するために、180B モデルは 3.5T トークンのデータセットでトレーニングされました。 Falcon LLM は、他の主要なオープンソース LLM と同等のパフォーマンスを発揮します。
Falcon 180B オープンソース LLM は、GPT-4 に近いパフォーマンスを実現します。 Falcon 180B、その使用方法、ハードウェア要件、GPT-4 との比較方法について説明したこのチュートリアルをご覧ください。
安定した拡散
Stable Diffusion は、画像生成やその他のクリエイティブな AI アプリケーション用のテキストから画像へのモデルです。画像のアップスケーリングや修復にも使用できます。

2023 年 7 月にリリースされたStable Diffusion XL では、次のようないくつかの改善が行われています。
- はるかに短いプロンプトから説明的な画像を生成する
- 画像内にサポートテキストを生成する機能
- イメージのインペイントとアウトペイントのタスク
- ソース画像を操作してバリアントを生成する
拡散モデルがどのように機能するか、つまり魔法の背後にある方法を学びたい場合は、DeepLearning.AI による無料コースであるHow Diffusion Models Workをご覧ください。
ダルイー2
Open AI のDALL-E 2 も、人気のあるテキストから画像への生成モデルです。これを使用すると、テキスト (自然言語記述) からリアルな画像やアートを生成できます。
次のタスクに使用できます。
- テキストプロンプトからの画像生成
- イメージのインペイントとアウトペイント
- 画像のバリエーションを生成する
DALL-E 2 には、OpenAI API またはOpenAI labs Web インターフェイスを介してアクセスできます。
ささやき
Open AI のWhisper は、次のようなさまざまなアプリケーションに使用できる音声認識モデルです。
- 言語の識別
- 音声ファイルの文字起こしなどの音声認識タスク
- 音声翻訳
OpenAI Whisper API を使用して音声をテキストに変換する方法のチュートリアルは次のとおりです。
モデルを試すには、pip を使用して Whisper ( openai-whisper
) をインストールし、Python スクリプト内から API にアクセスしてオーディオ ファイルを文字起こしします。さらに、他の大規模な言語モデルを使用してトランスクリプトを要約し、音声ファイル→要約パイプラインを構築することもできます。
StableLM
StableLM は、Stability AI のオープンソース LLM スイートです。現在、3B および 7B パラメータが使用可能です。後続のリリースには、15B ~ 65B パラメータを備えたより大きなモデルが含まれる予定です。
したがって、アプリケーションで軽量のオープンソース LLM を試したい場合は、StableLM を試すことができます。
クリップ
CLIP は、 Contrastive Language-Image Pre-trainingの略です。これは、(テキスト、画像) ペアの大規模なデータセットでトレーニングされたニューラル ネットワーク、マルチモーダル モデルです。このモデルは自然言語データを活用し、自然言語の記述から画像のセマンティクスを学習しようとします。 CLIP モデルは、与えられた画像から最も関連性の高いテキストを予測できます。
CLIP を使用すると、高価な事前トレーニングや微調整を必要とせずに、ゼロショット画像分類を実行できます。さらに、CLIP およびベクター データベースの機能を活用して、次の場所に興味深いアプリケーションを構築できます。
- テキストから画像への検索と画像から画像への検索
- 逆画像検索
何でもモデルをセグメント化する
画像セグメンテーションは、画像内の特定のオブジェクトに属するピクセルを識別するタスクです。 Meta AI は、任意の画像をセグメント化し、そこからオブジェクトを切り出すために使用できるSegment Anything Model (SAM)をリリースしました。

プロンプトを使用して、画像内の何をセグメント化するかを指定できます。 SAM は現在、境界ボックス、マスク、前景点と背景点のプロンプトをサポートしています。このモデルは、これまでに見たことのない画像に対する優れたゼロショット汎化パフォーマンスも備えています。したがって、明示的なトレーニングは必要ありません。
ブラウザで SAM モデルを試してください。
インターンLM
InternLM はオープンソースの言語モデルです。 7B ベース モデルとオープンソース チャット モデルを試すことができます。 8Kのコンテキストウィンドウに対応したモデルです。さらに、InternLM はコード インタプリタと関数呼び出し機能をサポートします。
InternLM は、HuggingFace transformers
ライブラリでも利用できます。軽量の事前トレーニング フレームワークを活用できます。また、 LMDeployを使用したアプリケーションの構築とデプロイもサポートします。したがって、InternLM を使用してエンドツーエンドの生成 NLP アプリケーションを構築できます。
ウェーブガン
WaveGANはオーディオ生成用のモデルです。実際のオーディオ データのサンプルから生のオーディオを合成するのに役立ちます。
任意のオーディオ ファイルのデータセットで WaveGAN をトレーニングし、大規模な前処理を行わずにオーディオを合成できます。
サイクルガン
これまで、音声からテキストへの変換、テキストから画像への変換、およびさまざまな自然言語処理タスク用のその他のモデルについて説明してきました。しかし、画像間の変換を実行したい場合はどうすればよいでしょうか?ここでは、 CycleGANを使用してソース ドメインからターゲット ドメインへのマッピングを学習し、イメージ間の変換を実行できます。
たとえば、冬の湖畔の画像を考えて、同じ画像を季節が夏にも翻訳するとよいでしょう。馬の画像では、同じ背景を保持したまま、馬をシマウマに置き換えることができます。 CycleGAN はそのようなタスクに適しています。

CycleGAN の PyTorch 実装はGitHub で見つけることができます。
バイオGPT
Microsoft のBioGPT は、生物医学データ マイニングおよびテキスト生成アプリケーションに使用できる変換モデルです。これは、 fairseqによって提供される sequence-to-sequence モデル実装を使用します。
Facebook Research のFairseq (現在は Meta AI) は、次のようなタスクのためのシーケンスツーシーケンス モデルの実装を提供するツールキットです。
- 言語モデリング
- 翻訳
- 要約
事前トレーニングされたモデルと微調整されたモデルのチェックポイントの両方が利用可能です。モデルは URL または HuggingFace ハブからダウンロードできます。
BioGPT モデルは、HuggingFace transformers
ライブラリの一部でもあります。したがって、生物医学分野で作業している場合は、BioGPT を使用してドメイン固有のアプリケーションを構築できます。
まとめ
生成 AI アプリケーションを構築できる便利なモデルをいくつか見つけていただければ幸いです。このリストはすべてを網羅しているわけではありませんが、テキストとオーディオの生成、音声からテキストへの文字起こし、画像検索などのアプリの構築に使用できる最も人気のあるモデルのいくつかを取り上げました。
大規模な言語モデルを使用してアプリケーションを構築する場合は、事実に誤りがある情報や幻覚など、よくある落とし穴に注意する必要があります。また、モデルの微調整プロセスは多くの場合リソースを大量に消費するため、モデルを微調整するときに制限に直面する可能性があります。
あなたが開発者であれば、AI 革命に参加して、興味深い AI アプリケーションの構築を始める時が来ました。これらのモデルは、Google Colab またはその他の共同データ サイエンス ノートブックで試すことができます。