OpenAI は、画像をアップロードしてそれに関連する質問をできる、最も期待されているマルチモーダル機能を GPT-4 にまだリリースしていませんが、当然のことながら、Microsoft は画像アップロード機能への早期アクセスを公開しました。はい、Bing Chat に画像をアップロードして、GPT-4 モデルとチャットできるようになりました。これは、GPT-4 の発表時に OpenAI が実証したのと同じように機能します。
マルチモーダル機能により、Bing Chat には基本的に視覚機能が追加され、画像も理解できるようになりました。これを使用して、医療レポートを調べたり、食品に関する栄養データを取得したり、数学的な問題を解決したり、その他多くのことができます。次に、Bing Chat で GPT-4 のマルチモーダル機能を使用する方法を学習するには、このチュートリアルに従ってください。
1. まず、Microsoft Edge を起動し、コンピューター上で Bing ( 訪問 ) を開きます。 Bing アプリ ( Android および iOS 、無料) をスマートフォンにインストールすることもできます。
2. 次に、左上隅にある「 チャット 」をクリックします。
3. ここまで来たら、GPT-4 モデルと無料でチャットできる「 クリエイティブ 」モードに移動します。
4. 下のテキストフィールドに 「画像」ボタンが 表示されます。これにより、画像をアップロードして GPT-4 マルチモーダル機能にアクセスできるようになります。
5. 画像ボタンをクリックして 画像ファイルをアップロードします 。必要に応じて、画像の URL を貼り付けることもできます。
6. 紙にさっと走り書きしたウェブサイトの画像をアップロードしました。ここで、Bing Chat にこのような Web サイトを作成する ように依頼し、Web サイトの HTML と CSS コードを生成してみましょう。
7. さて、これで完成です。 GPT-4 に基づいた Bing Chat は、マルチモーダル機能を使用して HTML および CSS コードをすぐに生成します 。
8. コードを貼り付けて実行すると、次の Web サイトが表示されます。悪くないですよね? 私の手書きの文字を正しく選択し 、レイアウトも似ています。これが、Bing Chat における GPT-4 のマルチモーダル機能の仕組みです。
9. 別の例では、住宅の複雑な CAD 設計 をアップロードし、鉄の量から設計関連の質問に至るまで、いくつかの質問をしたところ、素晴らしい結果が得られました。
10. 次に、Bing Chat に 2 つの 数学的な問題 を解くように依頼しました。すると、両方とも正しく解決されました。
11. 最後に、 面白い漫画 をアップロードして、Bing Chat にジョークの説明を依頼しました。しかし今回は冗談が通じなかった。それにもかかわらず、GPT-4 のマルチモーダル機能は非常に強力であり、試すことができるユースケースは無限にあります。