Google は、Bard を密かに改善し、数週間ごとに新機能を追加し、その機能を ChatGPT と同等の水準まで引き上げてきました。今回、同社はテキスト以外にさらに幅広いエクスペリエンスを提供するために、Bard に画像をアップロードする機能を追加しました。誤解しないでください、Google Bard は依然としてテキストのみの大規模言語モデルです。しかし、この検索大手は、Google レンズ、逆画像検索、およびいくつかの VQA システム (ビジュアル質問応答) を統合して、Bard をマルチモーダル モデルのように感じさせています。それにもかかわらず、Bard の現在の視覚能力は確かにいくぶん驚くべきものであり、その能力について知るために以下でテストしました。これに関連して、Google Bard での画像アップロードの素晴らしい例をいくつか見てみましょう。
1. 画像からテキストを抽出する
Bard の画像処理機能の最大の利点は、
(+)
ボタンをクリックして画像をアップロードできることです。その後、アップロードからテキストをすばやく取得できます。 Google Bard は
自動的に OCR を実行し
、正確な仕事を行います。そうは言っても、Bard では言語サポートの長いリストがあるにもかかわらず、現時点では OCR 機能は英語でのみ機能します。複数の国際言語および地域言語を試しましたが、スキャンした画像からテキストを取得できませんでした。それでも、画像からテキストを迅速に抽出するには、Bard が非常に役立ちます。
2. 書式設定をそのままにしてテーブルを抽出する
スキャンした画像や文書から表を抽出する必要がある場合、誰もが苦労します。ただし、Google Bard は書式をそのままにして表を簡単に抽出できます。実際、
表を Google スプレッドシートにエクスポートして
、さらに編集したりデータを処理したりすることもできます。なんてクールなんでしょう?とはいえ、現状、Bard は幻覚が多く、場合によってはセルに間違ったデータを入力してしまう場合もあるので、エクスポートする前に必ず確認してください。
3. モックアップを使用して Web サイト/アプリのコードを生成する
GPT-4 のマルチモダリティ機能を紹介するために、2023 年 3 月、OpenAI はそのモデルが 走り書きのメモを理解し 、1 枚の紙から Web サイトのモックアップを迅速に作成する方法を実証しました。マルチモーダル機能は GPT-4 にはまだ導入されていませんが、Google Bard はモックアップに一致するコードを生成できます。 Bard はマルチモーダル モデルではなく 、画像を理解するために Google レンズを介した画像セグメンテーションを使用していることに注意してください。それにもかかわらず、Bard はその結果で私たちを驚かせました。
Facebook のランディング ページのスクリーンショットをアップロードすると、似たような HTML と CSS のコードが すぐに生成されました。紙に描いた簡単なウェブサイトの画像もアップロードしましたが、Google Bard はそれを十分に再現してくれました。また、スマホアプリや他のWebサイトのUIも同様の方法で再作成できます。

4. Google Bard は画像を説明できる
Google Bard は画像を説明し、その中で何が起こっているかを要約するのが得意です。あいまいな画像をアップロードすることで、 信頼できる情報を 迅速に 生成できます。生物学的メカニズムの低品質画像をアップロードしたところ、それが細胞有糸分裂として正しく識別されました。さらに、プロセスをステップごとに説明しました。
別の例では、
グラフをアップロードしたところ、
画像が正しく理解され、データが説明されました。データポイントのテーブルも作成され、Google スプレッドシートで作業できるようになりました。特に学生にとって、バードは科学やその他のトピックの概念を理解するのに役立ちます。画像をアップロードして、それについて Bard に問い合わせるだけです。
5. 画像から栄養情報を取得する
Bard の画像処理機能を使用すると、 食品の栄養価 を取得できます。お皿に盛った食べ物の画像をアップロードするだけで、数秒以内に 総カロリーが計算され ます。これは、食事制限をしている人にとって非常に役立ちます。
私のテストでは、分量を測定することはできませんでしたが、総摂取カロリーを自分で計算できるように例が示されました。 Googleは画像セグメンテーションを利用して食品を分類し、栄養情報を導き出しているようだ。
6. 即興の料理レシピを作る
もう 1 つの優れた使用例は、生の食品の画像を追加して、Google Bard にさまざまな食品のレシピを考え出すように依頼することです。冷蔵庫内の食品の画像を追加することもでき、自分 専用のレシピを 簡単に作成できます。さらに、吟遊詩人に世界各地の特定の料理を頼むこともできます。また、ダイエット中であれば、Google Bard に、満腹感を与える無脂肪、低カロリーの食事のレシピを作成してもらうことができます。
7. 数学の問題を解く
Google Bard を使用して数学の問題を解くこともできます。数学の問題の画像を Bard にアップロードすると、Bard が 問題を解決しようと します。私のテストでは、Bard のアプローチは正しかったですが、表記の問題により、間違った答えしか得られませんでした。 Bard が数学的な表記や質問をより適切に処理できるようにするには、視覚システムの更新が必要になると思います。
8. ミームとジョークを説明する
Google Bard はミームやジョークについても説明します。面白いミームや漫画の画像をアップロードして、それの 何が面白いのかをバードに尋ねる と、独自の解釈が得られます。私は OpenAI が GPT-4 の発表中にデモンストレーションしたのと同じ画像をアップロードしました。そして、Bard は画像の背後にある陽気な不条理を正しく理解しました。
別の例では、The New Yorker Cartoons の画像を Google Bard にアップロードし、 ジョークの説明 を求めました。しかし、今回は単に場面を説明するだけで、なぜその映像が面白いのかが分かりませんでした。職場でよく使われる電子メールのフレーズが完全に抜け落ちていました。 Google Bard を自分で試してみて、ウィットとユーモアを理解できるほど知的かどうかを確認することをお勧めします。
9. 方程式を LaTeX に翻訳する
#Bard の 簡単なヒント。方程式の画像を取得して、Latex でレンダリングするだけです。 pic.twitter.com/XXvuEW1LQB — カルロス E. ペレス (@IntuitMachine) 2023 年 7 月 15 日
多くの人が LaTeX で書くのが難しく、ワード プロセッサの使用を好むことは周知の事実です。ただし、科学研究論文や学術論文の場合、 複雑な方程式の追加 や高品質の組版には LaTeX が必要です。このようなシナリオでは、Google Bard が役立ちます。方程式の画像を追加すると、Bard がそれを LaTeX コードに変換できます。すごいですね。それでは、すぐに方程式を LaTeX コードに変換してみましょう。
10. 医療レポートをアップロードして質問する
最後に、医療レポートの画像をアップロードし、スキャンして Google Bard に送信できます。その後、それらに基づいて医学的な質問をすることができます。 Twitter 上の一部の医師は、Bard は
鑑別診断に非常に適して
いると示しています。また、ユーザーが自分の健康状態を理解し、医療レポートを理解するのにも役立ちます
Googleのbardすごい&怖い!!!! Bardによる脳CTの診断! 「画像には脳の白い部分が写っていると言えます。。脳腫瘍、脳卒中、出血など、さまざまな原因が考えられます」 答えその鑑別に診断するだけでもすごいですね。特化型で学習しているわけではありません。
pic.twitter.com/aEdF5xtlqt
— 河野 健一 生成AI ✕ 医療に注目! 手術支援AI CEO 脳外科医 (@CeoImed)
2023年7月14日
そうは言っても、Google Bard は PaLM 2 と呼ばれる 汎用 LLM 上で実行されていることに注意してください。検索大手は別の医療ドメイン Med-PaLM 2 モデルを開発しました。これは非常に正確で高度ですが、一般ユーザーは利用できません。ユーザーはまだです。したがって、ユーザーには Bard を使用したいかなる種類の自己診断も行わないことをお勧めします。医師に相談することを強くお勧めします。最後に、個人の医療レポートを Bard にアップロードする場合は、プライバシーを保護するために必ず Bard チャットを削除してください。