Google生成AIのBardが画像の使用に対応、写真の内容を解析できるか検証する

2023.07.24 Mon

Googleが公開している生成AI「Bard」が40以上の言語に対応し、新たに音声読み上げ機能を公開しました。また、新機能として画像を使った生成を行えるようになっています。「プロンプトで画像を使用する（英語のみ対応）」と記載があり、機能の説明として「Bardが写真を分析してサポートします」とあります。本記事では英語版Bardを使用して、画像解析が可能であるか試していきます。

Bardが新機能搭載
Google Bardを英語で使う
プロンプトで画像を使用する
人物の画像解析はまだ実行できない
まとめ

Bardが新機能搭載

まず搭載された新機能について簡潔に確認しておきます。40以上の多言語に対応し、各言語での音声読み上げが可能となりました。新しい言語を学習する際に単語の正しい発音を確認する場面などに役立つでしょう。また、会話の固定と名称変更機能により、Bardとの会話を固定したり名前を変更したりすることが可能となりました。特定の会話を後で再確認することができます。

その他に、コードをより多くの場所にエクスポートする機能が追加され、Google Colabに加えてPythonコードをReplitにエクスポートできるようになっています。また、Bardとの会話の一部またはすべてを共有できる機能も追加されました。

さらにプロンプトとともに画像をアップロードすることで、Bardが写真を分析してサポートする機能も追加されています。ここからは、この画像アップロード機能について詳細に検証していきます。

Google Bardを英語で使う

以下は日本語版のBardの画面です。Googleアカウントの設定が日本語の状態でアクセスするとこのような画面が表示されます。日本語版Bardは画像を使う機能に対応していないため、英語版に変更する必要があります。

Googleアカウントの個人情報の設定から「ウェブ向けの全般設定」から言語を英語に設定することで英語版の利用ができます。

英語版の設定を完了してからBardへアクセスすると、以下のような画面が表示されます。プロンプトの入力枠の左横に、日本語では表示されていなかった「+」の記号が表示されています。

プロンプトで画像を使用する

実際に画像の解析を行っていきましょう。プロンプト入力枠の横にあるプラスマークを押下します。すると画像のUploadが行うボタンが表示されます。

ここではサングラスをかけた女性のイラストをアップロードして、プロンプトとして「Explain what is depicted in this image.（この画像で描写されていることを説明して）」を入力しました。余談ですが、プロンプトを日本語で入力しても一部機能は利用できますが、画像を使う機能については英語でプロンプトを入力する必要があります。

以下のように画像を説明するテキストが生成されました。どうやら画像を解析することができたようです。右上のスピーカーマークを押すと、読み上げもしてくれます。

ただし、このままだと英語で書かれていて内容がわからないので、日本語に翻訳する作業もBardで完結させます。「Translate to Japanese.（日本語に翻訳して）」と入力してエンターキーを押すことで、日本語翻訳が生成可能です。英語がわかる場合は翻訳する必要はないですが、日本語での説明が欲しい場合はこの方法を使うと便利でしょう。イラストが何を表現しているか、しっかりと情報が解析されています。「クロップトップとショートパンツ」や「麦わらの袋」といったイラストの細かい部分まで記述されている点がとても興味深いですね。

では次に、写真についても試してみましょう。以下の画像をアップロードします。

プロンプトには先ほどと同様に「Explain what is depicted in this image. Translate to Japanese.」と入力しました。今回は説明を最初から日本語で生成するようプロンプトを入力しています。すると、以下のように詳細なテキストが生成されました。

「ラクダが砂漠で旅をしている様子」という全体像だけでなく、「茶色で、大きなこぶがあります」といった詳細な部分まで説明しています。また、驚くべき点として「ラクダは、砂漠の厳しい環境に耐えながら、目的地に向かって進んでいます」という記載があ中面。1枚の画像からストーリーや、表現しようとしている意図を汲み取ろうとしている点はとてもユニークな機能だと言えると思います。

人物の画像解析はまだ実行できない

ただし、すべての画像を解析できるわけではないようです。以下の人物画像をアップロードし、同じく内容の解析を試みてみました。

アップロードした画像は「This image has been removed.（この画像は削除されました）」と表示され、生成されたテキストには「Sorry, I can't help with images of people yet.（申し訳ありませんが、人物の画像はまだお手伝いできません）」と記載されています。他にもいくつか人物写真を試してみましたが、同様の結果となりました。現時点では、人間に関する画像は取り扱えないようです。

まとめ

Bardの新機能として搭載された画像を使う機能は視覚的な情報を直接解析し、それに基づいた情報を提供することができる非常に便利な機能です。具体的な使い方についてはまだ検討の余地がありますが、生成AIの可能性を改めて感じさせるものがあります。

画像を使う機能は今のところ、英語版のBardでのみ利用可能で、日本語版での利用はまだ開始されていなません。今回検証してわかったように、本機能の潜在能力はとても期待の持てるもので、日本語に搭載される日が待ち遠しいですね。待ちきれない場合はぜひ、英語版Bardにアクセスしてみて欲しいと思います。創造性や生産性を高める助けになると期待できそうですね。

関連ページ：https://japan.googleblog.com/2023/07/bard-40.html

Google Bard
URL：https://bard.google.com/
2023/07/24