Chat GPTに視覚を与える実験!SFのようなAIアシスタントの実現
GPT-4は、OpenAIによって開発された最新の大規模な言語モデルであり、自然言語処理やテキスト生成の分野で高いパフォーマンスを発揮しています。しかし、視覚情報に関しては従来のGPT-4には対応していませんでした。そこで、この記事ではGPT-4に視覚を与えることを目指した実験について紹介します。ツイートの動画を翻訳しながらその内容を見て行きましょう。
「私はChatGPT4に目を付けました」
4/27の日本時間午前3時に衝撃的なツイートと動画が投稿されました。
以下はこのツイートの翻訳です!動画の内容も見て行きましょう。
私はGPT-4に視覚を与えました。
やり方は以下の通りです:
- 視覚モデルにデータを追加しました
- AIにカメラのアクセスを許可しました
- シーンに関する質問をしました
- 物体を特定しました
- Webで情報を検索しました
- その情報を使って正確に回答しました
3つの質問すべてに対して正確に全問正解するのを見てください!
衝撃的な動画の内容
Mckay氏「GBT Fourに視覚を与える実験を試してみました。ウェブカメラを起動し、物体検出ができるようになりました。私は事前学習済みのYOLOv8モデルをカスタマイズし、自分独自のデータを追加しました。正確にはラベル付けされていないものもありますが、実際に動作していることが確認できます。」
Mckay氏「また、私はOpenAIのWhisperとGoogleテキストスピーチを使って、コンピュータが声を持つようにしました。以下は、GPT 4に視覚を与えてウェブカメラに接続した場合の実験結果です。」
Mckay氏「私が持っているのは何ですか?」
AI「あなたが持っているのは、ダイエットコークの缶です。」
Mckay氏「そうです。何キロカロリーある?」
AI「ウェブを検索しています。」
Mckay氏「よし、ウェブを検索して結果を出してくれるぞ。」
Mckay氏「はい。私は今、どんな物体を手にしているのだろう?そして、ウェブで検索して買えるようにアマゾンで検索してください。」
AI「Amazonでこの歯ブラシを6.64ドルで見つけました。14,712のレビューで4.7スターを獲得しています。」
Mckay氏「この男は誰だ?彼のことを少し教えてください。ネットで検索して これでちゃんとわかるはずだ。」
AI「ジョン・ウィックは、ネオノワール・アクションスリラー映画シリーズでキアヌ・リーブスが演じる架空の人物である。
ジョンは伝説のヒットマンで、ギャングに家に侵入され、車を盗まれ、子犬を殺され、復讐しようとする。それは亡き妻からの贈り物だった。そのため、彼は再び犯罪の裏社会に足を踏み入れ、かつて所属していた国際的な暗殺者組織と対立することになる。」
Mckay氏「はい。(今回の実験は)すべて完了しました。お疲れ様でした。じゃあ、さようなら。超クールだったね。」
これ以降の内容はAIのソースとなったWebページを表示させる実験に移って行きます。
実験結果と応用例
実験では、3つの質問に対して100%正確な回答を得ることができました。これはGPT-4が視覚情報を取り込み、ウェブ検索を通じて得た情報を活用して質問に回答できることを示しています。この技術は、スポーツ中継での実況解説や監視カメラでのリアルタイム注釈付けなど、さまざまな分野で応用が可能と考えられます。
結論
GPT-4に視覚を与えることで、従来の言語モデルではできなかった視覚情報の取り扱いが可能となり、より多様な応用が期待できるようになりました。ただし、ラベル付けの精度やウェブ検索結果の信頼性など、今後改善すべき課題も存在します。今後はこの技術をさらに発展させ、AIによる視覚情報の処理が広く活用されることを目指していきます。
今回このChatGPT4に視覚を与えるという取り組みを行なったのは、Mckay氏はAIプロダクトの開発で注目を集める人物です。今後もますます目が離せません。
Plus Web3は「Web3領域に特化したキャリア支援サービス」
Plus Web3では、Web3で働きたい人材と、個人に合わせた優良企業をマッチングする求人サービスを行っています。
- Web3で働くことも考えている…
- Web3のインターン先はどこがいいか分からない…
- どんな知識やスキルがあれば良いのか分からない…
このような悩みを抱える人は、一度「無料キャリア相談」にお越しください。あなたにマッチした優良企業をご紹介いたします。