MENU
採用担当の方はこちら
業務委託案件をお探しの方はこちら
メルマガ/AI・Web3 Insight



    Chat GPTに視覚を与える実験!SFのようなAIアシスタントの実現

    GPT-4は、OpenAIによって開発された最新の大規模な言語モデルであり、自然言語処理やテキスト生成の分野で高いパフォーマンスを発揮しています。しかし、視覚情報に関しては従来のGPT-4には対応していませんでした。そこで、この記事ではGPT-4に視覚を与えることを目指した実験について紹介します。ツイートの動画を翻訳しながらその内容を見て行きましょう。

    目次

    「私はChatGPT4に目を付けました」

    4/27の日本時間午前3時に衝撃的なツイートと動画が投稿されました。

    以下はこのツイートの翻訳です!動画の内容も見て行きましょう。

    私はGPT-4に視覚を与えました。

    やり方は以下の通りです:

    • 視覚モデルにデータを追加しました
    • AIにカメラのアクセスを許可しました
    • シーンに関する質問をしました
    • 物体を特定しました
    • Webで情報を検索しました
    • その情報を使って正確に回答しました

    3つの質問すべてに対して正確に全問正解するのを見てください!

    衝撃的な動画の内容


    Mckay氏「GBT Fourに視覚を与える実験を試してみました。ウェブカメラを起動し、物体検出ができるようになりました。私は事前学習済みのYOLOv8モデルをカスタマイズし、自分独自のデータを追加しました。正確にはラベル付けされていないものもありますが、実際に動作していることが確認できます。」

    Mckay氏「また、私はOpenAIのWhisperとGoogleテキストスピーチを使って、コンピュータが声を持つようにしました。以下は、GPT 4に視覚を与えてウェブカメラに接続した場合の実験結果です。

    Mckay氏「私が持っているのは何ですか?」

    AI「あなたが持っているのは、ダイエットコークの缶です。」

    Mckay氏「そうです。何キロカロリーある?」

    AI「ウェブを検索しています。」

    Mckay氏「よし、ウェブを検索して結果を出してくれるぞ。」

    Mckay氏「はい。私は今、どんな物体を手にしているのだろう?そして、ウェブで検索して買えるようにアマゾンで検索してください。」

    AI「Amazonでこの歯ブラシを6.64ドルで見つけました。14,712のレビューで4.7スターを獲得しています。」


    Mckay氏「この男は誰だ?彼のことを少し教えてください。ネットで検索して これでちゃんとわかるはずだ。」

    AI「ジョン・ウィックは、ネオノワール・アクションスリラー映画シリーズでキアヌ・リーブスが演じる架空の人物である。
    ジョンは伝説のヒットマンで、ギャングに家に侵入され、車を盗まれ、子犬を殺され、復讐しようとする。それは亡き妻からの贈り物だった。そのため、彼は再び犯罪の裏社会に足を踏み入れ、かつて所属していた国際的な暗殺者組織と対立することになる。」

    Mckay氏「はい。(今回の実験は)すべて完了しました。お疲れ様でした。じゃあ、さようなら。超クールだったね。」

    これ以降の内容はAIのソースとなったWebページを表示させる実験に移って行きます。

    実験結果と応用例

    実験では、3つの質問に対して100%正確な回答を得ることができました。これはGPT-4が視覚情報を取り込み、ウェブ検索を通じて得た情報を活用して質問に回答できることを示しています。この技術は、スポーツ中継での実況解説や監視カメラでのリアルタイム注釈付けなど、さまざまな分野で応用が可能と考えられます。

    結論

    GPT-4に視覚を与えることで、従来の言語モデルではできなかった視覚情報の取り扱いが可能となり、より多様な応用が期待できるようになりました。ただし、ラベル付けの精度やウェブ検索結果の信頼性など、今後改善すべき課題も存在します。今後はこの技術をさらに発展させ、AIによる視覚情報の処理が広く活用されることを目指していきます。
    今回このChatGPT4に視覚を与えるという取り組みを行なったのは、Mckay氏はAIプロダクトの開発で注目を集める人物です。今後もますます目が離せません。

    参考文献

    🚀 AI・Web3業界への転職を考えているあなたへ

    「最先端技術に関わる仕事がしたい」「成長市場でキャリアを築きたい」そんな想いを抱いていませんか?

    Plus Web3は、AI・Web3領域などテクノロジーに投資する企業の採用に特化したキャリア支援サービスです。

    運営する株式会社プロタゴニストは、上場企業グループの安定した経営基盤のもと
    10年以上のコンサルタント歴を持つ転職エージェントが
    急成長する先端技術分野への転職を専門的にサポートしています。

    こんな方におすすめです

    ▼成長産業であるAI・Web3業界で新しいキャリアを始めたい
    ▼「未経験だけど挑戦してみたい」という熱意がある
    ▼今のスキルを最先端技術分野でどう活かせるか相談したい
    ▼表に出ない優良企業の情報を知りたい

    業界に精通したキャリアアドバイザーが、
    あなたの経験・スキル・志向性を丁寧にヒアリングし、
    最適な企業とポジションをマッチングします。

    Web3企業

    AI企業

    この記事が気に入ったら
    フォローしてね!

    • URLをコピーしました!
    目次