2026年4月8日、AI inside 株式会社は、人との会話と業務処理を同時に進める全二重型(Full-Duplex)音声対話モデルを開発したと発表した。経済産業省とNEDOの生成AI支援事業「GENIAC」の研究成果を活用したもので、特定条件下では業務完了時間を96%短縮したという。音声AIは“質問に答える存在”から、“業務を完遂する存在”へ進化し始めている。
発話途中から処理開始 “待たないAI”実現へ
今回AI insideが開発したのは、人の発話を最後まで待たず、会話の途中から意図を推定して応答や業務処理を開始できる全二重型音声対話モデルである。従来の音声AIは、ユーザーの発話終了後に解析を始める「半二重型」が主流だった。一方、新モデルでは会話と処理を並行実行することで、人間同士に近い自然な応答速度を実現する。
この技術の特徴は、単なる音声応答にとどまらない点にある。画像・音声・テキストを統合処理するマルチモーダルAI(※)として設計されており、帳票や書類画像を認識しながら音声指示を理解し、そのまま業務実行までつなげられる。
画像説明性能では、中国アリババ系モデル「Qwen3-8B-VL」と比較し、約6.1倍の説明精度を確認したという。
さらに同社は、自社AIエージェント基盤と連携した実証も進めた。音声指示と帳票情報を組み合わせた業務プロセスをAIが自律実行し、特定条件下で従来比96%の時間短縮を確認したとしている。
これは、AIが単なるチャットツールではなく、実際の業務オペレーションを担う段階へ進み始めたことを意味していると言える。
※マルチモーダルAI:音声、画像、テキストなど複数種類の情報を同時に理解・処理できるAI技術。近年の生成AI競争における重要分野とされる。
“話すだけで仕事完了”時代へ 誤判断リスクも課題に
今回の技術進展は、日本企業の生成AI活用に大きな変化をもたらすだろう。特にコールセンター、バックオフィス、医療事務、物流管理など、音声と書類処理が混在する現場では導入効果が大きいとみられる。これまでは「AIに質問する」「AIが回答する」という利用形態が中心だったが、今後は「AIが会話しながら作業を進める」方向へ移行していく時代となった。
加えて、今回の研究は日本政府主導のGENIAC事業から生まれた点も重要である。生成AI開発では米OpenAIや中国勢が先行しているが、日本国内でも業務特化型AIの実装競争が本格化し始めたと言える。特に、日本語理解や国内業務フローへの適応は海外製AIとの差別化要因になりうる。
一方で、リスク面も無視できない。発話途中で意図を推定する仕組みは利便性を高める反面、誤解釈による誤処理を引き起こす可能性がある。業務自律化が進むほど、確認プロセスや監査体制の重要性は増していくはずだ。
AI insideが掲げる「No more tools, work with buddy」という思想は、生成AIの次段階を象徴している。
今後は“指示待ちAI”ではなく、人と並走しながら業務を進める「協働型AI」が企業競争力を左右する時代へ向かうことになりそうだ。
関連記事: