国内初の「AIでPC操作」モデル誕生 カラクリが日本語特化型CUAを発表

2025年7月9日、AIスタートアップのカラクリ(東京都中央区)は、PC操作を自動化するAIエージェント「CUA(Computer-Using Agent)」向けに、日本語特化型AIモデル「KARAKURI VL」を開発したと発表した。縦書き・横書き混在の日本語UIに対応し、Gmailでの返信作成などのデモを公開している。
日本語特化型CUA登場、既存モデルの課題を克服
カラクリは、従来のCUA(※)が抱える「日本語環境での利用困難」という課題を解決するべく、独自のAIモデルKARAKURI VLを開発した。CUAは自然言語による指示でPCを操作するAIエージェントであり、米OpenAI「Operator」やAnthropic「Computer Use」といった海外勢が先行している。しかし、縦書き・横書きが混在する日本語UIや複雑な日本語マニュアルの処理では精度に問題があった。
新モデルは中国Alibabaの視覚言語モデル「Qwen2.5-VL」を基盤とし、日本語UIの文字認識や指示理解に特化。デモ動画では、Gmailを開き、顧客の返品メールを検索・返信し、顧客管理システムと連携して購入履歴を確認する一連の操作を自動で実行。日本企業初のCUA向けモデルとして、カスタマーサポート業務の効率化を目指す。
本モデルは、経済産業省とNEDOが推進するAI開発支援プロジェクト「GENIAC」第2期の支援対象であり、思考プロセスを記録できる「推論モデル」と自然対話型の「対話モデル」の2種類が、Hugging Face上でApache 2.0ライセンスのもと公開されている。
※CUA(Computer-Using Agent):自然言語で指示を出すと、PC上のアプリケーションやシステムを自動で操作するAIエージェント。既存のモデルは主に英語圏向けに開発されている。
実用化へ課題も 企業現場での導入に期待と不安
KARAKURI VLの登場は、国内におけるCUA市場形成の重要な布石となる可能性が高い。GENIACプロジェクトの一環として進められていることから、国策による技術支援も追い風となるだろう。今後は、ルールベースの行動制御や高度な画像認識を組み合わせることで、企業環境に適応するための安全対策が強化されると予測される。
一方、実用化には慎重な検証が必要だ。特に、セキュリティポリシーが厳格な業界では導入が遅れる可能性がある。ただし、カスタマーサポートや一般事務といった比較的リスクの低い業務領域から段階的に普及し、成功事例が積み重なることで導入障壁は次第に下がっていくと考えられる。
また、競合として海外勢が日本語対応を進めてくる可能性も否定できない。そのため、カラクリは国内特有のUI・業務プロセスに最適化した技術開発を継続し、先行優位を維持する必要があるだろう。
最終的にCUAが企業の日常業務に不可欠なツールとして定着するか否かが注視される。