2026年3月25日、米GitHubは、GitHub Copilotのデータ利用ポリシーを更新した。4月24日以降、一般ユーザーの作業データをAIモデルの学習に活用する方針へと転換する。
Copilotの操作データを学習に活用
GitHubは、AIコーディング支援ツールGitHub Copilotにおいて、ユーザーのインタラクションデータを新たに収集し、AIモデルのトレーニングに活用する方針を発表した。対象となるのはCopilot FreeやPro、Pro+などの個人向けプランであり、入力内容や生成されたコード、ユーザーが承認・修正した出力などが含まれる。
従来は、公開データや人手で整備されたコードサンプルのみが学習に用いられていた。しかし、Microsoft社内で従業員の利用データを組み込んだ結果、複数言語において性能向上が確認されたという。この成果を踏まえ、より実務に即したモデル改善を目的に、一般ユーザーの実利用データの活用へと踏み込んだ形だ。
収集対象にはコードスニペットやカーソル周辺の文脈情報も含まれる。一方で、Copilot BusinessおよびEnterpriseプランの利用者データは対象外とされている。なお、データ利用を望まない場合は設定の「プライバシー」からオプトアウト(※)が可能であり、ユーザーごとに選択できる仕組みが用意されている。
※オプトアウト:特定のサービスやデータ利用に対し、利用者が明示的に拒否・除外を選択できる仕組み。設定を変更することで、自身のデータが収集や利用の対象外となる。
精度向上の代償と信頼の分岐点
今回の方針は、AIの精度向上において実運用データの活用が重要な要素の一つになりつつあることを示していると考えられる。現場で実際に行われる修正や判断を学習に取り込むことで、より文脈に即したコード提案やバグの抑制につながる可能性があり、結果として開発支援の精度向上が期待される。
一方で、コードという資産の性質上、プライバシーや知的財産の観点から懸念が指摘される場面もある。特に企業開発では未公開のロジックや仕様が含まれる場合もあり、意図しない形で学習に利用されることへの慎重な見方も存在する。オプトアウト機能は用意されているものの、利用者側の理解や設定対応に依存する側面はリスク要因となり得る。
今後は、AIの高度化とユーザー信頼の両立が重要な論点になるとみられる。データ活用の透明性や制御性をどの程度確保できるかが、開発者コミュニティの評価に影響する可能性がある。各社のポリシー設計が、AI活用の方向性に一定の影響を与えていくことも考えられる。
関連記事:
Microsoft 365 Copilotが「Claude」対応 PC作業を自律実行する新機能も公開

Excel「AIエージェントモード」のデスクトップ版提供 Copilotで自律実行
