OpenAI、人間のエンジニアのような能力を評価する新たなベンチマークテストを発表

2025-02-19

Web3/AI領域に特化した転職エージェント「Plus Web3 Agent」

最先端のテクノロジー領域で働きたい人材と優良企業のマッチングを支援しています。
少しでも興味のある方は、お気軽に「無料キャリア相談」をご利用ください！

キーワードで記事・企業を探す

OpenAIは2025年2月19日、既存の評価基準とは一線を画す新しいベンチマーク「SWE-Lancer」を発表した。このベンチマークは、実際のフリーランス開発案件をベースとしており、コーディングに留まらず、よりプロのエンジニアに近い総合的な能力を評価する。

Today we’re launching SWE-Lancer—a new, more realistic benchmark to evaluate the coding performance of AI models. SWE-Lancer includes over 1,400 freelance software engineering tasks from Upwork, valued at $1 million USD total in real-world payouts. https://t.co/c3pFcL41uK
— OpenAI (@OpenAI) February 18, 2025

OpenAIのCEO、アルトマン氏は、人間のような判断力と行動力を持つAI「AGI」の創出を目指しており、このテストも、より人間的な総合能力を図る狙いがあると思われる。

参考 : 2025年にはAIが“労働市場に参加”する？　サム・アルトマン氏が語る未来への展望

実務を反映した評価手法

従来のコーディングベンチマークは、単体のプログラミング課題や限定的なテストケースに基づいていた。一方、SWE-Lancerは実際のプラットフォームから収集した1,400以上のフリーランス案件を評価基準として採用している。
これらの案件は、50ドルの軽微なバグ修正から32,000ドルの大規模な機能実装まで、幅広い難易度と規模をカバーしている。

SWE-Lancerは、開発プロセス全体を通した総合的なテスト方式を採用している。
従来の単体テストが個々のプログラムの動作確認に留まっていたのに対し、問題の特定から、UIやUXのデザイン、デバッグ、修正の検証まで、実際の開発現場で行われる一連の作業全体を評価対象としている。設計やデザイン、プロジェクトマネジメントといったエンジニアの総合的スキルを測ることが目的だ。

現行AIモデルの実力と将来への目標

SWE-Lancerによる評価では、最新のAIモデルであっても、多くの課題を解決できないことが明らかになった。GPT-4oは8.0%、Claude 3.5 Sonnetは26.2%の課題解決率に留まり、マネジメント判断を要する課題では、最も高性能なClaude 3.5 Sonnetでも44.9%の成功率に留まっている。

Current frontier models are unable to solve the majority of tasks. pic.twitter.com/GP3C3UR3cB
— OpenAI (@OpenAI) February 18, 2025

現在のAIモデルは実務レベルのプログラミングタスクに対して、まだ発展段階にあるということだ。特に、開発に数十日単位の時間がかかる複雑な開発タスクは、AIはまだ得意としていない。AIモデルのシステム設計やアーキテクチャの決定といった高度な判断を要する作業には課題が残っている状況なのだ。
今回のベンチマークテストは、その弱点を評価対象に入れようとするものだ。