SWE-benchの精度をまとめてみた(25年2月時点)

生成AI界隈は動きが激しく、各社から新しいモデルがでてキャッチアップしていくのが大変です。そのため25年2月時点の主要な生成AIのSWE-benchの結果をまとめてみました。

SWE-benchとは

SWE-benchは、GitHubから収集した実際のソフトウェアのIssueに対する大規模言語モデル(LLM)の評価のためのベンチマークです。

データセットは、有名なPythonの12のリポジトリからIssueとPRのペアを2,294件集めているようです(引用元)。そして、LLMにコードベースとIssueが与えられ、LLMはIssueを解決するパッチを作成することが求められます。

https://www.swebench.com/ では、Leaderboardとして正答率のランキングを見ることができます。

SWE-benchの正答率ランキング

25年2月時点のSWE-bench Verified の精度

主要モデルで比較すると次のようになっています。現時点で公開中のモデルでは50%前後と均衡しています。

o3だけ群をぬいていますが、今は非公開なので残念ながら利用はできないです。数ヶ月以内にGPT-5に含まれるという話もあるので期待しています。

ちなみに、企業でのコーディングでは Claudeが精度が良いという話があったりします。

モデル名

精度

引用元

Claude 3.5 Sonnet

49%

Raising the bar on SWE-bench Verified with Claude 3.5 Sonnet \\ Anthropic

o3-mini (high)

49.3%

OpenAI o3-mini | OpenAI

Gemini 2.0 Flash

51.8%

デベロッパーにとって Gemini 時代が次の章へ - Google Developers Blog

DeepSeek R1

49.2%

DeepSeek R1 - GitHub

Claude 3.7 Sonnet

70.3%
with custom scaffold

Claude 3.7 Sonnet and Claude Code

o3

71.7%

OpenAI、推論モデルシリーズの最新版、o3プレビューの性能評価を発表