SWE-benchの精度をまとめてみた（25年2月時点）

生成AI界隈は動きが激しく、各社から新しいモデルがでてキャッチアップしていくのが大変です。そのため25年2月時点の主要な生成AIのSWE-benchの結果をまとめてみました。

2025/02/22・3 min read

SWE-benchとは

SWE-benchは、GitHubから収集した実際のソフトウェアのIssueに対する大規模言語モデル(LLM)の評価のためのベンチマークです。

データセットは、有名なPythonの12のリポジトリからIssueとPRのペアを2,294件集めているようです（引用元）。そして、LLMにコードベースとIssueが与えられ、LLMはIssueを解決するパッチを作成することが求められます。

https://www.swebench.com/ では、Leaderboardとして正答率のランキングを見ることができます。

主要モデルで比較すると次のようになっています。現時点で公開中のモデルでは50%前後と均衡しています。

o3だけ群をぬいていますが、今は非公開なので残念ながら利用はできないです。数ヶ月以内にGPT-5に含まれるという話もあるので期待しています。

ちなみに、企業でのコーディングでは Claudeが精度が良いという話があったりします。

モデル名	精度	引用元
Claude 3.5 Sonnet	49%	Raising the bar on SWE-bench Verified with Claude 3.5 Sonnet \\ Anthropic
o3-mini (high)	49.3%	OpenAI o3-mini \| OpenAI
Gemini 2.0 Flash	51.8%	デベロッパーにとって Gemini 時代が次の章へ - Google Developers Blog
DeepSeek R1	49.2%	DeepSeek R1 - GitHub
Claude 3.7 Sonnet	70.3% with custom scaffold	Claude 3.7 Sonnet and Claude Code
o3	71.7%	OpenAI、推論モデルシリーズの最新版、o3プレビューの性能評価を発表