開発者はGPT-5は玉石混交だと語る

開発者はGPT-5は玉石混交だと語る

ソフトウェアエンジニアたちは、OpenAI の新しい GPT-5 モデルがコーディングの問題を考える上で役立っているものの、実際のコーディングではそれほど優れているわけではないことに気づき始めている。

画像にはロゴやシンボルが含まれている場合があります

写真イラスト: Wired Staff/Getty Images

OpenAIは先週、 GPT-5を発表した際、ソフトウェアエンジニアに対し、このモデルは高品質なコード生成とエージェント的、つまり自動化されたソフトウェアタスクの実行に優れた「真のコーディング・コラボレーター」として設計されていると説明しました。OpenAIは明言こそしていませんが、AI支援コーディングツールとして多くの開発者に急速に支持されているAnthropicのClaude Codeを直接ターゲットにしているように見えます。

しかし、開発者たちはWIREDに対し、GPT-5は今のところ玉石混交だと語っている。技術的推論や計画的なコーディングタスクでは優れているものの、Anthropicの最新のOpusとSonnet推論モデルの方がより優れたコードを生成するという意見もある。開発者が使用しているGPT-5のバージョン(低、中、高)によって、モデルはより精緻になり、不要なコード行や冗長なコード行を生成することがある。

一部のソフトウェアエンジニアは、OpenAIがGPT-5のコーディング性能を評価した方法を批判し、使用したベンチマークが誤解を招くと主張している。ある調査会社は、OpenAIがGPT-5の能力を誇示するために公開したグラフを「チャート犯罪」と呼んだ。

GPT-5は少なくとも一つの点で際立っています。競合モデルと比較して、はるかにコスト効率が高いという点が複数の研究者から指摘されています。「GPT-5は、私たちのテストでは他のAIモデルよりもパフォーマンスが優れていることが多いのですが、非常に安価です」と、プリンストン大学のコンピュータサイエンス博士課程の学生で研究者であり、『AI Snake Oil』の共著者でもあるサヤシュ・カプール氏は述べています。

カプール氏によると、彼とチームは先週GPT-5が一般公開されて以来、その能力を評価するためのベンチマークテストを実施してきたという。チームが使用している標準的なテスト(言語モデルが45本の科学論文の結果を再現するコードをどれだけ正確に記述できるかを測定するテスト)は、GPT-5を中程度(または中程度)の冗長度に設定して実行すると30ドルかかるという。Anthropic社のOpus 4.1を使った同じテストは400ドルかかる。カプール氏によると、チームはこれまでに大規模な言語モデルのベンチマークテストに合計約2万ドルを費やしてきたという。

GPT-5は安価ですが、カプーア氏のテストでは、このモデルは競合モデルの一部に比べて精度が低いことも示されています。クロード氏のプレミアムモデルは、科学論文を正確に再現した数で評価し、51%の精度を達成しました。GPT-5の中程度の精度は27%でした。(カプーア氏はGPT-5の高精度版を使用して同じテストをまだ行っていないため、Opus 4.1がアンスロピック社の最も強力なモデルであることを考えると、これは間接的な比較となります。)

OpenAIの広報担当者リンゼイ・マッカラム氏はWIREDに対し、同社のブログ記事を紹介した。同ブログでは、スタートアップ企業や大企業の初期テスターと協力し、GPT-5を「現実世界のコーディングタスク」で訓練したと述べている。同社はまた、GPT-5の内部精度測定結果もいくつか紹介しており、より慎重な推論を行うGPT-5「思考」モデルが、OpenAIの全モデルの中で最も高い精度を記録した。しかし、GPT-5「メイン」モデルは、OpenAI独自の精度スケールでは、これまでリリースされたモデルに及ばなかった。

アントロピックの広報担当者エイミー・ロザラム氏は声明で、「開発者が本番環境で使い始めると、パフォーマンスに関する主張や価格モデルはしばしば様変わりします。推論モデルは思考中に大量のトークンをすぐに消費するため、業界はトークン単価よりも結果単価が重要になる世界へと移行しつつあります」と述べています。

一部の開発者は、GPT-5に関してこれまでのところ概ね良好な経験をしていると述べています。エンジニアであり投資家であり、パーソナルスタイリングエージェントAltaの開発者であるジェニー・ワン氏は、WIREDの取材に対し、GPT-5は他のモデルよりも複雑なコーディングタスクを一発で完了させるのが得意だと述べています。彼女はGPT-5をOpenAIのo3や4oと比較し、「コード生成や、フォーマットなどの簡単な修正、あるいは既存のAPIエンドポイントに似たものを作成したい場合などに頻繁に使用しています」と述べています。

GPT-5のテストでは、ワン氏は自社ウェブサイトのプレスページのコードを生成するようモデルに指示した。これには、ウェブサイト全体の美観に調和する特定のデザイン要素も含まれている。GPT-5は1回のテストでこのタスクを完了したが、以前はワン氏は途中で指示内容を修正する必要があった。しかし、一つ重大なエラーがあった。「URLを幻覚的に認識してしまったのです」とワン氏は言う。

雇用主が報道陣に話すことを許可しなかったため匿名を条件に話した別の開発者は、GPT-5 は深い技術的問題を解決するのに優れていると語った。

開発者の現在の趣味プロジェクトは、セキュリティ上の理由からコードの分離が必要となる、プログラムによるネットワーク分析ツールの作成です。「プロジェクトと検討中のいくつかの方向性を提示したところ、GPT-5がすべてを理解し、現実的なタイムラインとともにいくつかの推奨事項を返してくれました」と開発者は説明します。「感銘を受けました。」

Cursor、Windsurf、Notionなど、OpenAIのエンタープライズパートナーや顧客の一部は、GPT-5のコーディング能力と推論能力を公に保証しています。(OpenAIは、新モデルを発表した自社のブログ記事で、これらのコメントの多くを掲載しています。)NotionもXで、GPT-5は「高速で徹底的であり、これまでテストした他のモデルよりも複雑な作業を15%優れた精度で処理できる」と述べています。

しかし、GPT-5のリリースから数日後、一部の開発者がオンラインで不満を表明し始めた。世界で最も話題のAI企業が開発した最先端かつ超高性能なモデルであるはずのGPT-5のコーディング能力は、時代遅れだと感じる開発者が多かった。

「OpenAIのGPT-5は非常に優れていますが、1年前にリリースされていたような気がします」と、メール受信トレイ用のAIアシスタントを開発しているキエラン・クラーセン氏は言います。「そのコーディング機能はSonnet 3.5を彷彿とさせます」と彼は付け加え、2024年6月にリリースされたAnthropicモデルについて言及しました。

スタートアップ企業Doistの創業者アミール・サリヘフェンディッチ氏は、ソーシャルメディアへの投稿で、CursorでGPT-5を使用しているが「期待外れ」で「特にコーディングが下手」だと感じたと述べた。サリヘフェンディッチ氏は、GPT-4のリリースは「Llama 4の瞬間」のように感じたと述べ、MetaのAIモデルにも言及した。Llama 4もAIコミュニティの一部の人々を失望させた。

X では、開発者の Mckay Wrigley 氏は、GPT-5 は「驚異的な日常チャット モデル」であるが、コーディングに関しては「引き続き Claude Code + Opus を使用します」と書いています。

他の開発者はGPT-5を「網羅的」だと表現しています。時には役立つこともありますが、その冗長さがしばしばイライラさせるのです。GPT-5に割り当てたフロントエンドのコーディングプロジェクトに全体的に満足していたワン氏は、モデルが「より冗長になっている」ことに気づいたと述べています。「明らかに、より簡潔で短い解決策を思いつくことができたはずです」。(カプール氏は、GPT-5の冗長性は調整可能であり、ユーザーはパフォーマンス向上や価格引き下げと引き換えに、冗長さを減らしたり、推論処理を減らしたりするよう指示できると指摘しています。)

AIコーディングプラットフォームQodoの共同創業者兼CEOであるイタマー・フリードマン氏は、GPT-5に対する批判の一部は、AIモデルのリリースをめぐる期待の変化に起因していると考えている。「AGI(汎用人工知能)への進歩により、GPT-5はAIに関するあらゆる面で改善をもたらす新たな瞬間となると多くの人が考えていたと思います。しかし実際には、このモデルはいくつかの重要なサブタスクで改善を実現したのです」と彼は言う。

フリードマン氏は、2022年以前を「BCE」(ChatGPT時代以前)と呼び、AIモデルが全体的に改善された時代としています。ChatGPT時代以降では、新しいAIモデルは特定の分野で優れている場合が多いです。「例えば、Claude Sonnet 3.5は、コーディングにおいて唯一無二のモデルでした。そして、Google Geminiはコードレビュー、つまりコードの品質をチェックする能力に非常に長けていました」とフリードマン氏は言います。

OpenAIは、ベンチマークテストの実行とGPT-5の性能に関する主張に使用した手法についても批判を受けている。ただし、ベンチマークテストは業界によって大きく異なる。半導体およびAIセクターに特化した調査会社SemiAnalysisは、大規模言語モデルをテストするための比較的新しいAI業界フレームワークであるSWE-benchに通常含まれる500のテストのうち、OpenAIが実行したのは477のテストだけだったと指摘している。(これはコーディングだけでなく、モデル全体のパフォーマンスを測定した結果である。)

OpenAIは、SWEベンチテストの500タスクすべてではなく、常に477タスクの固定サブセットでAIモデルをテストしていると述べています。これは、これらの477タスクが社内インフラで検証済みのテストであるためです。マッカラム氏はまた、GPT-5のシステムカードに、モデルの冗長性設定の変更が「評価パフォーマンスの変動につながる可能性がある」と記載されている点を指摘しました。

カプール氏は、最先端のAI企業は最終的に難しいトレードオフに直面していると指摘する。「モデル開発者が新しいモデルをトレーニングする際には、新たな制約も導入されます。ユーザーがAIにどのような行動を期待しているか、エージェントコーディングなどの特定のタスクでAIがどのようにパフォーマンスを発揮するかなど、多くの要素を考慮しなければなりません。しかも、コスト管理もしなければなりません」と彼は言う。「ある意味、OpenAIはこれらのベンチマークをすべて破ることはできないと分かっていたからこそ、幅広い層に満足してもらえるものを作り上げたのだと思います」

訂正:2025年8月19日午後1時05分(東部標準時):WIREDは、プリンストン大学の研究者が特定の種類の大規模言語モデルベンチマークテストに費やした金額についての説明を明確にしました。

  • 受信箱に届く:ウィル・ナイトのAIラボがAIの進歩を探る

ローレン・グッドはWIREDのシニア特派員で、人工知能、ベンチャーキャピタル、スタートアップ、職場文化、ベイエリアの注目人物やトレンドなど、シリコンバレーのあらゆる情報を網羅しています。以前はThe Verge、Recode、The Wall Street Journalで勤務していました。記事のネタ提供(PRの依頼はご遠慮ください)は…続きを読む

続きを読む