- OpenAIの研究者らが開発したLLMベンチマーク「SWE-Lancer」を使用して、実際のフリーランスソフトウェアエンジニアリングのタスクから1,488個のタスクを3つのLLMに委託しました。
- LLMはバグを解決できますが、バグが存在する理由を見つけられず、さらにミスを犯し続けます。
- タスクは個々の貢献者タスクと管理タスクに分かれ、貢献者タスクではバグの解決や機能の実装を、管理タスクでは最適な提案を選択するマネージャーとして役割を果たします。
- LLMはバグ解決に役立つが、フリーランスで収入を得るレベルにはまだ達していない。
- LLMはルート原因を見つけることができず、部分的なまたは欠陥のある解決策を提供することがあります。
- AIモデルは「低レベル」のコーディング問題を解決できますが、まだ「低レベル」のソフトウェアエンジニアを置換することはできません。
私の考え: この研究は、AIモデルが特定のプログラミング問題を解決できる一方で、根本原因を見つけることや包括的な解決策を提供することには限界があることを示しています。人間のエンジニアとAIモデルの組み合わせが最も効果的であり、AIが人間のエンジニアを完全に置き換えることはまだ難しいという結論になります。
The post AI はバグを修正できるが、見つけることはできない: OpenAI の調査でソフトウェア エンジニアリングにおける LLM の限界が明らかに | VentureBeat first appeared on プロンプトハブ.