2025年6月10日2025年6月10日 Kohei

レジュメ：思考の幻想 — 問題の複雑性の観点から見る推論モデルの強みと限界

論文レジュメ

Shojaee P, Mirzadeh I, Alizadeh K, Horton M, Bengio S, and Farajtabar M.
The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity
https://ml-site.cdn-apple.com/papers/the-illusion-of-thinking.pdf

研究背景と目的

近年、Large Reasoning Models (LRMs)（例：OpenAI oシリーズ、DeepSeek-R1、Claude 3.7 Sonnet Thinking など）が登場し、Chain-of-Thought (CoT) や自己反省メカニズムを活用して、従来のLLMsよりも優れた推論能力を示していると報告されている。

しかし：
• 本当に一般化可能な推論能力が備わっているのか？
• 問題の複雑性が高まった時にどうなるのか？
• 非思考LLMと比較して本質的にどの程度優位性があるのか？
など、現状の評価パラダイムでは明確にされていなかった。

本研究は、こうした疑問に答えるため、構成的複雑性を精密に制御可能なパズル環境を用いて、LRMsの内部の思考プロセスまで含めて系統的に調査することを目的とする。

方法

課題設定
既存の数学ベンチマークはデータ汚染の影響や問題の複雑性を系統的に制御できないという限界がある。
→ 本研究では、4種の制御可能なパズル環境を採用：
1. Tower of Hanoi（ハノイの塔）参考 https://ja.wikipedia.org/wiki/ハノイの塔
2. Checker Jumping（チェッカーのジャンプ）　参考 https://ja.wikipedia.org/wiki/コンウェイの兵隊
3. River Crossing（川渡り）　参考 https://ja.wikipedia.org/wiki/川渡り問題
4. Blocks World（ブロック再構成）参考 https://en.wikipedia.org/wiki/Blocks_world

これらは：
• 複雑性（問題サイズN）を段階的に操作可能
• シミュレータにより中間解の正確性を完全に検証可能
• ルールが明示的・アルゴリズム的推論が求められる

比較対象モデル
• 思考モデル／非思考モデルのペアを用意
• Claude 3.7 Sonnet（思考あり／なし）
• DeepSeek-R1 / V3
• o3-mini（参考）なども使用

評価
• 最終正答率
• pass@k性能
• 思考トークン使用量
• 推論トレースの中間解の出現パターン（正解／誤答の時系列分析）

主要な結果

（1）3つの複雑性領域が存在
• 低複雑性 → 非思考モデルがLRMsを上回る
• 中程度の複雑性 → LRMsの思考能力が優位に働く
• 高複雑性 → 両モデルとも崩壊（完全に正答不能）

（2）推論努力のスケーリング限界
• 問題の複雑性が高まるにつれ、LRMsの思考トークン使用量は一旦増加するが、崩壊点に近づくと逆に減少するという逆転現象が観察された。
• → 計算資源の根本的な限界が存在。

（3）推論トレースにおけるパターン
• 低複雑性 → 早期に正解に到達するが、その後 Overthinking（無駄な誤った探索）が発生。
• 中程度 → 初期は誤りが多く、後半に正答に至る。
• 高複雑性 → 正解が全く生成されない（collapse状態）。

（4）アルゴリズムを与えても改善しない
• Tower of Hanoiで正しいアルゴリズムそのものを与えても、モデルは正しく実行できなかった。
• → 論理的ステップ実行能力の深刻な限界が明確化。

（5）パズル間での極端な性能差
• Tower of Hanoi では100手程度まで正解を維持可能だったのに対し、River Crossing では5手も維持できず崩壊。
• → 学習データ内での出現頻度／記憶依存が強く影響している可能性。

意義と限界

意義
• 既存の評価パラダイム（数学ベンチマーク中心）への疑問を提起
• LRMが持つ「推論しているように見えるが実際には限界がある」という思考の錯覚（illusion of thinking）を明示。
• 今後のモデル設計において「計算能力」「正確な論理ステップ実行」「Overthinking防止」といった改善の必要性を示唆。

限界
• パズル環境はあくまで限られた形式の推論タスクに過ぎず、実世界の多様な推論や知識集約的なタスク全体を網羅してはいない。
• クローズドなAPIモデルが多く、内部構造の分析は困難だった。
• 決定論的なシミュレーター前提 → より柔軟な非構造的タスクへの汎用性は未確認。

今後の課題・示唆
• LRMsの本質的な推論能力をさらに掘り下げる必要がある。
• 記号的操作能力（symbolic manipulation）や自己検証能力の向上が求められる。
• データ汚染を排除した新しい評価環境の構築が今後の研究に不可欠。
• Overthinking問題の解決 → より効率的な推論アルゴリズムの設計が必要。

1 Introduction（序論）

大規模言語モデル（LLMs）は、最近、推論タスク専用に設計された特殊な派生モデルである Large Reasoning Models (LRMs) へと進化している。例として、OpenAI o1/o3（Jaech et al., 2024）、DeepSeek-R1（Guo et al., 2025）、Claude 3.7 Sonnet Thinking（Anthropic, 2025）、Gemini Thinking（Google, 2025）などがある。これらのモデルは、Chain-of-Thought（CoT）や自己反省などの「思考」メカニズムを備えており、さまざまな推論ベンチマークで有望な成果を示している。この進展は、LLMシステムが複雑な推論・問題解決タスクへのアプローチにおけるパラダイムシフトを示唆しており、一部の研究者はこれらを汎用人工知能（AGI）への一歩と見なしている。

しかし、こうした成果にもかかわらず、LRMsの根本的な利点と限界は十分に理解されていない。重要な問いが残っている：
• これらのモデルは一般化可能な推論ができるのか、それとも別の形のパターンマッチングに依存しているのか（Dziri et al., 2023）？
• 問題の複雑性が増すにつれてパフォーマンスはどうスケールするのか？
• 同じ推論計算資源下で、標準LLMと比べてどう違うのか？
• 現行の推論アプローチの本質的な限界とは何か？より堅牢な推論能力のためにはどのような改良が必要か？

これらの問いが十分に分析されていない理由として、現行の評価パラダイムの限界がある。現在の評価は、既存の数学やコーディングベンチマークに偏っており、これらはデータ汚染の影響を受けやすく、異なる条件や複雑性にわたる制御された実験が難しい。また、推論過程の構造や質に関する洞察を与えるものではない。

本研究では、問題の複雑性というレンズを通して、最先端LRMsの推論メカニズムを検証する。従来のベンチマーク（例：数学問題）ではなく、構成的複雑性を系統的に操作可能なパズル環境を採用することで、解答および内部推論の両方を精査する。これらのパズルは以下の利点を持つ：
1. 複雑性の細かな制御が可能
2. 既存ベンチマークに見られる汚染が少ない
3. 明示的に提供されたルールのみが必要であり、アルゴリズム的推論が求められる
4. 厳密なシミュレータによる評価が可能であり、解の正確な確認や詳細な失敗分析ができる

我々の実証的調査により、現在のLRMsに関して以下の主要な知見が得られた：
• 計画タスクに対して一般化可能な問題解決能力を開発できておらず、ある複雑性閾値を超えるとパフォーマンスが完全に崩壊する
• 標準LLMとの比較により、次の3つの推論領域が確認された（Fig.1）：
1. 低複雑性では標準LLMの方が効率的かつ正確
2. 中程度の複雑性ではLRMsが優位
3. 高複雑性では両者とも完全に崩壊
• 崩壊点付近では、LRMsは推論努力（思考トークン使用量）を逆に減少させる傾向があり、これは生成長の制限とは無関係に起きる
• 推論過程の分析では複雑性依存的なパターンが観察され：
• 単純な問題では早期に正解を見つけた後、誤った選択肢を無駄に探索する（“Overthinking”現象）
• 中程度では長い探索の末に正解に到達
• 高複雑性では正解に全く到達できない
• 明示的なアルゴリズムを与えても正確な計算能力に限界があり、論理的ステップの実行が困難である

これらの知見は、現在のLRMsの強みと限界を明らかにし、これらのシステムにおける推論の性質について重要な問いを提起している。

2 Related Works（関連研究）

Reasoning in Language Models（言語モデルにおける推論）

大規模言語モデル（LLMs）は、膨大な量のトレーニングデータを用いた高コストな学習フェーズを複数経て開発されている。これらのLLMsは、言語理解において優れた圧縮能力を示す一方で、その知能や推論能力については現在も科学的議論が続いている（Chollet et al., 2025; Marcus, 2025）。初期のLLMs（Abdin et al., 2024; Jiang et al., 2023; Dubey et al., 2024）は、推論ベンチマークにおいて貧弱な性能を示していた（Dziri et al., 2023; McCoy et al., 2023; Nezhurina et al., 2024; Dziri et al., 2023）。

この課題に対処するために、「スケーリング」（学習データ量やテスト時の計算量を増大させる）という共通テーマの下、いくつかのアプローチが検討されてきた。たとえば、Chain of Thought (CoT) を生成する（Wei et al., 2022; Kazemi et al., 2022; Zhou et al., 2022; Kojima et al., 2022）、または最終回答の前に自己検証を導入する（Weng et al., 2023; Li et al., 2023; Zhao et al., 2025）ことが性能向上に有効であることが示されている。しかし、高品質かつスケーラブルなCoTデータの取得は非常にコストが高く、データ不足が課題となっている。

別の研究の流れとしては、監督学習や強化学習（RL）を通じて、モデルにより効果的な思考を教えることが検討されている（Zelikman et al., 2022; Goyal et al., 2024; Herel & Mikolov, 2024; Shao et al., 2024; Kazemnejad et al., 2024; Lambert et al., 2024）。その代表的なオープンソースの成果が DeepSeek-R1（Guo et al., 2025）であり、検証可能な報酬を用いたRLを適用することで、OpenAIのo1モデル（Jaech et al., 2024）に匹敵する性能を達成している。この流れにより、Large Reasoning Models (LRMs) という新たなカテゴリが形成されており、Gemini flash thinking（Google, 2025）や Claude 3.7 Sonnet Thinking（Anthropic, 2025）などが登場している。

Understanding Large Reasoning Models（LRMsの理解）

近年の研究では、LRMsの推論挙動に関するさまざまな側面が探究されている。たとえば、思考過程（thought traces）と最終回答との間に乖離が生じること（Chen et al., 2025; Li et al., 2025）、またはOverthinking現象（Chen et al., 2024; Sui et al., 2025; Vera Marjanović et al., 2025; Qu et al., 2025）と呼ばれる効率性の問題が明らかになっている。Overthinking現象とは、モデルが解を見つけた後も冗長な出力を生成し続け、推論コストに大きな影響を与える現象である。

本研究では、このタスク複雑性に対するモデルの思考量がどの程度増減するのかを体系的に分析している。最近、Ballon et al.（2025）は、最新のLRMsにおいて、数学問題では思考量が増加するにつれて正確性がむしろ低下することを示した。一方、我々の制御されたパズル環境下では、難易度が一定レベルを超えると逆に思考量が減少し、タスク複雑性と推論量の関係が途中から反転することが観察された。

また、Yue et al.（2025）は強化学習が本当に新しい推論パターンを引き出しているのかを問い、思考あり・なしモデルのpass@k性能が最終的にほぼ同じになることを示した。我々の観察でも MATH-500 における pass@k は似通っていたが、中程度・高難易度のパズル環境では明確に異なるパターンが観察された。この差異は、一般的な評価で用いられる既存の数学ベンチマークでは捉えにくい。

Controllable Evaluation Environments（制御可能な評価環境）

これまでの研究は、主に数学問題を用いて言語モデルの推論能力を評価してきたが、本研究では制御可能なパズル環境を導入した。この環境により、問題の複雑性を厳密に操作しつつ、一貫した論理プロセスを維持したまま推論パターンと限界をより厳密に分析できる。なお、こうした制御可能な環境は文献上でも存在しており（Dziri et al., 2023; Estermann et al., 2024; Valmeekam et al., 2022）本研究の主眼は新しいベンチマークの提案ではなく、これらをツールとして用いて推論能力を分析することにある。

特に Valmeekam et al.（2024）は、o1モデルの計画タスクでの性能改善を示したが、本研究はさらに踏み込み、思考モデル／非思考モデルのペア比較（例：DeepSeek-R1/V3、Claude 3.7 Sonnet Thinking/Non-Thinking）を実施している。また、我々はLRMsの推論トレースをより深く解析し、複雑性レベルごとの異なる挙動を明らかにした。

全体として、最近のLRMsの有望な成果は既知の限界がどれだけ克服されたのかという重要な問いを生み出している。本研究では単なる性能測定を超えて、LRMsが多様な複雑性の問題をどの程度解決できるのか、またその推論プロセスの特性を明らかにしている。

3 Math and Puzzle Environments（数学およびパズル環境）

現在のところ、最近のRLベースの思考モデルにおいて観測される性能向上が、①既存の数学ベンチマークデータへのより多くの曝露、②思考トークンに割り当てられた大幅に多い推論計算量、③RLベースの学習によって獲得された推論能力のいずれによって生じているのかは明らかではない。最近の研究（Yue et al., 2025; Ma et al., 2025）は、この問いを既存の数学ベンチマークを用いて探求しており、RLベースの思考モデルとそれに対応する非思考モデル（標準LLMs）との間で、同一の推論トークン予算を与えた場合の上限性能（pass@k）を比較している。その結果、MATH-500（Lightman et al., 2023）やAIME24（Mathematical Association of America, 2025）といったベンチマークでは、非思考モデルでも十分な推論トークンが与えられれば、最終的に思考モデルに匹敵する性能を達成できることが示されている。

我々も、最前線のLRMsである Claude 3.7 Sonnet（思考あり／なし）と DeepSeek（R1 vs V3）を用いて同様の比較分析を行った。Fig.2に示されているように、MATH-500データセットにおけるpass@k性能は、同一推論トークン予算が与えられた場合、思考モデルと非思考モデルの間でほぼ同等であることが確認された。しかし、この性能差は AIME24 では拡大し、AIME25 ではさらに大きくなることが観察された。

この差の拡大は解釈が難しい。①より複雑な問題によってより高度な推論プロセスが要求され、思考モデルが本当に有利になるケースが増えているのか、②新しいベンチマーク（特にAIME25）ではデータ汚染の影響が減っているためなのか、いずれかが影響している可能性がある。興味深いことに、人間のAIME25でのパフォーマンスはAIME24よりも高かった（Art of Problem Solving, 2024; 2025）、すなわちAIME25自体はそれほど複雑ではない可能性がある。しかし、モデルはAIME25でAIME24よりも悪い性能を示しており、これはトレーニング時にこれらの最新のLRMsがデータ汚染に影響されている可能性を示唆している。

こうした解釈が困難な観察結果や、数学ベンチマークが問題の複雑性を制御的に操作できないという事実を踏まえ、我々はより精密で系統的な実験を可能にするため、パズル環境に目を向けた。

3.1 Puzzle Environments（パズル環境）

我々は、LRMsの推論を評価するために、構成的深さ（compositional depth）、計画の複雑性、分布的設定を網羅する4種類の制御可能なパズル環境を用いた。以下に定義し、Fig.3で視覚的に示す。
• Tower of Hanoi（ハノイの塔）
3本のペグとn枚の異なるサイズのディスクで構成されるパズル。最初のペグにすべてのディスクが積まれた状態から、すべてのディスクを第三のペグに移すのが目標。合法な動きは1回に1枚のディスクのみを移動でき、ペグからは常に最上部のディスクしか移動できない。また、大きなディスクは小さなディスクの上に置けない。
このタスクの難易度はディスクの枚数で制御でき、最小必要手数は 2ⁿ−1 となる。ただし本研究では最適性は評価せず、各手順の正当性と目標状態への到達のみを評価している。
• Checker Jumping（チェッカージャンプ）
一次元のパズルで、赤と青のチェッカー、および1つの空白セルから成る。目標は、赤と青のチェッカーの位置を入れ替えること。合法な動きは、①チェッカーを隣接する空白にスライドするか、②1つだけ相手色のチェッカーを飛び越えてジャンプすること。チェッカーは後退不可。複雑性はチェッカーの数nによって制御し、最小必要手数は (n+1)² −1。
• River Crossing（川渡り）
n組の俳優（actor）とそのエージェント（agent）がボートで川を渡るパズル。目標はすべての俳優とエージェントを左岸から右岸に移動させること。ボートは一度にk人までしか乗れず、空で移動不可。さらに、自分のエージェントがいない状態で他のエージェントと俳優が同席することは禁止されている（保護制約）。複雑性はnの値で制御し、n=2,3ではk=2、それ以上ではk=3を使用。
• Blocks World（ブロックワールド）
ブロックを初期配置から目標配置に再構成するパズル。合法な動きは、任意のスタックの最上部のブロックを移動すること。ブロックは空のスタックか他のブロックの上にのみ配置可能。複雑性はブロック数で制御。

4 Experiments & Results（実験と結果）

4.1 Experimental Setup（実験設定）

我々の実験の大部分は、思考モデルとそれに対応する非思考モデルのペアを対象として行った。具体的には：
• Claude 3.7 Sonnet（思考あり／なし）
• DeepSeek-R1 / V3
を使用した。これらのモデルを選んだ理由は、思考トークン（thinking tokens）へのアクセスが可能であり、OpenAIのoシリーズのようにアクセスできないモデルとは異なるためである。最終的な正答率のみにフォーカスした実験については、oシリーズのモデルでの結果も報告した。Claude 3.7 Sonnetモデルでは、最大64kトークンまでの推論予算を許可した。同様に、DeepSeek-R1 / V3 モデルもローカルサーバ上で最大64kトークンまで使用可能とした。各パズルインスタンスごとに25サンプルを生成し、各モデルの平均パフォーマンスを報告している。実験設定や結果の詳細は付録（Appendix）に記載している。

4.2 How Does Complexity Affect Reasoning?（複雑性は推論にどう影響するか）

4.2.1 Three Regimes of Complexity（3つの複雑性領域）

Fig.2での観察結果に動機付けられ、問題の複雑性が推論挙動にどのような影響を与えるかを体系的に調査するため、我々は制御可能なパズル環境において、思考モデルと非思考モデルのペア比較実験を行った。
本分析では、同一のモデルバックボーンを持つLLMのペアに焦点を当てた。具体的には：
• Claude 3.7 Sonnet（思考あり vs 思考なし）
• DeepSeek（R1 vs V3）
である。

各パズルにおいて、複雑性は問題サイズN（ディスク数、チェッカー数、ブロック数、または川渡りの要素数）を変化させて制御した。Fig.4 は、パズル環境全体における問題の複雑性に対する各モデルタイプの正答率を示している。さらに Fig.5 は、パズル環境における pass@k（上限性能）を、同一推論トークン予算の下でモデルペアごとに比較した結果を示しており、従来の数学ベンチマークでの分析（Fig.2）を拡張する形となっている。

これらの結果から明らかになったのは、数学問題での観察とは異なり、モデルの複雑性に対する挙動に3つの領域が存在することである。

（1）低複雑性領域（Low complexity）
この領域では、非思考モデルの方が思考モデルと同等かそれ以上の性能を達成しており、かつよりトークン効率が高い。つまり、思考せずにより速く・正確に解けている。

（2）中程度の複雑性領域（Medium complexity）
この領域になると、長いChain-of-Thoughtを生成できる思考モデルの優位性が現れ始め、モデル間の性能差が拡大する。思考モデルはより長い推論プロセスを通じて正解に至る傾向がある。

（3）高複雑性領域（High complexity）
この領域では、両モデルともパフォーマンスがゼロにまで崩壊する。ただし、思考モデルはこの崩壊をやや遅らせることができる一方、最終的には根本的な限界に直面する点では同じである。

4.2.2 Collapse of Reasoning Models（推論モデルの崩壊）

次に、思考トークンを備えた異なる最先端の推論モデルが、問題の複雑性が増大するにつれてどのように応答するかを調査した。

評価対象とした5種類の思考モデルは：
• o3-mini（中・高設定）
• DeepSeek-R1
• DeepSeek-R1-Qwen-32B
• Claude 3.7 Sonnet（思考あり）
である。

Fig.6 は、これらのモデルの正答率（上段）と思考トークンの使用量（下段）を、問題の複雑性に応じて示している。

結果として、すべての思考モデルは同様のパターンを示した：
• 問題の複雑性が増加するにつれて、正答率は段階的に低下し、あるモデル特有の閾値を超えると完全に崩壊（ゼロ正答率）する。
• 思考トークンの使用量は、初期段階では問題の複雑性に比例して増加していく。
しかし、クリティカルな閾値付近に近づくと、驚くべきことに思考努力を減少させ始める。これは複雑性が高まるにもかかわらず発生している。

この現象は o3-mini系では顕著であり、Claude 3.7 Sonnet（思考あり）ではやや緩和されていた。重要なのは、モデルは生成長の制限（トークン制限）を十分下回っているにもかかわらず、思考フェーズで追加の推論計算を活用できていないことである。この挙動は、現在の思考モデルにおける推論能力のスケーリング限界が、問題の複雑性に対して根本的に存在することを示唆している。

4.3 What Happens Inside the Thoughts of Reasoning Models?
（推論モデルの内部では何が起きているのか？）

推論モデルの思考プロセスをより深く理解するために、我々は推論トレース（reasoning traces）の精緻な分析を行った。 Fig.1に示した通り、本研究で用いたパズル環境は、最終回答だけでなくモデルが生成した思考過程（thoughts）全体も取得できるため、より詳細な洞察を得ることができた。我々はモデルの生成する推論トレースから、中間的な解（intermediate solutions）を専用のパズルシミュレータを用いて抽出・検証した。本分析では、モデルが探索した中間解のパターンや特徴、それらが思考過程内のどの位置に現れるか、またそれが問題の複雑性とどのように関係するのかを調べた。

この分析には、Claude 3.7 Sonnet Thinkingモデルによって生成された推論トレースを使用した。
各中間解について以下のデータを記録した：
1. 思考トレース内の相対位置（全体のthought長に対して正規化された位置）
2. 中間解の正否（パズルシミュレータにより検証）
3. 対応する問題の複雑性

これにより、思考プロセスの進行状況と解の正確性の関係を詳細に把握することができた。

Fig.7a の解説：
（図左側・中央）

この図は、4種類のパズル全体にわたって、思考トレース内で中間解が現れる位置とその正否、問題の複雑性との関係を示している。

我々の分析からは、3つの複雑性領域が推論トレースのパターンにも明確に現れていることが確認された：
• 単純な問題（low complexity）
• モデルは早期に正解を見つけることが多い。
• しかしその後も誤った解を無駄に探索し続ける傾向が見られる。
→ これは文献でも指摘されている “Overthinking現象” に相当する。
• 図では、正解の中間解（緑色）が思考の初期段階に集中している一方、誤った解（赤色）は後半にずれて分布している。
• 中程度の複雑性（medium complexity）
• モデルは初期段階で誤った解を探索し、後半に正解にたどり着く傾向がある。
• 図では、誤った解（赤色）が初期寄りに多く、正解（緑色）は後半寄りに出現している。
• 高複雑性（high complexity）
• モデルは正解に全く到達できない（collapse）。
• 思考トレース内に正解の中間解が存在しない。
• 誤った解ばかりが探索されており、推論プロセスが崩壊している状態が観察された。

Fig.7b の解説：
（図右側、Tower of Hanoiの詳細分析）

Tower of Hanoiパズルにおける思考トレース内での解の正確性の変化を、問題の複雑性Nに応じて詳細に分析した結果を示している。
思考トレースを一定区間（bin）に区切り、それぞれの区間における正解率をプロットしている。

結果は以下の通り：
• 単純な問題（N=1〜3）
• 思考の初期段階で正解率は高いが、その後時間が経つにつれて正解率が低下する。
→ Overthinkingが顕著に見られる。
• 中程度の問題（N=4〜7）
• 思考の進行に伴い、正解率がやや向上する傾向が見られる。
• 初期は誤った探索が多いが、途中から正解に到達する学習が働いている。
• 複雑な問題（N≧8）
• 思考トレース全体を通じて正解率はほぼゼロ。
• collapse状態にあり、正しい解に至る兆候が全く見られない。

ここまでのまとめ

この詳細な推論トレース分析により、LRMsの内部では以下のことが明らかになった：
• 簡単な問題では「解けているにもかかわらず無駄な探索を続ける」という非効率性がある。
• 中程度の問題では「誤った試行を経て徐々に正解に近づく」という探索行動の変化が見られる。
• 高複雑性問題では「正しい推論が全く成立せず、完全な崩壊状態」に陥る。

このように、LRMsの自己修正能力には限界があり、複雑性に応じて明確な推論パターンの変化と根本的な非効率性／限界が存在することが分かった。

4.4 Open Questions: Puzzling Behavior of Reasoning Models
（未解決の問い：推論モデルの不可解な挙動）

本節では、推論モデルが正確な問題解決ステップを実行する際の限界や、動きの数に応じた異なる挙動といった、驚くべき結果について報告する。

アルゴリズムを与えても性能は改善しない

まず、Tower of Hanoi（ハノイの塔）の環境において、モデルに対して正しいアルゴリズムそのものをプロンプト内で提供した上で実験を行った。すなわち、モデルは「新たに解を発見する」必要はなく、単に既知の手順を順番に実行すれば良いという設定である。

その結果は Fig.8a および Fig.8b に示されている：
• DeepSeek-R1（Fig.8a）
• Claude 3.7 Sonnet（思考あり）（Fig.8b）

この結果は驚くべきもので、アルゴリズムが与えられていても性能は改善しなかった。モデルは、問題の複雑性が増すにつれて、通常のプロンプト（Default）と同様のタイミングで崩壊し始めた。

これは、以下を示唆している：
• 解法の発見や計画よりも単なるアルゴリズムの実行の方がはるかに容易であるはずだが、それでもモデルは正しく実行できない。
• LRMは論理的なステップ実行能力や検証能力において深刻な限界を抱えている。
• これは記号的操作（symbolic manipulation）能力の限界とも関連しており、今後の研究でさらに理解が求められる（Mirzadeh et al., 2025; Dziri et al., 2023）。

異なるパズルでの初回エラーの挙動の違い

さらに、Claude 3.7 Sonnet（思考あり）モデルが異なるパズルで示した挙動を分析した。
特に注目したのは、解の中で最初にエラーが生じる手番（First Wrong Move）の位置である。

以下の2つの環境で比較を行った：
• Tower of Hanoi（Fig.8c）
• 問題の複雑性が高い場合（N=10）でも、モデルは約100手目まで正しい手順を維持することができた。
• N=5 の場合は完璧な正解に到達できた（必要な手数31手を正確に実行）。
• River Crossing（Fig.8d）
• 一方、River Crossing環境では、N=3程度の比較的小規模な問題でも、わずか4手目程度で最初のエラーが発生した。
• N=3 で求められる解の手数は11手であるにも関わらず、モデルは5手未満で崩壊した。

この差異から考えられる仮説は以下の通り：
• Tower of Hanoi はWeb上や教材で多数の例が存在しており、モデルが頻繁に見たことのあるパターンを知っている可能性が高い。
• 一方 River Crossing（特にN>2の場合）は、ネット上での出現頻度が低く、モデルの訓練時にあまり遭遇していなかった可能性が高い。
• そのため、モデルはこのパズルを記憶ベースで補うことができず、本質的な推論能力の欠如が露呈した。

この観察結果は、LRMsが本当に一般化可能な推論能力を持っているのか、あるいは頻出パターンへの記憶依存が強いのかという問題に直結する。

ここまでのまとめ

このセクションでの重要な知見は以下である：
• モデルは正しいアルゴリズムが与えられていても、その実行に失敗する → 論理的手順実行の限界
• 同じモデルが異なるパズル間で初回エラー発生位置が大きく異なる → 訓練データ内の頻度・露出がモデル性能に強く影響している可能性
• LRMは、単なる「思考を生成する能力」ではなく、正確な記号的処理能力や一貫した推論能力に今なお課題を抱えている。

5 Conclusion（結論）

本研究では、問題の複雑性という観点から、最先端の Large Reasoning Models（LRMs）を制御可能なパズル環境を用いて体系的に調査した。
その結果、現在のモデルには根本的な限界が存在することが明らかになった：
• Sophisticatedな自己反省メカニズム（self-reflection mechanisms）を備えているにもかかわらず、これらのモデルは一定以上の複雑性を超えると一般化可能な推論能力を発展させることに失敗する。
• 3つの推論領域が確認された：
（1）低複雑性 → 標準LLMsがLRMsを上回る
（2）中程度の複雑性 → LRMsが優位
（3）高複雑性 → 両者とも崩壊
• 特に注目すべきは、問題が臨界複雑性（critical complexity）に近づくにつれて、LRMsが推論努力（thinking effort）を逆に減少させるという直感に反する挙動が観察されたことだ。
これは、LRMsに計算資源のスケーリング限界が存在することを示唆している。

また、我々は推論トレースの詳細分析を通じて、以下のような複雑性依存的な推論パターンも明らかにした：
• 簡単な問題では、正解が早期に見つかるが、過剰な探索（Overthinking）が発生し、余計な計算が浪費される。
• 中程度の問題では、多くの誤った探索の後に後半で正解に到達する。
• 高複雑性の問題では、正解が全く見つからず完全に崩壊する。

これらの知見は、LRMsの能力に対する現在の評価の前提に疑問を投げかけ、汎用的な推論能力の開発において、既存のアプローチが根本的な壁に直面しつつある可能性を示している。

さらに、我々はLRMsに関するいくつかの驚くべき結果を提示し、今後の研究に向けた未解決の問いを提起した。
最も顕著な例としては：
• Tower of Hanoiにおいて解法アルゴリズムそのものを与えても性能が改善しなかった。
→ 論理的ステップ実行の限界を示唆。
• モデルの最初のエラー手を調べたところ、例えばTower of Hanoiでは100手以上正解が続く一方、River Crossingでは5手も持たないという極端な差が観察された。
→ 学習データ内での頻出性・記憶依存の影響が強く出ている可能性。

我々は、これらの結果が将来的な推論能力のさらなる調査に向けて新たな道筋を開くと考えている。

Limitations（限界）

我々の研究には以下のような限界が存在することも認めておく：
• 本研究で用いたパズル環境は問題の複雑性を精密に制御できるという利点はあるが、扱っているのは限られた範囲の推論タスクに過ぎず、実世界の多様な推論問題や知識集約的な推論タスク全体を網羅するものではない。
• 多くの実験では、ブラックボックスAPIを介してクローズドなLRMsにアクセスしており、内部状態やアーキテクチャの詳細に踏み込んだ分析は困難だった。
• また、決定論的なパズルシミュレータを前提としており、推論をステップ単位で完全に検証可能という前提に基づいている。
→ より構造化されていないドメインにこの分析がそのまま適用できるかどうかは保証されない。

メモ

生成AI系で話題になる論文ってもう査読付きの学術誌ではなくて、きっとこの（組織の）人たちがそう言ってるんだからそうなんだろう、という看板に信頼性が担保されたものになってしまったな。工学系で生き馬の目を抜く速さが求められる業界だからまあそうなるんだろうけど。

この論文がツイッターで話題になったときに「人間も所詮はパターンで判断してるだけでしょ」というようなコメントにいいねがたくさんついていたけど、書いてあることを読むと、「推論モデル」というものの、課題が複雑になったら推論っぽいことすらせずに崩壊する現象が確認されてるので、人間とは違うんだろう。でも、人間だって推論のパターンと回答にたどり着く方法を高度に暗記して受験を乗り切ってるので、まあ「そういう人もいるんじゃない？」とは思う。でも、今回の実験ではルールを明示して回答アルゴリズムまで教えても複雑になると推論を放棄しているので・・・いやこれもまた見方によれば「人間ぽい」感じはするな。でも命令しても試行錯誤しないというのはやはりモデルとして「推論」はしてないんだろうと思う。これをいうと元も子もないが、ユーザー側からすれば推論していようがいまいが自分のニーズに応えてくれればいいだけなので、この議論には興味を持ってもらえないだろうなと思う。個人的には生成AIが高度なパターン認識になるのは当たり前で、それは現在進行形で感覚器から情報が上がってくるボトムアップ処理を能動的に行えないから。受動的で既に持っている情報を使うしかなければそういう処理パターンになるのは当然では？と思ったりする。