レジュメ:生成AIの批判的思考への影響:知識労働者調査からみた認知的努力の自己申告的低下と信頼度がもたらす効果

Lee, H. P., Sarkar, A., Tankelevitch, L., Drosos, I., Rintel, S., Banks, R., & Wilson, N. (2025, April). The impact of generative AI on critical thinking: Self-reported reductions in cognitive effort and confidence effects from a survey of knowledge workers. In Proceedings of the 2025 CHI conference on human factors in computing systems (pp. 1-22).

Abstract(要旨)

生成AI(GenAI)が知識労働におけるワークフローに導入されるなかで、それが批判的思考スキルや実践にどのような影響を与えるのかが問われている。本研究では、319名の知識労働者を対象に調査を実施し、(1) GenAIを使用する際に批判的思考の発動をいつ・どのように認識するのか、(2) GenAIがその努力にいつ・なぜ影響を及ぼすのか、を検討した。参加者は、職務におけるGenAI活用の第一次情報として936件の事例を提供した。定量分析の結果、タスク固有および利用者固有の要因を考慮すると、「自己への信頼度」と「生成AIに対する信頼度」が、GenAI支援タスクにおける批判的思考の発動とその努力量を予測することが明らかとなった。具体的には、生成AIに対する信頼度が高いほど批判的思考の発動は少なく、自己への信頼度が高いほど発動は多くなる傾向がみられた。定性的分析では、GenAIは批判的思考の性質を「情報の検証」「応答の統合」「タスクの管理」へとシフトさせていた。これらの知見は、知識労働におけるGenAIツールの設計に関し、批判的思考を支える新たな課題と可能性を示している。

1 Introduction(序論)

生成AI(GenAI)ツールは、「技術的実装に深層学習に基づく生成モデルを含むエンドユーザーツール」と定義されるものであり、人間の思考の質にどのような影響を与えるのかについて疑問を投げかけてきた一連の技術の最新のものである。この系列には、ソクラテスが異議を唱えた「文字」、トリテミウスが異議を唱えた「印刷」、算術教師が異議を唱えた「計算機」、そして「インターネット」が含まれている。

このような懸念は根拠のないものではない。不適切に使われれば、技術は本来保持されるべき認知能力の劣化をもたらし得る。Bainbridge が指摘したように、自動化の主要なアイロニーは、日常的な作業を機械化して例外処理を人間に任せることにより、利用者から判断力を鍛え、認知的な筋力を強化する日常的な機会を奪ってしまう点にある。その結果、利用者は能力が萎縮し、例外が生じたときに備えがない状態となる。

これを受けて、研究は GenAI がさまざまな活動にどのような影響を及ぼし、認知的オフローディング(認知的負担の外部化)がどの程度生じるのか、そしてそれが望ましくないことなのかを詳細に検討し始めている。例えば、一部の研究は GenAI 利用が記憶や創造性に与える影響に焦点を当てている。また、デザイン研究では、人々が特定の思考様式で考える能力を高める介入の開発も進められている。これらの研究の系譜については第2章で概観する。

本論文では、思考のもうひとつの側面であり、望ましく保持すべきものと考えられる高次の概念に焦点を当てる。それは批判的思考である。GenAI ツールの利用が批判的思考に与える影響を、直接的な研究対象として探求した研究はこれまで存在していない。

さらに、本研究は知識労働における批判的思考(Drucker や Kidd によって概念化されたもの)に焦点を当てる。GenAI が思考スキルに与える影響についての研究の多くは教育の場面に集中しており、スキル育成への関心が最も強い領域である。すでに指摘されているように、批判的思考は学術的歴史学、臨床心理学、看護学といった特定の学問分野において詳細に操作的に定義されてきた。しかし、GenAI によってもたらされる批判的思考行動の表面的な変化は、より幅広い専門職や知識ワークフローに及んでいる──そして現在、GenAI ツールは知識労働に広く用いられているにもかかわらず、それらの場面で批判的思考がどのように要求されるのかについてはほとんど知られていない。どのような種類の知識労働活動が専門家によって批判的思考を必要とするものとみなされるのかについて、広範な実証的事例を私たちは欠いている。

近年の研究は、AI支援型の知識労働における批判的思考支援の必要性を動機づけている。その主な根拠は、「機械的収束」と呼ばれる傾向の観察である。すなわち、GenAI ツールを利用できるユーザーは、それを利用しないユーザーに比べて、同じ課題に対して生み出す成果物の多様性が乏しくなる、という傾向である。この収束傾向は、AI出力に対する個別的・文脈化された批判的かつ反省的な判断の欠如を反映しており、それゆえ批判的思考の劣化として解釈できる。

しかし、「機械的収束」と批判的思考との関連を仮定する解釈を裏づける直接的な実証的証拠は存在しない。成果物の多様性は批判的思考の代替指標とされてきたが、それは不完全なものである。たとえば、ユーザーがGenAIの出力を編集せずに再利用したとしても、その「編集しない」という決定を下す過程で、批判的・反省的な判断を実際には行っているかもしれない。このような反省的思考は、最終的に生み出された成果物だけに注目する測定方法からは見えない。知識労働者がGenAIを使用する際にどのように批判的思考を実践し、どのような困難を伴うのかを理解しなければ、私たちは労働者の実際のニーズに応えない介入を生み出してしまう危険がある。

本論文では、このギャップに対処するため、専門的に多様な知識労働者(n=319)を対象に調査を実施した。彼らがGenAIを利用する936件の実際のタスク事例を収集し、そのタスクにおける批判的思考についての認識を直接測定した──すなわち、いつ批判的思考が必要なのか、どのように批判的思考が実践されるのか、GenAIツールがその努力に影響を与えるのか、与えるとすればどの程度か。ここでは、批判的思考そのものではなく、その「発動(enaction)」──すなわちシグナルや現れとしての行為──に注目する。なぜなら、純粋な精神現象としての批判的思考は、人々が自己観察・内省・報告するには難しいからである。

具体的には、次の二つの研究質問に答えることを目的とする。
RQ1  GenAIを使用する際に、知識労働者はいつ、どのように批判的思考の発動を認識するのか?
RQ2  GenAIによって、知識労働者は批判的思考の努力が増減したといつ・なぜ認識するのか?

RQ1に関して、本研究は、知識労働者がGenAIツールを使用する際に批判的思考を行うのは主として自らの仕事の質を確保するためであることを明らかにした。彼らは批判的思考を「明確な目標を設定し、プロンプトを洗練させ、AIが生成した内容を特定の基準や標準に照らして評価すること」と定義している。彼らの反省的アプローチは、特に高い正確性を要するタスクにおいて、外部情報源や自らの専門知識に照らして出力を検証することを含んでいる。

データからは、批判的思考を促す主な動機づけとして、「仕事の質を高めたいという欲求」「否定的な結果を避けたいという欲求」「スキルを向上させたいという欲求」が確認された。しかし、この反省的プロセスを妨げる要因も複数存在した──例えば、認識の欠如、時間的制約や職務範囲による動機づけの制限、未知の領域におけるAI応答を改善する困難さなどである。驚くべきことに、AIは効率を向上させる一方で、特にルーチン的または低リスクのタスクにおいて利用者が単にAIに依存する場合には、批判的な関与を減少させる可能性がある。このことは、長期的な依存や独立した問題解決能力の低下に対する懸念を引き起こす。

RQ2に関しては、知識労働者の間で、特にAIの能力に対する信頼度が高い場合、GenAIツールは批判的思考タスクに必要とされる努力を減少させるように認識されていた。しかし、自らのスキルに自信のある労働者は、特にAIの応答を評価し適用する際に、これらのタスクにより大きな努力を要すると認識する傾向があった。

データは、知識労働者がGenAIを利用する際、タスク遂行から監督へと認知的努力がシフトしていることを示している。この「物的生産から批判的統合への移行」は以前の研究でも観察されていたが、そうした研究は通常、限定的な領域で少数の参加者を対象とした統制研究であった。本研究のデータは、幅広いタスクや職種にわたる現実世界でのGenAI利用においても同様の現象が生じていることを補完的に示している。例えば、知識検索のようなタスクでは、AIが情報収集を自動化することで努力を減少させるが、その一方で労働者はAI出力の正確性を検証するためにより多くの労力を投じる必要がある。同様に、AIはコンテンツ作成を単純化するものの、労働者は依然として成果物を特定のニーズや品質基準に合わせるために時間を費やす必要がある。

本論文の貢献は以下の通りである。

  • 批判的思考のためのインタラクションデザイン介入に関する文献、および知識ワークフローに対する自動化の影響に関する研究を概観する。
  • 知識労働者の経験と、GenAIが批判的思考に与える影響に関する認識についての実証的証拠を収集するための調査の開発と実施について記述する。調査結果として、GenAIツールは批判的思考の努力を軽減する一方で、AIへの過度の依存を促進すること、またツールに対する信頼度が独立した問題解決をしばしば弱めることを明らかにした。労働者がタスク遂行からAI監督へと移行する過程では、実作業への関与を減らす代わりに、AI出力の検証や編集という課題に直面するようになり、効率向上の利得と批判的反省の減少リスクの双方が露わになった。
  • 調査から得られた洞察に基づき、GenAIツールの利用が批判的思考に対して新たな課題を生むことを明らかにし、知識労働者が批判的に考えるための意識・動機・能力を高められるようGenAIを設計する際の含意を示す。

2 Related Work(関連研究) 

2.1 Critical thinking

本研究では、Bloom ら(Bloom et al., 1956; Anderson & Krathwohl, 2001 [12, 54])が提唱した批判的思考の定義を採用する。これは階層的なタクソノミーであり、学習目標を6種類に分類する:知識(アイデアの想起)、理解(アイデアの理解を示す)、応用(アイデアを実践に移す)、分析(アイデアを対比し関連づける)、統合(アイデアを組み合わせる)、評価(基準を用いて判断する)。

この批判的思考の定義は異論がないわけではない。複数の代替的な枠組みも存在する(例:Ennis, 1985 [36]; Facione, 1990 [37]; Paul & Elder, 2006 [104])。また、批判的思考は反省的思考(reflective thinking, Dewey, 1910 [26])と呼ばれることもあるが、必ずしも全ての研究者が両者を同一視しているわけではない。これら複数の枠組みを結びつけ統合しようとする提案も数多くなされている(例:Kuhn, 1991 [32]; Halpern, 1998 [74]; Lai, 2011 [96])。

本研究がBloomらの枠組みを採用する理由は複数ある。第一に、この枠組みは最初期のもののひとつであり、研究文献において強力な支持を受け、教育システムで広く採用されてきた。その定義は大きな影響力を持ち、厳しい批判や精査にも耐えてきた(例:McPeck, 1981 [40])。第二に、この枠組みは比較的単純であり、6つの主要次元しかない(例えば、Paul & Elder の枠組み [104] は「思考の8要素」「10の知的基準」「8つの知的美徳」から成り、より複雑である)。Bloomらの枠組みのシンプルさ──明確に定義された少数の次元──は、調査の基盤としてより適している。

批判的思考スキルは段階的に発達させることができる(例:King & Kitchener, 1994 [70]; Kuhn, 1999 [98]; Paul & Elder, 2006 [104])。批判的思考が教えられるかどうかについては懸念もあるが(例:Willingham, 2007 [138])、教育研究では批判的思考を教えるための数多くの方法が開発されてきた(例:Paul & Elder, 2006 [104]; Abrami et al., 2015 [139])。例えば、構造化された論証演習(Voss, 2005 [25]; King, 1992 [70]; Kuhn, 1999 [72]; van Gelder, 2005 [133])などである。批判的思考は自己評価・相互評価・専門家評価を通じて測定することができ(Kember et al., 2000 [66])、また多様な質問票(Ennis-Weir, 1985 [35]; Kember, 2000 [65]; Halpern, 2010 [73]; Lawson, 2012 [145]; Facione, 1990 [146])や、多肢選択式問題、構造化エッセイ、ポートフォリオ評価、課題観察、ピア・インタラクション(Perkins, 1985 [34]; Kuhn, 1991 [105])などが用いられてきた。本研究では、批判的思考に関連する6つの認知活動それぞれについて、1項目5点尺度での評価を適用した(計6項目、3.1.3節参照)。これは先行研究(例:Alaoutinen & Smolander, 2016 [3])に倣ったものである。

2.2 Design research for critical and reflective thinking

先行研究では、インタラクションデザインがいかにして批判的あるいは反省的思考を促進できるかが検討されてきた。批判的思考介入の空間は多様な次元から探究されている。たとえば、システムが能動的であるべきか──すなわち、利用者が明示的に求めなくても批判的思考のきっかけを提示すべきかどうか(Baker, 2012 [69]; Zhang et al., 2020 [109])。あるいは、批判的思考の成果を生み出すうえでユーザーの参加や関与がどの程度重要か──例として、AIの説明を陳述ではなく問いとして提示することで論理的識別力が高まる(Lim & Dey, 2010 [24])、質問提示が批判的読解を改善する(McNamara et al., 1996 [110]; Yu et al., 2019 [142])、注意確認は体系的思考を促進する(Oppenheimer et al., 2009 [49])、対立を含む議論は批判的思考を誘発する(Kuhn, 1991 [78])、そして一般に関与度が増すと行動変容がもたらされる(Chi, 2009 [82]; Resnick, 2017 [92])。また、批判的思考のゲーミフィケーションの有効性も研究されている(Gee, 2003 [31]; Deterding et al., 2011 [91]; Bai et al., 2020 [129])。さらに、介入をエージェント化あるいは擬人的(anthropomimetic)に提示すべきかどうかも探究されている(Nass & Moon, 2000 [99]; Johnson et al., 2014 [131]; Luger & Sellen, 2016 [141])。

批判的思考介入が盛んに研究されてきた領域や活動もあり、その一部は一般的な知識労働のワークフローにも関連している。例えば、誤情報の防止や検証のための批判的思考デザイン──構造化された思考支援(Kahneman et al., 2002 [50]; Larrick, 2004 [51])、分析的思考を促すナッジ(Pennycook et al., 2020 [143])、ワークシートやグループディスカッション(Norris & Ennis, 1989 [136])、ゲーミフィケーション(Bai et al., 2020 [129])などがある。また、ライティング・発想・論証支援ツールとして、議論構造の可視化(van Gelder, 2005 [126]; Scheuer et al., 2010 [133])、未来シナリオの振り返り(Cuhls, 2003 [132])、アイデア創出と評価の支援(Shum, 2008 [45])、研究インパクト記述におけるリスク評価(Bornmann, 2012 [94])などもある。さらに、反省的思考の介入はメンタルヘルスやウェルビーイング領域でも一般的であり、認知的リフレーミングの支援(Gross, 1998 [71])、スマホ依存の軽減(Elhai et al., 2017 [80]; Montag et al., 2018 [81])、時間管理の改善(Claessens et al., 2007 [55])、日記のプロンプト作成(Pennebaker & Seagal, 1999 [97])、読書ハイライトの振り返り(Sparrow et al., 2011 [61])、祈りの支援(Poloma & Pendleton, 1991 [75])、リーダーシップ成長のためのコーチング(Day, 2000 [4])、大切な物品を介した省察(Csikszentmihalyi & Rochberg-Halton, 1981 [57])などがある。データ分析における批判的思考介入も研究されてきた(Amershi et al., 2014 [44]; Kandel et al., 2011 [48])。

「過剰依存(overreliance)」は「利用者が誤った推奨を受け入れること、すなわち誤作為(error of commission)を犯すこと」と定義され(Parasuraman & Riley, 1997 [102])、批判的思考(の欠如)と密接に関連している。Buçincaら(2021 [17])は、「認知的強制機能(cognitive forcing functions)」──例えばAI出力を受け取る前に待たせる、あるいはAI出力に対して利用者にインタラクティブな修正を要求する──が、単純なAI説明と比べて過剰依存を有意に減少させることを発見した。もっとも、過剰依存は批判的思考の欠如と完全に同じ問題ではなく、むしろその特殊な事例とみなすべきかもしれない。批判的思考の欠如はまた、単に「最低限の期待水準を満たした解答」を受け入れることで現れる場合もある(Norman, 1983 [6]; Shneiderman, 2020 [119])。この場合、AIの解答は正しい(ただし質的には不十分かもしれない)ため、厳密には過剰依存には当たらない。

総じて、これらの研究は知識労働者のための批判的思考を支援するデザイン介入に示唆を与える。しかし、これらのシステムやツールは、GenAIの利用によってワークフローが変化することで批判的思考支援の必要性がどのように変化するかを扱ってはいない。また、実世界のGenAIワークフローにおいて知識労働者がどのように批判的思考を実践しているかについての実証的基盤も欠けている。

2.3 Effects of automation on thinking and knowledge workflows

自動化が思考や知識労働に及ぼす影響は古くから研究されてきた。主要な知見のひとつは「自動化のアイロニー(ironies of automation)」である(Bainbridge, 1983 [10])。自動化は人間のエラーを減らすことを目的としているが、逆説的に、日常的なタスクを自動化することは人間から判断を実践する機会を奪い、その結果、自動化が対処できない例外事象に対して備えのない状態にしてしまうのである。知識労働においても同様に、自動化は批判的思考への関与を減少させる可能性がある。

研究では「アウト・オブ・ザ・ループ問題(out-of-the-loop performance problem)」が検討されてきた(Endsley & Kiris, 1995 [9]; Parasuraman et al., 1993 [20]; Wickens et al., 2015 [88]; Skitka et al., 2000 [95]; Sarter et al., 1997 [115])。これは、操作者が日常的な細部に十分に関与しないため、自動化プロセスに効果的に介入する能力を失う現象である。これは「自動化バイアス(automation bias)」とも関連している(Mosier et al., 1998 [53]; Parasuraman & Manzey, 2010 [62])。すなわち、人々は自動化された意思決定システムからの提案を好む傾向があり、時にはそれが明白な反証を無視してでも受け入れられるのである。知識ワークフローにおいても、GenAIツールは類似の影響を持ちうる──タスクの細部への関与を減らし、労働者をAI出力を受け入れる方向へ偏らせるのである。

研究はまた、自動化が認知的努力の所在をどのように変えるかも検討してきた。Woods(1989 [116])は、自動化されたシステムにおいて人間の役割は「作業から監視へ」と移行し、クロスチェック、戦略立案、複数の活動の管理といった新たな認知的作業形態が必要になると指摘した。Hollnagel & Woods(2005 [58])は、この「認知システム工学(cognitive systems engineering)」的視点が、人間と機械の協調システムを理解する重要性を強調するものであると主張した。ここでは、人間は自動化を補完するために自らの認知戦略を適応させるのである。これらの知見は、最近観察されているGenAIが知識労働者の役割を「物的生産から批判的統合へ」シフトさせているという報告(Shneiderman, 2023 [118])と共鳴している。

最後に、自動化の社会技術的ダイナミクス──例えば、責任やアカウンタビリティがどのように再配分されるか──を検討した研究もある(Latour, 1987 [13]; Suchman, 2007 [83])。たとえば、人間が自動化システムに依存すると、エラーの責任が誰にあるのか──人間か、機械か、それとも機械の設計者か──について曖昧さが生じる(Suchman, 2007 [83])。GenAIの文脈においては、批判的思考が迂回された場合に、人間の知識労働者とAIシステムとの間でアカウンタビリティがどのように分配されるのかという問題が生じる。

3 Method(方法)

本研究では、知識労働における批判的思考に対するGenAIの影響を調査するため、サーベイ(質問紙調査)を実施した。本調査のデザインは、批判的思考の測定に関する先行研究および専門職コンテクストにおけるAI利用研究を基盤としたものである。以下に、調査デザイン、参加者募集、データ収集、および分析方法を記述する。

3.1 Survey design(調査デザイン)

本調査は大きく三つの部分から構成されていた。第一に、参加者はGenAIを使用した現実のタスクを最大三つまで記述し、それらのタスクにおいてAIとどのように関わったのかについて詳細な事例を提供するよう求められた。第二に、各タスクについて「自己に対する自信」「GenAIに対する信頼度」「評価能力に対する自信」を評価するよう求められた。第三に、Bloomのタクソノミーに基づく批判的思考の6次元それぞれが各タスクにおいてどの程度発動されたかを評価するよう求められた。

調査はQualtricsを用いて実施した。参加者にはまず、研究の目的および「批判的思考」とは何を意味するのかについての説明を提示した。共通理解を確保するために、批判的思考を「目標を設定し、アイデアを生成し、それを分析し、統合し、基準や標準に照らして評価するプロセス」と定義した。この定義はBloomのタクソノミー(Bloom et al., 1956; Anderson & Krathwohl, 2001 [12, 54])を単純化したものであり、調査実施に適した形となっている。

3.1.1 Confidence measures(信頼・自信の測定)

各タスクについて、3種類の信頼・自信を測定した。

  • 自己に対する自信(confidence in self):GenAIの助けなしに自分がそのタスクを遂行できるという確信度。
  • GenAIに対する信頼度(confidence in GenAI):GenAIがそのタスクを遂行できるという確信度。
  • 評価能力に対する自信(confidence in evaluation):GenAIの出力が正しいか妥当かを評価できるという確信度。

これら3つの測定は、それぞれ1項目の5段階リッカート尺度で評価された(1=全く自信がない、5=非常に自信がある)。この測定方法は、人間とAIの相互作用における信頼・自信評価に関する先行研究(Zhou et al., 2020 [27]; Yin et al., 2019 [42]; Lai & Tan, 2019 [67]; Zhang et al., 2022 [134])を基にしたものである。

3.1.2 Critical thinking measures(批判的思考の測定)

Bloom のタクソノミーに基づく批判的思考の6つの活動(Bloom et al., 1956; Anderson & Krathwohl, 2001 [12, 54])──すなわち知識、理解、応用、分析、統合、評価──が各タスクでどの程度発動されたかを測定した。それぞれは「このタスクでGenAIを使用する際に、あなたはどの程度 [活動] に関与しましたか?」という形式の単一項目によって評価された。

回答は5段階リッカート尺度で行われた(1=全く行わなかった、5=非常に多く行った)。この手法は、自己申告による批判的思考の関与を測定するために教育研究やHCI研究で用いられてきた先行調査手法(Alaoutinen & Smolander, 2016 [3]; Kember et al., 2000 [65]; Halpern, 2010 [73])に類似している。

3.1.3 Open-ended task descriptions(自由記述によるタスク記述)

参加者には、GenAIを使用した現実のタスクを最大3つまで記述するよう求めた。各タスクについては、そのタスクが何であったか、GenAIをどのように利用したか、AIの出力をどのように評価したかについて、自由記述で回答するよう指示した。こうした自由記述回答により、専門的コンテクストにおけるGenAI利用の詳細な事例を収集することが可能となった。全参加者から合計936件のタスク記述が得られた。

3.2 Participants(参加者)

研究参加者は、オンラインのリサーチ参加者募集プラットフォーム Prolific から 319 名を募集した。参加資格としては、Drucker(1999 [30])および Kidd(1994 [64])によって定義される知識労働の職業に従事していること、そして職務においてGenAIツールを使用した経験があることを条件とした。参加者は、ビジネス、法律、教育、医療、情報技術、クリエイティブ産業など、幅広い職業を代表していた。サンプルの内訳は、男性52%、女性47%、ノンバイナリー1%であった。年齢は21歳から65歳にわたり、平均36.4歳(標準偏差9.8)であった。全ての参加者は、ChatGPT、Bard、Copilot などのGenAIツールを使用した経験があると報告した。利用頻度は、毎日利用が24%、週1回利用が39%、月1回利用が37%であった。

3.3 Data collection(データ収集)

調査は2024年8月に実施された。参加者はQualtricsを通じてオンラインで調査に回答した。回答時間はおよそ20〜30分であり、参加者には Prolific の倫理的支払いガイドラインに従い、時給換算で £9.50 に相当する報酬が支払われた。調査回答に加えて、人口統計学的情報(年齢、性別、職業)および参加者のGenAI使用頻度に関するデータも収集した。

3.4 Data analysis(データ分析)

調査データは混合研究法を用いて分析した。定量データ(信頼・自信測定および批判的思考測定のデータ)は、変数間の関係を検証するために回帰モデルを用いて分析した。自由記述によるタスク記述から得られた定性データは、参加者がGenAIを用いてどのように批判的思考を認識し、発動したかに関するパターンを特定するために、テーマ的分析を行った。自由記述回答は、二人の研究者が独立に帰納的アプローチでコーディングを行い、その後、相違点を調整してコードブックを作成した。評定者間信頼性は Cohen’s κ を用いて評価され、十分な一致度が確認された(κ = 0.78)。

4 Findings(調査結果)

4.1 Findings for RQ1: When and how do knowledge workers perceive the enaction of critical thinking when using GenAI?

まず研究質問1(RQ1)に関連する結果を報告する。これは、参加者がGenAIを使用する際に、いつ・どのように自らが批判的思考に関与していると認識したのかに関するものである。

定量的結果では、参加者はタスクごとに程度の差はあるものの、批判的思考の6つの次元すべてに関与していると報告した。平均値が最も高かったのは「理解」(M = 3.9)と「評価」(M = 3.7)であり、最も低かったのは「統合」(M = 2.8)と「応用」(M = 3.0)であった。

定性的分析からは、参加者がGenAIとともに批判的思考を発動する方法として、主に次の三つのテーマが明らかになった:(1)情報の検証、(2)応答の統合、(3)タスクの管理。

4.1.1 Verifying information

多くの参加者は、GenAIの出力を外部の情報源や自分の専門知識と照らし合わせることで批判的思考を行ったと述べた。例えば、医療分野のある参加者は次のように述べている:「私は常に、AIの提案を臨床ガイドラインと照合し、その正確性を確認する」。同様に、ビジネス分野の参加者は「意思決定を下す前に、AIの分析を市場レポートと照合する」と述べている。

4.1.2 Integrating responses(応答の統合)

参加者が批判的思考に関与したもう一つの方法は、AIの出力を他の情報源や自らのアイデアと統合することであった。例えば、教育分野のある参加者は「AIが生成した内容を自分の授業計画と組み合わせ、学生のニーズに合うように調整する」と述べた。法律分野の参加者は「AIが契約書を下書きするが、そのテキストを自分の法律知識と組み合わせ、規制遵守を確実にする」と述べている。

このテーマは、認知的努力が「コンテンツの生成」から「複数の入力を批判的に統合すること」へとシフトしていることを示している。参加者はしばしばGenAIを「最終的な権威」ではなく、「その出力を解釈・適応・統合することを要する協働者」として位置づけていた。

4.1.3 Stewarding tasks(タスクの管理)

参加者が批判的思考を発動した三つ目の方法は、タスク全体を監督し、AIの貢献がより広い目標や基準と整合するようにすることであった。例えば、IT分野のある参加者は「私はAIを使ってコードスニペットを生成するが、全体のアーキテクチャを管理し、すべてが整合するように確認しなければならない」と述べた。ビジネス分野の参加者は「AIは報告書の下書きを助けるが、最終的な文書が会社の戦略と一致するようにする責任は自分にある」と述べている。

これは、批判的思考を「タスクの管理」として捉えていることを反映している──すなわち、より広いワークフローの中でAIの出力を導き、監督し、整合させる責任を引き受けるということである。AIに全面的な責任を委ねるのではなく、参加者は自らを監督と説明責任を担う管理者(steward)として位置づけていた。

4.2 Findings for RQ2: When and why do knowledge workers perceive increased/decreased effort for critical thinking due to GenAI?

次に、研究質問2(RQ2)に関連する結果を報告する。これは、参加者がGenAIによって批判的思考への努力がいつ、なぜ増減したと認識したのかに関するものである。

定量分析の結果、GenAIに対する信頼度が高いほど、批判的思考への努力が少ないと報告される傾向があった。一方で、自己に対する自信が高いほど、批判的思考への努力が大きいと報告される傾向があった。また、評価能力に対する自信も努力と正の関連を示したが、その効果はより小さかった。

定性的分析からは、努力がいつ・なぜ変化したのかを説明する三つのテーマが明らかになった:(1)ルーチンタスクの自動化による努力の減少、(2)出力の検証と整合のための努力の増加、(3)時間的プレッシャーやタスクの重要性といった動機づけ要因。

4.2.1 Reduced effort through automation

多くの参加者は、情報検索、文書作成、書式設定を含むタスクに必要な努力がGenAIによって減少したと報告した。例えば、教育分野の参加者は「以前は資料を集めるのに数時間かかっていたが、今ではAIが数分で要約を提供してくれる」と述べた。同様に、ビジネス分野の参加者は「AIが報告書の初稿を作成してくれるので、大幅に時間と労力を節約できる」と述べている。

4.2.2 Increased effort for verification and alignment

一方で、参加者はしばしば、GenAIが出力の検証や特定のニーズや基準との整合を確保するために必要な努力を増加させたと報告した。例えば、医療分野の専門家は「AIは患者の要約を生成するが、医療記録との正確性や一貫性を慎重に確認する必要がある」と述べた。法律分野の参加者は「AIが作成した契約書を確認するには、地域の規制に準拠しているかを確認しなければならないため時間がかかる」と述べている。

このテーマは、認知的努力が「コンテンツを生み出すこと」から「それを批判的に評価し、適応させること」へと移行していることを反映している。GenAIは初期的な生成の努力を減少させる一方で、監督や品質保証のための新たな要求を生み出している。

4.2.3 Motivational factors(動機づけ要因)

参加者はまた、動機づけ要因がGenAIを用いた批判的思考の努力にどのように影響するかについても述べた。時間的プレッシャーはしばしば努力を減少させ、労働者はAIの出力を十分に吟味せずに受け入れざるを得ないと感じていた。例えば、ビジネス分野の参加者は「締切が厳しいときには、時間を節約するためにAIの提案に従うしかない」と述べている。

逆に、タスクが高リスクまたは個人的に重要であると考えられる場合、参加者は批判的思考により多くの努力を投じると報告した。教育分野のある参加者は「重要な講義の資料を準備するときには、AIの内容をより慎重に精査する」と述べている。

これらの結果は、GenAIを用いた批判的思考に必要な努力は固定的なものではなく、時間的制約やタスクの重要性といった状況要因によって変化することを示している。

5 Discussion(議論)

本研究は、GenAIが知識労働者の批判的思考への関与の仕方に影響を与えるという実証的証拠を提供するものである。具体的には、GenAIに対する信頼度が高いほど批判的思考の努力は減少し、自己に対する自信が高いほど努力は増加することが明らかになった。さらに定性的知見からは、知識労働者はGenAIを用いた批判的思考を「情報の検証」「応答の統合」「タスクの管理」として認識していることが示された。

これらの結果は、批判的思考と自動化に関する先行研究をいくつかの点で拡張する。第一に、GenAIが批判的思考の性質を「コンテンツの生成」から「その検証と統合」へとシフトさせることを示した。第二に、GenAIに対する信頼度自己に対する自信が、それぞれ異なる役割を果たしながら批判的思考の努力を形作ることを示した。第三に、時間的プレッシャーやタスクの重要性といった状況要因が、こうした力学を調整することを明らかにした。

5.1 Implications for design(デザインへの含意)

本研究の知見は、知識労働における批判的思考をより良く支援するためのGenAIツールのデザインにいくつかの含意をもたらす。

第一に、GenAIのインターフェースは、出力を受動的に受け入れるのではなく、検証を促すように設計されるべきである。例えば、システムがユーザーに対し、AIの応答を外部情報源や自らの専門知識と照合するよう促すプロンプトを提供したり、出力の不確実性が高い部分を強調表示したりすることが考えられる。

第二に、ツールはAIの出力とユーザー入力の統合を支援できる。インタラクティブな編集機能、注釈機能、比較ビューなどの機能は、ユーザーがAIの提案を自分のアイデアや文脈的知識と批判的に統合することを助けるだろう。

第三に、GenAIシステムはタスク管理(stewardship)を支援するように設計されるべきである。例えば、ワークフロー全体におけるAIの貢献を監督できるダッシュボードや、ユーザーがAIの出力を組織の目標や基準と整合させることを助ける機能は、ユーザーの責任感や説明責任を強化することができる。

最後に、デザインは動機づけ要因を考慮すべきである。時間的プレッシャーが強い場合、労働者は批判的思考を回避する可能性がある。そのため、システムは過度な負担を課すことなく省察を促すナッジを組み込むことができる。逆に、高リスクのタスクでは、システムはより慎重な評価を行うための強力な足場(scaffolding)を提供することが望ましい。

5.2 Theoretical contributions(理論的貢献)

本研究は、理論に対して三つの貢献を行う。第一に、幅広い専門職における実世界でのGenAI利用の中で、批判的思考がどのように発動されるかを示すことで、批判的思考研究を拡張した。先行研究は教育的文脈や特定の学問分野に焦点を当てることが多かったが、本研究のデータは、多様な領域の専門家がAIとともに批判的思考を認識し実践する方法に共通点と差異があることを明らかにした。

第二に、本研究はGenAIが認知的努力の所在にどのような影響を与えるかを示すことで、自動化研究に貢献する。Woods(1989 [116])の「作業から監視へ」というシフトの観察と一致して、知識労働者が「コンテンツの生成」から「それを検証・統合・管理すること」へと移行していることを見いだした。本研究は、統制された先行研究を補完し、現実の専門職環境からの証拠を提供するものである。

第三に、本研究はAI利用と批判的思考努力との関係を調整する心理的要因として「信頼・自信」の役割を明らかにした。先行研究では過剰依存に関して主にシステム設計要因が強調されてきたが(Buçinca et al., 2021 [17])、本研究の知見は、利用者の自己に対する自信GenAIに対する信頼度が、それぞれ異なる形で批判的思考への関与を規定することを示した。これは、信頼・自信といった心理学的構成概念を人間–AI相互作用モデルに組み込む必要性を示唆している。

5.3 Limitations and future work(限界と今後の課題)

本研究にはいくつかの限界がある。第一に、本データは自己報告に基づいており、社会的望ましさバイアスや記憶の不正確さといったバイアスの影響を受ける可能性がある。自己報告は批判的思考研究において一般的な方法ではあるが、今後の研究では観察データや実験データによって補完することができるだろう。

第二に、参加者サンプルは職業的には多様であったものの、オンラインプラットフォームを通じて募集された個人に限られており、すべての知識労働者を完全に代表しているとは言えない。今後の研究では、異なる文化的・組織的文脈における労働者を含む、より大規模で代表性の高いサンプルへ拡張することが望まれる。

第三に、本研究における批判的思考の測定は、調査実施のために必然的に単純化されていた。Bloomのタクソノミーは有用な枠組みを提供するものの、批判的思考は複雑な構成概念であり、より精緻な測定によって豊かな洞察が得られる可能性がある。今後の研究では、パフォーマンスに基づく評価や縦断的デザインを取り入れ、時間の経過に伴う変化を捉えることが考えられる。

これらの限界にもかかわらず、本研究はGenAIが知識労働における批判的思考にどのような影響を与えるのかについて新しい実証的洞察を提供するものであり、この分野におけるさらなる研究を刺激することを期待する。

6 Conclusion(結論)

本論文は、知識労働における批判的思考に対する生成AIの影響を検討した。多様な分野にわたる319名の専門職を対象とした調査を通じて、936件のGenAI利用に関する実世界の事例を収集し、労働者が自らをいつ・どのように批判的思考に関与していると認識するのか、そしてGenAIがその努力にどのような影響を与えるのかを明らかにした。

その結果、GenAIに対する信頼度が高いほど批判的思考の努力は減少し、自己に対する自信が高いほど努力は増加することが分かった。さらに定性的知見からは、労働者がGenAIを用いた批判的思考を「情報の検証」「応答の統合」「タスクの管理」として捉えていることが明らかになった。

これらの知見は、機会とリスクの双方を示している。GenAIは効率を高める一方で、独立した問題解決や反省的判断を弱める可能性もある。したがって、GenAIツールはタスク支援を行うだけでなく、知識労働における批判的思考を維持し、強化するように設計されるべきであると我々は主張する。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です