レジュメ:プロト会話の起源 — 乳児の泣き声と発話様声に対する養育者応答の検討

Yoo, H., Bowman, D. A., & Oller, D. K. (2018). The origin of protoconversation: An examination of caregiver responses to cry and speech-like vocalizations. Frontiers in psychology9, 1510.

概要(Abstract)

人間の音声コミュニケーションの根底には「ターンテイキング」があり、養育者はプロト会話を通じて乳児にその仕組みを学ばせる重要な役割を担う。乳児は出生時から発話様声(プロトフォン)と泣き声の両方を産出するが、従来研究は養育者がプロトフォンにどのように交代的に応じるかのみを扱い、泣き声へのタイミング応答を体系的に検証してこなかった。本研究は生後 0–3 か月の縦断自然録音(LENA)2 万件超を用い、(1) 交替的応答(ターン取り)と (2) 重複(オーバーラップ)の頻度を、プロトフォンと泣き声で比較した。その結果、養育者はプロトフォンには交替的に、泣き声には重複して応じる傾向が統計的に有意であった。すなわち、養育者は誕生直後から両声種の機能差を直感的に区別し、前者を言語発達の前駆として、後者を苦痛表出として扱っていることが示唆された。

INTRODUCTION(序論)

Overview of the Present Effort

初期の養育者―乳児相互作用は、認知・社会・言語発達にとって決定的であることが、過去数十年にわたり多数の研究で実証されてきた。

これらの研究は、早期のターンテイキング型音声相互作用が情動的な結びつき、いわゆるプロト会話の枠組み、そして社会性と言語コミュニケーションの基盤を提供する点を強調している。

しかし興味深いことに、先行研究は泣き声に対する養育者の応答タイミングをほぼ無視し、もっぱら**発話様声(プロトフォン)**への随伴的応答のみを扱ってきた。

乳児は出生時からプロトフォンと泣き声の両方を発するにもかかわらず、このギャップは見過ごされており、Stern ら(1975)は「泣き声には重複して応じる傾向がある」と推測したものの、実証的検証は行われてこなかった。


Vocal Turn-Taking in Conversation

成人同士の会話ではほぼ例外なく交互発話が行われることが古典的研究で示されており(Sacks et al., 1974 など)、このターンテイキング体系は心理言語学と会話分析の枠組みで近年ますます注目を集めている。

一方、文化やジェンダーによる会話様式の差異も報告されている。たとえば北欧ではターン間が長い沈黙で隔てられる傾向があり、日本語会話では沈黙許容度が低いとされる。

それでも、数百ミリ秒という短いギャップでの応答が多文化に共通する普遍的特徴であることが、大規模言語横断研究(Stivers et al., 2009 など)で示唆されている。

この驚異的な高速交替は、聞き取りながら文理解し、自らの発話を数百ミリ秒以内に準備・開始するという高度な認知処理を要する。乳児期に同様のタイミングが見られるかどうかは、「会話が発達のどの段階で出現するか」を理解する鍵となる。


Development of the Turn-Taking System: Focus on the Protophones

驚くべきことに、生後早期の母子音声相互作用は成熟した言語の会話に似ていると報告されている(Bateson, 1975 ほか)。

研究者たちは、乳児がまだ発語しない段階から**ターンテイキング型の“プロト会話”**を示すこと、そしてこれが認知・情動・言語発達に寄与することを明らかにしてきた。

同時(重複)と交互という二つのモードの発達的推移については諸説あるが、サンプル数の少なさや条件の人工性が解釈を難しくしている。


Limitations in Prior Research: The Failure to Compare Responses to Protophones and Cries

言語が本質的に声の媒体である以上、泣き声(苦痛声)とプロトフォンを厳密に区別し、それぞれに対する養育者応答を比較することが不可欠である——にもかかわらず、先行研究では苦痛声がしばしば除外され、明確な定義づけも不足していた。

さらに、大半の研究は実験室や短時間の観察に依存しており、家庭での終日録音という自然環境下データはほとんど用いられてこなかった。


Rationale for the Present Study

本研究は、乳児が出生直後から発する二つの声タイプ(プロトフォンと泣き声)に対し、養育者がどのような時間的パターンで応答するかを体系的に比較する初の試みである。

プロトフォンは将来の言語に直結する一方、泣き声は苦痛を伝える——この機能的差異が応答様式に反映されるかどうかを検証することで、養育者が無意識裡に示す「言語前駆への気づき」を明らかにしようとするものである。


METHODS(方法)

Participants(参加者)

本研究には生後 0 か月時点で 9 名、1 か月と 3 か月時点で各 10 名、合計 12 名の乳児が参加した。7 名については 0・1・3 か月の 3 時点すべてのデータが得られた。いずれも英語を母語とする白人家庭(中〜中下層 SES)で、既知の発達リスクは認められなかった。 

乳児はすべて、通常発達の発声発達を追跡する縦断研究の一部としてリクルートされた。出産準備クラスや口コミで募集し、同意書と質問票を配布した後、基準を満たす家族と面接を行った。手続きはメンフィス大学 IRB の承認を得ている。 


Recordings and Recording Procedure(録音装置と手順)

録音には携帯型バッテリー駆動の LENA レコーダ(16 kHz, 最大16 時間)を使用し、マイクが乳児の口から 7–12 cm となるよう特製ベビーウェアの胸ポケットに装着した。これにより家庭内での自然な言語環境を高音質で長時間取得できる。 

保護者は家庭で所定スケジュールに従って録音し、後日装置を研究室へ持参。アップロード後に LENA ソフトが 5 分ごとの乳児発声数を自動推定した。 

0・1・3 か月の各月齢で全 29 日分の終日録音が揃い、そのうち 7 本の欠測を除いた。 


Selection of Segments(セグメントの抽出)

過去研究で全録音から 5 分 × 34 区間/乳児がリアルタイム符号化されていた。本研究ではその 986 区間から (1) 保護者が乳児に話しかけた IDS が含まれ、かつ (2) プロトフォンまたは泣き声の出現率が高い区間を 290 個抽出した。各録音につきプロトフォン率上位 5 区間と泣き声率上位 5 区間を選んでいる。 

さらに IDS 出現度を 5 段階で自己評価した質問票を用い、スコア 2 以上(録音中に少なくとも “半分未満” は話しかけがあった)を候補とした。IDS が見落とされていないか確認するため、コーダがリピート再生で再評価し、追加で 12 % の区間を採用した。


Coding and Measurement(符号化と測定)

符号化はコミュニケーション科学専攻の修士 4 名と博士課程 1 名が担当し、著者による 1.5 時間程度の集中トレーニングを数回実施した。トレーニングでは AACT ソフトを用い、乳児プロトフォン・泣き声・保護者発話(IDS/ADS)の境界決定法を習得した。

訓練後、5 分区間をリピート再生し、各発声の開始・終了点をマーキングして乳児発声とそれに続く保護者応答との ラグ(lag) を計測した。発話単位は 呼気群(breath-group) 基準を採用し、呼気 1 回に乗る連続発声を 1 ユニットとした。この基準は固定無音区間よりコーダ間一致が高いと報告されている。

泣き声は強い核、ディスフォネーション、声門破裂、キャッチブレスなどにより識別し(Truby & Lind, 1965; Stark et al., 1975)、ウィンパー(弱い泣き)も同様に区別した。プロトフォンは母音様・スキール・グロウルなどを含む機能的柔軟性の高い音声と定義した。


Calculating Lag Time(ラグ時間の算出)

ラグは乳児発声の 終了点 と保護者 IDS の 開始点 との差と定義し、+5 秒以内を応答とみなした。乳児発声終了後に始まれば正(交互発話を示唆)、発声中に始まれば負(オーバーラップ)である。1 つの乳児発声には最初に条件を満たす IDS だけを対応させ、重複割当てを避けた。

計測には波形・スペクトログラムを備えた TF32 を用い、重複部分の話者判別を助けた。図 1 は緑(乳児)と紫(保護者)のブロックで発声の時間配置を示し、赤矢印が負ラグ(重複)、青矢印が正ラグ(交替)を例示する。5 秒超の応答や開始前オーバーラップはカウントしない。図は 1 つの保護者発話が複数乳児発声に割り当てられないようルール化している点も強調している。 


Coding and Measurement Agreement(コーダ一致度)

290 区間のうちランダムに抽出した 28 区間を 5 名全員が再符号化し、ICC を算出した。泣き声 0.92、プロトフォン 0.87、IDS 0.93 と極めて高一致を示した。加えて Pearson 相関(平均 0.94)が得られ、相対タイミングの判断も各コーダで一致していた。 


Statistical Analysis(統計解析)

ラグを従属変数とし、月齢・乳児発声タイプ(プロトフォン/泣き声)・乳児発声長などを説明変数とする GEE(一般化推定方程式) モデルを R で構築した。相関をもつクラスタ化データや欠測に頑健な点を評価しての選択である。出生順位や保護者発話長も探索したが有意ではなく最終モデルから除外された。 


図表の読み解き

図 1 は乳児発声オフセットを基準に IDS 開始位置をプロットし、正ラグ(交代)と負ラグ(重複)の判定基準を視覚化する。図左の赤矢印は保護者が泣き声と同時に話す「重複」例、右の青矢印はプロトフォン後に応答する「交替」例である。破線の黄色バーは 5 秒を超えるため “応答” と見なされないケースを示す。 

RESULTS(結果)

Infant and Caregiver Vocalizations in Naturalistic Environments

終日家庭録音から抽出した 5 分区間を解析したところ、乳児発話に対して養育者が IDS で応答した割合は、プロトフォンで 10–21 %、泣き声で 13–17 % であった。

この応答率は、実験室で相互作用を指示された条件下で報告される 50 %以上という値よりはるかに低い。家庭内の自然環境では、養育者は乳児に話しかける時間自体が少なく、結果として応答頻度も低いことが示唆された。

5 分区間に占める IDS の総時間は平均で 約 10 % しかなく、実験室研究の 40–70 % に比べ顕著に短い。


Temporal Structure of Caregiver IDS in Response to Protophones and Cries

Figure 2 に全月齢データを統合したラグ分布を示す。縦線が乳児発声のオフセット(0 秒)で、右側は正ラグ(交替)、左側は負ラグ(重複)を表す。71 % の IDS がプロトフォン終了後 1 秒以内に開始した一方、66 % の IDS は泣き声終了前に開始していた。

ラグ分布は ±1 秒領域に集中し、特にプロトフォンではオフセット後 0.5 秒以内、泣き声ではオフセット前 0.5 秒以内がピークであった。本知見は従来研究の「養育者は 1 秒以内に応答する」という結果を支持しつつ、プロトフォンと泣き声で方向が逆であることを初めて明示した。

月齢別に見ると、0 か月で交替 : 重複比はプロトフォン 71 % : 29 %、泣き声 31 % : 69 % であり、1 か月・3 か月でも同様の傾向が維持された。

泣き声がプロトフォンの 2 倍以上長い(平均 1.7 秒 vs. 0.7 秒)点が重複増加の見かけ上の要因ではないかを検証するため、発声長を 0.5 秒刻みで 4 ビンに分けた分析を行った。長さにかかわらず、泣き声は一貫して重複が多く、プロトフォンは交替が多かった。

発声が長いほど重複比が増加し、特に 1.5 秒超の最長ビンで差が最大になった(Chi-square 検定 12 比較中 9 件で有意)。

GEE モデル(Lag = Age + Vocal Type + Duration)は、

  • 月齢が上がるほど正ラグが延長
  • Vocal Type が最大効果:プロトフォン応答は正ラグ、泣き声応答は負ラグ
  • 発声長は係数が小さく実質的影響は軽微と示した。出生順位や養育者発話長は非有意で除外された。

図表の日本語解説

  • Figure 2:X 軸に乳児発声オフセットを 0 秒とした時間、Y 軸に IDS 開始割合を示すヒストグラム。黒線右側(+)はターン交替の山、左側(–)は重複の山。
  • Figure 3:月齢別ラグ分布。3 枚ともプロトフォン曲線は右肩、泣き声曲線は左肩に偏る。
  • Figure 4:発声長 0–0.5 s, 0.5–1 s, 1–1.5 s, >1.5 s の 4 区分で重複/交替比を比較。ビンが長いほど比率が高く、特に長い泣き声で重複が卓越。
  • Table 2:乳児発声総数・IDS 応答数・応答率。
  • Table 5:各ビンでの交替 vs. 重複の χ²。有意セル(p < .05, *p < .01)が重複優勢を裏づけ。
  • Table 6:GEE 主要パラメータ。Vocal Type の係数 364 ms が最も大きく、声種依存効果を示す。

DISCUSSION(考察)

声ことばの発達は、乳児が豊富に自発発声を行う能力と傾向、そして養育者がそれを利用して音声相互作用へ誘う傾向——この二つに依存すると考えられる(Bruner, 1983; Bornstein & Bruner, 2014)。多くの研究が養育者の“おしゃべり好き”を指摘してきたが(Bell & Ainsworth, 1972; Richman et al., 1992; Keller et al., 1999)、泣き声とプロトフォンの機能差という視点から検証した例はなかった。

本研究は Stern et al. (1975) の仮説——「泣き声には重複、プロトフォンには交替で応じる」——を初めて実証的に検証し、乳児生後 1 か月という早期でもこの交替 vs. 重複パターンが際立つことを示した。

今回の解析では泣き声を「ワイルクライ」と「ウィンパー」に二分しなかったが、追加の再符号化ではウィンパーが 3 か月で増加し、ただし応答を受けた件数は <40 と小規模であった。今後、泣き声タイプ別の応答検証が課題となる。

最新の証拠は、乳児が誕生直後からプロトフォンを内発的に探究する強い傾向を示しており(Oller, 2000 ほか)、これが養育者に社会的結束と対話枠組みを提供すると示唆する。

ところが泣き声/苦痛声は対面相互作用研究でほぼ無視されてきた。泣き声を同時発声で包み込む養育者行動は、従来の座学的推測だけで実証がなかったという事実は驚きである。

早期プロトフォンは音韻的に粗く、**正規シラブル(canonical syllable)**が出現するのは後半期である。それでも養育者はプロトフォンを「会話素材」とみなし交替応答を施す——本研究はこの直感的認知を 0–3 か月で裏づけた。

“カノニカル前”プロトフォンが言語の基礎である点は 1970 年代から指摘されてきたが(Zlatin, 1975; Oller, 1981)、近年は機能的柔軟性こそが言語性を担保するとの議論が支持されている。

興味深いことに、養育者が泣き声へもほぼ同等頻度で音声応答する事実が確認された(Table 2)が、プロトフォンが圧倒的に多いため、実際の応答サンプルはプロトフォン中心となる。

養育者が泣き声へ声で応じる理由は定かでない。Stern et al. (1975) は「同時発声はあやし目的」と述べ、Wolff (1965) のホワイトノイズ鎮静説が部分的根拠になると指摘したが、声のみの介入は泣き止ませ効果が最も低いとの報告もある(Bell & Ainsworth, 1972)。

本研究は終日家庭録音という自然環境データを用い、従来の実験室研究より応答率が格段に低い(10–21 % vs. 50–70 %)ことを示した。指示付き対話が過大評価を招く可能性を示唆する結果である。

過去の発達軌跡研究はサンプル不足や変動の大きさで解釈が難しかった(Ginsburg & Kilbourne, 1988 など)。本研究は 0 か月から交替応答が確認され、「同時 → 交替」発達説を再考させる資料となる。


コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です