統計とデータ分析― 数字にだまされず、世界を「確からしく」読む技術 ―S7-2-

この記事は約13分で読めます。

日々のニュースや広告、SNSの主張には数字があふれていますが、統計とは不完全なデータから「どこまで言えるか」を判断する技術です。本記事では平均・中央値・確率・因果関係・偏り・誤差などの基本概念を丁寧に解説し、グラフや数値の誤解を避けて世界を「確からしく」読む力を養います。


はじめに

統計は正解を与える学問ではありません。むしろ、どこまで言えて、どこから言えないかを誠実に区切る技術です。

私たちの周りには、完全なデータなど存在しません。全国民の年収を一人残らず調べることも、すべての製品の耐久性を確認することも不可能です。だからこそ統計は、不完全なデータから「どこまで言えるか」を判断する技術として発展してきました。

本稿では、日常で遭遇する数字やデータをどう読み解き、どう判断すべきかを解説します。平均・中央値・確率・因果関係・偏り・誤差などの基本概念を丁寧に解説し、グラフや数値の誤解を避けて世界を「確からしく」読む力を養います。

関連記事:


1. 平均・中央値・最頻値 ― 「代表値」は一つではない ―

日常の疑問:平均年収って本当?

ニュースで「日本の平均年収は443万円」と聞いて、「そんなに高くない」と感じる人は多いでしょう。あなたの周りを見渡しても、それほど高収入の人ばかりではないはずです。なぜこのようなずれが生じるのでしょうか。

要素:三つの代表値

データの中心を表す代表値には三つあります。

平均値は、全員の収入を合計して人数で割った値です(合計÷人数)。最もよく使われますが、極端な値に引っ張られやすい特徴があります。

中央値は、全員を収入順に並べたときの真ん中の人の値です。極端な高所得者がいても影響を受けません。

最頻値は、最も人数が多い階層の値です。「一番多いパターン」を示します。

相互作用:極端な値 → 平均が歪む

9人が年収300万円、1人が年収3000万円のグループがあるとします。

  • 平均:(300万×9人 + 3000万×1人)÷10人 = 570万円
  • 中央値:300万円(真ん中の人の収入)
  • 最頻値:300万円(一番多い階層)

平均だけを見ると「このグループは裕福だ」と誤解しますが、実際は9割の人が300万円です。ごく少数の高所得者が平均を押し上げているのです。

全体挙動:中央値が実感に近い

所得分布のように一部に極端な値があるデータでは、中央値の方が多くの人の実感に近くなります。政府統計でも、近年は「中央値」を併記することが増えています。

👉 数字は立場で顔が変わる

どの代表値を使うかで、同じデータから全く異なる印象を与えることができます。データを見るときは「どの代表値が使われているか」を必ず確認しましょう。


2. 範囲と標準偏差 ― 「どれくらい散らばっているか」 ―

日常の疑問:平均だけで製品を選んでいい?

「平均寿命10年」という製品AとBがあります。どちらも同じに見えますが、Aは9〜11年でほぼ確実に壊れるのに対し、Bは3年で壊れることもあれば17年持つこともあります。あなたはどちらを選びますか?

要素:範囲と標準偏差

範囲は、最大値から最小値を引いた値(最大 − 最小)です。データの広がりを最も単純に表します。

標準偏差は、平均からの散らばりを数値化したものです。標準偏差が小さいほど、データは平均の周りに集中しています。

実例:工場の品質管理

ある工場でボルトを製造しています。目標の長さは10.0mmです。

工場A:平均10.0mm、標準偏差0.05mm
→ ほぼ全製品が9.9〜10.1mmの範囲に収まる

工場B:平均10.0mm、標準偏差0.5mm
→ 製品によって9.0〜11.0mmまでばらつく

どちらも「平均10.0mm」ですが、工場Aの方が品質管理が優れており、不良品率が低くなります。精密機械の部品では、このばらつきの小ささが命です。

相互作用:同じ平均でも印象は全く違う

医薬品の効果を測定する臨床試験でも、平均的な効果が同じでも、標準偏差が大きければ「効く人と効かない人の差が大きい」ことを意味します。一方、標準偏差が小さければ、多くの患者に安定した効果が期待できます。

全体挙動:安定性の指標

ばらつきは安定性を見る指標

平均だけでなく標準偏差も確認することで、品質の安定性、リスクの大きさ、予測の確実性を判断できます。製品カタログ、投資商品、医療データなど、実世界のあらゆる場面で重要です。


3. 確率の基本 ― 起こりやすさの表現 ―

日常の疑問:1%の確率って安全?

新しい薬の副作用が「1%の確率で発生」と聞いて、あなたは安心しますか?「たった1%」と感じる人もいれば、「100人に1人も」と感じる人もいます。

要素:確率とは起こる割合

確率は、ある出来事が起こる割合を0〜1(または0%〜100%)の数値で表したものです。

  • サイコロで6が出る確率:1/6 ≒ 16.7%
  • コインで表が出る確率:1/2 = 50%
  • 宝くじで1等が当たる確率:約1/1000万 = 0.00001%

誤解しやすい点その1:低確率でも起きる

「副作用1%」を「ほぼ起きない」と解釈するのは危険です。100万人が服用すれば、1万人に副作用が出る計算になります。個人にとっては低確率でも、社会全体では無視できない数です。

誤解しやすい点その2:独立事象は記憶しない

サイコロで6が3回連続で出ても、次に6が出る確率は依然として1/6です。「そろそろ他の目が出るはず」と考えるのはギャンブラーの誤謬と呼ばれる典型的な誤りです。

過去の結果は未来に影響しません。これは、独立した試行の大原則です。

全体挙動:確率は長期的な傾向

👉 確率は予言ではない

確率10%の事象を10回試行しても、必ず1回起こるわけではありません。0回のこともあれば、3回起こることもあります。確率は長期的な平均を示すものであり、個別の結果を保証しません。


4. 期待値とリスク評価 ― 損得を「冷静に」測る ―

日常の疑問:保険は損?得?

年間3万円の火災保険に加入するか迷っています。「火事なんて滅多に起きないから無駄」という意見と、「いざという時のため」という意見、どちらが正しいのでしょうか。

要素:期待値の計算

期待値は、「結果 × 確率」をすべて足し合わせた値です。

期待値 = (結果1 × 確率1) + (結果2 × 確率2) + ...

例1:ギャンブル

1000円のくじで、以下の賞金があるとします。

  • 10万円が当たる確率:1/1000
  • 1万円が当たる確率:10/1000
  • 1000円が当たる確率:100/1000
  • はずれ(0円):889/1000

期待値 = (10万円 × 1/1000) + (1万円 × 10/1000) + (1000円 × 100/1000) + (0円 × 889/1000)
= 100円 + 100円 + 100円 + 0円 = 300円

1000円払って期待値は300円。つまり平均すると700円の損です。しかし「夢を買う」娯楽として楽しむなら、この損失は映画のチケット代のようなものです。

例2:保険

火災で家を失う損害を1000万円、その確率を年0.1%(1000年に1回)とします。

期待損失 = 1000万円 × 0.001 = 1万円/年

つまり、期待値だけ見れば年間1万円が「妥当な保険料」です。しかし実際の保険料は年3万円程度。これは保険会社の運営コストや利益が含まれるためです。

それでも多くの人が保険に入るのは、「1000万円の損失」という壊滅的なリスクを、年3万円で分散できるからです。

相互作用:期待値が低くても、安心を買う

👉 リスクは数と感情の両立

期待値という数学的指標だけでなく、「最悪の事態を避けたい」という感情的な要素も、合理的な判断の一部です。期待値がマイナスでも、巨大なリスクを避けるために保険に入ることは理にかなっています。


5. 相関と因果の区別 ― 一番多い誤解 ―

日常の疑問:アイスを禁止すれば事故が減る?

ある調査で「アイスクリームの売上が増える月は、溺死事故も増える」というデータが得られました。では、アイスクリームを販売禁止にすれば溺死事故は減るでしょうか?

要素:相関と因果

相関は、二つの変数が一緒に変わることです(一緒に変わる)。一方が増えるともう一方も増える、あるいは一方が増えるともう一方が減る、といった関係です。

因果は、一方が他方の原因であることです(原因 → 結果)。原因を変えれば、結果も変わります。

例:アイスと溺死の共通原因は「暑さ」

アイスクリームの売上と溺死事故には相関がありますが、因果関係はありません。両者に共通する原因は「気温」です。

  • 暑い → アイスが売れる
  • 暑い → 人々が海や川に行く → 溺死事故が増える

アイスクリームを禁止しても、暑さは変わらず、人々は水辺に行き続けるので事故は減りません。

実世界の例:学歴と収入

「高学歴の人ほど収入が高い」という相関があります。では、学歴が収入の原因でしょうか?

実は、学歴と収入の両方に影響する第三の要因(家庭環境、本人の能力、努力、運)が存在します。また、逆の因果(高収入の家庭だから教育にお金をかけられる)も考えられます。

相関だけから「大学に行けば収入が増える」と単純に結論づけることはできません。

相互作用:同時に起こる ≠ 原因

👉 同時=原因ではない

二つの現象が同時に起こっても、それは以下のいずれかです:

  1. Aが原因でBが起こる
  2. Bが原因でAが起こる
  3. 共通の原因CがAとBを引き起こす
  4. 単なる偶然

相関を見たら、常に「本当に因果関係があるのか」「他の説明はないか」と自問することが重要です。


6. グラフの読み方と誤解 ― 見せ方で印象は変わる ―

日常の疑問:この急騰、本当?

企業のプレゼン資料で「売上が急増!」というグラフを見せられました。たしかにグラフは右肩上がりで劇的に見えます。しかし、何か違和感があります。

注意点その1:縦軸の切り取り

グラフの縦軸を見ると、0から始まっていません。98万円から始まって102万円で終わっています。実際の増加は4万円(4%増)なのに、グラフ上では何倍にも見えます。

縦軸を0から始めれば、ほぼ横ばいのグラフになります。縦軸の範囲を調整するだけで、印象を劇的に変えることができます。

注意点その2:比例・対数

線形スケール(比例) では、1目盛りごとに一定の数値が増えます(0, 10, 20, 30…)。

対数スケール では、1目盛りごとに10倍になります(1, 10, 100, 1000…)。

感染症の患者数を対数スケールで表示すると、指数関数的な爆発的増加が直線的に見え、危機感が薄れます。逆に、緩やかな成長を線形スケールで見せると、停滞しているように見えます。

注意点その3:単位

「売上が2倍に!」と「売上が2ポイント増加」では印象が全く違います。前年が1億円で今年が2億円なら「2倍」ですが、前年が98%で今年が100%なら「2ポイント増」です。

同じ数値でも、「倍率」「差」「率」のどれで表現するかで印象が変わります。

全体挙動:グラフは作り手の主張

👉 グラフは主張を持つ

グラフを読むときは、以下を確認しましょう:

  • 縦軸は0から始まっているか?
  • スケールは線形か対数か?
  • 単位は何か?
  • 何が省略されているか?

グラフは客観的なデータ提示ではなく、作り手の意図を反映した表現です。


7. サンプリングと偏り ― どこから集めたかがすべて ―

日常の疑問:ネット調査の9割賛成は本当?

「ネット調査によれば、90%の人が新政策に賛成しています」というニュースを見ました。これは国民の総意と考えていいでしょうか?

要素:母集団とサンプル

統計調査では、全体(母集団)を調べることは不可能なので、一部(サンプル)から全体を推測します。しかし、サンプルに偏りがあれば、結論も偏ります。

偏りの例その1:ネット投票

ネット調査では、以下の層が過少になります:

  • インターネットを使わない高齢者
  • 経済的にアクセスが難しい層
  • 関心の薄い人(回答しない)

一方、以下の層が過剰になります:

  • 若年層
  • 強い意見を持つ人
  • 時間に余裕がある人

「ネットで90%賛成」は、「ネットを使い、かつ回答する意欲のある人の中で90%」という限定的な結論です。

偏りの例その2:都市部調査

東京だけで「電車通勤のストレス」を調査しても、地方で車通勤する人々の実態は反映されません。都市部と地方では生活様式が異なるため、サンプルが偏れば結論も偏ります。

実例:選挙の出口調査

選挙の出口調査は比較的正確ですが、それは投票所を無作為に選び、時間帯も分散させ、年齢層も考慮しているからです。それでも、「投票に来た人」だけが対象なので、棄権者の意見は反映されません。

相互作用:母集団を代表しない

偏ったサンプルから得られた結論は、母集団について何も語っていません。「調査結果」を見たら、「誰を対象に、どうやって選んだのか」を必ず確認しましょう。

全体挙動:結論の信頼性が崩れる

👉 データの出身地を確認

サンプリングの質が、統計の質を決めます。どれだけ高度な分析をしても、偏ったサンプルからは偏った結論しか得られません。


8. 誤差と不確実性 ― 測定には必ず揺らぎがある ―

日常の疑問:体重計の数字、本当に正確?

朝に体重を測ったら67.8kg、昼に測ったら68.2kg、夜に測ったら68.5kgでした。どれが本当の体重でしょうか?

要素:誤差の種類

すべての測定には誤差があります。

測定誤差:測定機器の精度限界による誤差。家庭用体重計の精度は±0.1〜0.2kg程度です。

自然変動:測定対象そのものが変動します。体重は食事、水分、排泄、時間帯で常に変化します。

人為的誤差:測定者の技能や姿勢、環境(体重計の置き場所)による誤差。

相互作用:完全な測定は存在しない

ぴったり一致は幻想

体重を10回測って毎回ぴったり67.8kgなら、それは測定器が壊れているか、表示が固定されている可能性があります。自然な測定にはばらつきがあるのが正常です。

全体挙動:科学は「幅」を示す

正直な科学は「幅」を示す

科学論文では、測定値を「67.8 ± 0.2 kg」のように誤差範囲とともに示します。この「±0.2」が、測定の信頼性を表します。

天気予報も同じです。「明日の最高気温は25度」ではなく「23〜27度」と幅を持たせるのは、予測に不確実性があることを正直に伝えているからです。

誤差を隠して「正確な数値」だけ示すことは、科学的誠実さに欠けます。


9. 有効数字と精度 ― 桁数は信頼度 ―

例:円周率は何桁必要?

円周率π = 3.14159265358979…は無限に続きますが、実用上は何桁必要でしょうか?

  • 日常の計算:π ≒ 3.14 で十分
  • 工学計算:π ≒ 3.14159 (小数点以下5桁)
  • 人工衛星の軌道計算:π ≒ 3.14159265359 (小数点以下11桁)

それ以上の桁は、測定誤差の方が大きく、意味を持ちません。

原則:測れた分だけ書く

有効数字とは、測定によって確実に得られた桁数です。

体重計の例に戻ると、家庭用体重計で「67.834 kg」と表示されても、その精度は±0.1 kg程度です。小数点以下3桁目(0.004 kg)は測定誤差より小さく、意味がありません。

正しくは「67.8 kg」または「67.8 ± 0.1 kg」と表記すべきです。

実例:建築現場

木材の長さを測るとき、メジャーで「2.03856 m」と記録しても無意味です。メジャーの精度は1mm(0.001 m)程度なので、「2.039 m」が限界です。それ以下の桁は推測に過ぎません。

全体挙動:細かい数字 ≠ 正確

細かい数字=正確ではない

数字が細かいほど正確に見えますが、実際には測定精度を超えた桁は信頼できません。有効数字を理解することで、データの真の精度を見抜けます。


10. 再生産数(R₀)― 感染拡大を一つで表す指標 ―

日常の疑問:感染症はいつ収まる?

新型感染症が流行しています。ニュースで「実効再生産数が1.5」と聞きましたが、これは何を意味するのでしょうか?

定義:1人が何人にうつすか

再生産数R₀は、感染者1人が平均して何人に感染させるかを示す指標です。

解釈:拡大か収束か

  • R₀ > 1:感染は拡大する(1人 → 1.5人 → 2.25人 → 3.38人…)
  • R₀ = 1:感染者数は横ばい
  • R₀ < 1:感染は収束する(1人 → 0.8人 → 0.64人 → 0.51人…)

実例:対策の効果

初期のR₀が2.5だった新型インフルエンザを例に考えます。

何も対策しない:R₀ = 2.5 → 指数関数的に爆発 マスク・手洗い:R₀ = 1.5に低下 → まだ拡大 さらに外出自粛:R₀ = 0.9に低下 → 収束へ

このように、R₀は対策の効果を数値で評価できます。

重要点:行動で変わる

R₀は固定値ではなく、私たちの行動で変化します。ワクチン接種、マスク着用、社会的距離、換気などの対策により、R₀を1未満に抑えることが感染症対策の目標です。

統計が社会を動かす実例

再生産数は、統計のすべての要素を含みます:

  • 不完全なデータ(全員を検査できない)
  • 確率的な予測(平均的な挙動)
  • 政策判断(経済と健康のバランス)
  • 社会への影響(行動変容)

統計は数字を扱う技術であると同時に、社会を動かす力です。


おわりに

統計は、世界を完全に理解する魔法ではありません。しかし、数字に惑わされず、情報の背後にある構造を見抜き、不確実性の中で最善の判断を下すための、最も強力な道具です。

統計とは、不完全なデータから「どこまで言えるか」を判断する技術です。全数調査ができない現実、測定には必ず誤差がある現実、未来は確定していない現実——これらの制約の中で、それでも合理的な判断を下すために統計は存在します。

データを見るとき、常に問いかけてください:

  • この数字は何を代表しているのか?(代表値の種類)
  • どのように測定され、集められたのか?(サンプリングと偏り)
  • 何が省略され、何が強調されているのか?(グラフの操作)
  • 相関は因果を意味するのか?(相関と因果の区別)
  • どれだけの不確実性があるのか?(誤差と信頼区間)

これらの問いを持ち続けることが、統計リテラシーの本質です。数字は真実を語りますが、その真実をどう読み解くかは、私たち次第なのです。


関連記事:

騙されないために考える力ー因果と論理から情報の真偽を見抜く思考法ー

数学的モデル化― 世界を「式」で縮め、判断できる形にする ―S7-1-

批判的思考と情報リテラシー― 情報に操られず、判断を自分の手に戻す ―S7-3-

コメント

タイトルとURLをコピーしました