統計学の歴史

この記事は約9分で読めます。

ナイチンゲールから機械学習まで

統計学の歴史をたどると、この本質が鮮明に浮かび上がってくる。国家の台帳として生まれた「数の集計」は、確率論と出会い、社会科学へと成長し、コンピュータと融合することで現代の機械学習へと至った。その長い旅の軌跡こそが、わたしたちが今「データ」とどう向き合うべきかを教えてくれる。

Section 01

統計とは何か――道具としての数字

統計とは、「データから現実のパターンを読み取り、意思決定に活かす技術」のことだ。しかし重要なのは、統計は最初から科学だったわけではないという点である。

その起源は state(国家)という言葉そのものにある。統計学(Statistics)の語源は「国家を運営するための数字」であり、人口・税収・兵力を把握するための記録が出発点だった。そこから統計は大きく変容を遂げていく。

国家の管理 → 社会の理解 → 不確実性の数値化 → 未来の予測

この変容の歴史を知ることは、「数字を信じる力」ではなく、「数字を疑う力」を培うための根拠になる。

Section 02  /  17〜18世紀

国家のための数字――統計の黎明期

統計の最初の形は、「社会を記録すること」だった。17世紀のイギリスで、二人の人物が「社会にも数字がある」という革命的な発想を切り開いた。

ジョン・グラント(1620–1674)

ロンドンの死亡記録(Bills of Mortality)を集計・分析し、死因の分類や季節変動のパターンを示した。個人の死という偶発的な出来事が、集団では規則性を持つことを初めて数字で示した人物。

ウィリアム・ペティ(1623–1687)

「政治算術(Political Arithmetic)」を提唱。国家の富・人口・土地を数値化し、政策判断の基礎とすることを主張した。経済学と統計学の双方の先駆者とされる。

個人はバラバラでも、集団は安定したパターンを持つ。 これが統計の根本思想だ。

Section 03  /  確率論の革命

確率論の誕生――偶然にも法則がある

統計が「記録」から「予測」へと進化する転換点となったのが、確率論の誕生だ。きっかけは賭博だった。

1654年、フランスの貴族が「サイコロの賭けで公平な分配はどうあるべきか」という問いを数学者ブレーズ・パスカルに持ち込んだ。パスカルはピエール・ド・フェルマーと書簡をやり取りし、確率論の基礎を築いた。「神の領域」と思われていた偶然の出来事が、数学的に扱えると示したのだ。

ヤコブ・ベルヌーイ(1655–1705)

「大数の法則」を証明。コインを投げ続けるほど、表の出る割合は50%に近づく。つまり「データが増えるほど真実に近づく」という原理を数学的に確立した。これは現代のビッグデータ思想の原型でもある。

トーマス・ベイズ(1702–1761)とその後

ベイズは「新しい証拠が得られたとき、確率をどう更新するか」を示す定理を考案したが、生前には出版しなかった。没後の1763年に友人のプライスによって論文が公表され、その後ラプラスらが体系化した。

「ベイズ統計」は現代の統計・機械学習の一分野として重要な役割を果たしている。ただし現代の深層学習の主流は勾配降下法などの最適化手法が中心であり、ベイズ統計がAI全体の「根幹」と断言するのは言い過ぎだ。

【修正】HTML版で「ベイズの定理を発見した」「AIや機械学習の根幹をなす」と断定していたが、いずれも不正確。生前未公表であること、深層学習の主流は別手法であることを明示した。

Section 04  /  19世紀・社会科学の時代

社会を測る科学へ――ナイチンゲールとデータの可視化

19世紀、統計は「国家の道具」から「社会を変える道具」へと脱皮した。この時代の象徴的人物が、フローレンス・ナイチンゲールだ。

平均的人間という発想――アドルフ・ケトレー

ベルギーの天文学者・統計学者アドルフ・ケトレー(1796–1874)は、人間の身長・体重などの身体測定値を大量に集め、「平均的人間(l’homme moyen)」という概念を打ち立てた。犯罪発生率や結婚率も社会的力によって一定の傾向があると主張し、「社会が測定・分析・予測できる対象である」ことを示した点で画期的だった。

【修正】HTML版で「精神的特徴を大量測定」と記述していたが、ケトレーの主な研究対象は身体的測定値・犯罪・気象の社会統計が中心。修正した。

ナイチンゲールとローズチャート(鶏頭図)

フローレンス・ナイチンゲール(1820–1910)は、クリミア戦争(1853–1856年)の前線病院で、戦闘よりも病院内の感染症によって次々と死んでいく兵士たちを目撃した。

彼女は死亡記録を徹底的に集計し、「戦死」ではなく「感染症による死亡」が圧倒的多数であることを数字で証明した。さらにその事実を、独自の極域面積図「ローズチャート(鶏頭図)」として可視化した。

ローズチャートは「円グラフの改良版」ではなく、月ごとの死亡原因を扇形の面積で表す「極域面積図(polar area diagram)」という独自形式だ。通常の円グラフが角度で割合を示すのに対し、ローズチャートは面積で数値の大小を表す点が異なる。

【修正】HTML版で「円グラフを改良した」と記述していたが誤り。ローズチャートは円グラフとは異なる独自の可視化手法(極域面積図)である。修正した。

この報告書は英国議会や陸軍省を動かし、病院の衛生環境改善へとつながった。ナイチンゲールの功績は、看護の改革だけでなく、「データで意思決定者を動かす」という手法を確立したことにもある。

統計は「説明」から「説得」の道具へ変わった。 可視化こそが意思決定を変える。

Section 05  /  産業革命と保険の時代

リスクを金額に変える――保険数理の誕生

産業革命は経済活動を爆発的に拡大させた。船は嵐で沈み、工場は火事になり、労働者は怪我をする。「未来の損失をどう備えるか」という問いが切実になった時代に登場したのが、保険数理(アクチュアリー)という職業だ。

アクチュアリーは、年齢・職業・健康状態・過去の事故率などのデータから「この人が来年死ぬ確率」「この工場が5年以内に火事になる確率」を計算し、それを保険料として金額に変換する。

リスクが「感覚」から「数値」へ:「なんとなく危険そう」という主観を、確率と統計によって客観的な数字に置き換えた。これにより社会は不確実性を「制度として管理する」ことが可能になった。

生命保険・損害保険・年金制度はすべて、確率論と統計学の産物だ。現代の金融リスク管理・医療保険・社会保障制度もこの延長線上にある。

関連記事:#6825「リスクを数字で捉える」

Section 06  /  20世紀前半・統計の制度化

相関と因果の混乱――統計の陥穽

20世紀に入ると、統計は科学・医学・社会科学に深く浸透した。と同時に、深刻な「落とし穴」が顕在化してきた。

カール・ピアソン(1857–1936)

「相関係数」を考案。2つの変数の関係を−1から+1の数値で表す手法を確立した。統計を科学研究のツールとして普及させた立役者。なお、ピアソンは優生学の強固な支持者でもあり、統計的手法が差別的な社会政策の「科学的根拠」として利用された歴史も持つ。数字の客観性が悪用された典型例だ。

ロナルド・フィッシャー(1890–1962)

「仮説検定」と「実験計画法」を体系化。「この差は偶然か、意味があるか」を統計的に判断する手法を確立し、現代科学の研究方法論の基礎を築いた。

最大の誤解:相関は因果ではない

統計の発展とともに拡大した誤解が「相関関係を因果関係と取り違える」ことだ。

【典型例】アイスクリームの売上と水難事故の発生件数は強い正の相関を示す。しかしアイスが溺死を引き起こすわけではない。共通の原因は「気温」だ。暑い日はアイスも売れ、海や川に出かけて事故も増える。この第三の変数を「交絡変数(confounding variable)」という。

「○○を食べると長生きする」「△△をすると成績が上がる」という報道の多くは、この混同を犯している。統計リテラシーとは、まずこの区別を習慣的に問い直すことだ。

関連記事:#1067「数字とデータは騙す道具」

Section 07  /  コンピュータ時代

コンピュータと統計革命(20世紀後半)

20世紀後半、電子計算機の登場は統計の可能性を根本から変えた。それまで「手計算の学問」だった統計が、「計算科学」へと進化する。以前は統計学者が数週間かけて行っていた計算が、コンピュータなら数秒で終わる。

大量データの処理:人口統計・経済指標・気象データなど膨大な実データを扱えるようになった。

モンテカルロ法:乱数を使って複雑な確率問題を数値的に解く技法。名前の由来はモナコのカジノ「モンテカルロ」。核物理から金融工学まで幅広く応用された。

回帰分析の高度化:多変量解析・時系列分析など複雑な関係性を解析する手法が実用的になった。

また、1970年代以降の情報理論・計算機科学との融合が、後の機械学習への橋渡しになる。「どのモデルが最もデータをよく説明するか」という問いが、統計と計算の共通言語になっていった。

Section 08  /  21世紀・AIの時代

ビッグデータと機械学習――「なぜ」から「何が」へ

インターネットとスマートフォンの普及により、人類は前例のない規模のデータを生成し始めた。2000年代から本格化した「ビッグデータ」の時代は、統計学を再び変容させた。

機械学習という新しい統計

機械学習とは、データからコンピュータが自動的にパターンを学習する手法だ。従来の統計との最大の違いは、「説明」より「予測」を重視することにある。

従来の統計の問い:「なぜ顧客は商品を買うのか(因果関係の解明)」 機械学習の問い:「この顧客は何を買うか(予測の最大化)」 理由が完全に分からなくても、正確に当てることができれば十分とする——この発想の転換が、AIの実用化を加速させた。

深層学習とブラックボックス問題

2010年代に深層学習(ディープラーニング)が台頭した。特に2012年のImageNetコンペティションでAlexNetが圧倒的な精度で画像認識タスクを制したことが、深層学習ブームの契機となった。その後、翻訳・音声認識・医療診断など幅広い分野で精度が飛躍的に向上した。

しかし同時に「なぜその結論が出たのか」を人間が説明できない「ブラックボックス問題」が生じた。これに対応するため、現在は「説明可能AI(XAI:Explainable AI)」という研究領域が発展している。統計学が300年かけて積み上げてきた「説明可能性」の価値を、AIにどう取り戻すかが現代の課題だ。

まとめ

統計の本質――歴史から見えてくる3つの真実

400年の歴史を貫く本質は、3つの命題に凝縮できる。

① 集団は規則性を持つ:個人の行動はランダムでも、集団には安定したパターンが現れる。これが統計の存在根拠だ。

② 不確実性は数値化できる:「なんとなく危険」という感覚を確率として扱うことで、リスクは比較・管理・取引できるものになる。

③ 数字は中立ではない:どのデータを選ぶか、どう可視化するか、何と比較するか——使い方次第で数字は「真実」にも「誤解」にもなる。

Section 10

この知識が現代で重要な理由

現代は「データの時代」だ。報道もSNSも政策論争も、数字とグラフにあふれている。しかしその多くは、正確ではなく、都合よく切り取られた数字だ。

グラフで印象操作される:縦軸のゼロを省略して変化を大きく見せる。

相関が因果として語られる:「○○すると△△になる」の多くは相関に過ぎない。

AIの予測が過信される:精度が高くても、なぜその結論かは説明できないことがある。

統計の歴史を知ることは、「数字に感動する力」を持つことではない。数字を問い直す力——これこそが、情報にあふれた現代を生き抜く最も基本的なリテラシーだ。

ナイチンゲールがローズチャートで政治家を動かしたように、統計は今も社会を動かし続けている。その力を正しく理解し、正しく疑うこと。それが、この長い歴史が現代のわたしたちに手渡してくれるものだ。

関連記事:#1067「数字とデータは騙す道具」 / #6825「リスクを数字で

コメント

タイトルとURLをコピーしました