2013年9月9日月曜日

【統計】 1つのデータで判断するな - 不透明な時代を見抜く「統計思考力」(神永正博)



この本、

・ 統計がどう使えるか
・ 統計の面白さ

がよくわかります。

特に面白かったポイントは2点。

1.複雑な社会情勢を表すのに指標一つでは十分でない

2.なんでもかんでも「正規分布」を当てはめれば良いというものではない


では順に説明します。


1.複雑な社会情勢を表すのに指標一つでは十分でない


例えば、格差のモノサシとして使われる「ジニ係数」。
格差があるほど、ジニ係数高くなります。
計算式は飛ばしますが、この指標の難点は、社会全体がどれだけ豊かかは測れないということ。

例えば、以下の「社会A」と「社会B」があったとする。

社会A ・・・ 年収100万円の人が9人と年収1000万円の人が1人いる社会
社会B ・・・ 年収1000万円の人が9人と年収一億円の人が1人いる社会

この社会Aと社会B、ジニ係数は同じです。
しかし、社会Aでは格差が問題になるでしょうが、社会Bは格差はあっても全員に富が十分に行き渡っており、格差はあまり問題にならないでしょう。
つまり、「ジニ係数」という一つの指標だけでは社会全体を判断することは出来ない。

従って、ジニ係数だけでなく、
・ 完全失業率
・ 非正規雇用率
・ 生活保護
・ ホームレス
・ 平均給与
・ 一人当たり実質GDP
・ 貯蓄ゼロ世帯
など、あらゆるデータを使って、格差について分析する。
これが統計分析の仕事。



2.なんでもかんでも「正規分布」を当てはめれば良いというものではない

データの分布には、様々なパターンがある。
例えば、一番有名な正規分布(図)。
真ん中の山の高くなった部分が平均で、よく現れるデータ。
(山の高さは出現頻度)
左右の端の平均から離れた部分は、山が低くなっており、平均からかけ離れた現象はなかなか出現しないということを表している。


これに対して、平均から離れてもなかなか出現確立がゼロにならない「べき分布」というものもある。
いわゆるロングテール。



多くの統計家は、なんでも正規分布モデルを使ってしまい、平均から離れたデータが出現する可能性を低く見積もっている。

べき分布に近い典型例が、株式市場の動き。
つまり、株式市場の動きは、正規分布よりもリスクが高い(大もうけする確率も、大損する確率も、正規分布よりも大きい)。

実際、正規分布を元にして作られた株価の予想モデル「ブラック・ショールズ評定式」を使った投資銀行はリスクの見積もりを誤り資産を失った。



以上、面白かったこと2点でした。

本書は、同じ統計本「統計学が最強の学問である」ほど話題になってはいませんが、すごく面白いです。
統計に興味を持ったらまず神永正博さんの著作を読むことを個人的にはお勧めします。





・・・・・・・・・・・・・・・・・・・・
メモ

■ アメリカのベンチャーのほとんどは新しいことをしていない(独自の製品・サービスを提供しているのは10%)
■ 2025年頃、インドが中国の人口を追い越したとき何が起こる?
■ 株式市場は統計学的にも上下動が大きいワイルドなもの

0 件のコメント: