読者です 読者をやめる 読者になる 読者になる

実体と情報のはざま

いつかデータサイエンティストになって世界を読み解く仕事がしたい!

統計解析を学び直し!【平均/分散/標準偏差】

 最近、AIをゼロから理解したいと思い、ニューラルネットワークを勉強中。さらに、関連する統計解析も学びたいと思ってページを開いたが…全然頭に入ってこない。基礎の基礎から自分が腑に落ちる形で学びなおしたい!

というわけで、まずはほんとの基礎量に関する表現の話。

【平均】

f:id:myuteru:20170429215417p:plain

 ふつうはこう表現する。しかし、シグマ記号がスッと入ってこない。ちっちゃい"i"とか"n"を見ていると脳が若干停止する。

 そこで、データをベクトルで表現する。まずは、ベクトルを用意する。

f:id:myuteru:20170429215939p:plainこれがデータ。f:id:myuteru:20170429221039p:plain単位ベクトルの足し合わせ。

これらを用いると、平均はこう表現できる。

f:id:myuteru:20170429221135p:plain

あ~、すっきり。イメージしやすい。

 ついでに思いついたことは、uの成分にnを入れると”期待値”として見えること。

f:id:myuteru:20170429222702p:plainとすると、こうなる。

f:id:myuteru:20170429223119p:plain

これって、【期待値=データ×確率】 って解釈できる。

次、いってみよう。

【分散】

f:id:myuteru:20170429223822p:plain

ふつうはこう表現する。平均と同様に書くとどうなるか?

f:id:myuteru:20170429224250p:plain

すっきり。ただし、基本的な注意点として、nで割っているところは、(n-1)にすることもある。使い分けとしては、nで割る場合はデータが”母集団”である場合で、(n-1)は”標本”とみなす場合。

 標準偏差はこのルートをとるだけ。

標準偏差

f:id:myuteru:20170429225011p:plain

 ベクトルで表現しているほうが、視覚的に的で扱いやすい。

次に、具体的な計算の例。ベクトルとか関係ないけど。

”年齢別の人口”なんてのはどうでしょう。いきなり計算結果。

男 平均=各年齢に60.4万人、分散=738.8、標準偏差=27.2

女 平均=各年齢に64.0万人、分散=597.3、標準偏差=24.4

f:id:myuteru:20170429234230p:plain

出典 総務省統計局「日本の統計 2017」*数値データを加工しグラフ化

ただし、100歳以上は100歳として計算しました。

特に、これといった発見はないですね。。平均とか分散とか関係なく、少子高齢化が見て取れるくらいかな。あと、男が短命ってこと・・・。

では、また。