こんにちは。さて2022年度から始まりました当事務所の1人DX強化プロジェクト、順調に進んでいます。現在は、【機械学習・python】がテーマのオンライン講座と【統計学】がテーマのオンライン講座、計2つのコースを通して学んでいます。
現在学んでいるコース
●キカガクさんの動画コース’Python&機械学習入門’
●Udemy いちばん理解できる統計学ベーシック講座その1【確率分布・推定・検定】
https://www.udemy.com/course/statistics_basic/
どちらのコースも学びやすく、ガチ文系の私でもサクサク進めることができています。そんな中で統計学を学びながらタメになるなぁと思ったことがあったので述べていきます。
今日、Udemyの統計学ベーシック講座では中央値と平均値について学んでいました。この講座を学ぶまでは中央値と平均値の明確な定義がわかりませんでしたが、講座を聞いてようやく理解できました。言葉にするとこんな感じになります。
- 中央値とは?:各値との距離の合計を最短にする値
- 平均値とは?:各値との距離の2乗の合計を最短にする値
例えば、生徒が3人いて、それぞれ国語のテストの点数が99点、88点、80点だったとしましょう。中央値と平均値はどうなるでしょう? 計算式は省きますが、こんな感じになります。
- 中央値:88点
- 平均値:89点
平均値の方がこのケースですと中央値よりも大きくなります。では、数学の点数が99点、70点、75点だった場合はどうなるでしょう?他の2人は70点台なのに、1人だけ99点。前述したパターンよりもバラツキが多そうですね。この場合、99点の値を「外れ値」と呼びます。結果を見てみましょう。
- 中央値:75点
- 平均値:81点
実は、平均値は外れ値の影響を中央値よりも受けやすいのです。これはとてもタメになりました。このことを勉強して私が思い出したのは、日本国民の平均所得と中央値の統計でした。2018年度のデータになりますが、全世帯平均の所得は552.3万円に対して、中央値は437万円となっています。(参考:世帯平均所得は552万円…世帯あたりの平均所得をさぐる(2020年公開版)https://news.yahoo.co.jp/byline/fuwaraizo/20200813-00191952)
平均所得552.3万円と中央値437万円、その差は115.3万円! すごい差だぞ笑 前述した通り、平均は外れ値の影響を受けやすい。となると一部の高所得富裕層が外れ値となり、平均所得を嵩上げしている可能性が高い、という見方ができますね。
それが、良い悪いではなく、統計を見る際は、平均値、中央値、外れ値の関係性を頭に入れてから見た方が良さそう。統計学面白い。これからも勉強頑張ろう。