坂道は上るもの

乃木坂46についてメインに書いていますが、時折、勉強や旅行や法律問題についても書いています。乃木坂46のファンの行動についても統計分析を行っています。

乃木坂統計教室

 

 

f:id:rakudapetra:20191210180345p:plain

はじめに

  • 今回は乃木坂46に関するデータを使いながら統計について書いていこうと思います。今までにも統計について書いているため、過去の記事について書くときはその内容に深く触れずに軽く触れます。今回は平均値と中央値について冒頭で触れ、後半は過去の記事をまとめるという形にしたいと思います。それで今まで僕の書いてきた統計に関する内容をざっくり網羅できるようになっています。学校のレポートで統計調査について書かないといけないという場合にざっと見渡させるようになっています。

 

統計とは?

  • 統計とは数値化した調査のことです。テストの平均点や平均年収、平均結婚年齢などどれも統計になります。その数字に様々な処理を加えるのが統計学です。統計学は理系の分野でしか使われていないと思われるかもしれませんが、心理学や政治学とった文系の分野でも使われています。実際、僕も大学の時に使っていました。統計学は思っている以上に幅広い分野で使われています。
  • 統計学は知っていて損をすることはありませんし、飛躍した論理を見抜くことができます。「統計調査は集計する人の都合のいいように結果を作ることができ、我々は騙されている」と言う人がいます。はい、確かにその通りです。数字の処理の仕方で結果をいくらでも変えることはできます。僕もそれをしたことがあります。統計のからくりが分かれば、統計データというものがどういうものかがわかります。

 

どちらも間の数字

 

f:id:rakudapetra:20201107230658p:plain

表題曲センター

f:id:rakudapetra:20201107230720p:plain

アンダー曲センター
  • 表題曲(25thシングルまで)とアンダー曲(24thシングルまで)のセンター回数を表にしました。この表を見て、まず思われるのは表題曲のセンター回数に大きな偏りが見られ、アンダー曲のセンターにはそこまで大きな偏りが見られません。

f:id:rakudapetra:20201107230820p:plain

表題曲センター統計情報

f:id:rakudapetra:20201107230848p:plain

アンダー曲センター統計情報
  • 表題曲はセンター経験者数が少ない分、平均値がアンダー曲の約1.6倍高くなっています。平均値を上げている原因はセンターを複数回務めている回数が多いことです。それに対して中央値はどちらも同じです。平均値とは全データを合算しそれをデータの個数で割った数値です。それに対して中央値は全データの真ん中の値です。表題曲だと全員で11人なのでちょうど真ん中の6番目の人の値、つまり1になります。アンダー曲だと全員で16人いるため8人目と9人目の値の平均値を取り、1になります。
  • 平均値と中央値を見ることでそのデータの性質が見えます。中央値と平均値の乖離が大きいとデータに偏りがあることがわかります。中央値と平均値の乖離が小さいとデータの偏りは小さくなります。100と0の平均値50ですが、49と51の平均値も50です。平均値は一つの目安であって、平均値だけを見ても統計データの全貌を知ることはできません。このように平均値だけを見ても上と下の値は分かりませんし、ばらつきもわかりません。平均値だけを見て判断することはあまりおすすめできません。このように平均値と中央値を合わせて出してみてください。平均値との乖離を見るだけで、データ分布の予想が付きます。データの個数が多くなればなるほど、中央値の威力を発揮するのでおススメです。
  • 今回のように中央値の方が平均値より低い場合は、平均以下にデータが集中していることがうかがえます。逆も同様です。そのことを数値化しているのが歪度と呼ばれる数値です。平均より右にデータが偏っている場合はマイナスになり、プラスになっている場合は左に偏ります。今回はプラスになっているので、平均より左に偏っていることが数値でも示されています。尖度と呼ばれる値はグラフの急峻度を表しており、どこかの値が突出していると高くなります。グラフが平坦になれば、数字は小さくなります。このように単に並べられた数字ですが、グラフにしたり、統計処理をしたりすると様々なことがわかります。これは数字のトリックです。

 

 

集めたデータの分析

  • ここからは過去の記事について触れていくので本当に内容がざっくりとしています。詳細はリンクを付けている記事をご覧いただけると嬉しいです。

 

データ分析全般 

nogi-kioizaka.hatenablog.com

  • データ分析全般について書いています。目を引くような話の裏には無数につながった原因があります。それを飛ばしてしまうとその分析の方向自体も間違ってしまうことがあります。そうならないためにもデータ分析について広く知りたい場合にはおススメです。

 

nogi-kioizaka.hatenablog.com

  • ついでにですが、こちらはアンケート調査を行う際の注意点やそのデータ集計の注意点について書いています。このときに調査したデータは統計的に有意ではありませんが、そのことについても触れています。

 

 

因果関係が知りたい

単回帰分析 

nogi-kioizaka.hatenablog.com

 

重回帰分析

nogi-kioizaka.hatenablog.com

  • 因果関係を知る方法として回帰分析や実験が挙げられます。回帰分析は2つ以上のデータを並べて、それらのデータが因果関係を与えているか知ることができます。直線での推定になるため、曲線になってしまうようなデータではあまり使えません。2つ以上の要因が考えられる場合にも使うことができます。

 

実験

 

nogi-kioizaka.hatenablog.com

  • 社会科学では回帰分析での因果関係の推定では物足りないと思われることがあるため、実験的手法により因果関係を推定することがあります。実際にアンケート調査を使って、実験を行いました。アンケートの文言を変えるだけで結果を変えることができます。

 

総合版

nogi-kioizaka.hatenablog.com

nogi-kioizaka.hatenablog.com

nogi-kioizaka.hatenablog.com

これらすべてをまとめたのが乃木坂46の出身地選手権です。今回紹介した回帰分析や平均値や中央値の話も取り入れています。今回の内容を知ったうえで見るとまた少し違って見えるかもしれません。

 

 

 

最後に

  • 統計学を少しでも知っていると世の中にある数字を自由自在に操ることができます。「世の中の見方が変わる!」とまでは言いませんが、統計学について少しでも知っていると、「その結論、本当に合っているの?」といったことや人間の行動を読むことができます。実際にマーケティングの分野でも統計学は使われています。身の回りにあるデータを使って、一度統計分析をしてみてください。もしかすると面白い発見があるかもしれません。乃木坂46のファン行動や投票心理を見るものもの非常に面白いです。