【高校数学】相関係数の基本事項&ベクトルを使って相関係数を考える

こんにちは、数学科大学生のナウシカです。

今回は、数Ⅰで習う「データの分析」の中から「相関係数」をピックアップして解説していきます!

 

相関係数をなぜ学ぶのか?

 

「データの分析」は大きく分けて2つのカテゴリーに分けることができます。

1つ目は「四分位数」や「分散」「標準偏差」を使った、1種類のデータについて調べる分野。

2つ目は「共分散」や「相関係数」を使った、2種類のデータの間の関係について調べる分野。

今回説明する「相関係数」を使うことで、一方のデータの値が大きいときにはもう一方のデータの値も大きい、といったようなデータとデータの間の関係を数字で表すことができるようになります。

 

相関係数の求め方

 

公式の形で書いても覚えにくいったらありゃしないので、ことばで書いていきますね。

 

相関係数の求め方

下準備として以下のものを使います。

・平均 = (すべてのデータの値の和) ÷ (データの個数)

・偏差 = (データの値) ー (データの平均)

・分散 = (偏差)² の平均

・標準偏差 = √分散 

・共分散 = (偏差) × (偏差) の平均 (共分散は2種類のデータがあるときのお話)

 

いよいよ相関係数を求めます!

 

相関係数 = \( \dfrac {\mbox{共分散}}{\mbox{(標準偏差1) × (標準偏差2)}} \)

 

1つ目のデータの標準偏差を “標準偏差1″、2つ目のデータの標準偏差を “標準偏差2” としています。

 

具体的な計算例は以下のページが参考になります。

参考

相関係数の意味と求め方 - 公式と計算例Sci-pursuit

 

相関係数から分かること

 

相関係数の値が1に近づくほど、「正の相関が強い」といいます。逆に、相関係数の値が -1に近づくほど、「負の相関が強い」といいます。

「正の相関が強い」ときには、一方のデータの値が大きいときにもう一方のデータの値も大きくなります。

「負の相関が強い」ときには、一方のデータの値が大きいときにもう一方のデータの値は小さくなります。

相関係数が0に近づくにつれて「相関がない」といって、2つのデータの値に関係性がなくなっていきます。

 

相関係数の注意事項

 

気をつけなければいけないポイントが2つあります。

注意

①相関係数の値は -1 ~ +1 の範囲でおさまります。

なので問題に相関係数の値が 1.2 など、-1 ~ +1 の範囲に当てはまらないものがあったらそれは間違いです。

 

②相関係数の値から「因果関係」は読み取れません。

例えば、国語の点数と数学の点数に正の相関があったとしても、「国語の点数が良いから数学の点数も良い」や「数学の点数が良いから国語の点数も良い」などの原因と結果は相関係数の値からは分からないのです。

 

特に②に関してはおとなでも知らない人が多いので正しく理解しておきましょう!

 

相関係数はベクトルと関係が深い!

 

ここからは発展的な内容です。

実は、数Bで習う「ベクトル」を使うと相関係数をスッキリと理解することができます!

 

準備として、「ベクトルの内積」を思い出しておきます。

ベクトルの内積

2つのベクトル \( \overrightarrow {a} = (a_{1}, a_{2}), \overrightarrow {b} = (b_{1}, b_{2}) \) の内積 \( \overrightarrow {a} \cdot \overrightarrow {b} \) は

\( \overrightarrow {a} \cdot \overrightarrow {b} = \overrightarrow {a}\cdot \overrightarrow {b} = | \overrightarrow {a}| | \overrightarrow {b}| \cos \theta = a_{1} \cdot b_{1} + a_{2} \cdot b_{2} \)

と表されます。

ベクトルの成分がたくさんあったときにも同様で、

\( \overrightarrow {a} = (a_{1}, a_{2}, \ldots , a_{n}), \overrightarrow {b} = (b_{1}, b_{2}, \ldots , b_{n}) \) の内積 \( \overrightarrow {a} \cdot \overrightarrow {b} \) は

\( \overrightarrow {a} \cdot \overrightarrow {b} = a_{1} b_{1} + a_{2} b_{2} + \ldots + a_{n} b_{n}\)

となります。

 

「データの分析」と「ベクトル」を関連付けていきましょう!

 

データ1の偏差が \((a_{1}, a_{2}, \ldots , a_{n})\) データ2の偏差が \((b_{1}, b_{2}, \ldots , b_{n})\) だったとします。

ここで、\( \overrightarrow {a} = (a_{1}, a_{2}, \ldots , a_{n}), \overrightarrow {b} = (b_{1}, b_{2}, \ldots , b_{n}) \) とおきます。

すると、データ1とデータ2の標準偏差は \(\sqrt {\dfrac {1}{n}}| \overrightarrow {a}|, \sqrt {\dfrac {1}{n}}| \overrightarrow {b}| \) 共分散は \(\dfrac {1}{n}\overrightarrow {a}\cdot \overrightarrow {b}\) となります。(公式どおりに計算するとなるよ!)

よって相関係数は \(\dfrac {\overrightarrow {a}\cdot \overrightarrow {b}}{| \overrightarrow {a}| | \overrightarrow {b}| }\) となります。

ここで、 \(\overrightarrow {a}\cdot \overrightarrow {b} = | \overrightarrow {a}| | \overrightarrow {b}| \cos \theta\) を使うと、相関係数は \(\cos\theta\) となります。

\(-1 \leqq \cos\theta \leqq\) であることから、相関係数も \(-1\) から \(1\) の範囲にあることが分かります。

相関係数が \(0\) のときは、内積 \(\overrightarrow {a}\cdot \overrightarrow {b}\) が\(0\) のときです。

内積が \(0\) というのは垂直に交わるときですが、「ベクトルがまったく無関係の方向を向いている」と考えることもできます。その意味で、相関係数が \(0\) のときには「相関がない」と言えるのです。

また、相関係数が \(1, -1\) ときも同様に考えると、\(1\) のときにはベクトルが「まったく同じ正の方向を向いている」、\(-1\) のときには「まったく同じ負の方向を向いている」ときなので、それぞれ「正の相関がある」「負の相関がある」ということができます。

 

まとめ

 

今回は数Ⅰで習う「データの分析」から「相関係数」を取り上げました。

2つのデータの間の関係性を知るために必要な道具ですので、使えるようにしておきましょう!

また、ベクトルを習った人は相関係数をベクトルの見方で考えてみるとおもしろいですよ!

 

では(^^)/~~~

 

 

 

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

日本語が含まれない投稿は無視されますのでご注意ください。(スパム対策)