안녕하세요.

지난 글에서 표본통계량 중 표본평균, 표본분산, 표준편차에 대해서 설명했으니,

이번 글에서는 남은 표본 통계량인 공분산과 상관계수에 대해서 설명해보도록 하겠습니다.

 

사실 표본통계량에서 공분산, 상관계수와 모집단에서의 공분산, 상관계수의 차이는 표본분산의 차이를 보면 이해할 수 있습니다. 하지만, 모집단 상관계수에서의 n과 표본집단 상관계수에서의 n-1 이 각각의 식에서 약분되기 때문에, 최종 수식은 동일하다고 볼 수 있습니다. 그래서, 이번 글에서는 공분산, 상관계수라는 개념 자체만을 설명하는데 집중해보도록 하겠습니다.

 

이미지 출처: https://math100.tistory.com/111

 

 

우선, 공분산과 상관계수를 설명하기에 앞서,

공분산과 상관계수를 배우는 이유는 "두 개 이상의 독립변수들 간의 관계를 분석하기 위함"이라는 점을 알아두시면 좋을 것 같습니다.

 

이미지 출처: http://contents.kocw.net/KOCW/document/2014/hanyang/maengseungjin/4.pdf

 

1. 상관분석

  • 상관관계분석을 하는 이유는 두 변수 (X,Y) 가 서로 얼마나 상관이 있는지, 얼마나 관련이 있는지 알아보기 위한 분석방법입니다.
  • 상관분석에는 '공분산', '상관계수'와 같은 개념들이 사용되는데 이에 대해서 알아보도록 하겠습니다.

 

 

 

 

 

2. 공분산 (Covariance)

  • 데이터가 2차원(X,Y) 이상으로 표현되는 순간 각각의 차원(or 축) X, Y은 해당 축과 관련된 평균 값과 분산 값을 갖게 됩니다.

이미지 출처: http://blog.naver.com/PostView.nhn?blogId=tae4ja99&logNo=10000463298&redirect=Dlog&widgetTypeCall=true&directAccess=false

 

  • 2차원 데이터는 2개의 변수(X,Y)를 갖게 되는데, 공분산을 이용하게 되면 두 변수 간의 (선형 or 상관) 관계를 나타낼 수 있습니다. (아래 공식 다음에 공분산이 어떻게 상관관계를 나타내는지 설명하는 예시가 있습니다)

2차원 데이터의 공분산 공식1
2차원 데이터의 공분산 공식2

 

 

  • 아래 예시를 보면 X, Y 변수간의 상관관계는 반비례 하다는 것을 알 수 있습니다. 즉, 공분산 값이 음수가 나오면 (독립변수 X와 Y는) 반비례한 관계를 갖고 있음을 알 수 있습니다.

 

  • 결과적으로 공분산을 통해 얻은 값을 통해 각각의 변수간의 상관관계는 아래와 같이 정리 할 수 있습니다.

 

  • 위에서 알아본 공분산식은 2차원 데이터를 기반으로 하지만, 다차원 관점에서 일반화 하면 아래와 같이 정리 할 수 있습니다.
  • 다차원 관점에서 살펴보긴 하지만 실제로 각각의 매트릭스에 원소는 두 가지의 변수만 고려하기 때문에 다차원 변수 중에서 관심있는 2가지의 변수들에 대한 상관관계를 골라서 찾아볼 수 있습니다.

Covariance Matrix

 

여기에서 변수는 Math, Physics, English라고 볼 수 있다. \(\sigma_{12}\) 를 보면 Math, Physics 간의 상관관계를 알 수 있다. 양수인것으로 보아 수학을 잘하면 물리를 잘한다는 것을 추론할 수 있다. (Covariance matrix는 symmetric한 것을 볼 수 있다)

 

 

2-1. 공분산의 특징1

  • 공분산의 특징 중 하나X, Y축에 해당하는 범위가 동일하다면 기울기가 1에 가까울 수록 공분산 값이 커진다는 점이다.

(오른쪽 하단 그래프 

 

 

 

2-2. 공분산의 특징2

  • 또 다른 특징으로는 데이터들이 평균과 같은 거리에 있고, X, Y축의 범위가 동일하다고 할 때, 흩어짐 정도가 크면 상대적으로 공분산 값이 작습니다. (아래 그림에서 좌측에 산점도(scattering point)에서 평균에 해당하는 데이터도 (x2,y2) 입니다. 그림을 잘 못그려서;;;)
  • 흩어짐의 정도는 해당 데이터들을 가장 잘 표현하는 선을 그렸을 때, 해당 선으로 부터 데이터들이 얼마나 벗어나 있는지 정도를 보고 판단합니다. (보통은 MSE(Mean Square Error)를 이용한 Linear regression을 통해 해당 라인(함수)를 추정하는데, 이에 대해서는 Linear regression 파트에서 설명하도록 하겠습니다) 

  • 참고로 공분산은 PCA(주성분 분석)에서도 사용되니 알아두시면 좋을 것 같습니다.

 

 

 

 

 

2. 상관계수 (Correlation Coefficient)

 

2-1. 공분산의 문제점

  • 데이터가 2차원이 이라고 했을 때, 해당 차원은 X, Y축으로 표현할 수 있습니다.
  • 이때 X, Y에 속하는 데이터들끼리 얼마나 관련이 있는지 알아보는 것도 중요합니다.
  • 공분산에서도 어느 정도의 관계성(정비례 or 반비례 or 서로 관련성 없음)을 파악할 수 있지만, X, Y 축에 해당하는 범위가 달라지면 두 변수 X, Y가 어느정도까지 관련성이 강한건지 알 수 없습니다. (→ X, Y축의 범위에 따라 값이 공분산 값이 달라진다는 점)
  • 아래 그림을 보면 데이터A의 공분산값이 데이터B의 공분산 값보다 큽니다. 하지만, X, Y 변수간의 관계성을 따져서 볼 때 데이터A에서의 X, Y의 관계와, 데이터B에서의 X, Y의 관계는 서로 같습니다. 그 이유는 서로 동일한 하나의 함수 (X=Y)로 표현가능하기 때문입니다 (관계라는 것 자체가 함수로 표현가능).

  • 아래 그림에서 볼 수 있듯이 또 다른 측면에서 봤을 때, 흩어짐의 정도가 데이터 A가 심할지라도 X, Y 축의 범위로 인해 데이터A의 공분산 값이 더 크게 나오는 경우가 있습니다. 
  • 그러므로 공분산을 통해 X, Y 변수간의 관계를 정확히 파악하기 힘듭니다.

 

 

2-2. 공분산의 문제 (X, Y축 범위)를 해결하기 위한 방법 (예시)

  • 그렇다면 X, Y축 범위에 관계없이 X, Y 변수간의 관계정도(상관관계)를 알아보기 위해서 어떻게 하면 좋을까요?
  • 먼저 예를 들어서 설명해보겠습니다.
    • 부자나라에 세 명의 부자가 있다고 합시다. 이 세명의 부자의 월급은 100, 200, 300 입니다. 이 부자의 나라에 월급 평균은 200이고, 분산 값은 \(\sqrt{\frac{100{^2}+0+100{^2}}{3}}\) 입니다.
    • 가난한 나라에 세 명의 거지가 있다고 합시다. 이 세명의 거지의 월급은 10, 15, 20입니다. 이 나라의 월급 평균은 15이고, 분산 값은 \(\sqrt{\frac{5{^2}+0+5{^2}}{3}}\) 입니다.
    • 그렇다면, 부자 나라에서 100을 버는 사람은 가난한 나라에서 어느 정도 위치에 있을까요? 

  • 이러한 문제에 답을 하기 위해서는 각 나라의 데이터들 간의 차이를 상대적인 비율로 알아보면 좋습니다. 분산이라는 것은 데이터들이 평균가 떨어져 있는 정도를 나타내는데, 당연히 범위가 큰 곳에 해당하는 분산 값도 클 것입니다. 그래서 해당 나라의 실제(절대적) 편차를 해당 나라의 분산 값으로 나누게 되면, 범위와 무관한 표준화된 편차값을 갖게 됩니다. 

https://m.blog.naver.com/algosn/221308973343

  • 즉, 부자나라에서 월급 100을 버는 사람은 상대적으로 봤을 때 가난한 나라에서 월급 10을 버는 것과 같다고 볼 수 있습니다.

 

 

2-3. 상관계수 (피어슨의 상관계수)

  • 위에서 설명한 예시를 일반화해서 수식으로 표현한 것이 상관계수입니다.
  • 두 변수간의 관계정도를 파악하기 위해서 상관계수라는 개념이 사용됩니다.
  • 상관계수 공식은 아래와 같습니다. (상관계수는 피어슨의 상관계수라는 이름으로도 사용됩니다)

  • 공분산에서는 X, Y축의 범위가 문제가 되니 각 축에 해당하는 X, Y를 표준화 해주게 되면 X, Y의 범위와 무관하게 상관관계를 파악하는데 큰 도움이 됩니다.
  • 결국, X축에 해당하는 편차들을 표준화하고, Y축에 해당하는 편차들을 표준화 한후, 표준화된 X, Y축에 대해서 공분산을 적용해주면, 이것이 상관계수를 구하는 식이 됩니다.

 

  • 아래 그림을 보면 평균으로부터의 데이터A에서 X, Y와의 상관관계가 데이터B에 있는 X, Y와의 상관관계가 동일함을 알 수 있습니다. 

 

 

상관계수는 벡터의 내적이다. - 공돌이의 수학정리노트

 

angeloyeo.github.io

 

  • 지금까지 배운 상관계수 개념을 그림으로 요약하면 아래와 같다고 할 수 있습니다.

http://openuiz.blogspot.com/2016/12/blog-post.html

 

 

 

(↓↓↓엑셀로 상관계수 구하기↓↓↓)

https://www.youtube.com/watch?v=JvUgIr3_MiY 

 

+ Recent posts