표안녕하세요.

지난 글에서 통계학에 대한 제 개인적인 정의를 내린바 있습니다.

 

"나의 주장(가설)을 보편 타당하게 증명하는 과정"  

 

  1. 가설설정(Statistical hypothesis setting) = 내가 주장하려고 하는 바 → ex)A백신은 효과가 있다
  2. 데이터 수집 (조사: survey) → ex)실험군, 대조군 표본조사 표본집단 형성
  3. 기술통계 (Descriptive statistics; 기술 통계량) → ex) 표본집단으로부터 표본 통계량 획득
  4. 추론통계 
    • 추정 → ex) 표본 통계량으로부터 모수(parameter=모집단의 통계량) 추정
    • 가설검정(Statistical hypothesis test) → ex) 귀무가설을 통해 내가 세운 (대립)가설이 맞는지 증명

https://m.blog.naver.com/PostView.naver?blogId=kangoh7378&logNo=220008103745&proxyReferer=https:%2F%2Fwww.google.com%2F

 

이번 글에서는 표본 데이터들이 수집되었다는 가정하에 표본 데이터(집단)로부터 (표본) 통계량 중 표본평균, 표본분산, 표준오차를 구하는 방법에 대해 알아보도록 하겠습니다.

 

이미지 출처: http://contents.kocw.net/KOCW/document/2014/hanyang/maengseungjin/4.pdf

 

 

1. 표본평균

  • 표본평균을 설명하기 위해 예를 들어보겠습니다.
    • 대한민국 국민들의 키 평균을 구하기 위해 지역별로 표본조사한다고 가정해보겠습니다.
    • 지정된 지역별로 각각 100명의 사람들을 선별하여 키를 측정하면, 지역별 키 평균이 나오게 됩니다.
    • 이때, A지역, B지역, C지역 등등이 있는데, 각 지역이 개별 표본집단들이 됩니다.

 

  • 위와 같은 예시 들었을 때, 표본 평균은 말 그대로 각각의 표본집단들의 평균을 뜻합니다. 

 

표본평균을 구할 때, 아래와 같이 확률변수 X들을 모두 더 해주는 것으로 되어 있는데, 위에서 가정한 바에 따르면 아래 수식의 \(\X_{1}\) 은 특정 지역에서 키를 측정한 첫 번째 사람이 됩니다.

 

 

 

1-1. 표본평균들의 평균은 모평균과 같다 (객관적인 해석 VS 주관적인 해석)

1-1-1. 객관적 해석

  • 이 부분은 예시를 통해 설명해보겠습니다.
  • 먼저, 한 부족국가에 총 4명인 사람이 있다고 해보겠습니다. 그리고, 이 부족국가의 부족원키는 170, 160, 170, 180이라고 해보겠습니다. → 하나의 부족국가의 부족원들을 모집단이라고 가정합니다.
  • 해당 부족원들의 키를 확률변수 X라 하면, X의 확률분포는 아래와 같습니다.

  • 확률변수 X의 모평균과 모분산은 아래와 같습니다. → 수학적 확률

 

  • 이번에는 "부족원={170, 160, 170, 180}"라는 모집단에서 2개씩 표본을 (복원)추출하여 표본집단을 구성한다고 해보겠습니다.
  • 첫 번째 뽑는 사람의 키를 \(X_{1}\), 두 번째 뽑는 사람의 키를 \(X_{2}\) 라고 한다면, 표본집단의 경우의 수는 아래의 테이블 처럼 16가지가 됩니다.

 

  • 그렇다면 이번엔 "표본평균들의 평균은 모평균과 같다"는 것을 아래 순서대로 증명해보겠습니다.

 

  • 개인적으로 중요하다고 생각하는 부분은 아래와 같습니다.
    • 위에서 가정한 표본집단의 경우의 수는 모집단에서 2명을 뽑을 때 표현할 수 있는 모든 조합입니다.
    • 그런데 현실에서는 이러한 경우의 수를 모두 포함하지 못할 수도 있죠.
    • 그렇다면, 어느정도의 경우의 수를 고려해야할까요? → 이에 대한 해답은 '중심극한정리'편에서 하도록 하겠습니다.

(↓↓↓표본평균들의 평군과 모평균이 같다는 것을 설명해주는 유튜브 링크↓↓↓)

https://www.youtube.com/watch?v=Dc_lavvuvko 

 

 

 

1-1-2. 주관적 해석

 

※ 직관적인 이해를 위해 '큰 수의 법칙'과 연동시켜 이해해보려고 했으나, 정확하지 않을 가능성이 높으니 이상하다고 생각하시는 부분은 지적해주시면 감사하겠습니다. (아래 설명에서 나오는 큰 수의 법칙은 아래 "1-2. 큰 수의 법칙 (대수의 법칙: Law of large numbers)" 부분을 참고해주세요) 

(무수히 많이 뽑다보면 = K→∞)

 

  • 위의 예시를 통해 크기가 1인 표본평균의 평균은 모집단의 평균과 같다는 것을 알게 되었습니다. 이러한 사실을 기반으로 표본평균의 평균이 모집단 평균과 같다는 사실을 입증해보겠습니다.

 

 

 

 

(↓↓↓ 표본평균 설명 유튜브 채널↓↓↓)

https://www.youtube.com/watch?v=mUnKM-XAA7g&list=PLmljWRabIwWBxh8V6eIODIz--B802mdLt&index=7 

https://www.youtube.com/watch?v=Je62uPML0L0&list=PLmljWRabIwWBxh8V6eIODIz--B802mdLt&index=3 

 

 

 

 

 

 

1-2. 큰 수의 법칙 (대수의 법칙: Law of large numbers) 

  • 큰 수의 법칙을 다루는 이유는 정규분포와 관계가 없지만, 정규분포와 관련있는 중심극한 정리와 혼동하는 경우가 많이 따로 설명을 하려고 합니다.
  • 우선 큰 수의 법칙 '어떠한 확률분포'와도 관계가 없는 개념입니다.
  • 확률에는 수학적 확률과 통계적(경험적) 확률이 있는데, '대수의 법칙'은 "통계적(경험적) 확률은 시행횟수가 많아지면 많아질수록 수학적 확률에 가까워진다"는 이론입니다.
  • 이에 대한 이해를 위해 두 가지 예시를 설명해 보도록 하겠습니다.

[예시1-동전]

  • 동전을 던졌을 때 1이 나올 수학적 확률은 1/6 입니다.
  • 하지만, 우리가 6번을 던졌을 때 경험적으로 1이 한 번도 안나올 수도 있죠.
  • 이때 시행 6번의 경험으로 1이 뽑힐 확률은 0/6 = 0 입니다.
  • 하지만, 대수의 법칙에 따르면 한 120번 도 던졌을 때는, 18번 정도 나올 것이고, 시행 120번의 경험으로 봤을 때 거의 1/6에 가까워진다고 합니다.

 

[예시2-상자]

  • 아래 상자 파란공 6개, 빨간색공 6개가 있다고 가정해보겠습니다.
  • 해당 상자에서 파란공이 뽑힐 확률은 6/12=1/2, 빨간공이 뽑힐 확률은 6/12=1/2 입니다.
  • 하지만, 실제로 4번 정도 뽑아보면 파란색 공이 뽑힐 확률과 빨간색 공이 뽑힐 확률은 각각 다릅니다.
  • 그런데, 시행횟수를 100번 정도 늘리면 결국 파란색 공이 뽑힐 확률과 빨간색 공이 뽑힐 확률이 상자안에서 빨간색, 파란색 공을 뽑을 수학적 확률에 근사하게 된다고 합니다. → 이것을 큰 수의 법칙이라 합니다.  

(↓↓↓클릭해서 보세요!↓↓↓)

이미지 출처: https://commons.wikimedia.org/wiki/File:(1186x2368)_Law_of_Large_Numbers.gif

 

 

  • 큰 수의 법칙을 다른 관점에서 보면, "표본집단의 크기가 커지면 그 표본평균이 모평균에 가까워진다"는 말과 같습니다.
  • 예를 들어, 대한민국 국민 4천명(=모집단) 중 선별된 100명의 키 평균 천만명의 키 평균 비교해보면, 천만명을 선별했을 때 측정된 평균 키 대한민국 국민의 전체 평균과 더 근접할 것 입니다.

 



1-1. 수학적 정의

  • 지금까지 설명한 '큰 수의 법칙' 수학적으로 정의하면 아래와 같습니다.

 

  • 위의 수식에 대한 예시를 보여드리겠습니다.
  • 표본의 크기인 n이 많아질 수록 경험적으로 수학적 확률에 근사합니다 (by 주사위 예시)

 

  • 즉, 큰 수의 법칙 수식을 다시보면, 시행(표본)횟수가 많아질 수록 통계적 평균과 수학적 평균의 차이가 매우작을 확률(=입실론일 확률=0.00000000001)이 100%라는 의미를 내포하고 있습니다.

 

 

(↓↓↓ 대수의 법칙을 보험에 적용한 사례↓↓↓)

https://www.youtube.com/watch?v=XrpoHF8JZXs 

 

 

 

 

 

2. 표본평균의 분산

  • 표본평균의 분산은 모분산을 n으로 나눈 것과 같다. (아래 Notation은 위에 적어놓은 표본평균의 평균에서 설명한 notation을 기반으로 설명했으니, 꼭 표본평균의 평균을 읽고 보시는걸 추천합니다)

 

 

(↓↓↓ 표본평균의 분산 설명↓↓↓)

https://www.youtube.com/watch?v=WfiRjHATlrg&list=PLmljWRabIwWBxh8V6eIODIz--B802mdLt&index=5 

 

 

 

 

3. 표본분산와 자유도(degree of freedom)

  • 앞서 표본평균과 모평균을 구하는 수식이 동일한 것을 알 수 있었습니다.
  • 그렇다면, 모분산을 구하는 수식과 표본분산을 구하는 수식도 동일할까요?
  • 먼저, 모분산식을 보면 이전에 배웠던 분산식과 동일합니다. 그렇다면, 표본분산식도 동일할까요?

 

  • 결론부터 말하자면, 표본분산식과 모분산식은 서로 다릅니다.
  • 왜 표본분산식은 n-1로 나누게 될까요? 이에 대한 해답을 찾기 위해 '불편 추정량(unbiased estimator)'이라는 개념을 알아보도록 하겠습니다.

 

 

2-1. 불편 추정량(unbiased estimator)

불편추정량을 알기 위해서는 '불편(unbias)'라는 뜻과, 추정량(estimator)라는 뜻을 알아야 합니다.

  • 추정량(estimator)이란 통계량을 의미합니다. 왜냐하면, 우리는 모집단의 모수를 알고 싶은데, 현실적으로 불가능 하기 때문에, 통계량을 통해 모수를 추정하기 때문이죠. 즉, 통계량이 모수를 추정하기 위한 estimator가 되는 거죠.
  •  그렇다면, 불편(unbias) 하다는 것은 무엇을 의미할까요? 아래의 사진을 통해 알아보도록 하겠습니다.

 

 

 

 

2-2. 표본분산식과 자유도의 관계

  • 먼저, 자유도가 무엇인지 살펴보겠습니다.
  • 자유도는 독립변수의 개수를 의미합니다.
  • "f(x,y,z) = x+y+z = 3"이라고 했을 때, 독립변수는 2개입니다. 왜냐하면 x, y 값을 알게되면 z값은 종속적으로 알 수 있기 때문이죠.
  • 그렇다면, 표본분산식과 자유도는 어떤 관계가 있을까요?
  • 결과부터 말하자면, 표본분산의 자유도는 n-1인데, 결국 불편추정량을 위해 변경된 표본분산의 분모 부분이 곧 표본분산의 자유도입니다. (어떤 특별한 개념이 있는 것이 아니고, 정말 말 그대로 분모 부분이 표본분산의 자유도일 뿐이죠). 

 

 

(↓↓↓ 표본분산 설명 유튜브 채널↓↓↓)

https://www.youtube.com/watch?v=faVIwae-wkw 

 

 

https://www.youtube.com/watch?v=CLrUbG4ASQo&list=RDCMUCVrs4KiLQz_gvVWWK1pKR1g&index=4 

 

https://www.youtube.com/watch?v=WfiRjHATlrg&list=PLmljWRabIwWBxh8V6eIODIz--B802mdLt&index=5 

 

 

 

3. 표준오차 (Standard error) = 표본평균들의 오차

 

(↓↓↓ 표준편차 설명 블로그↓↓↓)

https://hsm-edu.tistory.com/794

 

표준오차가 뭔가요? 표준편차랑 다른건가요?

모집단이 있습니다. 모집단의 평균을 μ(뮤), 표준편차를 σ(시그마)라고 합시다. 모집단의 평균이 궁금한데 모집단이 너무 커서 구할 수가 없었습니다. 모집단의 평균을 추정하기 위해 모집단

hsm-edu.tistory.com

 

 

지금까지 표본통계량인 '표본평균, 표본분산, 표준편차' 그리고 '표준오차'에 대해서 알아보았습니다.

다음글에서는 나머지 표본통계량에 해당하는 '공분산과 상관계수'에 대해서 알아보도록 하겠습니다.

 

이미지 출처: http://contents.kocw.net/KOCW/document/2014/hanyang/maengseungjin/4.pdf

 

 

 

 

4. 엑셀을 이용한 평균, 분산, 표준편차 구하는 방법↓↓↓)

https://www.youtube.com/watch?v=SUzBIYQB794 

 

+ Recent posts