안녕하세요.

이번 글에서는 두 집단의 평균 차이를 검정(test)하는 세 가지 가설검정 방식중 하나인 이(2)표본 Z검정에 대해 알아보도록 하겠습니다.

 

  • Independent Samples Z-Test is also called the Two-Sample Z-Test or Z-Test for Independent Samples.
  1. 이(2)표본 Z 검정 (Two-sample Z test) = 독립표본 Z검정 (Independent Z test)
  2. 독립표본 T 검정 (Independent Sample T test) 
  3. 대응표본 T 검정 (Paired Sample T test)

 

[가설검정의 종류]

  • '차이'와 관련된 검정
    1. '평균'의 차이를 검정 하고 싶을 때
      • 1-1. 비교하는 집단이 하나일 때 
        • 1-1-1. 모분산을 알고 있는 경우
          • 일(1)표본 Z 검정 (One-sample Z test) → ex) 귀무가설(\(H_{0}\)): 한국의 평균은 K이다.
        • 1-1-2. 모분산을 모르는 경우
          • 일(1) 표본 T 검정 (One-sample T test) → ex) 귀무가설(\(H_{0}\)): 한국의 평균은 K이다.
      • 1-2. 비교하는 집단이 둘일 때
        • 1-2-1. 모분산을 알고 있는 경우
          • 이(2)표본 Z검정 (Two-sample Z test) → ex) 귀무가설(\(H_{0}\)): 남, 녀간의 평균에 차이가 없다.
        • 1-2-2. 모분산을 모르는 경우 & 표본이 작을 때
          • 1-2-2-1. 독립표본 T 검정 (Independent Sample T test) → ex) 귀무가설(\(H_{0}\)): 남, 녀간의 평균에 차이가 없다.
          • 1-2-2-2. 대응표본 T 검정 (Paired Sample T test) → ex) 귀무가설(\(H_{0}\)): 남, 녀간의 평균에 차이가 없다 & 해당 차이를 반복해서 검증 (한 달간 간격을 두고 측정: 1개윌 뒤, 2개윌 뒤, 3개윌 뒤, ....)  
      • 1-3. 비교하는 집단이 셋 이상일 때
        • 1-3-1. ANOVA (분산분석)
          • 1-3-1-1. 일원 분산분석 (One-way ANOVA) → ex) 귀무가설(\(H_{0}\)): 한국, 미국, 독일의 평균에 차이가 없다
          • 1-3-1-2. 반복측정 분산분석 (Repeated Measures ANOVA) → ex) 귀무가설(\(H_{0}\)): 한국, 미국, 독일의 평균에 차이가 없다 & 해당 차이를 반복해서 검증 (한 달간 간격을 두고 측정: 1개윌 뒤, 2개윌 뒤, 3개윌 뒤, ....)  
          • 1-3-1-3. 이원 분산분석 (Two-way ANOVA) → ex) 
          • 1-3-1-4. 이원반복측정 분산분석 (Two-way Repeated Measures ANOVA) → ex)

 

 

1. 이(2)표본 Z검정 (Two-sample Z-test)

  • 이(2)표본 Z검정은 추정된 두 모집단의 평균의 차이가 유의미한지 알아보기 위한 검정 방법입니다.
  • 두 모집단에서 각각의 표본(총 2개의 표본: 서로 독립인 표본)과 표준화된 표본평균분포(→X축을 Z라고 둠)를 기준으로 가설검정하기 때문에, 이(2)표본 Z검정 or 독립표본 Z검정이라고 불립니다.
  • 이(2)표본 Z검정의 철학은 대부분 일(1)표본 Z검정과 유사하기 때문에, 해당 개념을 꼭 숙지하시고 오시는걸 추천합니다.

https://89douner.tistory.com/202

 

[통계학]4-1-1. 한 집단의 평균을 검정(test)할 때 (Feat. 일표본(단일표본) Z검정, 신뢰구간, 단측검정

안녕하세요. 이번 글에서는 한 집단의 평균을 검정(test)하는 두 가지 가설검정 방식중 하나인 일(1)표본(=단일표본) Z검정에 대해 알아보도록 하겠습니다. 일(1)표본(=단일표본) Z검정 (One-sample Z tes

89douner.tistory.com

 

 

1-1. 독립표본(이표본) Z검정

  • 독립표본 Z검정은 두 집단의 평균의 차이가 유의미한지 보는 것입니다.
  • 그래서, 보통 귀무가설과 대립가설을 아래와 같이 설정됩니다.
    • 귀무가설(\(H_{0}\): 두 집단의 평균이 같다.
    • 대립가설(\(H_{1}\): 두 집단의 평균이 다르다.
  • 먼저, 일표본 Z검정과 다른 점은, 두 모집단의 평균은 추정하지 못한상태(=두 모집단의 평균은 모르는 상태)이고, 각 두 모집단의 모분산만 알고 있는 경우입니다.
  • 이러한 제약조건에서 어떻게 두 집단의 평균이 같은지 다른지를 판단하는지 아래 가설검정 방식을 통해 알아보도록 합시다.

 

(위의 설명에서 언급한 \(\bar{X}_B\)가 아래 그림의 \(\bar{Y}\)라고 생각하시면 됩니다.)

이미지 출처: https://www.youtube.com/watch?v=z6gfv9Aojpk  

 

[예시1] LG 트윈스 팀장인 J씨에게 두 야구배트 업체로부터 자신들의 배트를 사용해달라고 의뢰가 들어왔습니다. 두 업체의 가격은 똑같았지만 평소 B회사와 친분이 있었기 때문에, A회사의 배트 강도와 B회사의 배트 강도가 별 차이가 없다고 판단하면, B회사의 배트를 사용하려고 합니다. 그렇다면, A회사의 배트 강도와 B회사의 배트 강도는 같은지 알아봅시다.

  • 팀장 J씨는 A회사의 배트들의 분산(강도와 관련된 분산)과 B회사의 분산 값을 알고 있습니다.
  • 팀장 J씨는 두 업체를 방문해 각각 50개씩 배트 표본을 추출했습니다.
  • A,B회사의 모든 배트에 대한 각각의 평균강도는 알 수 없지만, 추출한 표본에서 평균강도를 구할 수는 있습니다.
    • A회사에서 뽑은 50개 배트(=A회사의 표본)의 강도 평균은 804라고 합시다.
    • B회사에서 뽑은 50개 배트(=B회사의 표본)의 강도 평균은 800이라고 합시다.

 

  • p-value가 유의수준보다 낮기 때문에 귀무가설을 기각하고 대립가설을 채택합니다.
  • 즉, A회사와 B회사의 배트강도는 차이가 있다는 판단을 했습니다.
  • 팀장 J씨는 A회사에서 뽑은 배트(=표본)들의 평균 강도가 더 강하기 때문에 (804>800), A회사의 배트를 사용하기로 결정합니다.

 

 

 

 

 

https://www.youtube.com/watch?v=bfC1DwRu8W4&list=PLmljWRabIwWBxh8V6eIODIz--B802mdLt&index=33 

 

 

 

(↓↓↓예시2 & 엑셀로 독립표본 Z검정 하는 방식 설명↓↓↓)

https://www.youtube.com/watch?v=z6gfv9Aojpk 

 

 

 

안녕하세요.

이번글에서는 일(1)표본(=단일표본) T검정에 대해서 알아보도록 하겠습니다.

 

[가설검정의 종류]

  • '차이'와 관련된 검정
    1. '평균'의 차이를 검정 하고 싶을 때
      • 1-1. 비교하는 집단이 하나일 때 
        • 1-1-1. 모분산을 알고 있는 경우
          • 일(1)표본 Z 검정 (One-sample Z test) → ex) 귀무가설(\(H_{0}\)): 한국의 평균은 K이다.
        • 1-1-2. 모분산을 모르는 경우
          • 일(1) 표본 T 검정 (One-sample T test) → ex) 귀무가설(\(H_{0}\)): 한국의 평균은 K이다.
      • 1-2. 비교하는 집단이 둘일 때
        • 1-2-1. 모분산을 알고 있는 경우 & 표본이 클 때
          • 이(2)표본 Z 검정 (Two-sample Z test) → ex) 귀무가설(\(H_{0}\)): 남, 녀간의 평균에 차이가 없다.
        • 1-2-2. 모분산을 모르는 경우 & 표본이 작을 때
          • 1-2-2-1. 독립표본 T 검정 (Independent Sample T test) → ex) 귀무가설(\(H_{0}\)): 남, 녀간의 평균에 차이가 없다.
          • 1-2-2-2. 대응표본 T 검정 (Paired Sample T test) → ex) 귀무가설(\(H_{0}\)): 남, 녀간의 평균에 차이가 없다 & 해당 차이를 반복해서 검증 (한 달간 간격을 두고 측정: 1개윌 뒤, 2개윌 뒤, 3개윌 뒤, ....)  
      • 1-3. 비교하는 집단이 셋 이상일 때
        • 1-3-1. ANOVA (분산분석)
          • 1-3-1-1. 일원 분산분석 (One-way ANOVA) → ex) 귀무가설(\(H_{0}\)): 한국, 미국, 독일의 평균에 차이가 없다
          • 1-3-1-2. 반복측정 분산분석 (Repeated Measures ANOVA) → ex) 귀무가설(\(H_{0}\)): 한국, 미국, 독일의 평균에 차이가 없다 & 해당 차이를 반복해서 검증 (한 달간 간격을 두고 측정: 1개윌 뒤, 2개윌 뒤, 3개윌 뒤, ....)  
          • 1-3-1-3. 이원 분산분석 (Two-way ANOVA) → ex) 
          • 1-3-1-4. 이원반복측정 분산분석 (Two-way Repeated Measures ANOVA) → ex)

 

 

 

1. 일(1)표본 T검정 (One-sample T-test) = Student T-test

  • 일(1)표본 T검정은 다음 아래와 같은 상황에서 진행되는 가설검정 방식입니다.
    • 한 집단의 평균을 검정(test)하고 싶은 경우
    • 해당 집단의 (모)평균은 알고 있지만, (모)분산을 모르고 있다고 가정할 경우
      • 귀무가설(\(H_{0}\)): 표본평균과 모집단 평균을 같다.
      • 대립가설(\(H_{1}\)): 표본평균하고 모집단 평균은 차이가 있다.
      • ex) 전국학교의 평균성적과 우리학교의 평균성적은 같은가?
  • 또한, 일(1)표본 T검정은 정규분포를 가정하기 때문에, 표본크기가 30개 이상있을 때를 전제하고 있습니다 (By 중심극한 정리)
  • 일표본 T검정은 william이라는 사람이 발명했는데 당시 william의 필명이 student라고 해서, student T검정이라고도 부릅니다.

 

1-1. 표준오차

  • 일표본 T검정을 이해하기 위해 반드시 알고 있어야 할 개념이 표준오차입니다.
  • 그렇기 때문에 표준오차에 대한 설명을 조금 해보도록 하겠습니다.
  • 표준오차
    • 표본평균의 분산에 루트를 씌워준 것
    • 의미상으로 표본오차를 접근할 때는 표본평균의 분산의 의미로 생각하면 됨 
    • 표본평균의 분산: 표본평균들이 표본평균들이 표본평균들의 평균으로부터 얼마나 떨어져 있는지 알려주는 척도

(↓↓↓표본평균의 평균, 표본평균의 분산과 관련된 설명↓↓↓)

https://89douner.tistory.com/188?category=985452 

 

[통계학]2-1.표본 통계량(표본평균, 표본분산, 자유도, 표본분포)

표안녕하세요. 지난 글에서 통계학에 대한 제 개인적인 정의를 내린바 있습니다. "나의 주장(가설)을 보편 타당하게 증명하는 과정"  가설설정(Statistical hypothesis setting) = 내가 주장하려고 하는

89douner.tistory.com

 

 

 

1-2. Z분포와 T분포의 차이

(↓↓↓Z분포, Z검정 설명↓↓↓)

https://89douner.tistory.com/202?category=985452 

 

[통계학]4-1-1. 한 집단의 평균을 검정(test)할 때 (Feat. 일표본(단일표본) Z검정, 신뢰구간, 단측검정

안녕하세요. 이번 글에서는 한 집단의 평균을 검정(test)하는 두 가지 가설검정 방식중 하나인 일(1)표본(=단일표본) Z검정에 대해 알아보도록 하겠습니다. 일(1)표본(=단일표본) Z검정 (One-sample Z tes

89douner.tistory.com

 

(↓↓↓표본평균의 (확률)분포↓↓↓)

https://89douner.tistory.com/188

 

[통계학]2-1.표본 통계량(표본평균, 표본분산, 자유도, 표본분포)

표안녕하세요. 지난 글에서 통계학에 대한 제 개인적인 정의를 내린바 있습니다. "나의 주장(가설)을 보편 타당하게 증명하는 과정"  가설설정(Statistical hypothesis setting) = 내가 주장하려고 하는

89douner.tistory.com

 

 

 

 

  • 양측검정을 해야하는 경우라면 해당분포 양측 5%에 해당하는 critical value(임계값)을 설정해주어야 합니다.
  • 주의해야 할 점은, t분포는 자유도에 따라 양측 5%에 해당하는 critical value 값들이 다르다는것을 유의해야 합니다.

이미지 출처: https://enook.jbnu.ac.kr/contents/44/#!/p/17
이미지 출처: https://bioinformaticsandme.tistory.com/186

 

 

 

 

 

2. 일(1)표본 T검정 (One-sample T-test) 예시

  • 전국 대학교 대학생 평균 키 = 178.5
  • 우리 대학교 대학생 평균 키 = 179.9
    • 귀무가설: 전국 대학교의 대학생 평균 키와 우리 대학교 대학생 평균 키는 (통계적으로) 같다고 할 수 있다.
    • 대립가설: 전국 대학교의 대학생 평균 키와 우리 대학교 대학생 평균 키는 (통계적으로) 다르다고 할 수 있다.
  • 우리 대학교 대학생 키 표준편차(s) = 표본표준편차(s) = 7.05
  • 표본크기(n) = 101
  • 자유도 = n-1 = 100
  • 임계값 = 1.984 ← T분포의 임계값은 아래 그림처럼 T-table을 참고하면 됩니다. 아래 그림에서 95%신뢰수준, 자유도 100, 양측검정일 경우 임계값은 1.984 입니다.

(↓↓↓신뢰수준과 기각역에 대한 설명↓↓↓)

https://89douner.tistory.com/202

 

[통계학]4-1-1. 한 집단의 평균을 검정(test)할 때 (Feat. 일표본(단일표본) Z검정, 신뢰구간, 단측검정

안녕하세요. 이번 글에서는 한 집단의 평균을 검정(test)하는 두 가지 가설검정 방식중 하나인 일(1)표본(=단일표본) Z검정에 대해 알아보도록 하겠습니다. 일(1)표본(=단일표본) Z검정 (One-sample Z tes

89douner.tistory.com

 

 

  • t-value는 기각역에 포함하므로 대립가설을 채택합니다. → 즉, T검정 결과 "전국 대학교의 대학생 평균 키와 우리 대학교 대학생 평균 키는 (통계적으로) 다르다"고 할 수 있습니다.

 

 

 

(↓↓↓위의 예제 유튜브 링크↓↓↓)

https://www.youtube.com/watch?v=EzH5n31Com0&list=PLalb9l0_6WArHh18Plrn8uIGBUKalqsf-&index=5 

 

 

 

 

 

 

3. 일(1)표본 T검정 (One-sample T-test) 엑셀적용 예시

 

  • 아래 영상에서 Dummy sample을 두는 이유는 아래와 같습니다.
    • T검정의 귀무가설은 "표본평균=모평균" 설정한 상태이다.
    • 또한 모집단의 분산 (모분산)을 모른다고 가정한다.
    • 즉, 모집단에 대한 데이터들이 없어도 되기 때문에, 모집단에 대한 데이터가 없어도 된다. → 그래서 아래 영상에서 dummy column을 만든다.
    • 결과적으로, 표본데이터들만 있어도 T검정이 가능하다.

https://www.youtube.com/watch?v=v-ZcqrdTcIQ 

 

안녕하세요. 

이번 글에서는 한 집단의 평균을 검정(test)하는 두 가지 가설검정 방식중 하나인 일(1)표본(=단일표본) Z검정에 대해 알아보도록 하겠습니다.

  1. 일(1)표본(=단일표본) Z검정 (One-sample Z test)
  2. 일(1)표본 T검정(=단일표본) (One-sample T test) 

 

[가설검정의 종류]

  • '차이'와 관련된 검정
    1. '평균'의 차이를 검정 하고 싶을 때
      • 1-1. 비교하는 집단이 하나일 때 
        • 1-1-1. 모분산을 알고 있는 경우 & 표본이 클 때
          • 일(1)표본 Z 검정 (One-sample Z test) → ex) 귀무가설(\(H_{0}\)): 한국의 평균은 K이다.
        • 1-1-2. 모분산을 모르는 경우 & 표본이 작을 때
          • 일(1) 표본 T 검정 (One-sample T test) → ex) 귀무가설(\(H_{0}\)): 한국의 평균은 K이다.
      • 1-2. 비교하는 집단이 둘일 때
        • 1-2-1. 모분산을 알고 있는 경우 & 표본이 클 때
          • 이(2)표본 Z 검정 (Two-sample Z test) → ex) 귀무가설(\(H_{0}\)): 남, 녀간의 평균에 차이가 없다.
        • 1-2-2. 모분산을 모르는 경우 & 표본이 작을 때
          • 1-2-2-1. 독립표본 T 검정 (Independent Sample T test) → ex) 귀무가설(\(H_{0}\)): 남, 녀간의 평균에 차이가 없다.
          • 1-2-2-2. 대응표본 T 검정 (Paired Sample T test) → ex) 귀무가설(\(H_{0}\)): 남, 녀간의 평균에 차이가 없다 & 해당 차이를 반복해서 검증 (한 달간 간격을 두고 측정: 1개윌 뒤, 2개윌 뒤, 3개윌 뒤, ....)  
      • 1-3. 비교하는 집단이 셋 이상일 때
        • 1-3-1. ANOVA (분산분석)
          • 1-3-1-1. 일원 분산분석 (One-way ANOVA) → ex) 귀무가설(\(H_{0}\)): 한국, 미국, 독일의 평균에 차이가 없다
          • 1-3-1-2. 반복측정 분산분석 (Repeated Measures ANOVA) → ex) 귀무가설(\(H_{0}\)): 한국, 미국, 독일의 평균에 차이가 없다 & 해당 차이를 반복해서 검증 (한 달간 간격을 두고 측정: 1개윌 뒤, 2개윌 뒤, 3개윌 뒤, ....)  
          • 1-3-1-3. 이원 분산분석 (Two-way ANOVA) → ex) 
          • 1-3-1-4. 이원반복측정 분산분석 (Two-way Repeated Measures ANOVA) → ex)

 

 

 

1. 일(1)표본 Z검정 (One-sample Z test)

  • 일(1)표본 Z검정은 다음 아래와 같은 상황에서 진행되는 가설검정 방식입니다.
    • 한 집단의 평균을 검정(test)하고 싶은 경우
    • 해당 집단의 (모)평균과 (모)분산을 알고 있다고 가정할 경우
  • 일(1)표본 Z검정이라 불리는 이유는 모집단으로부터 추출한 하나의 표본과 표준화된 표준분포(→X축을 Z라고 표현)를 기준으로 가설검정을 하기 때문입니다 (자세한건 천천히 설명을 통해 알아보도록 하겠습니다)
  • 일(1)표본 Z검정이 어떤 철학을 기준으로 하고 있고, 어떤 순서로 검정이 이루어지는지 알아보겠습니다. 
    • Hint: 모평균 신뢰구간, 유의수준, 유의확률(p-value)

 

1-1. 양측검정 (Two-tailed test) 기준으로 설명

(↓↓↓중심극한정리 내용 참고↓↓↓)

https://89douner.tistory.com/198

 

[통계학]3.정규분포를 따른다는 의미 (Feat. 중심극한정리)

안녕하세요. 이번 글에서는 정규분포에 대해서 설명하도록 하겠습니다. 본래 정규분포는 연속확률분포이기 때문에 확률편에서 설명하는 것이 맞지만, 통계편에서 설명드리는 이유는 아래와 같

89douner.tistory.com

 

(↓↓↓신뢰도 관련 개념 설명 사이트↓↓↓)

https://www.youtube.com/watch?v=1WSTBVFeQ-4 

 

(↓↓↓양측검정 관련 예시 사이트↓↓↓)

https://www.youtube.com/watch?v=xBINhrCQB-g 

 

 

 

1-2. 단측검정 (One-tailed test) 예시

  • 단측검정도 양측검정과 같은 철학을 기반으로 합니다.
  • 다만, 표준화된 표본평균분포 기준으로 유의수준 5%가 오른쪽에 모두 할당되거나, 왼쪽에 모두 할당되는 것이 양측검정과의 차이라고 볼 수 있습니다.

[예시] K제과 회사는 자신들이 생산하는 젤리의 표본을 무수히 많이 추출한 결과 (표본크기≥30이상, 표본개수=多), (중심극한정리에 의해) 무게는 평균60g 이고 5g정도의 표준편차를 갖는 정규분포를 형성한다고 발표했습니다. 하지만, K회사의 경쟁회사인 S회사는 K회사에서 제시한 평균이 잘 못 됐다고 생각하여 허위과장이 아닌지 의심하고 있습니다. S회사는 어떻게 K회사가 제시한 평균을 어떻게 검정할 수 있을까요?

 

 

(↓↓↓일(1)표본 Z검정 (단측검정)예시↓↓↓)

https://www.youtube.com/watch?v=DxOct8A-BXU 

 

 

 

[Q. 언제 양측검정을 사용하고, 언제 단측검정을 사용하나요?]

두 집단의 평균이 같은지 다른지 검정할 때는 양측검정 한쪽이 다른쪽보다 큰지 아닌지 검정할 때는 단측검정

 

 

[생각해보기]

딥러닝을 이용한 행동인지 프로그램을 개발했다. 해당 프로그램은 치매환자의 행동패턴을 분석하고, 특정패턴이 발견되면 치매환자라고 분류한다. 이러한 특정패턴은 특정 수치값 이상이면 치매와 관련된 패턴이라고 인식되는데, 실제 치매환자들 기준으로 측정한 결과 치매환자로 분류하는 특정 수치 값은 평균50, 분산1 인 정규분포 범위를 갖는다고 한다. 이때, 다른 연구자들이 이 수치 값이 맞는지 100개의 sample을 추출해 Z검정을 실시하고, 해당 프로그램이 통계적으로 참인지 아닌지 구분할 수 있다. 

 

 

 

 

(↓↓↓일(1)표본 Z검정을 엑셀로 하는 방법 (단측검정, 양측검정 모두 포함)↓↓↓)

https://www.youtube.com/watch?v=LnaXcz2GoAo 

 

안녕하세요. 

이번글에서는 가설을 검정(test)하는 큰 흐름을 알아보도록 하겠습니다.

 

 

1. 통계적 가설검정 방식 (Feat. 귀무가설과 대립가설)

  • "A백신이 효과가 있다"는 가설을 검증한다고 해보겠습니다.
  • 일반적으로 생각했을 때는, "A백신이 효과가 있다"라는 것을 바로 검증하려고 시도할 것 입니다.
  • 하지만, 통계적인 관점에서 가설을 검정하는 방식은 조금 다릅니다.
  • 내가 주장한 가설과 반대되는 "A백신이 효과가 없다"라는 가설을 세우고, 이 가설이 틀렸다는 것을 보여줌으로써, 내가 주장한 가설이 참임을 증명하는 방식이 통계적인 가설검정 방식입니다 
  • 이때, 내가 주장한 가설과 반대되는 가설을 '귀무가설(Null hypothesis, \(H_{0}\))'이라고 하고, 내가 주장하는 가설을 '대립가설(Alternative hypothesis, \(H_{1}\))'이라고 합니다.  
    • 귀무가설(Null hypothesis, \(H_{0}\)): 돌아갈 귀, 없을 무 → 처음부터 버릴 것을 예상하는 가설 또는 틀리기를 바라는 가설(?)
    • 대립가설(Alternative hypothesis, \(H_{1}\): → 연구 가설 또는 유지 가설이라고도 부르는데 귀무가설 대립하는 명제 → 귀무가설을 대체하고 싶은 가설 즉, 귀무가설이 틀렸고 내가 세운 가설이 맞기 때문에 귀무가설을 대체할 수 있다 (alternative)고 생각하는 가설

 

[가설검정 순서]

※ 아래 사진은 가설검정이 이루어지는 순서입니다. 이번글에서는 '귀무가설/대립가설' 부분만 살펴보고, 다음글에서 부터 "유의 수준~검정통계량"에 대해서 알아보도록 하겠습니다.

이미지 출처: https://www.slideshare.net/ssuser64f3dc/ss-72602596
이미지 출처: http://blog.naver.com/PostView.nhn?blogId=afterglow25&logNo=110124544645

 

 

 

2. 가설의 종류

  • 앞서 '귀무가설'과 '대립가설'에 대해서 알아보았습니다.
  • 그런데, '가설'의 종류에 따라 검정방식이 달라진다는 것을 알고 있으신가요?
  • 즉, '가설검정'방식은 '가설'의 종류에 따라 굉장히 다양하기 때문에, 가설검정에 있어서 가장 중요하고, 제일 먼저해야 할 일은 '가설'의 종류를 파악하는 것입니다.
  • 예를 들어, 아래와 같은 귀무가설들이 있다고 해보겠습니다.
    • ex1)  "어떤 집단의 키가 (평균적으로) m이다"
    • ex2)  "두 집단의 특징이 (평균적으로) 같다"
    • ex3)  "어떤 집단에 특정 처리를 했을 때, 해당 집단의 특성이 (평균적으로) 전과 후가 같다"  
  • 위의 세 가지 가설들은 각각 가설검정 방식이 다릅니다.
  • 그렇다면, '가설'의 종류들을 어떻게 나눌 수 있을까요? 지금부터 알아보도록 하겠습니다.

 

 

2-1. 자료형(data type)의 성격

  • 가설의 종류를 살펴보기 전에 배경지식으로 알아두어야 할 것이 가설에 기반이되는 데이터(변수, 자료)의 유형입니다. 

[자료형 종류]

  • 범주형 (categorical data) = 질적변수 (qualitatitve variable) → 몇 개의 범주로 나누어진 데이터 → 수량화 불가능
    • 명목형(nominal data) → '순서'에 의미가 없는 분류형 → ex) 성별(남/녀), 성공여부(성공/실패), 혈액형(A/B/O/AB)
    • 순서형(ordinal data) → '순서'에 의미가 있는 분류형 → ex) 교육수준(초졸=1, 중졸=2, 고졸=3, 대졸 이상=4), 간강상태(좋음=3, 보통=2, 나쁨=1) 
  • 수치형 (numerical data) = 양적변수 (quantitive variable) → 수량화 가능
    • 이산형(discrete data) → 이산적인 값을 갖는 데이터 (이산확률분포의 이산확률변수) → ex) 연령(10대, 20대, 30대, ....) 
    • 연속형(continuous data) → 연속적인 값을 갖는 데이터 (연속확률분포의 연속확률변수) → ex) 신장, 체중, 혈압

 

2-2. 가설의 종류에 따른 가설검정 방법들

 

[↓↓↓위의 그림 텍스트로 정리한 것↓↓↓]

  • '차이'와 관련된 검정
    1. '평균'의 차이를 검정 하고 싶을 때
      • 1-1. 비교하는 집단이 하나일 때 
        • 1-1-1. 모분산을 알고 있는 경우 & 표본이 클 때
          • 일(1)표본 Z 검정 (One-sample Z test) → ex) 귀무가설(\(H_{0}\)): 한국의 평균은 K이다.
        • 1-1-2. 모분산을 모르는 경우 & 표본이 작을 때
          • 일(1) 표본 T 검정 (One-sample T test) → ex) 귀무가설(\(H_{0}\)): 한국의 평균은 K이다.
      • 1-2. 비교하는 집단이 둘일 때
        • 1-2-1. 모분산을 알고 있는 경우 & 표본이 클 때
          • 이(2)표본 Z 검정 (Two-sample Z test) → ex) 귀무가설(\(H_{0}\)): 남, 녀간의 평균에 차이가 없다.
        • 1-2-2. 모분산을 모르는 경우 & 표본이 작을 때
          • 1-2-2-1. 독립표본 T 검정 (Independent Sample T test) → ex) 귀무가설(\(H_{0}\)): 남, 녀간의 평균에 차이가 없다.
          • 1-2-2-2. 대응표본 T 검정 (Paired Sample T test) → ex) 귀무가설(\(H_{0}\)): 남, 녀간의 평균에 차이가 없다 & 해당 차이를 반복해서 검증 (한 달간 간격을 두고 측정: 1개윌 뒤, 2개윌 뒤, 3개윌 뒤, ....)  
      • 1-3. 비교하는 집단이 셋 이상일 때
        • 1-3-1. ANOVA (분산분석)
          • 1-3-1-1. 일원 분산분석 (One-way ANOVA) → ex) 귀무가설(\(H_{0}\)): 한국, 미국, 독일의 평균에 차이가 없다
          • 1-3-1-2. 반복측정 분산분석 (Repeated Measures ANOVA) → ex) 귀무가설(\(H_{0}\)): 한국, 미국, 독일의 평균에 차이가 없다 & 해당 차이를 반복해서 검증 (한 달간 간격을 두고 측정: 1개윌 뒤, 2개윌 뒤, 3개윌 뒤, ....)  
          • 1-3-1-3. 이원 분산분석 (Two-way ANOVA) → ex) 
          • 1-3-1-4. 이원반복측정 분산분석 (Two-way Repeated Measures ANOVA) → ex)
    2. '분산'의 차이를 검정 하고 싶을 때 
      • 2-1. 비교하는 집단이 하나일 때 
        • Chi square (카이검정) → ex) 귀무가설(\(H_{0}\)): 프로야구 선발투수들 직구구속의 분산은 K이다. → 분산이 K이인지 검증
      • 2-2. 비교하는 집단이 둘일 때 
        • F 검정 (F test) → ex) 귀무가설(\(H_{0}\)): LG 선발투수들 직구구속과 삼성 선발투수들 직구구속 분산이 같다. 
  • '관계'와 관련된 검정
    1. 범주형변수끼리 비교
      • 1-1. Chi squre (카이제곱 검정)
    2. 수치형변수끼리 상관관계 비교
      • 2-1. 상관분석 (Correlation) → 변수 (자료) 들끼리의 '증감'이나 '상관정도'만 나타낼 뿐, 인과관계를 나타내지는 못합니다 → 관련개념: 공분산(covariance), 상관계수(correlation coefficient) → 선형대수 PCA 개념에서 활용되기도 함
    3. 변수끼리의 인과관계 비교 (독립변수&종속변수) → 종속변수는 반응변수라고도 함
      • 3-1. 회귀분석 (Regression) → 독립변수들과 종속변수간의 인과관계를 파악하는 분석기법
        • 3-1-1. 변수들이 수치형 변수에 속함
          • 3-1-1-1. 단순 회귀분석 (Linear Regression) → ex) \(Y=aX=f(X)\) → 독립변수, 종속변수간의 선형함수관계를 찾는 것
          • 3-1-1-2. 다중 회귀분석 (Multiple Linear Regression) → ex) \(Y=aX_{1}+bX_{2}+\cdots+zX_{n}=f(X_{1}, X_{2}, \cdots, X_{n})\) → 다수의 독립변수와 단일 종속변수간의 선형함수관계를 찾는 것
        • 3-1-2. (독립변수=범주형 or 연속형 변수) and (종속변수(반응변수) = 명목형 or 이분형 (0 or 1 값을 가짐) 변수) 
          • 3-1-2-1. 로지스틱 회귀분석 (Logistic Regression) → ex) 여러 독립변수들로부터 두 범주만 가지는 반응변수를 예측 → (확률 관점으로 봤을 때) 종속변수 값이 0.5보다 크면 반응(1=true)하고 작으면 반응하지 않음(0=false)

 

이미지 출처: https://blog.naver.com/cjworud/10094919262

 

 

※ 다음 글에서는 가설검정 종류들을 차례대로 알아보도록 하겠습니다.

안녕하세요.

이번 글에서는 정규분포에 대해서 설명하도록 하겠습니다.

본래 정규분포는 연속확률분포이기 때문에 확률편에서 설명하는 것이 맞지만, 통계편에서 설명드리는 이유는 아래와 같습니다.

  • 정규분포는 연속확률분포입니다.
  • 하지만, 정규분포를 사용한다는 것에는 다양한 통계적 철학(사고)를 전제하고 있습니다.
  • 그렇기 때문에, 통계학 파트에서 다루는 것이 좋다고 판단했습니다.

이미지 출처: https://regressiontoyou.tistory.com/30

 

그럼 지금부터, 정규분포에 대한 수학적 정의를 설명하기 앞서, 왜 정규분포가 통계에서 사용되는지 설명을 해보도록 하겠습니다.

 

 

 

 

1. 가설점정을 한다는 의미 (Comparison by box plot)

  • 우리가 세운 가설이 옳다고 주장하기 위해서는 실험군과 대조군의 차이를 증명해야 합니다.
  • 예를 들어, "운동이 간 수치 향상에 효과가 있다"라는 가설을 증명한다고 해보겠습니다.
  • 우선 실험대상자를 30명 정도 선별하고 아래와 같이 실험을 진행했다고 해보겠습니다.
    • A group (실험군): 운동하기 전 간 수치 측정
    • B group (대조군): 운동한 후 간 수치 측정
  • A, B group의 운동능력에 따른 간 수치 차이가 통계적으로 유의미한지 살펴봅니다.
  • 보통 실험군에 대한 통계량과, 대조군에 대한 통계량을 box plot으로 표현하며, 이 둘 간의 차이가 유의미한지 시각화해줄 수 있습니다. (→ 어떻게 가설검정이 진행되는지는 가설검정 파트에서 설명하도록 하겠습니다.)

이미지 출처: https://www.datanovia.com/en/blog/how-to-add-p-values-onto-basic-ggplots/

 

(↓↓↓Box plot에 대한 설명↓↓↓)

https://89douner.tistory.com/200

 

[통계학]1. 통계학의 전체 구성도 (Feat. 기술통계, Box plot, 추론통계)

안녕하세요. 이번 글에서는 통계학에 대한 전반적인 틀에 대해서 설명해보도록 하겠습니다. 0. 통계학이란? 0-1. 통계학의 정의 Statistics is the discipline that concerns the collection, organization, anal..

89douner.tistory.com

 

  • 하지만, 위와 같이 30명만 선정하는 것이 문제가 되는 경우가 있습니다. 
  • 앞선 예시를 기반으로 아래 두 가지 문제를 살펴보겠습니다..

 

1-1. 표본집단이 하나만 있을 때 발생하는 문제점 (1) - 양의 관점

  • 가설검정을 통해 실험군과 대조군이 유의미한 차이를 보여 제가 세운 가설을 컨퍼런스에서 발표한다고 해보겠습니다.
  • 그런데, A신문사 기자가 "실험군, 대조군에 속한 선별된 인원(=30명)만 비교한 것으로 우리나라 사람들에게도 똑같이 적용될 수 있을지 의문이다"라고 말합니다. → 즉, 선별된 표본 30명이 우리나라 국민전체인 모집단을 대표할 수 있느냐라는 질문입니다.
    • 예를 들어, 선별된 30명의 사람들 대부분이 운동직전에 간에 좋은 음식을 먹어서 간 수치가 좋아진 것일 수도 있죠. 그렇기 때문에, 또 다시 다른 사람들을 30명 선별해 운동을 시킨 후 간 수치를 측정해본다면, 간 수치가 크게 개선되지 않을 가능성도 있습니다. 

1-1. 표본집단이 하나만 있을 때 발생하는 문제점 (2) - 시간의 관점

  • 이번에는 B신문사 기자가 "실험군, 대조군을 딱 한 번 실험해본걸로 충분한거냐?"라는 질문을 했다고 해보겠습니다.
    • 예를 들어, 실험을 했던 그 날 유독 실험군의 간 수치가 (운동을 통해) 개선된 것일 수 있습니다.
    • 즉, 다른 날에 했으면 실험군의 간 수치가 개선 개선되지 않을 가능성도 있다는 뜻이죠.

 

  • 결국, 앞서 언급한 두 문제들이 좀 달라 보이지만 결국, 다수의 표본집단을 선별하는 것이 필요하다는 결론을 보여줍니다.
  • Q. 그렇다면, 앞서 하나의 표본집단은 box plot으로 표현했는데, 다수의 표본집단들은 어떻게 표현하면 좋을까요? 다시말해, 다수의 표본집단들을 기반으로 어떻게 모집단을 표현할 수 있을까요? 이에 대한 답을 하기 위해 중심극한정리를 알아보도록 하겠습니다.

 

 

 

 

2. 중심극한 정리 (Central Limit Theorem))

  • 중심극한 정리란 "모집단의 분포에 상관없이 표본크기가 커질수록 (적어도 30개 이상) 표본평균 \(\bar{X}\) 의 분포가 정규분포에 가까워진다는 이론"입니다.
  • 예를 들어, 설명해 보겠습니다. (아래 그림(사진)과 같이 보시면 더 좋습니다.)
    • 우선 우리는 모집단의 분포를 모르는 상태입니다. (현실적으로 모집단을 파악하는건 불가능에 가깝습니다. 그래서, 통계학을 통해 표본을 추출하고 표본통계량을 기반으로 모집단과 관련된 모수들을 추정하는 것이죠)
    • 모집단의 분포를 파악하기 위해서 표본(집단)들을 추출합니다.
    • 개별적인 표본들(표본집단1, 표본집단2, ... 등)은 각각 별개의 확률분포를 갖고 있을 가능성이 큽니다.
    • 개별 표본들의 평균을 내면 표본평균의 분포를 구할 수 있다. (→ 표본평균 분포에 대한 개념은 우측 "링크"를 참고해주세요.)

 

  • 각각의 표본평균은 개별 표본집단을 대표하는 값입니다. 즉, 각각의 표본집단들의 대표를 모아두면 그것이 모집단을 상징한다고 가정할 수 있게됩니다. 

  • 그래서, 표본집단들의 대표인 표본평균들을 확률분포로 표현하면 모평균의 분포가 됩니다.
  • 중심극한정리에 따르면 표본(집단)크기가 커질 수록 (적어도 30개 이상) 표본평균의 분포가 정규분포에 가까워지기 때문에 모집단의 분포를 정규분포로 추론해볼 수 있습니다. → 통계학에서는 적어도 표본(집단)의 크기가 30개 이상이 되어야 한다고 합니다.
    • 표본의 크기 = 각 표본 집단에 속한 원소의 개수 = {x1, x2, ..., x3} 
    • 표본평균들의 평균이 모평균과 같다는 개념(→관련링크)과 같이 생각해봐도 좋을 것 같습니다 

 

(↓↓↓4:27초부터 시뮬레이션을 통한 직관적 설명↓↓↓)

https://www.youtube.com/watch?v=iTNHQXGIEuU 

 

 

[야구를 통한 중심극한정리 예시]

  • 일반적인 현상을 통계로 나타낼 때, 대부분 평균주위에 많이 몰려있을 확률이 높습니다. 이는 중심극한정리를 통해 설명될 수 있습니다.
    • 예를 들어, 대한민국 프로야구 선발선수들의 직구 구속을 측정한다고 해보겠습니다.
    • 팀 당 선발투수의 직구 구속을 측정했다고 가정해보겠습니다.
      • LG는 선발진이 강해서 150대를 던진다고 해보겠습니다. (무적LG 만세!)
      • 삼성은 선발진이 리그 평균이라 대부분 140대를 던진다고 해보겠습니다.
    • 총 30개 팀들의 평균 구속을 산출한 후, 각 팀 평균들의 분포 (=표본평균 분포)를 나타냈더니 평균 140대이면서 정규분포를 구성하게 됩니다. (By 중심극한정리)
    • 즉, 프로야구 선발투수들의 투구들은 대부분 평균 140대일 것이고, 150대 투수들과 130대 투수들은 평균보다 적을 것이라고 추정해볼 수 있습니다. 

 

 

2-1. 표본의 크기가 충분히 크다면 중심극한 정리가 성립한다.

  • 중심극한 정리를 공부하면서 가장 혼동되는 개념이 표본크기와 중심극한정리의 관계입니다.
  • 앞서 설명한 것을 따르면, 표본크기가 적어도 30개 이상이고, 표본(집단)개수를 많이 추출해야 표본평균분포가 정규분포를 따른다고 보여집니다.
  • 하지만, 아래 시뮬레이션을 보면 흥미로운 것이 표본크기인 n의 개수가 커질 수록, 표본(집단)개수(=Number of sampling)의 수가 줄어들어도 중심극한 정리가 형성되는 것을 볼 수 있습니다.

[시뮬레이션 예시]

  • 모집단이 지수분포를 따른다고 가정해보겠습니다.

 

  • 모집단에서 표본크기2를 갖는 20000개의 표본(집단)개수를 추출하여 표본평균분포를 그리면 아래와 같습니다.

 

  • 이번에는 표본크기를 36개로 늘려보겠습니다. 표본크기를 늘려보니 표본(집단)개수가 7000개만 돼도, 더욱 정교한 정규분포를 형성하는 것을 볼 수 있습니다.

 

  • 표본크기가 100이 되면, 표본평균분포가 정규분포를 따르기 위해 필요한 표본(집단)수는 현격히 줄어들게 됩니다.

 

  • 결국 표본크기가 충분히 크면 모집단으로 부터 추출하는 표본(집단)개수가 하나여도 정규분포를 이룰 수 있다는 추론이 가능해집니다.
  • 개인적으로 생각했을 때는 결국 모집단으로부터 추출되는 표본의 총 수는 "표본크기×표본(집단)개수"가 되기 때문이 아닐까 싶습니다. 즉, 표본(집단)개수가 하나여도 표본크기가 엄청 크다보면 모집단의 평균에 해당하는 원소들이 가장 많이 추출이 될 것이기 때문입니다 (=자연스럽게 모집단 평균이 아닌 원소들이 선별되는 횟수가 점점 줄어들겠죠)

이미지 출처: https://m.blog.naver.com/mykepzzang/220851280035
이미지 출처: https://m.blog.naver.com/mykepzzang/220851280035

 

 

 

(↓↓↓중심극한정리 시뮬레이션 싸이트↓↓↓)

http://www.ltcconline.net/greenl/java/Statistics/clt/cltsimulation.html

 

 

 

 

 

3. 정규분포(Normal distribution = Gaussian distribution)의 수학적 의미(정의) 

  • 앞서 중심극한 정리를 통해 아래와 같은 이야기를 할 수 있다고 했습니다.

 

"일반적인 현상을 통계로 나타낼 때 대부분 평균 주위에 가장 많이 몰려있고, 그 수치가 평균보다 높거나 낮은 경우 정규분포를 따른다고 합니다. "

 

  • 그렇다면, 정규분포의 수학적인 정의는 어떻게 될까요?
  • 정규분포는 영어로 normal distribution이라고 하는데, 가우스가 이러한 확률분포를 처음 발견했기 때문에 Gaussian distribution이라고 부르기도 합니다.

 

 

 

 

 

 

4. Parameterized by precision

  • 분산 값을 통해 알 수 있는 사실은 데이터들이 평균 보다 얼마나 멀리 떨어져 있는지 알 수 있습니다.
  • 하지만, 몇몇 사람들은 precision이라는 개념이 분산(variance)보다 더 직관적(intuitive)일 수 있다고 합니다.
  • 그 이유는, precision 값을 이용하면 평균 주위에 값들이 얼마나 많이 몰려있는지 알 수 있는데, 대부분의 경우 데이터들이 평균으로 부터 얼마나 떨어져 있는지 보다는 평균 주위에 얼마나 몰려있는지를 파악하는게 더 유용할 때가 있기 때문입니다.
  • Precision(=\(\beta\))은 분산의 반비례 입니다. 

 

 

 

 

5. Normal distribution 수식 도출

  • 수식 유도는 아래 영상을 참고하시면 될 것 같습니다.

 

https://www.youtube.com/watch?v=sFMjrnI93b4 

 

 

 

 

6. 정규분포 With 엑셀

실제 연구나 현업에서는 정규분포를 어떻게 구하는지 엑셀을 통해 간단히 알아보겠습니다.

  • 먼저, 우리에게 어떤 데이터들이 주어져 있다고 합시다.
  • 그럼 이러한 데이터들을 통해 평균, 분산, 표준편차 값을 구할 수 있을 겁니다.

(↓↓↓엑셀을 이용한 정규분포 구하는 방법↓↓↓)

https://www.youtube.com/watch?v=Ke0uCHgAYJw 

 

 

 

 

 

 

 

7. 정규분포의 활용 (Feat. 가설검정)

  • 지금까짖 정규분포를 배운 이유는 "우리가 세운 가설을 검정(testing)하는데 유용한 도구로 사용"되기 때문입니다.
  • 이 부분에 대한 자세한 설명은 '가설검정' 파트에서 설명드리도록 하겠습니다.

(↓↓↓중심극한정리 설명과 이것이 가설검정에 쓰이는 예시를 간단하게 보여주는 영상↓↓↓)

https://www.youtube.com/watch?v=YAlJCEDH2uY 

 

이미지 출처: https://yeomko.tistory.com/37

 

이미지 출처: https://techntalk.tistory.com/entry/%EB%B0%95%EC%8A%A4%ED%94%8C%EB%A1%AF-Box-Plot%EA%B3%BC-%EC%A0%95%EA%B7%9C%EB%B6%84%ED%8F%ACnormal-distribution%EC%9D%98-%EA%B4%80%EA%B3%84-%EB%B0%95%EC%8A%A4%ED%94%8C%EB%A1%AF-%EA%B7%B8%EB%A6%AC%EB%8A%94-%EB%B2%95

 

안녕하세요.

지난 글에서 표본통계량 중 표본평균, 표본분산, 표준편차에 대해서 설명했으니,

이번 글에서는 남은 표본 통계량인 공분산과 상관계수에 대해서 설명해보도록 하겠습니다.

 

사실 표본통계량에서 공분산, 상관계수와 모집단에서의 공분산, 상관계수의 차이는 표본분산의 차이를 보면 이해할 수 있습니다. 하지만, 모집단 상관계수에서의 n과 표본집단 상관계수에서의 n-1 이 각각의 식에서 약분되기 때문에, 최종 수식은 동일하다고 볼 수 있습니다. 그래서, 이번 글에서는 공분산, 상관계수라는 개념 자체만을 설명하는데 집중해보도록 하겠습니다.

 

이미지 출처: https://math100.tistory.com/111

 

 

우선, 공분산과 상관계수를 설명하기에 앞서,

공분산과 상관계수를 배우는 이유는 "두 개 이상의 독립변수들 간의 관계를 분석하기 위함"이라는 점을 알아두시면 좋을 것 같습니다.

 

이미지 출처: http://contents.kocw.net/KOCW/document/2014/hanyang/maengseungjin/4.pdf

 

1. 상관분석

  • 상관관계분석을 하는 이유는 두 변수 (X,Y) 가 서로 얼마나 상관이 있는지, 얼마나 관련이 있는지 알아보기 위한 분석방법입니다.
  • 상관분석에는 '공분산', '상관계수'와 같은 개념들이 사용되는데 이에 대해서 알아보도록 하겠습니다.

 

 

 

 

 

2. 공분산 (Covariance)

  • 데이터가 2차원(X,Y) 이상으로 표현되는 순간 각각의 차원(or 축) X, Y은 해당 축과 관련된 평균 값과 분산 값을 갖게 됩니다.

이미지 출처: http://blog.naver.com/PostView.nhn?blogId=tae4ja99&logNo=10000463298&redirect=Dlog&widgetTypeCall=true&directAccess=false

 

  • 2차원 데이터는 2개의 변수(X,Y)를 갖게 되는데, 공분산을 이용하게 되면 두 변수 간의 (선형 or 상관) 관계를 나타낼 수 있습니다. (아래 공식 다음에 공분산이 어떻게 상관관계를 나타내는지 설명하는 예시가 있습니다)

2차원 데이터의 공분산 공식1
2차원 데이터의 공분산 공식2

 

 

  • 아래 예시를 보면 X, Y 변수간의 상관관계는 반비례 하다는 것을 알 수 있습니다. 즉, 공분산 값이 음수가 나오면 (독립변수 X와 Y는) 반비례한 관계를 갖고 있음을 알 수 있습니다.

 

  • 결과적으로 공분산을 통해 얻은 값을 통해 각각의 변수간의 상관관계는 아래와 같이 정리 할 수 있습니다.

 

  • 위에서 알아본 공분산식은 2차원 데이터를 기반으로 하지만, 다차원 관점에서 일반화 하면 아래와 같이 정리 할 수 있습니다.
  • 다차원 관점에서 살펴보긴 하지만 실제로 각각의 매트릭스에 원소는 두 가지의 변수만 고려하기 때문에 다차원 변수 중에서 관심있는 2가지의 변수들에 대한 상관관계를 골라서 찾아볼 수 있습니다.

Covariance Matrix

 

여기에서 변수는 Math, Physics, English라고 볼 수 있다. \(\sigma_{12}\) 를 보면 Math, Physics 간의 상관관계를 알 수 있다. 양수인것으로 보아 수학을 잘하면 물리를 잘한다는 것을 추론할 수 있다. (Covariance matrix는 symmetric한 것을 볼 수 있다)

 

 

2-1. 공분산의 특징1

  • 공분산의 특징 중 하나X, Y축에 해당하는 범위가 동일하다면 기울기가 1에 가까울 수록 공분산 값이 커진다는 점이다.

(오른쪽 하단 그래프 

 

 

 

2-2. 공분산의 특징2

  • 또 다른 특징으로는 데이터들이 평균과 같은 거리에 있고, X, Y축의 범위가 동일하다고 할 때, 흩어짐 정도가 크면 상대적으로 공분산 값이 작습니다. (아래 그림에서 좌측에 산점도(scattering point)에서 평균에 해당하는 데이터도 (x2,y2) 입니다. 그림을 잘 못그려서;;;)
  • 흩어짐의 정도는 해당 데이터들을 가장 잘 표현하는 선을 그렸을 때, 해당 선으로 부터 데이터들이 얼마나 벗어나 있는지 정도를 보고 판단합니다. (보통은 MSE(Mean Square Error)를 이용한 Linear regression을 통해 해당 라인(함수)를 추정하는데, 이에 대해서는 Linear regression 파트에서 설명하도록 하겠습니다) 

  • 참고로 공분산은 PCA(주성분 분석)에서도 사용되니 알아두시면 좋을 것 같습니다.

 

 

 

 

 

2. 상관계수 (Correlation Coefficient)

 

2-1. 공분산의 문제점

  • 데이터가 2차원이 이라고 했을 때, 해당 차원은 X, Y축으로 표현할 수 있습니다.
  • 이때 X, Y에 속하는 데이터들끼리 얼마나 관련이 있는지 알아보는 것도 중요합니다.
  • 공분산에서도 어느 정도의 관계성(정비례 or 반비례 or 서로 관련성 없음)을 파악할 수 있지만, X, Y 축에 해당하는 범위가 달라지면 두 변수 X, Y가 어느정도까지 관련성이 강한건지 알 수 없습니다. (→ X, Y축의 범위에 따라 값이 공분산 값이 달라진다는 점)
  • 아래 그림을 보면 데이터A의 공분산값이 데이터B의 공분산 값보다 큽니다. 하지만, X, Y 변수간의 관계성을 따져서 볼 때 데이터A에서의 X, Y의 관계와, 데이터B에서의 X, Y의 관계는 서로 같습니다. 그 이유는 서로 동일한 하나의 함수 (X=Y)로 표현가능하기 때문입니다 (관계라는 것 자체가 함수로 표현가능).

  • 아래 그림에서 볼 수 있듯이 또 다른 측면에서 봤을 때, 흩어짐의 정도가 데이터 A가 심할지라도 X, Y 축의 범위로 인해 데이터A의 공분산 값이 더 크게 나오는 경우가 있습니다. 
  • 그러므로 공분산을 통해 X, Y 변수간의 관계를 정확히 파악하기 힘듭니다.

 

 

2-2. 공분산의 문제 (X, Y축 범위)를 해결하기 위한 방법 (예시)

  • 그렇다면 X, Y축 범위에 관계없이 X, Y 변수간의 관계정도(상관관계)를 알아보기 위해서 어떻게 하면 좋을까요?
  • 먼저 예를 들어서 설명해보겠습니다.
    • 부자나라에 세 명의 부자가 있다고 합시다. 이 세명의 부자의 월급은 100, 200, 300 입니다. 이 부자의 나라에 월급 평균은 200이고, 분산 값은 \(\sqrt{\frac{100{^2}+0+100{^2}}{3}}\) 입니다.
    • 가난한 나라에 세 명의 거지가 있다고 합시다. 이 세명의 거지의 월급은 10, 15, 20입니다. 이 나라의 월급 평균은 15이고, 분산 값은 \(\sqrt{\frac{5{^2}+0+5{^2}}{3}}\) 입니다.
    • 그렇다면, 부자 나라에서 100을 버는 사람은 가난한 나라에서 어느 정도 위치에 있을까요? 

  • 이러한 문제에 답을 하기 위해서는 각 나라의 데이터들 간의 차이를 상대적인 비율로 알아보면 좋습니다. 분산이라는 것은 데이터들이 평균가 떨어져 있는 정도를 나타내는데, 당연히 범위가 큰 곳에 해당하는 분산 값도 클 것입니다. 그래서 해당 나라의 실제(절대적) 편차를 해당 나라의 분산 값으로 나누게 되면, 범위와 무관한 표준화된 편차값을 갖게 됩니다. 

https://m.blog.naver.com/algosn/221308973343

  • 즉, 부자나라에서 월급 100을 버는 사람은 상대적으로 봤을 때 가난한 나라에서 월급 10을 버는 것과 같다고 볼 수 있습니다.

 

 

2-3. 상관계수 (피어슨의 상관계수)

  • 위에서 설명한 예시를 일반화해서 수식으로 표현한 것이 상관계수입니다.
  • 두 변수간의 관계정도를 파악하기 위해서 상관계수라는 개념이 사용됩니다.
  • 상관계수 공식은 아래와 같습니다. (상관계수는 피어슨의 상관계수라는 이름으로도 사용됩니다)

  • 공분산에서는 X, Y축의 범위가 문제가 되니 각 축에 해당하는 X, Y를 표준화 해주게 되면 X, Y의 범위와 무관하게 상관관계를 파악하는데 큰 도움이 됩니다.
  • 결국, X축에 해당하는 편차들을 표준화하고, Y축에 해당하는 편차들을 표준화 한후, 표준화된 X, Y축에 대해서 공분산을 적용해주면, 이것이 상관계수를 구하는 식이 됩니다.

 

  • 아래 그림을 보면 평균으로부터의 데이터A에서 X, Y와의 상관관계가 데이터B에 있는 X, Y와의 상관관계가 동일함을 알 수 있습니다. 

 

 

상관계수는 벡터의 내적이다. - 공돌이의 수학정리노트

 

angeloyeo.github.io

 

  • 지금까지 배운 상관계수 개념을 그림으로 요약하면 아래와 같다고 할 수 있습니다.

http://openuiz.blogspot.com/2016/12/blog-post.html

 

 

 

(↓↓↓엑셀로 상관계수 구하기↓↓↓)

https://www.youtube.com/watch?v=JvUgIr3_MiY 

 

표안녕하세요.

지난 글에서 통계학에 대한 제 개인적인 정의를 내린바 있습니다.

 

"나의 주장(가설)을 보편 타당하게 증명하는 과정"  

 

  1. 가설설정(Statistical hypothesis setting) = 내가 주장하려고 하는 바 → ex)A백신은 효과가 있다
  2. 데이터 수집 (조사: survey) → ex)실험군, 대조군 표본조사 표본집단 형성
  3. 기술통계 (Descriptive statistics; 기술 통계량) → ex) 표본집단으로부터 표본 통계량 획득
  4. 추론통계 
    • 추정 → ex) 표본 통계량으로부터 모수(parameter=모집단의 통계량) 추정
    • 가설검정(Statistical hypothesis test) → ex) 귀무가설을 통해 내가 세운 (대립)가설이 맞는지 증명

https://m.blog.naver.com/PostView.naver?blogId=kangoh7378&logNo=220008103745&proxyReferer=https:%2F%2Fwww.google.com%2F

 

이번 글에서는 표본 데이터들이 수집되었다는 가정하에 표본 데이터(집단)로부터 (표본) 통계량 중 표본평균, 표본분산, 표준오차를 구하는 방법에 대해 알아보도록 하겠습니다.

 

이미지 출처: http://contents.kocw.net/KOCW/document/2014/hanyang/maengseungjin/4.pdf

 

 

1. 표본평균

  • 표본평균을 설명하기 위해 예를 들어보겠습니다.
    • 대한민국 국민들의 키 평균을 구하기 위해 지역별로 표본조사한다고 가정해보겠습니다.
    • 지정된 지역별로 각각 100명의 사람들을 선별하여 키를 측정하면, 지역별 키 평균이 나오게 됩니다.
    • 이때, A지역, B지역, C지역 등등이 있는데, 각 지역이 개별 표본집단들이 됩니다.

 

  • 위와 같은 예시 들었을 때, 표본 평균은 말 그대로 각각의 표본집단들의 평균을 뜻합니다. 

 

표본평균을 구할 때, 아래와 같이 확률변수 X들을 모두 더 해주는 것으로 되어 있는데, 위에서 가정한 바에 따르면 아래 수식의 \(\X_{1}\) 은 특정 지역에서 키를 측정한 첫 번째 사람이 됩니다.

 

 

 

1-1. 표본평균들의 평균은 모평균과 같다 (객관적인 해석 VS 주관적인 해석)

1-1-1. 객관적 해석

  • 이 부분은 예시를 통해 설명해보겠습니다.
  • 먼저, 한 부족국가에 총 4명인 사람이 있다고 해보겠습니다. 그리고, 이 부족국가의 부족원키는 170, 160, 170, 180이라고 해보겠습니다. → 하나의 부족국가의 부족원들을 모집단이라고 가정합니다.
  • 해당 부족원들의 키를 확률변수 X라 하면, X의 확률분포는 아래와 같습니다.

  • 확률변수 X의 모평균과 모분산은 아래와 같습니다. → 수학적 확률

 

  • 이번에는 "부족원={170, 160, 170, 180}"라는 모집단에서 2개씩 표본을 (복원)추출하여 표본집단을 구성한다고 해보겠습니다.
  • 첫 번째 뽑는 사람의 키를 \(X_{1}\), 두 번째 뽑는 사람의 키를 \(X_{2}\) 라고 한다면, 표본집단의 경우의 수는 아래의 테이블 처럼 16가지가 됩니다.

 

  • 그렇다면 이번엔 "표본평균들의 평균은 모평균과 같다"는 것을 아래 순서대로 증명해보겠습니다.

 

  • 개인적으로 중요하다고 생각하는 부분은 아래와 같습니다.
    • 위에서 가정한 표본집단의 경우의 수는 모집단에서 2명을 뽑을 때 표현할 수 있는 모든 조합입니다.
    • 그런데 현실에서는 이러한 경우의 수를 모두 포함하지 못할 수도 있죠.
    • 그렇다면, 어느정도의 경우의 수를 고려해야할까요? → 이에 대한 해답은 '중심극한정리'편에서 하도록 하겠습니다.

(↓↓↓표본평균들의 평군과 모평균이 같다는 것을 설명해주는 유튜브 링크↓↓↓)

https://www.youtube.com/watch?v=Dc_lavvuvko 

 

 

 

1-1-2. 주관적 해석

 

※ 직관적인 이해를 위해 '큰 수의 법칙'과 연동시켜 이해해보려고 했으나, 정확하지 않을 가능성이 높으니 이상하다고 생각하시는 부분은 지적해주시면 감사하겠습니다. (아래 설명에서 나오는 큰 수의 법칙은 아래 "1-2. 큰 수의 법칙 (대수의 법칙: Law of large numbers)" 부분을 참고해주세요) 

(무수히 많이 뽑다보면 = K→∞)

 

  • 위의 예시를 통해 크기가 1인 표본평균의 평균은 모집단의 평균과 같다는 것을 알게 되었습니다. 이러한 사실을 기반으로 표본평균의 평균이 모집단 평균과 같다는 사실을 입증해보겠습니다.

 

 

 

 

(↓↓↓ 표본평균 설명 유튜브 채널↓↓↓)

https://www.youtube.com/watch?v=mUnKM-XAA7g&list=PLmljWRabIwWBxh8V6eIODIz--B802mdLt&index=7 

https://www.youtube.com/watch?v=Je62uPML0L0&list=PLmljWRabIwWBxh8V6eIODIz--B802mdLt&index=3 

 

 

 

 

 

 

1-2. 큰 수의 법칙 (대수의 법칙: Law of large numbers) 

  • 큰 수의 법칙을 다루는 이유는 정규분포와 관계가 없지만, 정규분포와 관련있는 중심극한 정리와 혼동하는 경우가 많이 따로 설명을 하려고 합니다.
  • 우선 큰 수의 법칙 '어떠한 확률분포'와도 관계가 없는 개념입니다.
  • 확률에는 수학적 확률과 통계적(경험적) 확률이 있는데, '대수의 법칙'은 "통계적(경험적) 확률은 시행횟수가 많아지면 많아질수록 수학적 확률에 가까워진다"는 이론입니다.
  • 이에 대한 이해를 위해 두 가지 예시를 설명해 보도록 하겠습니다.

[예시1-동전]

  • 동전을 던졌을 때 1이 나올 수학적 확률은 1/6 입니다.
  • 하지만, 우리가 6번을 던졌을 때 경험적으로 1이 한 번도 안나올 수도 있죠.
  • 이때 시행 6번의 경험으로 1이 뽑힐 확률은 0/6 = 0 입니다.
  • 하지만, 대수의 법칙에 따르면 한 120번 도 던졌을 때는, 18번 정도 나올 것이고, 시행 120번의 경험으로 봤을 때 거의 1/6에 가까워진다고 합니다.

 

[예시2-상자]

  • 아래 상자 파란공 6개, 빨간색공 6개가 있다고 가정해보겠습니다.
  • 해당 상자에서 파란공이 뽑힐 확률은 6/12=1/2, 빨간공이 뽑힐 확률은 6/12=1/2 입니다.
  • 하지만, 실제로 4번 정도 뽑아보면 파란색 공이 뽑힐 확률과 빨간색 공이 뽑힐 확률은 각각 다릅니다.
  • 그런데, 시행횟수를 100번 정도 늘리면 결국 파란색 공이 뽑힐 확률과 빨간색 공이 뽑힐 확률이 상자안에서 빨간색, 파란색 공을 뽑을 수학적 확률에 근사하게 된다고 합니다. → 이것을 큰 수의 법칙이라 합니다.  

(↓↓↓클릭해서 보세요!↓↓↓)

이미지 출처: https://commons.wikimedia.org/wiki/File:(1186x2368)_Law_of_Large_Numbers.gif

 

 

  • 큰 수의 법칙을 다른 관점에서 보면, "표본집단의 크기가 커지면 그 표본평균이 모평균에 가까워진다"는 말과 같습니다.
  • 예를 들어, 대한민국 국민 4천명(=모집단) 중 선별된 100명의 키 평균 천만명의 키 평균 비교해보면, 천만명을 선별했을 때 측정된 평균 키 대한민국 국민의 전체 평균과 더 근접할 것 입니다.

 



1-1. 수학적 정의

  • 지금까지 설명한 '큰 수의 법칙' 수학적으로 정의하면 아래와 같습니다.

 

  • 위의 수식에 대한 예시를 보여드리겠습니다.
  • 표본의 크기인 n이 많아질 수록 경험적으로 수학적 확률에 근사합니다 (by 주사위 예시)

 

  • 즉, 큰 수의 법칙 수식을 다시보면, 시행(표본)횟수가 많아질 수록 통계적 평균과 수학적 평균의 차이가 매우작을 확률(=입실론일 확률=0.00000000001)이 100%라는 의미를 내포하고 있습니다.

 

 

(↓↓↓ 대수의 법칙을 보험에 적용한 사례↓↓↓)

https://www.youtube.com/watch?v=XrpoHF8JZXs 

 

 

 

 

 

2. 표본평균의 분산

  • 표본평균의 분산은 모분산을 n으로 나눈 것과 같다. (아래 Notation은 위에 적어놓은 표본평균의 평균에서 설명한 notation을 기반으로 설명했으니, 꼭 표본평균의 평균을 읽고 보시는걸 추천합니다)

 

 

(↓↓↓ 표본평균의 분산 설명↓↓↓)

https://www.youtube.com/watch?v=WfiRjHATlrg&list=PLmljWRabIwWBxh8V6eIODIz--B802mdLt&index=5 

 

 

 

 

3. 표본분산와 자유도(degree of freedom)

  • 앞서 표본평균과 모평균을 구하는 수식이 동일한 것을 알 수 있었습니다.
  • 그렇다면, 모분산을 구하는 수식과 표본분산을 구하는 수식도 동일할까요?
  • 먼저, 모분산식을 보면 이전에 배웠던 분산식과 동일합니다. 그렇다면, 표본분산식도 동일할까요?

 

  • 결론부터 말하자면, 표본분산식과 모분산식은 서로 다릅니다.
  • 왜 표본분산식은 n-1로 나누게 될까요? 이에 대한 해답을 찾기 위해 '불편 추정량(unbiased estimator)'이라는 개념을 알아보도록 하겠습니다.

 

 

2-1. 불편 추정량(unbiased estimator)

불편추정량을 알기 위해서는 '불편(unbias)'라는 뜻과, 추정량(estimator)라는 뜻을 알아야 합니다.

  • 추정량(estimator)이란 통계량을 의미합니다. 왜냐하면, 우리는 모집단의 모수를 알고 싶은데, 현실적으로 불가능 하기 때문에, 통계량을 통해 모수를 추정하기 때문이죠. 즉, 통계량이 모수를 추정하기 위한 estimator가 되는 거죠.
  •  그렇다면, 불편(unbias) 하다는 것은 무엇을 의미할까요? 아래의 사진을 통해 알아보도록 하겠습니다.

 

 

 

 

2-2. 표본분산식과 자유도의 관계

  • 먼저, 자유도가 무엇인지 살펴보겠습니다.
  • 자유도는 독립변수의 개수를 의미합니다.
  • "f(x,y,z) = x+y+z = 3"이라고 했을 때, 독립변수는 2개입니다. 왜냐하면 x, y 값을 알게되면 z값은 종속적으로 알 수 있기 때문이죠.
  • 그렇다면, 표본분산식과 자유도는 어떤 관계가 있을까요?
  • 결과부터 말하자면, 표본분산의 자유도는 n-1인데, 결국 불편추정량을 위해 변경된 표본분산의 분모 부분이 곧 표본분산의 자유도입니다. (어떤 특별한 개념이 있는 것이 아니고, 정말 말 그대로 분모 부분이 표본분산의 자유도일 뿐이죠). 

 

 

(↓↓↓ 표본분산 설명 유튜브 채널↓↓↓)

https://www.youtube.com/watch?v=faVIwae-wkw 

 

 

https://www.youtube.com/watch?v=CLrUbG4ASQo&list=RDCMUCVrs4KiLQz_gvVWWK1pKR1g&index=4 

 

https://www.youtube.com/watch?v=WfiRjHATlrg&list=PLmljWRabIwWBxh8V6eIODIz--B802mdLt&index=5 

 

 

 

3. 표준오차 (Standard error) = 표본평균들의 오차

 

(↓↓↓ 표준편차 설명 블로그↓↓↓)

https://hsm-edu.tistory.com/794

 

표준오차가 뭔가요? 표준편차랑 다른건가요?

모집단이 있습니다. 모집단의 평균을 μ(뮤), 표준편차를 σ(시그마)라고 합시다. 모집단의 평균이 궁금한데 모집단이 너무 커서 구할 수가 없었습니다. 모집단의 평균을 추정하기 위해 모집단

hsm-edu.tistory.com

 

 

지금까지 표본통계량인 '표본평균, 표본분산, 표준편차' 그리고 '표준오차'에 대해서 알아보았습니다.

다음글에서는 나머지 표본통계량에 해당하는 '공분산과 상관계수'에 대해서 알아보도록 하겠습니다.

 

이미지 출처: http://contents.kocw.net/KOCW/document/2014/hanyang/maengseungjin/4.pdf

 

 

 

 

4. 엑셀을 이용한 평균, 분산, 표준편차 구하는 방법↓↓↓)

https://www.youtube.com/watch?v=SUzBIYQB794 

 

안녕하세요.

이번 글에서는 통계학에 대한 전반적인 틀에 대해서 설명해보도록 하겠습니다.

 

 

0. 통계학이란?

0-1. 통계학의 정의

  • Statistics is the discipline that concerns the collection, organization, analysis, interpretation, and presentation of data.
  • 통계학이라는 개념안에는 데이터를 수집하고, 수집한 데이터를 조직하고, 이러한 데이터를 분석하여, 의미있는 해석을 도출하는 일련의 과정을 의미합니다.

이미지 출처: https://www.ipracticemath.com/learn/statistics

  • 오늘날 (수리)통계학에서 배우는 교재들을 살펴보면 "이미 수집되고 조직된(data collection, organization) 데이터"가 있다는 가정하에 시작됩니다.
  • 즉, 학교에서는 이미 잘 조직된 데이터(organization)를 기반으로 산술적 방법 (or 확률적 방법)을 기초로 하면서, 해당 데이터를 관찰, 정리, 분석 및 해석하는 방법을 연구하는 수학의 한 분야로써 (수리)통계학을 배우게 됩니다.

※ 오늘날에는 의미있는 데이터 종류를 선별 (ex: 특징값 추출, PCA, 등) 하고, 조직(orgainzation)하는 것이 굉장히 중요해지고 있으니 이러한 분야도 알아두시면 좋을 것 같습니다!

 

 

0-2 통계학이 사용되는 이유

  • 통계학이 사용되는 이유는 여러가지가 있지만 제가 생각하는 근본적인 이유는 "나의 주장이 통계적으로 합당함을 증명하기 위해서"입니다.
    • 기업을 설득하든, 실험연구를 통해 새로운 이론을 증명하든, 우리는 누군가를 설득시켜야하는 상황에 마주치게 됩니다.
    • 위와 같이 누군가를 설득시키기 위해선 나의 주장이 보편적으로 타당하다는 것을 증명해야 하는데, 보통 이를 위해서 통계학을 이용하게 됩니다.

이미지 출처: https://eunnae.tistory.com/12

 

  • 그렇다면, 통계학은 어떤 과정을 통해 나의 주장이 합당함을 증명할 수 있을까요?
  • 이번 글에서는 "나의 주장이 통계적으로 합당하다는 것을 증명"하는 대략적인 과정을 순차적으로 살펴보려고 합니다.
    1. 가설설정(Statistical hypothesis setting) = 내가 주장하려고 하는 바
    2. 데이터 수집 (조사: survey)
    3. 기술통계 (Descriptive statistics; 기술 통계량)
    4. 추론통계
      • 추정
      • 가설검정(Statistical hypothesis test)

 

 

1. 첫 번째 행위: 가설설정 및 데이터 수집 (조사: Survey)

1-1. 가설설정 (Statistical hypothesis setting)

  • 보통 우리가 어떤 주장을 할 때, 가설을 세우게 됩니다. 예를 들어, "A백신은 효과가 있다"라는 가설을 세웠다고 해보겠습니다. 이를 증명하기 위해서는 실험군과 대조군이 있어야 합니다.
    • 실험군 (Experimental group): 인위적으로 실험요인을 조작하여 그 결과 어떤 변화가 생기는지 알아보기 위한 집단
    • 대조군 (Control group): 변화를 준 실험군과 비교하기 위해 실험 요인에 아무런 변화를 주지않는 집단

이미지 출처: https://m.post.naver.com/viewer/postView.nhn?volumeNo=27615896&memberNo=44483563

  •  
  • 그럼 지금부터 A백신을 투여한 실험군과, A백신을 투여하지 않은 대조군을 이용해 실험을 하고, 통계적으로 "A백신이 효과가 있다"는 나의 가설을 증명해보겠습니다. 
  • 아아!! 잠시만요, 가설 증명을 하기 전에 무심코 지나친 부분이있습니다.
  • 바로, 실험군과 대조군 집단에 속한 데이터(실험 대상자)를 모집하는 과정입니다. 
  • 제대로된 실험을 하기 위해서 전 세계 사람들을 조사해야하지만, 현실적으로 불가능하겠죠?
  • 그렇다면, 어떤 방식으로 조사하면 좋을까요? 이에 대한 답을 찾기 위해 '데이터 수집(Survey)'방법에 대해 더 자세히 살펴보도록 하겠습니다.

 

1-2. 데이터 수집 (survey)

1-2-1. 전수조사 (census) = 전부조사 (complete enumeration)

  • 만약 전교생이 200명인 A 초등학교 학생들의 평균 몸무게를 측정한다고 해보겠습니다.
  • 200명 정도의 학생 몸무게를 측정하는건 어려운 일이 아니기 때문에 하루면 모두 측정가능하겠죠.
  • 위와 같은 경우, 해당 집단의 전(체의)수를 대상으로 조사하는 것이 가능한데, 이러한 조사를 전수조사라고 합니다.

 

1-2-2. 표본조사 (Sample survey)

  • 그런데, 대한민국 국민들의 몸무게 평균을 측정한다고 해보겠습니다.
  • 어느 세월에 4천만 국민의 몸무게를 측정할 수 있을까요?
  • 대부분 조사를 할 때, 모든 대상을 조사하는 것에는 현실적 어려움이 있기 때문에 모집단(population)으로 부터 표본집단(sampling) 선별 하게됩니다.
    • 모집단(populatioin): 통계적인 관찰의 대상이 되는 모든 데이터들 (ex: 전 국민) → 모집단에서 '모'는 "어미 모"를 의미하는데, 표본집단의 어머니 격이라는 뜻
    • 표본(sampling) (집단): 모집단을 대표하는 일부 데이터들 (ex: 각 지방별로 선별된 일부 국민들)→ 표본이라는 것은 본보기라는 뜻을 의미하는데, 모집단을 대표할 수 있는 (본보기가 되는) 집단이라는 뜻 → 모집단의 부분집합
  • 표본조사라는 단어에서 '표본'은 앞서 언급한 표본집단을 의미하는 것이고, '조사'라는 용어안에 굉장히 많은 과정들이 함축되어 있습니다. 아래 표본조사에 대한 정의를 살펴보면서 '조사'라는 용어에 어떤 과정들이 포함되어 있는지 살펴보는게 좋을 것 같습니다.

 "표본조사란, 모집단(population)에서 표본(sampling)을 뽑아서 표본집단의 통계량을 계산한 후, 표본집단의 통계량을 이용해 모집단의 모수(=모집단의 통계량=parameter)을 추론하고, 이를 이용해 내가 주장한 가설을 통계적으로 검증 (testing)하는 일련의 과정"을 의미합니다. 

  • 즉, 우리가 배우는 통계학 대부분은 표본조사를 배우는 과정이라고 볼 수 있죠. 그렇다면 지금부터 표본조사가 어떻게 이루어지는지 알아보도록 하겠습니다.

이미지 출처: https://melissaeh.tistory.com/entry/%EB%AA%A8%EC%A7%91%EB%8B%A8%EA%B3%BC-%ED%91%9C%EB%B3%B8%EC%A7%91%EB%8B%A8%EC%9D%98-%EC%B0%A8%EC%9D%B4%EB%8A%94-%EB%AD%98%EA%B9%8C-%ED%8F%89%EA%B7%A0-%EC%A4%91%EC%95%99%EA%B0%92-%EC%B5%9C%EB%B9%88%EA%B0%92%EC%9D%80-%EB%98%90-%EB%AD%90%EC%95%BC

 

 

2. 두 번째 행위: 기술통계

  • 앞서 말했듯이, 현실적으로 모든 사람들을 조사할 수는 없기 때문에, 대부분 표본을 추출 (sampling) 하여 조사를 실시하게 됩니다. 
  • 추출된 표본 데이터는 해당 집단의 특성을 규명하기 위해 사용됩니다. 즉, 표본 데이터를 통해 해당 집단을 상징(표현)하는 작업을 하는 것이죠. 
    • 측정이나 실험에서 수집한 자료(data)의 특성을 규명하는 것도 표본추출한 표본데이터라고 가정합니다. 왜냐하면, 실험에서 수집한 자료가 해당 그룹에 속하는 전세계 모든 대상(데이터)을 포함하진 않기 때문이죠.
  • 그런데, 왜 해당 (표본)집단의 특성을 규명해야 할까요? 앞서 언급한 백신 예시를 통해 알아보도록 하겠습니다.

 

[(표본)집단의 특성을 규명해야 하는 이유 - 예시]

  • A백신을 투여했을 때 실험군에서 얻어지는 결과들이 있을 것이고, A백신을 투여하지 않았을 때 대조군에서 얻어지는 결과들이 있을 것입니다. 
  • 하지만, 실험군에서 얻어지는 결과들이 전부 같지는 않을 것이고, 대조군에서 얻어지는 결과들이 얻어지는 결과들이 전부 같진 않을 것 입니다.
    • 예를들어, 실험군 내에서도 백신을 주입했을 때 효과가 강력한 경우, 미세한 경우, 또는 효과가 없는 경우가 있을 것입니다. 그래도, 대체적으로 효과가 있을 가능성이 있겠죠.
    • 대조군 내에서도 백신을 주입하지 않았지만 우리도 모르는 현상 때문에 코로나에 면역이 있는 사람들도 있겠죠. 하지만, 대부분 코로나 바이러스에 감염이 될 것 입니다.

이미지 출처: http://blog.naver.com/PostView.nhn?blogId=cityeng1&logNo=220028131792&parentCategoryNo=&categoryNo=255&viewDate=&isShowPopularPosts=true&from=search

  • 즉, 실험군과 대조군이라는 집단에 속한 데이터(사람들)를 살펴보면 '실험군 집단은 대체로, 평균적으로 XX하다' or '대조군 집단은 대체로, 평균적으로 XX하다'라는 특성을 알아볼 수 있게 되는 것이죠.
  • 결국, "A백신이 효과가 있다"는 나의 가설을 증명하는 과정 속에, 이러한 집단간의 특성들을 비교하는 것이 포함되어 있기 때문에 집단의 특성을 규명하게 됩니다. 

 

  • 앞서 언급한 표본집단의 특성을 통계학에서는 통계량이라고 합니다.
    • 통계량의 정의는 표본집단의 몇몇 특징을 수치화한 값입니다. 
    • 표본 데이터를 입력으로 하는 특정한 함수를 계산함으로써 그 값을 계량하게 되는데, 앞서 배운 평균식, 분산식 등이 이에 포함이 되겠죠.

이미지 출처: http://contents.kocw.net/KOCW/document/2014/hanyang/maengseungjin/4.pdf
모수에 대한 개념은 뒷 부분에서 설명하도록 하겠습니다.

 

  • 앞서 언급한 통계량을 이용해 표본집단을 표현(상징)할 수 있도록 그림으로 묘사(descriptive)할 수 있습니다. 이와 같이 수집한 데이터를 통계량을 통해 묘사하고 설명하는 통계기법을 기술통계(Descriptive Statistic)라고 합니다.
  • 기술통계량 종류를 체계적으로 표현하자면 아래와 같습니다. (여기서 나오는 용어들 중 생소한 용어들은 앞으로 게재할 글에서 설명하도록 하겠습니다.)
  • 기술통계량
    1. 집중화경향 (Central tendency): 표본 데이터가 어느 위치에 집중되어 있는가를 나타내는 통계량
      • 평균 (Mean)
      • 중앙값 (Median): 자료를 크기순으로 정렬할 때, 가장 중앙에 있는 값
        • ex) (1, 2, 35, 42, 53) → 35
        • ex) (1, 2, 35, 42, 53, 60) → (35+43)/2
      • 최빈값 (Mode)
    2. 산포도 (Degree of scattering): 표본 데이터가 퍼져 있는 정도를 나타내는 통계량
      • 최댓값: 데이터에서 가장 큰 값
      • 최솟값: 데이터에서 가장 작은 값
      • 범위(Range): 최대값 - 최솟값
      • 분산
      • 사분위편차 (Quartile deviation): 중앙값(Media)을 기반으로 하는 산포도
        • Q1: 하위에서부터 25%지점에 있는 요소의 값
        • Q2: 중앙값
        • Q3: 하위에서 75% 지점에 있는 요소의 값
      • 표준오차
    3. 분포 (Distribution; ex: 확률분포)
      • 첨도(kurtosis): 분포의 뾰족한 정도
      • 왜도(skewness): 분포의 기울어진 정도

 

※ Box Plot 

  • 통계량을 이용해 아래와 같이 "Box Plot"을 통해 데이터를 시각화 할 수 도 있습니다. (Box Plot은 중앙값을 기반으로 한다는 것을 알아두세요!)

이미지 출처: https://blog.naver.com/running_p/90178707051

 

이미지 출처: https://leebaro.tistory.com/entry/%EB%B0%95%EC%8A%A4-%ED%94%8C%EB%A1%AFbox-plot-%EC%84%A4%EB%AA%85

 

(↓↓↓Box Plot에 대한 설명↓↓↓)

https://www.youtube.com/watch?v=Wuk17zg-jt8 

 

(↓↓↓Box Plot을 엑셀로 그리는 방법 → 2:30초부터 보시면 됩니다↓↓↓)

https://www.youtube.com/watch?v=fm9zn-MP2As 

 

 

  • 아래 사이트를 가시면 "Box plot"외 더욱 다양한 시각화 종류들을 볼 수 있습니다.

https://kr.mathworks.com/help/stats/statistical-visualization.html?s_tid=CRUX_lftnav 

 

통계적 시각화 - MATLAB & Simulink - MathWorks 한국

다음 MATLAB 명령에 해당하는 링크를 클릭했습니다. 명령을 실행하려면 MATLAB 명령 창에 입력하십시오. 웹 브라우저는 MATLAB 명령을 지원하지 않습니다.

kr.mathworks.com

 

 

※ 오늘날의 데이터 시각화 (data visualization) 개념은 아래의 두 개념을 포괄적으로 포함하고 있습니다.

  • "데이터 분석 전의 표본집단의 특징"을 시각화 =기술통계
  • "데이터 분석 결과"를 시각화 

오늘날 Data visualization은 고객을 설득시키는 데 강력한 도구가 되기도 하기 때문에, 데이터 시각화와 관련된 개념들이 주목을 받고 있습니다.

이러한 data visualization을 위해 제공되는 기존 도구 (R programming, Excel 등) 들이 있지만, 최근에 가장 핫하게 이용되는 새로운 도구"Tableau"도 있다는 점을 알아두시면 좋을 것 같습니다.

 

https://www.tableau.com/ko-kr/learn/articles/data-visualization

 

데이터 시각화 현장 가이드: 정의, 예제, 학습 리소스

데이터 시각화 현장 가이드: 정의, 예제, 학습 리소스

www.tableau.com

https://www.youtube.com/watch?v=YfE9jBq002s 

 

 

 

 

3. 세 번째 행위: 추정(추론)통계 (Statistical inference)

  • 기술통계를 통해 통계량 얻었다면, 이번에는 통계량을 통해 의미있는 추론들을 하게됩니다.
  • 의미있는 추론을 위해 "통계적 추론(Statistical inference)"이라는 개념들이 이용이 되는데, 먼저 통계적 추론을 구성하는 두 가지 개념들을 하니씩 살펴보도록 하겠습니다. 
    • 통계적 추론 = 추정 (estimation) + 가설검정 (test of hypotheses)
    • 추정 (estimation) = 점 추정 (point estimation) + 구간 추정 (interval estimation)

https://m.blog.naver.com/PostView.naver?blogId=kangoh7378&logNo=220008103745&proxyReferer=https:%2F%2Fwww.google.com%2F

 

https://gaincinema.kr/789

 

(↓↓↓추론통계와 관련된 강의 사이트↓↓↓)

https://genome.sph.umich.edu/wiki/Biostatistics_602:_Main_Page

 

Biostatistics 602: Main Page - Genome Analysis Wiki

Objective In Winter 2013, Biostatistics 602 aims to provide students with a deep understanding of key concepts of statistical inference. Statistical inference methods instruct us how to use data to address substantive questions. In this course, we will stu

genome.sph.umich.edu

 

 

3-1. 추정 (Estimation)

  • "1-1-2. 표본조사"에서 언급한 것 처럼, 표본집단의 통계량을 알았으니 이를 기반으로 모집단의 모수(←모집단의 통계량)을 알아보아야 합니다. 
    • 모집단에서 통계량은 흔히 모수(parameter)라고 합니다. 즉, 표본집단에서의 평균, 분산, 등 개념은 통계량(statistic)이라고 하고, 모집단에서의 평균, 분산 등은 모수라고 부르죠. (모수와 통계량을 표시하는 기호는 서로 다릅니다)

이미지 출처: https://ssacstat.com/default/cs/cs_05.php?com_board_basic=read_form&topmenu=5&left=5&&com_board_search_code=&com_board_search_value1=&com_board_search_value2=&com_board_page=&&com_board_id=12&com_board_idx=283

 

이미지 출처: http://contents.kocw.net/KOCW/document/2014/hanyang/maengseungjin/4.pdf

 

 

  • 추정(estimation)할 때 중요한 포인트 3가지 ( 출처링크)
    1. 표본집단은 모집단을 대표할 수 있는지?
      • 모집단의 일부인 표본을 보고 모집단을 추정하기 때문에 표본의 특성이 모집단을 잘 반영하고 있어야 합니다.
    2. 표본의 확률분포는 어떠한지?
      • 어떤 분포이냐에 따라 추정을 위한 기법이 달라지기 때문에 중요합니다. 다만 표본의 수가 많아질 수록 정규분포에 근사하게 됩니다. (→바로 앞으로 게재될 정규분포관련 글에서 설명할 예정입니다)
    3. 추정된 결과는 신뢰성이 있는지?
      • 추정된 결과를 활용할 수 있는지를 결정하는 요소이기 때문에 중요합니다.

 https://kkokkilkon.tistory.com/36

 

추론통계 - 가설 검정 한번에 정리하기

가설 검정 한번에 정리하기 (1) 추론통계 개요 (2) 가설 검정의 절차 (3) 주요 용어 정리 (4) 가설 검정 예시 (1) 추론통계 개요 추론통계란 모집단에서 샘플링한 표본을 가지고 모집단의 특성을 추

kkokkilkon.tistory.com

 

 

3-2. 가설 검정 (새로운 지식을 통계적으로 창출하는 방법)

  • 앞서 우리가 세웠던 가설 (=가설설정) 이 통계적으로 합당한지 증명하기 위해 이 가설을 검정(test)하게 됩니다.
  • 가설검정이란, 추정을 통해 얻은 모수(parameter)와 관련해 특정한 가설을 세워 놓고, 표본의 정보를 사용해서 가설의 합당성 여부를 판정하는 과정을 의미합니다. ( ← 자세한 설명은 가설검정편과 관련된 글에서 하도록 하겠습니다)
  • 통계적 가설은 통계학에서 사용하는 용어로, 하나의 특정 주장을 모수를 이용해 나타낸 형태를 지칭합니다.
    • 예를 들어, '미국 성인여자의 평균신장은 170cm이다'는 통계적 가설이 될 수 있습니다.
    • 왜냐하면, 평균신장은 모집단 특성을 나타내는 모수의 역할을 수행하기 때문입니다.
  • 통계적 가설귀무가설(Null hypothesis ,H0, 영가설)과 이와 반대에 있는 대립가설(Alternative hypothesis,H1)로 나타낼 수 있습니다.
    • 귀무가설: 연구에서 검증하는 가설 (기호는 H0) → ex) A백신은 효과가 없다. 
    • 대립가설: 연구자가 연구를 통해 입증되기를 기대하는 예상이나 주장 (기호 Ha 또는 H1) → ex) A백신은 효과가 있다
  • 통계학에서 가설을 검증하는 방법은 아래와 같습니다.
    • 우리가 주장하려고 하는 '대립가설'과 반대되는 '귀무가설'을 설정하고, 이러한 '귀무가설'이 통계적으로 합리적이지 않다는 것을 증명함으로써, '대립가설'이 통계적으로 합리적이다라는 것을 증명하는 방식입니다. (가설설정 단계에서 했던 것은 대립가설이고, 가설검증 단계에서 하는 것은 귀무가설이라는 점을 알아두시면 좋을것 같습니다!)

이미지 출처: https://angeloyeo.github.io/2020/03/25/hypothesis.html

 

  • 위 그림에서 귀무가설 기각 여부는 아래와 같은 의사결정을 합니다.
    • 대립가설(H1)에 대한 증거가 충분하다면 H0를 기각하고 H1을 받아들인다.
      • 기각:  내용이 실체적으로 이유가 없다고 판단하여 소송을 종료하는 알 → 통계적 관점에서 봤을 때, 해당 주장이 "통계적으로" 적합하지 않다고 판단 내리는 것
    • 대립가설(H1)에 대한 증거가 불충분한 경우 H0를 기각하지 않는다.
  • 결국, 새로운 내가 주장한 대립가설이 채택이 되면 "나의 주장(가설)이 통계적으로 합당하다는 것이 증명"되게 됩니다.

 

 

3-2-1. 가설 검정 5단계 (←가설검정 파트에서 자세히 다룰 예정입니다)

  1. 유의수준 결정, 귀무가설(H0)과 대립가설(H1) 설정
  2. sampling 및 검정통계량의 설정
  3. 기각역의 설정
  4. 검정통계량 계산 및 영가설 확인
  5. 통계적인 의사결정

 

4. Example (논문: Paper)

  • 지금까지 많은 내용들을 적었지만, 통계학을 사용하는 이유는 정말 간단합니다"

"나의 주장(가설)이 보편 타당함을 증명하기 위해서 통계학을 사용한다."

  • 우리는 논문을 통해 우리가 세운 가설(연구)이 합리적인지 아닌지 평가받게 됩니다. 
  • 논문 구성 요소들
    • Abstract - Introduction, background, method, experiment, result를 축약해서 설명
    • Introduction - 내가 제안한 가설(연구)이 어떤 측면에서 의미 있는지 광범위한 측면에서 설명
    • Background - 내가 주장한 가설을 이해하기 위해 필요한 배경지식들 설명
    • Method - 가설을 증명하기 위해 자신이 고안한 실험 방식
    • Experiment - 실험을 하기 위해 세팅했던 사항들 설명 → 어떻게 실험이 진행됐는지 설명
    • Result (and Analysis) - 실험결과가 유의미 했는지 해석 →  내가 실험한 결과를 통계적 (가설검정) 으로 봤을 때, 나의 가설(주장)을 뒷받침 해줄 수 있다고 한다면 (내가 세운 가설 관점에서) 유의미한 실험이 될 수 있음 → 가설검증을 통한 대립가설 채택 과정 → 즉, 유의미한 해석을 하기 위해 통계학이 사용 된 것
  • 보통 아래 그림을 예로 들어보자면, 귀무가설을 "dose(약)를 0.5비율로 투약한 것과 dose를 1비율로 투약한 것에 큰 변화가 없다"라고 설정한다면 대립가설은 "dose(약)를 0.5비율로 투약한 것과 dose를 1비율로 투약한 것에 큰 변화가 있다"고 설정 할 것입니다.
  • 기술통계를 통해 0.5비율을 투약한 집단과, 1.0비율을 투약한 집단간의 비교가 통계적으로 유의미하게 차이가 있는지 추론통계(추정 및 가설검정)을 통해 판별하게 됩니다. 만약, 유의미한 차이가 있다면, 귀무가설을 기각하고 대립가설을 채택하여 '나의 주장'을 통계적으로 입증하게 됩니다. 

이미지 출처: https://www.datanovia.com/en/blog/how-to-add-p-values-onto-basic-ggplots/

 

 

지금까지 통계에 대한 전반적인 가이드라인을 설명해 보았습니다.

그럼, 다음 글부터는 하나씩 자세히 알아보는 시간을 갖도록 하겠습니다.

 

https://www.youtube.com/watch?v=VM2NUAJUi7s 

 

 

 

 

 

5. 통계학 기원

아래 영상들은 통계학의 기원을 다룬 영상이니 참고해보셔도 좋을 것 같아 영상 첨부했습니다!

 

https://www.youtube.com/watch?v=YlGMHmzeW3Y 

 

https://www.youtube.com/watch?v=drhH5Wl419Q 

 

안녕하세요.

이번 장에서는 연속확률분포를 설명하기 위한 여러 개념들에 대해서 살펴보도록 하겠습니다.

 

확률분포에 대한 개념은 "3-1.이산확률분포"에서 설명했기 때문에 여기에서는 바로 연속확률분포에 대해서 설명하도록 하겠습니다.

 

 

 

 

1. 연속확률분포를 사용하는 이유

  • 앞서 이산확률분포에 대해서 알아보았습니다. 아래 그림을 2000~2024년 동안 비가 얼마나 자주 내렸는지에 대한 현상을 보여주는 데이터라고 해보겠습니다.
  • 아래 확률분포를 통해 알 수 있는 사실은 12, 13년도에 비가 제일 자주 내렸다는 것을 알 수 있습니다. 그런데, 12년도 6월에는 얼마나 비가 내렸는지는 알 수 없습니다. 왜냐하면 아래의 정규분포는 연단위가 확률변수(random variable→12년도, 13년도)이기 때문입니다.
  • 이처럼 우리는 보통 12년도 1월, 12년도 2월 또는 12년도 1월 1일, 12년도 1월 2일 더 나아가서는 시간대별로 얼마나 비가 내렸는지 알고 싶은 경우가 있습니다. 즉, 이산적인 경우가 아니라 모든 경우를 포함하는 연속적인 데이터(확률변수)에 대한 확률 값을 알고 싶은 경우가 많은 것이죠.  

http://piramvill2.org/?p=2862

  • 그런데, 이러한 모든 연속적인 데이터(=확률변수)를 수집하는 것은 불가능에 가깝습니다. 그렇기 때문에, 데이터(=확률변수)를 수집하고 실험하는 것은 이산적일 수 밖에 없는 것이죠. 
  • 그렇기 때문에, 이러한 이산적인 데이터(=확률변수→12년도에 내린 비의 횟수, 13년도에 내린 비의 횟수)를 기반으로해서 연속확률변수에 대한 확률 값을 추정하게 됩니다.
  • 그럼 지금부터 어떻게 이산적인 데이터를 기반으로 연속확률분포를 그려낼 수 있는지 알아보겠습니다.

 

 

 

 

2. 이산적인 데이터에서 연속확률분포를 추정하는 법 (Feat. 적분 (구분구적법))

  • 먼저, 이산적인 데이터를 설정하는 방식이 이산확률분포에서 봤던 것과 조금 다릅니다.
  • 연속확률분포를 추정하기 위해서는 "계급"이라는 개념이 도입됩니다.
    • 예를 들어, 몸무게를 확률변수로 삼았다고 해보겠습니다. 
      • 이산확률분포에서는 몸무게 확률변수가 10,11,12,13 이런식으로 이산적으로 설정이 됩니다. 그렇기 때문에 10.5kg 이라는 확률변수에 대한 확률 값을 알 수 있는 방법은 없는 것이죠.
      • 이에 대한 문제를 해결하기 위해, 우리는 10~20 이라는 범위를 설정하고, 해당 범위 안에 들어가는 사람들의 빈도수를 기록합니다. (여기서 중요한 것은 실제로 우리가 얻은 데이터는 10kg, 10.2kg, 14kg 등 일 것이라는 점입니다. 즉, 10.1kg, 10.25kg 이러한 데이터는 없다는 것이죠.)
      • 그저 이산적으로 모은 데이터를 10~20라는 범위에 포함시키고 앞선 10.1kg, 10.25kg 과 같은 데이터(=확률변수)에 해당하는 확률 값을 추정하는 것이죠.
      • 이 때, 10~20(=A 클래스), 20~30(=B 클래스), 30~40(=C 클래스) 등 이런식으로 계급을 통해 표현하는 것이 연속확률변수를 추정하는 핵심 포인트가 됩니다. (어디까지나 이산적인 데이터를 계급안에 포함시켜 연속확률변수에 대한 확률 값을 추정하는 것이지, 추정된 확률변수가 해당 확률 값 만큼 실제세계에서 존재하는지는 알 수 없습니다) 
  • 그렇다면, 앞서 언급한 과정들이 어떻게 진행되면서 연속확률분포를 추정할 수 있는지 알아보겠습니다.

↓↓↓Normalization 설명↓↓↓

↓↓↓구분구적법↓↓↓ 

https://www.youtube.com/watch?v=7vcHY2a4154 

  • 결국 연속확률분포에서의 확률 함수(P(x))는 확률분포로 나타내는 그래프 상의 면적이 됩니다. 이에 대한 자세한 설명은 바로 뒤에서 설명하도록 하겠습니다.

 

 

 

3. Probability Density Function (PDF) with 3가지 axiom

  • PDF는 간단히 말해 확률 함수(→ 확률함수 설명 링크)가 취하는 정의역이 연속확률변수(continuous probability variable)일 뿐입니다 (→확률변수 설명 링크).
    • Probability density function describes a probability distribution over continuous variables.
    • 앞서 언급한 계급이라는 개념이 도입이되면서 연속확률변수를 고려하는 확률분포을 수 있게 됐습니다.
    • PDF는 확률함수이므로 P(X)라고 표현합니다. 여기 중요하게 봐야할 것은 이산확률분포에서 y축이 확률 값을 의미한 반면, 연속확률 분포에서의 y축은 확률 값을 의미하지 않습니다. 연속확률분포에서는 '면적'이 확률 값이 기 때문에 f(x)≠p(x) 인 셈이되는 것이죠.
    • 그렇기 때문에 정확히 확률함수(P(X))는 아래와 같이 표현하게 됩니다.

e, g 사이에 있는 면적값이 확률값이 됩니다.

  • 하지만, 우리는 f(x)를 확률밀도함수(PDF)라고 부릅니다. 왜냐하면, f(x)는 확률변수의 분포를 표현해주기 때문이죠 (사실 f(x)값 자체가 확률 값을 도출하는 건 아니라 확률(밀도)함수라고 붙이는게 좋은게 이해가 되진 않네요....).
  • 그리고, f(x)를 특정 구간으로 적분해주면 확률 값을 구할 수 있는데, 이 때 \(\int_{a}^{b}{f(x)}\)는 누적분포함수(CDF)라고 합니다 (누적분포함수는 "3-2. 이산확률 분포 종류들"를 참고해주세요)

 

  • 예를 들어, 아래 정규분포의 확률밀도함수 f(x)는 아래 그림에서 나타내는 수식을 따르고, 해당 확률함수는 누적분포함수인 f(x)의 적분식으로 표현합니다. 

 

  • 연속확률함수에는 3가지 공리가 있습니다.

③먼저, 세 번째 공리는 위에서 설명한 연속확률분포에서의 확률함수와 관련된 부분입니다.

 

 

①첫 번째는 이산확률함수와 마찬가지로 모든 확률변수의 확률 값을 다 더했을 때 총합이 1이 되어야 한다는 점입니다.

 

② 두 번째는 연속확률분포서 y축을 담당하는 f(x) 부분이 1보다 클 수 있다는 접입니다. 이산확률분포에서 y축은 f(x)=p(x) 였기 때문에, f(x) 값의 제한범위는 "0≤f(x)≤1"인 반면에, 연속확률분포에서 f(x)는 p(x)가 아니기 때문에, "≤1"에 대한 제한이 없어지는 것이지요.

 

 

4. 연속확률분포의 평균과 분산

  • 연속확률분포의 평균과 분산은 이산확률 분포의 평균과 분산과 동일한 맥락입니다. 연속확률분포에서는 확률변수가 연속적이기 때문에 이를 고려해 "(연속)확률함수와 해당 확률변수간의 관계식"으로 나타내면 됩니다. (참고로 연속확률분포에서의 x는 범위를 갖는다는 점을 염두해두시면 좋을 것 같습니다.)

분산식을 또 다른 Notation으로 표현한 예 

 

 

 

지금까지 연속확률분포의 개념과 그와 관련된 여러 개념들(평균, 분산 등)에 대해서 알아보았습니다.

다음 글에서부터는 여러가지 연속확률분포 종류들에 대해서 알아보도록 하겠습니다.

[이번 장에서의 목표]

  • 이번장에서는 이산확률변수를 기반으로 한 다양한 확률분포들에 대해서 알아보도록 하겠습니다.
  • 앞서 확률분포와 평균, 분산을 구하는 방법에 대해서 알아보았으니, 이번장에서는 각각의 확률분포가 어느 경우에 사용되는 건지, 해당 확률분포의 평균과 분산은 어떻게 되는건지 알아보도록 하겠습니다.

 

 

1. Cumulative Distribution (누적확률분포)

  • 누적확률분포는 말 그대로 특정 확률변수까지 누적된 확률 값을 알아내기 위해 사용됩니다.
  • 예를들어, 확률변수 3이전의 경우(1,2,3)가 나올 확률에 대해서 알아보는 것과 같습니다.

 

 

  • 모든 확률분포는 PMF 또는 CDF로 표현 가능합니다.

PMF기반의 포앙송 분포
포아송 분포를 누적확률분포로 변환시킨 것

 

 

 

2. Bernoulli Distribution (베르누이 확률분포)

2-1. 베르누이 확률함수

  • 베르누이 분포는 성공과 실패 또는 이분법적인 상황에 대한 확률 값을 나타내고자 하는 확률분포입니다.
  • 즉, 베르누이 분포에서 확률 변수는 2가지 만 존재하고, 이 두 가지의 확률값은 p, 1-p 입니다.

 

2-2. 베르누이 확률분포의 평균식 증명

 

2-2. 베르누이 확률분포의 분산식 증명

 

 

 

 

 

 

3. Binomial Distribution (이항확률분포)

3-1. 이항확률 함수

  • 이항확률함수는 n번 실행했을 때 x번 성공할 경우에 대한 확률 값을 도출합니다. 이 때, x번 성공하는 횟수가 이항확률함수의 (Binomial) random variable이 됩니다. 예를 들어, 100번 동전을 던졌을 때 앞면이 50번 나올 확률을 구할 때 사용되는 함수입니다.
  • Binomial random variable is Independent Identically Distribution (I.I.D) Bernoulli. (독립시행 링크)
    • 시행(trial)이 연속적일 때, 이전 시행의 결과가 다음 시행에서 일어날 확률에 아무런 영향을 미치지 않습니다. (Independent)
    • 시행할 때마다 항상 성공과 확률이 같은 bernoulli distribution을 따릅니다 (Identically Distribution)
    • Binomial distribution은 독립시행 확률을 따르는 I.I.D라고 할 수 있습니다.
  • 종합하자면, Bernoulli random variable을 따르는 bernoulli experment를 n번 실행하여 성공횟수를 binomial random variable로 삼는 확률분포를 binomial distribution이라 합니다.
  • 이항분포는 아래와 같은 확률함수를 갖는다. (해당 확률함수의 증명은 아래 예시를 보면 직관적으로 파악할 수 있습니다)

(조합 관련 개념 또는 아래의 예시에 대한 자세항 설명은 다음 링크에서 독립시행 확률 part을 참조해주세요)

 

 

2-2. 베르누이 확률분포의 평균식 증명

 

 

2-3. 베르누이 확률분포의 분산식 증명

 

 

 

 

 

 

 

4. Geometric Distribution (기하분포, 연속확률변수에서는 지수분포가 됨)

4-1. 기하분포 확률함수

  • Geometric distribution의 random variable은 성공할 때 까지 시행한 횟수를 의미합니다.

(↓↓↓위에 무한 등비급수합 수식증명↓↓↓)

 

 

 

4-2. 기하분포 확률분포의 평균식 증명

  • 왜 해당 시그마 공식이 1/p^2 를 도출하는지 증명하겠습니다.
  • 먼저 등비수열 공식에 따라 아래와 같이 정의할 수 있습니다.

  • 해당 등비수열 공식을 양쪽으로 미분해보겠습니다.

  • 이로써 평균 수식의 증명이 완료되었습니다.

 

 

4-3. 기하분포 확률분포의 분산식 증명

  • 기하확률분포의 분산식 증명은 아래와 같습니다.

 

 

 

4-3. Memoryless property in Geometric distribution (무기억성 성질)

  • 위의 식에 대한 이해을 위해 몇 가지 예시를 들어보겠습니다.
  • [첫 번째 예시]
    • P(X>t)라는 뜻은 t번 시도한 후에 3점 슛을 성공할 확률을 의미합니다.
    • 농구를 좋아하는 학생이 3점 슛을 성공하기 위해 s번의 실패(시도)를 했다고 합시다. 그리고 t번의 실패(시도)를 더 한 끝에 슛을 성공했습니다. 그리고 s+t번 이후에는 계속해서 슛을 성공시킵니다. 이를 조건부 확률로 표현하자면 P(X≥s+t | X≥s) 입니다.
    • 사실 위에서 설명한 개념들을 P(X≥s+t)만으로도 설명 가능한거라고 볼 수 도 있는데, 조건부 개념을 도입한건 무기억성이라는 특성을 설명하기 위해서 인듯합니다 (즉, 위의 수식을 만족하기 위해 도입한 개념). 그럼, 계속해서 알아보도록 하겠습니다.
    • P(X≥s+t | X≥s) = P(X≥t) 수식을 보면 s번의 시도를 한 후에 t번 더 시도해서 성공할 확률과, t번 시도해서 성공할 확률과 같다는 뜻이됩니다. 
    • 즉, s+t번의 시도를 한 것 과, t번의 시도를 한 것을 동일하게 보는 것인데, 예를 들어,s=5, t=2라고 했을 때 단순히 5+2(=s+t)번의 시도와 2(=t)번의 시도가 같다고 보는게 아니라, 5번의 시도를 어떻게 바라볼 것인가가 포인트가 될 수 있다고 생각합니다. 어떻게 보면 s번 시도 한것은 농구를 좋아하는 학생이 집중을 못했기 때문에 아무 의미가 없었다는 결론을 내릴 수도 있을 것 같습니다.
    • 결과적으로, s번의 실패(시도)가 아무 의미 없어진 것과 같습니다. 즉, s번의 실패(시도)에 대한 기억을 잃어버리게 되는 것이죠. 
  • [두 번째 예시 - 링크] (해당 예시는 좌측 링크 사이트에서 인용했습니다)
    • 어떤 기계가 처음 만들어져서 사용되기 시작한 뒤 t시간 이내에 고장날 확률과, 그 기계가 s시간 까지 계속 사용되다가 t시간 이내에 고장날 확률이 동일하다는 말과 같습니다.
    • 기계가 이전 s시간 동안 사용되었다는 것을 기억하지 못하는 것과 같습니다 (무기억).
  • 위의 예시를 통해 봤듯이, 무기억성이란 특정분포가 과거의 이력을 잊어버리는 성질을 의미합니다. 이력을 잃어 버리더라도 특정 분포를 여전히 따릅니다. 
  • 그렇다면 무기억성의 수식을 증명해보도록 하겠습니다.

 

 

4-4. 기하분포 어원

  • 기하확률분포의 확률함수는 등비수열이라고 할 수 있는데, 왜 등비수열에 geometric이라는 표현을 사용했을까요?

 

 

 

 

 

5 Negative Binomial Distribution (음이항분포 or Pascal distribution)

5-1. 음이항분포 확률함수

  • r번의 성공횟수를 기록할 때 까지 x번 실패 할 횟수를 random variable로 갖는 확률분포입니다. 즉, r번 성공할 때 까지 x번 실패 하는 경우에 대한 확률값을 알고자 할 때 사용하는 확률함수가 음이항분포 확률함수입니다.  
  • 여기서 중요한 부분은 r은 고정 값이고, x는 random variable이기 때문에 변할 수 있는 변수이고, n=x+r이기 때문에 x에 따라 n(시행) 값이 변합니다.
  • 먼저 예를 통해 설명해보도록 하겠습니다. 
  • 아래 예를 보면, 3번 성공하는 동안 실패하는 횟수에 따라 확률값을 알고자 합니다. 먼저, 3번 성공할 때까지 1번 실패할 확률을 구하는 과정은 아래와 같습니다. (음이항확률함수=P(X))먼저, 음이항분포를 표현하기 위해서는 성공횟수(r)가 고정되어 있어야 합니다. 실패횟수(x)가 random variable이기 때문에 시행횟수 (n=r+x)도 실패횟수에 따라 변경됩니다.

  • 예를 들어, 아래 표에서 성공횟수는 10으로 고정되어 있고, 시행횟수는 보이지 않지만 implicit (암묵적)으로 실패횟수에 따라 변한다고 보시면 됩니다. 만약 아래 실패횟수(random variable)가 60이 최대치라면, 전체 시행횟수(n=x+r)는 70이 됩니다.)

https://soohee410.github.io/discrete_dist5
음이항확률함수

 

 

 

5-2. 음이항분포의 평균식 증명

  • 평균수식을 알아보기 전에 음이항분포에서의 모든 확률 값의 총합이 1임을 확인해보겠습니다.

 

  • 지금부터 평균 식을 증명해보겠습니다.

 

 

 

5-3. 음이항분포의 분산식 증명

 

 

5-4. 음이항분포와 기하분포의 관계

  • 음이항분포를 자세히 보면 r=1일 때 기하분포와 동일하다는 것을 확인할 수 있습니다. 즉, 성공횟수가 1이 나올 때 까지 시행한 횟수를 확률 변수를 삼는다는 것은 성공할 때까지 시행한 횟수를 확률변수로 삼는다는 것과 같습니다. 즉, 기하분포의 정의인 "성공할 때까지 시행한 횟수를 random variable로 삼는다"와 동일한 경우라고 볼 수 있습니다. 그러므로, 기하분포는 음이항분포의 특이한 케이스라고 보시면 될 것 같습니다.
  • 식으로 증명하면 아래와 같습니다.

 

 

 

 

 

 

6. Hypergeometric Distribution (초기하 확률분포)

6-1. 초기하분포 확률함수

  • 초기하분포 역시 이항분포와 마찬가지로 '성공', '실패' 2가지 상황만 나오는 실험에서 사용됩니다.
  • 하지만, 이항분포와 복원추출인 반면에 초기하분포는 비복원추출을 전제로 합니다. 
  • 결국, 현재 진행하는 실험의 sample space(표본공간)가 이전 실험의 sample space보다 작기 때문에 이전실험이 현재실험의 확률값에 영향을 미치게 됩니다. 그러므로, 초기하분포는 다음과 같은 의미를 내포합니다 → "Non-independent Bernoulli trials"
  • 아래 수식은 초기하분포 확률함수 수식입니다. 이에 대해서 설명해보도록 하겠습니다. 

  • 초기하분포의 수식은 모집단과 표본에 대한 개념을 베이스로 두고 있습니다. 두 측면에서 초기하분포를 설명해보도록 하겠습니다.
    • [첫 번째 설명]
      • 모집단의 크기를 N이라고 하고, 모집단 안에는 우리가 원하는 원소가 a개 있다고 하겠습니다.
      • 모집단에서 크기가 n인 표본을 뽑습니다.
      • 해당 표본안에서 우리가 원하는 원소가 x개 있을  확률분포를 초기하확률분포라고 합니다.
      • 즉, 표본안에서 우리가 원하는 원소가 뽑히는 갯수 (x)가 random variable이 됩니다.
    • [두 번째 설명]→ 두 번째 설명은 우측 사이트를 참고했습니다 링크
      • N개의 구성원의 모집단이 있습니다.
      • 이 모집단이 두 그룹으로 나누어진다고 가정하겠습니다. 
      • 첫 번째 그룹에는 a개의 구성원이 있다고 하면, 두 번째 그룹에는 N-a개의 구성원이 존재합니다.
      • 이때 초기하 확률변수 x는 전체 모집단에서 n개의 샘플을 비복원으로 뽑을 때, n개 샘플 중에서 첫 번째 그룹(=a)에 해당하는 샘플 수를 의미합니다.
    • [예시]
      • 하나의 상자에 6개의 빨간색 공과, 14개의 노란색공이 있습니다.
      • 비복원으로 5개의 공을 추출합니다.
      • 이때 5개의 공 중 4개의 공이 빨간색일 확률은 얼마입니까?

초기하분포 확률 함수

 

 

6-2. 음이항분포의 평균식 증명

 

 

6-3. 음이항분포의 분산식 증명

 

 

 

 

 

7. Poisson Distribution

  • 포아송 분포는 '단위시간(or공간)안에 어떤 사건이 몇 번 발생할 것인지를 표현하는 이산 확률 분포입니다.
    • 한 달 동안 발생하는 교통사고의 횟수
    • 책 한 페이지 당 오타의 횟수 → 예시 인용 사이트 링크
      • 어느 전공 책 5페이지를 검사했는데, 10개의 오타가 발생했다. 이 책에서 어느 한 페이지를 검사했을 때, 오타가 3개 나올 확률은?
  • 포아송 분포에서의 발생하는 사건의 횟수가 random variable이 되고, 발생하는 평균 횟수가 고정값(=\(\lambda\))이 됩니다. 발생하는 평균횟수는 "전체 시행횟수×사건이 발생할 확률"입니다. (위의 예시를 기준으로 값을 설정해보겠습니다)
    • 사건이 발생하는 횟수=k→ 3
    • 전체 시행횟수=n→ 5
    • 사건이 발생할 확률=p=\lambda/n → (10/5)/5
    • 특정 시행횟수에서 사건이 발생할 수 있는 평균 횟수= \(\lambda\)=n×p
  • 위의 전공 책 관련 예시를 보면, 3건의 사건이 발생할 횟수 (오타가 나올 횟수=3) 가 random variable이 되고, 이러한 경우 (random variable=3)의 확률을 알아보기 위해, 한 페이지 당 오타가 발생할 평균 횟수 \(\lambda\)=10/5 을 알고 있어야 합니다. (여기에서는 성공할 확률을 딱히 몰라도 \(\lambda\)=2 이라는 건 알 수 있습니다.
  • 우리는 "어느 전공 책 5페이지를 검사했는데, 10개의 오타가 발생했다."에 대한 정보를 기반으로, "어느 한 페이지를 검사했을 때, 오타가 3개 나올 확률은?"에 대한 답을 해야합니다.
    • 어느 한 페이지라는 것은 단위공간이라고 볼 수 있고, 이것을 전체 시행 횟수(=n)로 볼 수 있습니다. 
    • 결국 이는 한 페이지에 n이라는 글자가 있다면, 거기서 k개의 오타가 나올 확률을 의미하고, 이를 다른 측면에서보면 n번 동전을 던졌을 때 k번 앞면이 나올 확률과 동일한 문제가 됩니다. 즉, 이항확률분포(Binomial distribution)의 확률 함수와 동일 한 것이죠.
    • 포아송 분포에서 중요한 전제조건은 n이 굉장히 크다는 상황을 가정하고 있다는 것입니다. 즉, 이항확률분포에서 n이 엄청크다면 포아송 분포로 근사할 수 있다는 의미입니다. 이러한 방식을 사용했던 이유는, 과거에 계산기가 없었을 때 n이 엄청 크다면 이항확률분포를 계산하는게 엄청 힘들었기 때문에 n이 무한대라는 극한의 개념을 도입해 포아송 확률함수를 만들었다고 합니다. 즉, 이항확률분포에서 n이 굉장히 큰 경우 포아송 분포식으로 계산할 수 있게 되는 것이죠 (근래에는 컴퓨터의 발달로 이항확률분포 n이 충분히 커도 쉽게 계산 가능하다고 하지만, n>50, or \(\lambda\)=np<5 이면 컴퓨터에서 비트의 제한으로 수치에러가 날 경우가 있다고 합니다.)
    • 그럼 지금부터 n이 무한대일 때 이항분포 확률함수가 어떠한 확률 함수를 갖는지 살펴보도록 하겠습니다.

①식 풀이

 

②번식 풀이 (해당 식을 풀이하기 위해서는 자연상수에 대한 개념을 이해할 필요가 있어서 자연상수 내용을 다루었습니다. (하...정말 글씨가....))

https://www.youtube.com/watch?v=ELArhsyt4MA  

③번식 풀이

 

최종풀이

 

 

  • 결국 위와 같은 식을 통해, 특정 시행횟수에 사건이 발생할 수 있는 평균 횟수 "\(\lambda\)"의 정보만을 갖고 random variable(=k)에 속한 확률 값을 알아낼 수 있고, 이를 위해 포아송 확률 함수라 합니다 (포아송 확률 함수를 적용하려고 할 때에는 n이 엄청 커야 한다는 전제를 항상 염두해두시면 좋을 것 같습니다).
  • 람다가 고정값이기 때문에 시행횟수와 사건이 발생할 확률이 암묵적(implicit)으로 고정값으로 정해져 있습니다.

https://m.blog.naver.com/mykepzzang/220840724901

 

 

 

 

 

  • 포아송 확률함수의 총합이 1임을 증명해보겠습니다.

 

 

 

7-1. 포아송분포의 평균식 증명

 

 

7-2. 포아송분포의 분산식 증명

 

 

 

 

 

지금까지 이산확률분포의 여러 종류들과, 해당 확률분포의 평균 및 분산식에 대해서 알아보았습니다. 다음 글에서는 연속확률변수 및 연속확률분포에 대한 기본적인 개념들에 대해서 알아보도록 하겠습니다. 

+ Recent posts