안녕하세요. 

이번글에서는 가설을 검정(test)하는 큰 흐름을 알아보도록 하겠습니다.

 

 

1. 통계적 가설검정 방식 (Feat. 귀무가설과 대립가설)

  • "A백신이 효과가 있다"는 가설을 검증한다고 해보겠습니다.
  • 일반적으로 생각했을 때는, "A백신이 효과가 있다"라는 것을 바로 검증하려고 시도할 것 입니다.
  • 하지만, 통계적인 관점에서 가설을 검정하는 방식은 조금 다릅니다.
  • 내가 주장한 가설과 반대되는 "A백신이 효과가 없다"라는 가설을 세우고, 이 가설이 틀렸다는 것을 보여줌으로써, 내가 주장한 가설이 참임을 증명하는 방식이 통계적인 가설검정 방식입니다 
  • 이때, 내가 주장한 가설과 반대되는 가설을 '귀무가설(Null hypothesis, \(H_{0}\))'이라고 하고, 내가 주장하는 가설을 '대립가설(Alternative hypothesis, \(H_{1}\))'이라고 합니다.  
    • 귀무가설(Null hypothesis, \(H_{0}\)): 돌아갈 귀, 없을 무 → 처음부터 버릴 것을 예상하는 가설 또는 틀리기를 바라는 가설(?)
    • 대립가설(Alternative hypothesis, \(H_{1}\): → 연구 가설 또는 유지 가설이라고도 부르는데 귀무가설 대립하는 명제 → 귀무가설을 대체하고 싶은 가설 즉, 귀무가설이 틀렸고 내가 세운 가설이 맞기 때문에 귀무가설을 대체할 수 있다 (alternative)고 생각하는 가설

 

[가설검정 순서]

※ 아래 사진은 가설검정이 이루어지는 순서입니다. 이번글에서는 '귀무가설/대립가설' 부분만 살펴보고, 다음글에서 부터 "유의 수준~검정통계량"에 대해서 알아보도록 하겠습니다.

이미지 출처: https://www.slideshare.net/ssuser64f3dc/ss-72602596
이미지 출처: http://blog.naver.com/PostView.nhn?blogId=afterglow25&logNo=110124544645

 

 

 

2. 가설의 종류

  • 앞서 '귀무가설'과 '대립가설'에 대해서 알아보았습니다.
  • 그런데, '가설'의 종류에 따라 검정방식이 달라진다는 것을 알고 있으신가요?
  • 즉, '가설검정'방식은 '가설'의 종류에 따라 굉장히 다양하기 때문에, 가설검정에 있어서 가장 중요하고, 제일 먼저해야 할 일은 '가설'의 종류를 파악하는 것입니다.
  • 예를 들어, 아래와 같은 귀무가설들이 있다고 해보겠습니다.
    • ex1)  "어떤 집단의 키가 (평균적으로) m이다"
    • ex2)  "두 집단의 특징이 (평균적으로) 같다"
    • ex3)  "어떤 집단에 특정 처리를 했을 때, 해당 집단의 특성이 (평균적으로) 전과 후가 같다"  
  • 위의 세 가지 가설들은 각각 가설검정 방식이 다릅니다.
  • 그렇다면, '가설'의 종류들을 어떻게 나눌 수 있을까요? 지금부터 알아보도록 하겠습니다.

 

 

2-1. 자료형(data type)의 성격

  • 가설의 종류를 살펴보기 전에 배경지식으로 알아두어야 할 것이 가설에 기반이되는 데이터(변수, 자료)의 유형입니다. 

[자료형 종류]

  • 범주형 (categorical data) = 질적변수 (qualitatitve variable) → 몇 개의 범주로 나누어진 데이터 → 수량화 불가능
    • 명목형(nominal data) → '순서'에 의미가 없는 분류형 → ex) 성별(남/녀), 성공여부(성공/실패), 혈액형(A/B/O/AB)
    • 순서형(ordinal data) → '순서'에 의미가 있는 분류형 → ex) 교육수준(초졸=1, 중졸=2, 고졸=3, 대졸 이상=4), 간강상태(좋음=3, 보통=2, 나쁨=1) 
  • 수치형 (numerical data) = 양적변수 (quantitive variable) → 수량화 가능
    • 이산형(discrete data) → 이산적인 값을 갖는 데이터 (이산확률분포의 이산확률변수) → ex) 연령(10대, 20대, 30대, ....) 
    • 연속형(continuous data) → 연속적인 값을 갖는 데이터 (연속확률분포의 연속확률변수) → ex) 신장, 체중, 혈압

 

2-2. 가설의 종류에 따른 가설검정 방법들

 

[↓↓↓위의 그림 텍스트로 정리한 것↓↓↓]

  • '차이'와 관련된 검정
    1. '평균'의 차이를 검정 하고 싶을 때
      • 1-1. 비교하는 집단이 하나일 때 
        • 1-1-1. 모분산을 알고 있는 경우 & 표본이 클 때
          • 일(1)표본 Z 검정 (One-sample Z test) → ex) 귀무가설(\(H_{0}\)): 한국의 평균은 K이다.
        • 1-1-2. 모분산을 모르는 경우 & 표본이 작을 때
          • 일(1) 표본 T 검정 (One-sample T test) → ex) 귀무가설(\(H_{0}\)): 한국의 평균은 K이다.
      • 1-2. 비교하는 집단이 둘일 때
        • 1-2-1. 모분산을 알고 있는 경우 & 표본이 클 때
          • 이(2)표본 Z 검정 (Two-sample Z test) → ex) 귀무가설(\(H_{0}\)): 남, 녀간의 평균에 차이가 없다.
        • 1-2-2. 모분산을 모르는 경우 & 표본이 작을 때
          • 1-2-2-1. 독립표본 T 검정 (Independent Sample T test) → ex) 귀무가설(\(H_{0}\)): 남, 녀간의 평균에 차이가 없다.
          • 1-2-2-2. 대응표본 T 검정 (Paired Sample T test) → ex) 귀무가설(\(H_{0}\)): 남, 녀간의 평균에 차이가 없다 & 해당 차이를 반복해서 검증 (한 달간 간격을 두고 측정: 1개윌 뒤, 2개윌 뒤, 3개윌 뒤, ....)  
      • 1-3. 비교하는 집단이 셋 이상일 때
        • 1-3-1. ANOVA (분산분석)
          • 1-3-1-1. 일원 분산분석 (One-way ANOVA) → ex) 귀무가설(\(H_{0}\)): 한국, 미국, 독일의 평균에 차이가 없다
          • 1-3-1-2. 반복측정 분산분석 (Repeated Measures ANOVA) → ex) 귀무가설(\(H_{0}\)): 한국, 미국, 독일의 평균에 차이가 없다 & 해당 차이를 반복해서 검증 (한 달간 간격을 두고 측정: 1개윌 뒤, 2개윌 뒤, 3개윌 뒤, ....)  
          • 1-3-1-3. 이원 분산분석 (Two-way ANOVA) → ex) 
          • 1-3-1-4. 이원반복측정 분산분석 (Two-way Repeated Measures ANOVA) → ex)
    2. '분산'의 차이를 검정 하고 싶을 때 
      • 2-1. 비교하는 집단이 하나일 때 
        • Chi square (카이검정) → ex) 귀무가설(\(H_{0}\)): 프로야구 선발투수들 직구구속의 분산은 K이다. → 분산이 K이인지 검증
      • 2-2. 비교하는 집단이 둘일 때 
        • F 검정 (F test) → ex) 귀무가설(\(H_{0}\)): LG 선발투수들 직구구속과 삼성 선발투수들 직구구속 분산이 같다. 
  • '관계'와 관련된 검정
    1. 범주형변수끼리 비교
      • 1-1. Chi squre (카이제곱 검정)
    2. 수치형변수끼리 상관관계 비교
      • 2-1. 상관분석 (Correlation) → 변수 (자료) 들끼리의 '증감'이나 '상관정도'만 나타낼 뿐, 인과관계를 나타내지는 못합니다 → 관련개념: 공분산(covariance), 상관계수(correlation coefficient) → 선형대수 PCA 개념에서 활용되기도 함
    3. 변수끼리의 인과관계 비교 (독립변수&종속변수) → 종속변수는 반응변수라고도 함
      • 3-1. 회귀분석 (Regression) → 독립변수들과 종속변수간의 인과관계를 파악하는 분석기법
        • 3-1-1. 변수들이 수치형 변수에 속함
          • 3-1-1-1. 단순 회귀분석 (Linear Regression) → ex) \(Y=aX=f(X)\) → 독립변수, 종속변수간의 선형함수관계를 찾는 것
          • 3-1-1-2. 다중 회귀분석 (Multiple Linear Regression) → ex) \(Y=aX_{1}+bX_{2}+\cdots+zX_{n}=f(X_{1}, X_{2}, \cdots, X_{n})\) → 다수의 독립변수와 단일 종속변수간의 선형함수관계를 찾는 것
        • 3-1-2. (독립변수=범주형 or 연속형 변수) and (종속변수(반응변수) = 명목형 or 이분형 (0 or 1 값을 가짐) 변수) 
          • 3-1-2-1. 로지스틱 회귀분석 (Logistic Regression) → ex) 여러 독립변수들로부터 두 범주만 가지는 반응변수를 예측 → (확률 관점으로 봤을 때) 종속변수 값이 0.5보다 크면 반응(1=true)하고 작으면 반응하지 않음(0=false)

 

이미지 출처: https://blog.naver.com/cjworud/10094919262

 

 

※ 다음 글에서는 가설검정 종류들을 차례대로 알아보도록 하겠습니다.

+ Recent posts