안녕하세요.
이번글에서는 가설을 검정(test)하는 큰 흐름을 알아보도록 하겠습니다.
1. 통계적 가설검정 방식 (Feat. 귀무가설과 대립가설)
- "A백신이 효과가 있다"는 가설을 검증한다고 해보겠습니다.
- 일반적으로 생각했을 때는, "A백신이 효과가 있다"라는 것을 바로 검증하려고 시도할 것 입니다.
- 하지만, 통계적인 관점에서 가설을 검정하는 방식은 조금 다릅니다.
- 내가 주장한 가설과 반대되는 "A백신이 효과가 없다"라는 가설을 세우고, 이 가설이 틀렸다는 것을 보여줌으로써, 내가 주장한 가설이 참임을 증명하는 방식이 통계적인 가설검정 방식입니다 .
- 이때, 내가 주장한 가설과 반대되는 가설을 '귀무가설(Null hypothesis, \(H_{0}\))'이라고 하고, 내가 주장하는 가설을 '대립가설(Alternative hypothesis, \(H_{1}\))'이라고 합니다.
- 귀무가설(Null hypothesis, \(H_{0}\)): 돌아갈 귀, 없을 무 → 처음부터 버릴 것을 예상하는 가설 또는 틀리기를 바라는 가설(?)
- 대립가설(Alternative hypothesis, \(H_{1}\): → 연구 가설 또는 유지 가설이라고도 부르는데 귀무가설에 대립하는 명제 → 귀무가설을 대체하고 싶은 가설 즉, 귀무가설이 틀렸고 내가 세운 가설이 맞기 때문에 귀무가설을 대체할 수 있다 (alternative)고 생각하는 가설
[가설검정 순서]
※ 아래 사진은 가설검정이 이루어지는 순서입니다. 이번글에서는 '귀무가설/대립가설' 부분만 살펴보고, 다음글에서 부터 "유의 수준~검정통계량"에 대해서 알아보도록 하겠습니다.
2. 가설의 종류
- 앞서 '귀무가설'과 '대립가설'에 대해서 알아보았습니다.
- 그런데, '가설'의 종류에 따라 검정방식이 달라진다는 것을 알고 있으신가요?
- 즉, '가설검정'방식은 '가설'의 종류에 따라 굉장히 다양하기 때문에, 가설검정에 있어서 가장 중요하고, 제일 먼저해야 할 일은 '가설'의 종류를 파악하는 것입니다.
- 예를 들어, 아래와 같은 귀무가설들이 있다고 해보겠습니다.
- ex1) "어떤 집단의 키가 (평균적으로) m이다"
- ex2) "두 집단의 특징이 (평균적으로) 같다"
- ex3) "어떤 집단에 특정 처리를 했을 때, 해당 집단의 특성이 (평균적으로) 전과 후가 같다"
- 위의 세 가지 가설들은 각각 가설검정 방식이 다릅니다.
- 그렇다면, '가설'의 종류들을 어떻게 나눌 수 있을까요? 지금부터 알아보도록 하겠습니다.
2-1. 자료형(data type)의 성격
- 가설의 종류를 살펴보기 전에 배경지식으로 알아두어야 할 것이 가설에 기반이되는 데이터(변수, 자료)의 유형입니다.
[자료형 종류]
- 범주형 (categorical data) = 질적변수 (qualitatitve variable) → 몇 개의 범주로 나누어진 데이터 → 수량화 불가능
- 명목형(nominal data) → '순서'에 의미가 없는 분류형 → ex) 성별(남/녀), 성공여부(성공/실패), 혈액형(A/B/O/AB)
- 순서형(ordinal data) → '순서'에 의미가 있는 분류형 → ex) 교육수준(초졸=1, 중졸=2, 고졸=3, 대졸 이상=4), 간강상태(좋음=3, 보통=2, 나쁨=1)
- 수치형 (numerical data) = 양적변수 (quantitive variable) → 수량화 가능
- 이산형(discrete data) → 이산적인 값을 갖는 데이터 (이산확률분포의 이산확률변수) → ex) 연령(10대, 20대, 30대, ....)
- 연속형(continuous data) → 연속적인 값을 갖는 데이터 (연속확률분포의 연속확률변수) → ex) 신장, 체중, 혈압
2-2. 가설의 종류에 따른 가설검정 방법들
[↓↓↓위의 그림 텍스트로 정리한 것↓↓↓]
- '차이'와 관련된 검정
- '평균'의 차이를 검정 하고 싶을 때
- 1-1. 비교하는 집단이 하나일 때
- 1-1-1. 모분산을 알고 있는 경우 & 표본이 클 때
- 일(1)표본 Z 검정 (One-sample Z test) → ex) 귀무가설(\(H_{0}\)): 한국의 평균은 K이다.
- 1-1-2. 모분산을 모르는 경우 & 표본이 작을 때
- 일(1) 표본 T 검정 (One-sample T test) → ex) 귀무가설(\(H_{0}\)): 한국의 평균은 K이다.
- 1-1-1. 모분산을 알고 있는 경우 & 표본이 클 때
- 1-2. 비교하는 집단이 둘일 때
- 1-2-1. 모분산을 알고 있는 경우 & 표본이 클 때
- 이(2)표본 Z 검정 (Two-sample Z test) → ex) 귀무가설(\(H_{0}\)): 남, 녀간의 평균에 차이가 없다.
- 1-2-2. 모분산을 모르는 경우 & 표본이 작을 때
- 1-2-2-1. 독립표본 T 검정 (Independent Sample T test) → ex) 귀무가설(\(H_{0}\)): 남, 녀간의 평균에 차이가 없다.
- 1-2-2-2. 대응표본 T 검정 (Paired Sample T test) → ex) 귀무가설(\(H_{0}\)): 남, 녀간의 평균에 차이가 없다 & 해당 차이를 반복해서 검증 (한 달간 간격을 두고 측정: 1개윌 뒤, 2개윌 뒤, 3개윌 뒤, ....)
- 1-2-1. 모분산을 알고 있는 경우 & 표본이 클 때
- 1-3. 비교하는 집단이 셋 이상일 때
- 1-3-1. ANOVA (분산분석)
- 1-3-1-1. 일원 분산분석 (One-way ANOVA) → ex) 귀무가설(\(H_{0}\)): 한국, 미국, 독일의 평균에 차이가 없다
- 1-3-1-2. 반복측정 분산분석 (Repeated Measures ANOVA) → ex) 귀무가설(\(H_{0}\)): 한국, 미국, 독일의 평균에 차이가 없다 & 해당 차이를 반복해서 검증 (한 달간 간격을 두고 측정: 1개윌 뒤, 2개윌 뒤, 3개윌 뒤, ....)
- 1-3-1-3. 이원 분산분석 (Two-way ANOVA) → ex)
- 1-3-1-4. 이원반복측정 분산분석 (Two-way Repeated Measures ANOVA) → ex)
- 1-3-1. ANOVA (분산분석)
- 1-1. 비교하는 집단이 하나일 때
- '분산'의 차이를 검정 하고 싶을 때
- 2-1. 비교하는 집단이 하나일 때
- Chi square (카이검정) → ex) 귀무가설(\(H_{0}\)): 프로야구 선발투수들 직구구속의 분산은 K이다. → 분산이 K이인지 검증
- 2-2. 비교하는 집단이 둘일 때
- F 검정 (F test) → ex) 귀무가설(\(H_{0}\)): LG 선발투수들 직구구속과 삼성 선발투수들 직구구속 분산이 같다.
- 2-1. 비교하는 집단이 하나일 때
- '평균'의 차이를 검정 하고 싶을 때
- '관계'와 관련된 검정
- 범주형변수끼리 비교
- 1-1. Chi squre (카이제곱 검정)
- 수치형변수끼리 상관관계 비교
- 2-1. 상관분석 (Correlation) → 변수 (자료) 들끼리의 '증감'이나 '상관정도'만 나타낼 뿐, 인과관계를 나타내지는 못합니다 → 관련개념: 공분산(covariance), 상관계수(correlation coefficient) → 선형대수 PCA 개념에서 활용되기도 함
- 변수끼리의 인과관계 비교 (독립변수&종속변수) → 종속변수는 반응변수라고도 함
- 3-1. 회귀분석 (Regression) → 독립변수들과 종속변수간의 인과관계를 파악하는 분석기법
- 3-1-1. 변수들이 수치형 변수에 속함
- 3-1-1-1. 단순 회귀분석 (Linear Regression) → ex) \(Y=aX=f(X)\) → 독립변수, 종속변수간의 선형함수관계를 찾는 것
- 3-1-1-2. 다중 회귀분석 (Multiple Linear Regression) → ex) \(Y=aX_{1}+bX_{2}+\cdots+zX_{n}=f(X_{1}, X_{2}, \cdots, X_{n})\) → 다수의 독립변수와 단일 종속변수간의 선형함수관계를 찾는 것
- 3-1-2. (독립변수=범주형 or 연속형 변수) and (종속변수(반응변수) = 명목형 or 이분형 (0 or 1 값을 가짐) 변수)
- 3-1-2-1. 로지스틱 회귀분석 (Logistic Regression) → ex) 여러 독립변수들로부터 두 범주만 가지는 반응변수를 예측 → (확률 관점으로 봤을 때) 종속변수 값이 0.5보다 크면 반응(1=true)하고 작으면 반응하지 않음(0=false)
- 3-1-1. 변수들이 수치형 변수에 속함
- 3-1. 회귀분석 (Regression) → 독립변수들과 종속변수간의 인과관계를 파악하는 분석기법
- 범주형변수끼리 비교
※ 다음 글에서는 가설검정 종류들을 차례대로 알아보도록 하겠습니다.
'딥러닝수학 > 확률-통계학' 카테고리의 다른 글
[통계학]4-1-2. 한 집단의 평균을 검정(test)할 때 (Feat. 일(1)표본(=단일표본) T 검정 = Student T 검정) (2) | 2021.05.30 |
---|---|
[통계학]4-1-1. 한 집단의 평균을 검정(test)할 때 (Feat. 일표본(단일표본) Z검정, 신뢰구간, 단측검정(One-tailed test), 양측검정(Two-tailed test)) (0) | 2021.05.27 |
[통계학]3.정규분포를 따른다는 의미 (Feat. 중심극한정리) (0) | 2021.05.26 |
[통계학]2-2.표본통계량(공분산, 상관계수) (0) | 2021.05.25 |
[통계학]2-1.표본 통계량(표본평균, 표본분산, 자유도, 표본분포) (0) | 2021.05.25 |