'가설검정 종류' 태그의 글 목록

가설검정 종류

[통계학-가설검정] 4.가설의 종류를 파악하기 (Feat. 귀무가설, 대립가설) 2021.05.26 2

[통계학-가설검정] 4.가설의 종류를 파악하기 (Feat. 귀무가설, 대립가설)

2021. 5. 26. 23:41

안녕하세요.

이번글에서는 가설을 검정(test)하는 큰 흐름을 알아보도록 하겠습니다.

1. 통계적 가설검정 방식 (Feat. 귀무가설과 대립가설)

"A백신이 효과가 있다"는 가설을 검증한다고 해보겠습니다.
일반적으로 생각했을 때는, "A백신이 효과가 있다"라는 것을 바로 검증하려고 시도할 것 입니다.
하지만, 통계적인 관점에서 가설을 검정하는 방식은 조금 다릅니다.
내가 주장한 가설과 반대되는 "A백신이 효과가 없다"라는 가설을 세우고, 이 가설이 틀렸다는 것을 보여줌으로써, 내가 주장한 가설이 참임을 증명하는 방식이 통계적인 가설검정 방식입니다 .
이때, 내가 주장한 가설과 반대되는 가설을 '귀무가설(Null hypothesis, \(H_{0}\))'이라고 하고, 내가 주장하는 가설을 '대립가설(Alternative hypothesis, \(H_{1}\))'이라고 합니다.
- 귀무가설(Null hypothesis, \(H_{0}\)): 돌아갈 귀, 없을 무 → 처음부터 버릴 것을 예상하는 가설 또는 틀리기를 바라는 가설(?)
- 대립가설(Alternative hypothesis, \(H_{1}\): → 연구 가설 또는 유지 가설이라고도 부르는데 귀무가설에 대립하는 명제 → 귀무가설을 대체하고 싶은 가설 즉, 귀무가설이 틀렸고 내가 세운 가설이 맞기 때문에 귀무가설을 대체할 수 있다 (alternative)고 생각하는 가설

[가설검정 순서]

※ 아래 사진은 가설검정이 이루어지는 순서입니다. 이번글에서는 '귀무가설/대립가설' 부분만 살펴보고, 다음글에서 부터 "유의 수준~검정통계량"에 대해서 알아보도록 하겠습니다.

이미지 출처: https://www.slideshare.net/ssuser64f3dc/ss-72602596

이미지 출처: http://blog.naver.com/PostView.nhn?blogId=afterglow25&logNo=110124544645

2. 가설의 종류

앞서 '귀무가설'과 '대립가설'에 대해서 알아보았습니다.
그런데, '가설'의 종류에 따라 검정방식이 달라진다는 것을 알고 있으신가요?
즉, '가설검정'방식은 '가설'의 종류에 따라 굉장히 다양하기 때문에, 가설검정에 있어서 가장 중요하고, 제일 먼저해야 할 일은 '가설'의 종류를 파악하는 것입니다.
예를 들어, 아래와 같은 귀무가설들이 있다고 해보겠습니다.
- ex1) "어떤 집단의 키가 (평균적으로) m이다"
- ex2) "두 집단의 특징이 (평균적으로) 같다"
- ex3) "어떤 집단에 특정 처리를 했을 때, 해당 집단의 특성이 (평균적으로) 전과 후가 같다"
위의 세 가지 가설들은 각각 가설검정 방식이 다릅니다.
그렇다면, '가설'의 종류들을 어떻게 나눌 수 있을까요? 지금부터 알아보도록 하겠습니다.

2-1. 자료형(data type)의 성격

가설의 종류를 살펴보기 전에 배경지식으로 알아두어야 할 것이 가설에 기반이되는 데이터(변수, 자료)의 유형입니다.

[자료형 종류]

범주형 (categorical data) = 질적변수 (qualitatitve variable) → 몇 개의 범주로 나누어진 데이터 → 수량화 불가능
- 명목형(nominal data) → '순서'에 의미가 없는 분류형 → ex) 성별(남/녀), 성공여부(성공/실패), 혈액형(A/B/O/AB)
- 순서형(ordinal data) → '순서'에 의미가 있는 분류형 → ex) 교육수준(초졸=1, 중졸=2, 고졸=3, 대졸 이상=4), 간강상태(좋음=3, 보통=2, 나쁨=1)
수치형 (numerical data) = 양적변수 (quantitive variable) → 수량화 가능
- 이산형(discrete data) → 이산적인 값을 갖는 데이터 (이산확률분포의 이산확률변수) → ex) 연령(10대, 20대, 30대, ....)
- 연속형(continuous data) → 연속적인 값을 갖는 데이터 (연속확률분포의 연속확률변수) → ex) 신장, 체중, 혈압

2-2. 가설의 종류에 따른 가설검정 방법들

[↓↓↓위의 그림 텍스트로 정리한 것↓↓↓]

'차이'와 관련된 검정
1. '평균'의 차이를 검정 하고 싶을 때
  - 1-1. 비교하는 집단이 하나일 때
    - 1-1-1. 모분산을 알고 있는 경우 & 표본이 클 때
      - 일(1)표본 Z 검정 (One-sample Z test) → ex) 귀무가설(\(H_{0}\)): 한국의 평균은 K이다.
    - 1-1-2. 모분산을 모르는 경우 & 표본이 작을 때
      - 일(1) 표본 T 검정 (One-sample T test) → ex) 귀무가설(\(H_{0}\)): 한국의 평균은 K이다.
  - 1-2. 비교하는 집단이 둘일 때
    - 1-2-1. 모분산을 알고 있는 경우 & 표본이 클 때
      - 이(2)표본 Z 검정 (Two-sample Z test) → ex) 귀무가설(\(H_{0}\)): 남, 녀간의 평균에 차이가 없다.
    - 1-2-2. 모분산을 모르는 경우 & 표본이 작을 때
      - 1-2-2-1. 독립표본 T 검정 (Independent Sample T test) → ex) 귀무가설(\(H_{0}\)): 남, 녀간의 평균에 차이가 없다.
      - 1-2-2-2. 대응표본 T 검정 (Paired Sample T test) → ex) 귀무가설(\(H_{0}\)): 남, 녀간의 평균에 차이가 없다 & 해당 차이를 반복해서 검증 (한 달간 간격을 두고 측정: 1개윌 뒤, 2개윌 뒤, 3개윌 뒤, ....)
  - 1-3. 비교하는 집단이 셋 이상일 때
    - 1-3-1. ANOVA (분산분석)
      - 1-3-1-1. 일원 분산분석 (One-way ANOVA) → ex) 귀무가설(\(H_{0}\)): 한국, 미국, 독일의 평균에 차이가 없다
      - 1-3-1-2. 반복측정 분산분석 (Repeated Measures ANOVA) → ex) 귀무가설(\(H_{0}\)): 한국, 미국, 독일의 평균에 차이가 없다 & 해당 차이를 반복해서 검증 (한 달간 간격을 두고 측정: 1개윌 뒤, 2개윌 뒤, 3개윌 뒤, ....)
      - 1-3-1-3. 이원 분산분석 (Two-way ANOVA) → ex)
      - 1-3-1-4. 이원반복측정 분산분석 (Two-way Repeated Measures ANOVA) → ex)
2. '분산'의 차이를 검정 하고 싶을 때
  - 2-1. 비교하는 집단이 하나일 때
    - Chi square (카이검정) → ex) 귀무가설(\(H_{0}\)): 프로야구 선발투수들 직구구속의 분산은 K이다. → 분산이 K이인지 검증
  - 2-2. 비교하는 집단이 둘일 때
    - F 검정 (F test) → ex) 귀무가설(\(H_{0}\)): LG 선발투수들 직구구속과 삼성 선발투수들 직구구속 분산이 같다.
'관계'와 관련된 검정
1. 범주형변수끼리 비교
  - 1-1. Chi squre (카이제곱 검정)
2. 수치형변수끼리 상관관계 비교
  - 2-1. 상관분석 (Correlation) → 변수 (자료) 들끼리의 '증감'이나 '상관정도'만 나타낼 뿐, 인과관계를 나타내지는 못합니다 → 관련개념: 공분산(covariance), 상관계수(correlation coefficient) → 선형대수 PCA 개념에서 활용되기도 함
3. 변수끼리의 인과관계 비교 (독립변수&종속변수) → 종속변수는 반응변수라고도 함
  - 3-1. 회귀분석 (Regression) → 독립변수들과 종속변수간의 인과관계를 파악하는 분석기법
    - 3-1-1. 변수들이 수치형 변수에 속함
      - 3-1-1-1. 단순 회귀분석 (Linear Regression) → ex) \(Y=aX=f(X)\) → 독립변수, 종속변수간의 선형함수관계를 찾는 것
      - 3-1-1-2. 다중 회귀분석 (Multiple Linear Regression) → ex) \(Y=aX_{1}+bX_{2}+\cdots+zX_{n}=f(X_{1}, X_{2}, \cdots, X_{n})\) → 다수의 독립변수와 단일 종속변수간의 선형함수관계를 찾는 것
    - 3-1-2. (독립변수=범주형 or 연속형 변수) and (종속변수(반응변수) = 명목형 or 이분형 (0 or 1 값을 가짐) 변수)
      - 3-1-2-1. 로지스틱 회귀분석 (Logistic Regression) → ex) 여러 독립변수들로부터 두 범주만 가지는 반응변수를 예측 → (확률 관점으로 봤을 때) 종속변수 값이 0.5보다 크면 반응(1=true)하고 작으면 반응하지 않음(0=false)

이미지 출처: https://blog.naver.com/cjworud/10094919262

※ 다음 글에서는 가설검정 종류들을 차례대로 알아보도록 하겠습니다.

저작자표시 (새창열림)

'딥러닝수학 > 확률-통계학' 카테고리의 다른 글

[통계학]4-1-2. 한 집단의 평균을 검정(test)할 때 (Feat. 일(1)표본(=단일표본) T 검정 = Student T 검정) (2)	2021.05.30
[통계학]4-1-1. 한 집단의 평균을 검정(test)할 때 (Feat. 일표본(단일표본) Z검정, 신뢰구간, 단측검정(One-tailed test), 양측검정(Two-tailed test)) (0)	2021.05.27
[통계학]3.정규분포를 따른다는 의미 (Feat. 중심극한정리) (0)	2021.05.26
[통계학]2-2.표본통계량(공분산, 상관계수) (0)	2021.05.25
[통계학]2-1.표본 통계량(표본평균, 표본분산, 자유도, 표본분포) (0)	2021.05.25

PREV 1 NEXT

Time Traveler