이번 글에서는두 집단의 평균 차이를 검정(test)하는 세 가지 가설검정 방식중 하나인 이(2)표본 Z검정에 대해 알아보도록 하겠습니다.
Independent Samples Z-Test is also called the Two-Sample Z-Test or Z-Test for Independent Samples.
이(2)표본 Z 검정 (Two-sample Z test) = 독립표본 Z검정 (Independent Z test)
독립표본 T 검정 (Independent Sample T test)
대응표본 T 검정 (Paired Sample T test)
[가설검정의 종류]
'차이'와 관련된 검정
'평균'의 차이를 검정 하고 싶을 때
1-1. 비교하는 집단이 하나일 때
1-1-1. 모분산을 알고 있는 경우
일(1)표본 Z 검정 (One-sample Z test) → ex) 귀무가설(\(H_{0}\)): 한국의 평균은 K이다.
1-1-2. 모분산을 모르는 경우
일(1) 표본 T 검정 (One-sample T test) → ex) 귀무가설(\(H_{0}\)): 한국의 평균은 K이다.
1-2. 비교하는 집단이 둘일 때
1-2-1. 모분산을 알고 있는 경우
이(2)표본 Z검정 (Two-sample Z test) → ex) 귀무가설(\(H_{0}\)): 남, 녀간의 평균에 차이가 없다.
1-2-2. 모분산을 모르는 경우 & 표본이 작을 때
1-2-2-1. 독립표본 T 검정 (Independent Sample T test) → ex) 귀무가설(\(H_{0}\)): 남, 녀간의 평균에 차이가 없다.
1-2-2-2. 대응표본 T 검정 (Paired Sample T test) → ex) 귀무가설(\(H_{0}\)): 남, 녀간의 평균에 차이가 없다 & 해당 차이를 반복해서 검증 (한 달간 간격을 두고 측정: 1개윌 뒤, 2개윌 뒤, 3개윌 뒤, ....)
1-3. 비교하는 집단이 셋 이상일 때
1-3-1. ANOVA (분산분석)
1-3-1-1. 일원 분산분석 (One-way ANOVA) → ex) 귀무가설(\(H_{0}\)): 한국, 미국, 독일의 평균에 차이가 없다
1-3-1-2. 반복측정 분산분석 (Repeated Measures ANOVA) → ex) 귀무가설(\(H_{0}\)): 한국, 미국, 독일의 평균에 차이가 없다 & 해당 차이를 반복해서 검증 (한 달간 간격을 두고 측정: 1개윌 뒤, 2개윌 뒤, 3개윌 뒤, ....)
먼저, 일표본 Z검정과 다른 점은, 두 모집단의 평균은 추정하지 못한상태(=두 모집단의 평균은 모르는 상태)이고, 각 두 모집단의 모분산만 알고 있는 경우입니다.
이러한 제약조건에서 어떻게 두 집단의 평균이 같은지 다른지를 판단하는지 아래 가설검정 방식을 통해 알아보도록 합시다.
(위의 설명에서 언급한 \(\bar{X}_B\)가 아래 그림의 \(\bar{Y}\)라고 생각하시면 됩니다.)
[예시1] LG 트윈스 팀장인 J씨에게 두 야구배트 업체로부터 자신들의 배트를 사용해달라고 의뢰가 들어왔습니다. 두 업체의 가격은 똑같았지만 평소 B회사와 친분이 있었기 때문에, A회사의 배트 강도와 B회사의 배트 강도가 별 차이가 없다고 판단하면, B회사의 배트를 사용하려고 합니다. 그렇다면, A회사의 배트 강도와 B회사의 배트 강도는 같은지 알아봅시다.
팀장 J씨는 A회사의 배트들의 분산(강도와 관련된 분산)과 B회사의 분산 값을 알고 있습니다.
팀장 J씨는 두 업체를 방문해 각각 50개씩 배트 표본을 추출했습니다.
A,B회사의 모든 배트에 대한 각각의 평균강도는 알 수 없지만, 추출한 표본에서 평균강도를 구할 수는 있습니다.
A회사에서 뽑은 50개 배트(=A회사의 표본)의 강도 평균은 804라고 합시다.
B회사에서 뽑은 50개 배트(=B회사의 표본)의 강도 평균은 800이라고 합시다.
p-value가 유의수준보다 낮기 때문에 귀무가설을 기각하고 대립가설을 채택합니다.
즉, A회사와 B회사의 배트강도는 차이가 있다는 판단을 했습니다.
팀장 J씨는 A회사에서 뽑은 배트(=표본)들의 평균 강도가 더 강하기 때문에 (804>800), A회사의 배트를 사용하기로 결정합니다.
일(1)표본 Z 검정 (One-sample Z test) → ex) 귀무가설(\(H_{0}\)): 한국의 평균은 K이다.
1-1-2. 모분산을 모르는 경우
일(1) 표본 T 검정 (One-sample T test) → ex) 귀무가설(\(H_{0}\)): 한국의 평균은 K이다.
1-2. 비교하는 집단이 둘일 때
1-2-1. 모분산을 알고 있는 경우 & 표본이 클 때
이(2)표본 Z 검정 (Two-sample Z test) → ex) 귀무가설(\(H_{0}\)): 남, 녀간의 평균에 차이가 없다.
1-2-2. 모분산을 모르는 경우 & 표본이 작을 때
1-2-2-1. 독립표본 T 검정 (Independent Sample T test) → ex) 귀무가설(\(H_{0}\)): 남, 녀간의 평균에 차이가 없다.
1-2-2-2. 대응표본 T 검정 (Paired Sample T test) → ex) 귀무가설(\(H_{0}\)): 남, 녀간의 평균에 차이가 없다 & 해당 차이를 반복해서 검증 (한 달간 간격을 두고 측정: 1개윌 뒤, 2개윌 뒤, 3개윌 뒤, ....)
1-3. 비교하는 집단이 셋 이상일 때
1-3-1. ANOVA (분산분석)
1-3-1-1. 일원 분산분석 (One-way ANOVA) → ex) 귀무가설(\(H_{0}\)): 한국, 미국, 독일의 평균에 차이가 없다
1-3-1-2. 반복측정 분산분석 (Repeated Measures ANOVA) → ex) 귀무가설(\(H_{0}\)): 한국, 미국, 독일의 평균에 차이가 없다 & 해당 차이를 반복해서 검증 (한 달간 간격을 두고 측정: 1개윌 뒤, 2개윌 뒤, 3개윌 뒤, ....)
이번 글에서는 한 집단의 평균을 검정(test)하는 두 가지 가설검정 방식중 하나인 일(1)표본(=단일표본) Z검정에 대해 알아보도록 하겠습니다.
일(1)표본(=단일표본) Z검정 (One-sample Z test)
일(1)표본 T검정(=단일표본) (One-sample T test)
[가설검정의 종류]
'차이'와 관련된 검정
'평균'의 차이를 검정 하고 싶을 때
1-1. 비교하는 집단이 하나일 때
1-1-1. 모분산을 알고 있는 경우 & 표본이 클 때
일(1)표본 Z 검정 (One-sample Z test) → ex) 귀무가설(\(H_{0}\)): 한국의 평균은 K이다.
1-1-2. 모분산을 모르는 경우 & 표본이 작을 때
일(1) 표본 T 검정 (One-sample T test) → ex) 귀무가설(\(H_{0}\)): 한국의 평균은 K이다.
1-2. 비교하는 집단이 둘일 때
1-2-1. 모분산을 알고 있는 경우 & 표본이 클 때
이(2)표본 Z 검정 (Two-sample Z test) → ex) 귀무가설(\(H_{0}\)): 남, 녀간의 평균에 차이가 없다.
1-2-2. 모분산을 모르는 경우 & 표본이 작을 때
1-2-2-1. 독립표본 T 검정 (Independent Sample T test) → ex) 귀무가설(\(H_{0}\)): 남, 녀간의 평균에 차이가 없다.
1-2-2-2. 대응표본 T 검정 (Paired Sample T test) → ex) 귀무가설(\(H_{0}\)): 남, 녀간의 평균에 차이가 없다 & 해당 차이를 반복해서 검증 (한 달간 간격을 두고 측정: 1개윌 뒤, 2개윌 뒤, 3개윌 뒤, ....)
1-3. 비교하는 집단이 셋 이상일 때
1-3-1. ANOVA (분산분석)
1-3-1-1. 일원 분산분석 (One-way ANOVA) → ex) 귀무가설(\(H_{0}\)): 한국, 미국, 독일의 평균에 차이가 없다
1-3-1-2. 반복측정 분산분석 (Repeated Measures ANOVA) → ex) 귀무가설(\(H_{0}\)): 한국, 미국, 독일의 평균에 차이가 없다 & 해당 차이를 반복해서 검증 (한 달간 간격을 두고 측정: 1개윌 뒤, 2개윌 뒤, 3개윌 뒤, ....)
다만, 표준화된 표본평균분포 기준으로 유의수준 5%가 오른쪽에 모두 할당되거나, 왼쪽에 모두 할당되는 것이 양측검정과의 차이라고 볼 수 있습니다.
[예시] K제과 회사는 자신들이 생산하는 젤리의 표본을 무수히 많이 추출한 결과 (표본크기≥30이상, 표본개수=多), (중심극한정리에 의해) 무게는 평균60g 이고 5g정도의 표준편차를 갖는 정규분포를 형성한다고 발표했습니다. 하지만, K회사의 경쟁회사인 S회사는 K회사에서 제시한 평균이 잘 못 됐다고 생각하여 허위과장이 아닌지 의심하고 있습니다. S회사는 어떻게 K회사가 제시한 평균을 어떻게 검정할 수 있을까요?
※ 두 집단의 평균이 같은지 다른지 검정할 때는 양측검정 한쪽이 다른쪽보다 큰지 아닌지 검정할 때는 단측검정
[생각해보기]
딥러닝을 이용한 행동인지 프로그램을 개발했다. 해당 프로그램은 치매환자의 행동패턴을 분석하고, 특정패턴이 발견되면 치매환자라고 분류한다. 이러한 특정패턴은 특정 수치값 이상이면 치매와 관련된 패턴이라고 인식되는데, 실제 치매환자들 기준으로 측정한 결과 치매환자로 분류하는 특정 수치 값은 평균50, 분산1 인 정규분포 범위를 갖는다고 한다. 이때, 다른 연구자들이 이 수치 값이 맞는지 100개의 sample을 추출해 Z검정을 실시하고, 해당 프로그램이 통계적으로 참인지 아닌지 구분할 수 있다.
일반적으로 생각했을 때는, "A백신이 효과가 있다"라는 것을 바로 검증하려고 시도할 것 입니다.
하지만, 통계적인 관점에서 가설을 검정하는 방식은 조금 다릅니다.
내가 주장한 가설과 반대되는 "A백신이 효과가 없다"라는 가설을 세우고, 이 가설이 틀렸다는 것을 보여줌으로써, 내가 주장한 가설이 참임을 증명하는 방식이 통계적인 가설검정 방식입니다 .
이때, 내가 주장한 가설과 반대되는 가설을 '귀무가설(Null hypothesis, \(H_{0}\))'이라고 하고, 내가 주장하는 가설을 '대립가설(Alternative hypothesis, \(H_{1}\))'이라고 합니다.
귀무가설(Null hypothesis, \(H_{0}\)): 돌아갈 귀, 없을 무 → 처음부터 버릴 것을 예상하는 가설 또는 틀리기를 바라는 가설(?)
대립가설(Alternative hypothesis, \(H_{1}\): → 연구가설또는 유지가설이라고도 부르는데 귀무가설에대립하는 명제 → 귀무가설을 대체하고 싶은 가설 즉, 귀무가설이 틀렸고 내가 세운 가설이 맞기 때문에 귀무가설을 대체할 수 있다 (alternative)고 생각하는 가설
[가설검정 순서]
※ 아래 사진은 가설검정이 이루어지는 순서입니다. 이번글에서는 '귀무가설/대립가설' 부분만 살펴보고, 다음글에서 부터 "유의 수준~검정통계량"에 대해서 알아보도록 하겠습니다.
2. 가설의 종류
앞서 '귀무가설'과 '대립가설'에 대해서 알아보았습니다.
그런데, '가설'의 종류에 따라 검정방식이 달라진다는 것을 알고 있으신가요?
즉, '가설검정'방식은 '가설'의 종류에 따라 굉장히 다양하기 때문에, 가설검정에 있어서 가장 중요하고, 제일 먼저해야 할 일은 '가설'의 종류를 파악하는 것입니다.
예를 들어, 아래와 같은 귀무가설들이 있다고 해보겠습니다.
ex1) "어떤 집단의 키가 (평균적으로) m이다"
ex2) "두 집단의 특징이 (평균적으로) 같다"
ex3) "어떤 집단에 특정 처리를 했을 때, 해당 집단의 특성이 (평균적으로) 전과 후가 같다"
위의 세 가지 가설들은 각각 가설검정 방식이 다릅니다.
그렇다면, '가설'의 종류들을 어떻게 나눌 수 있을까요? 지금부터 알아보도록 하겠습니다.
2-1. 자료형(data type)의 성격
가설의 종류를 살펴보기 전에 배경지식으로 알아두어야 할 것이 가설에 기반이되는 데이터(변수, 자료)의 유형입니다.
[자료형 종류]
범주형 (categorical data) = 질적변수 (qualitatitve variable) → 몇 개의 범주로 나누어진 데이터 → 수량화 불가능
명목형(nominal data) → '순서'에 의미가 없는 분류형 → ex) 성별(남/녀), 성공여부(성공/실패), 혈액형(A/B/O/AB)
순서형(ordinal data) → '순서'에 의미가 있는 분류형 → ex) 교육수준(초졸=1, 중졸=2, 고졸=3, 대졸 이상=4), 간강상태(좋음=3, 보통=2, 나쁨=1)
수치형 (numerical data) = 양적변수 (quantitive variable) → 수량화 가능
이산형(discrete data) → 이산적인 값을 갖는 데이터 (이산확률분포의 이산확률변수) → ex) 연령(10대, 20대, 30대, ....)
연속형(continuous data) → 연속적인 값을 갖는 데이터 (연속확률분포의 연속확률변수) → ex) 신장, 체중, 혈압
2-2. 가설의 종류에 따른 가설검정 방법들
[↓↓↓위의 그림 텍스트로 정리한 것↓↓↓]
'차이'와 관련된 검정
'평균'의 차이를 검정 하고 싶을 때
1-1. 비교하는 집단이 하나일 때
1-1-1. 모분산을 알고 있는 경우 & 표본이 클 때
일(1)표본 Z 검정 (One-sample Z test) → ex) 귀무가설(\(H_{0}\)): 한국의 평균은 K이다.
1-1-2. 모분산을 모르는 경우 & 표본이 작을 때
일(1) 표본 T 검정 (One-sample T test) → ex) 귀무가설(\(H_{0}\)): 한국의 평균은 K이다.
1-2. 비교하는 집단이 둘일 때
1-2-1. 모분산을 알고 있는 경우 & 표본이 클 때
이(2)표본 Z 검정 (Two-sample Z test) → ex) 귀무가설(\(H_{0}\)): 남, 녀간의 평균에 차이가 없다.
1-2-2. 모분산을 모르는 경우 & 표본이 작을 때
1-2-2-1. 독립표본 T 검정 (Independent Sample T test) → ex) 귀무가설(\(H_{0}\)): 남, 녀간의 평균에 차이가 없다.
1-2-2-2. 대응표본 T 검정 (Paired Sample T test) → ex) 귀무가설(\(H_{0}\)): 남, 녀간의 평균에 차이가 없다 & 해당 차이를 반복해서 검증 (한 달간 간격을 두고 측정: 1개윌 뒤, 2개윌 뒤, 3개윌 뒤, ....)
1-3. 비교하는 집단이 셋 이상일 때
1-3-1. ANOVA (분산분석)
1-3-1-1. 일원 분산분석 (One-way ANOVA) → ex) 귀무가설(\(H_{0}\)): 한국, 미국, 독일의 평균에 차이가 없다
1-3-1-2. 반복측정 분산분석 (Repeated Measures ANOVA) → ex) 귀무가설(\(H_{0}\)): 한국, 미국, 독일의 평균에 차이가 없다 & 해당 차이를 반복해서 검증 (한 달간 간격을 두고 측정: 1개윌 뒤, 2개윌 뒤, 3개윌 뒤, ....)
Chi square (카이검정) → ex) 귀무가설(\(H_{0}\)): 프로야구 선발투수들 직구구속의 분산은 K이다. → 분산이 K이인지 검증
2-2. 비교하는 집단이 둘일 때
F 검정 (F test) → ex) 귀무가설(\(H_{0}\)): LG 선발투수들 직구구속과 삼성 선발투수들 직구구속 분산이 같다.
'관계'와 관련된 검정
범주형변수끼리 비교
1-1. Chi squre (카이제곱 검정)
수치형변수끼리 상관관계 비교
2-1. 상관분석 (Correlation) → 변수 (자료) 들끼리의 '증감'이나 '상관정도'만 나타낼 뿐, 인과관계를 나타내지는 못합니다 → 관련개념: 공분산(covariance), 상관계수(correlation coefficient) → 선형대수 PCA 개념에서 활용되기도 함
변수끼리의 인과관계 비교 (독립변수&종속변수) → 종속변수는 반응변수라고도 함
3-1. 회귀분석 (Regression) → 독립변수들과 종속변수간의 인과관계를 파악하는 분석기법
3-1-1. 변수들이 수치형 변수에 속함
3-1-1-1. 단순 회귀분석 (Linear Regression) → ex) \(Y=aX=f(X)\) → 독립변수, 종속변수간의 선형함수관계를 찾는 것
3-1-1-2. 다중 회귀분석 (Multiple Linear Regression) → ex) \(Y=aX_{1}+bX_{2}+\cdots+zX_{n}=f(X_{1}, X_{2}, \cdots, X_{n})\) → 다수의 독립변수와 단일 종속변수간의 선형함수관계를 찾는 것
3-1-2. (독립변수=범주형 or 연속형 변수) and (종속변수(반응변수) = 명목형 or 이분형 (0 or 1 값을 가짐) 변수)
3-1-2-1. 로지스틱 회귀분석 (Logistic Regression) → ex) 여러 독립변수들로부터 두 범주만 가지는 반응변수를 예측 → (확률 관점으로 봤을 때) 종속변수 값이 0.5보다 크면 반응(1=true)하고 작으면 반응하지 않음(0=false)
일반적인 현상을 통계로 나타낼 때, 대부분 평균주위에 많이 몰려있을 확률이 높습니다. 이는 중심극한정리를 통해 설명될 수 있습니다.
예를 들어, 대한민국 프로야구 선발선수들의 직구 구속을 측정한다고 해보겠습니다.
팀 당 선발투수의 직구 구속을 측정했다고 가정해보겠습니다.
LG는 선발진이 강해서 150대를 던진다고 해보겠습니다. (무적LG 만세!)
삼성은 선발진이 리그 평균이라 대부분 140대를 던진다고 해보겠습니다.
총 30개 팀들의 평균 구속을 산출한 후, 각 팀 평균들의 분포 (=표본평균 분포)를 나타냈더니 평균 140대이면서 정규분포를 구성하게 됩니다. (By 중심극한정리)
즉, 프로야구 선발투수들의 투구들은 대부분 평균 140대일 것이고, 150대 투수들과 130대 투수들은 평균보다 적을 것이라고 추정해볼 수 있습니다.
2-1. 표본의 크기가 충분히 크다면 중심극한 정리가 성립한다.
중심극한 정리를 공부하면서 가장 혼동되는 개념이 표본크기와 중심극한정리의 관계입니다.
앞서 설명한 것을 따르면, 표본크기가 적어도 30개 이상이고, 표본(집단)개수를 많이 추출해야 표본평균분포가 정규분포를 따른다고 보여집니다.
하지만, 아래 시뮬레이션을 보면 흥미로운 것이 표본크기인 n의 개수가 커질 수록, 표본(집단)개수(=Number of sampling)의 수가 줄어들어도 중심극한 정리가 형성되는 것을 볼 수 있습니다.
[시뮬레이션 예시]
모집단이 지수분포를 따른다고 가정해보겠습니다.
모집단에서 표본크기2를 갖는 20000개의 표본(집단)개수를 추출하여 표본평균분포를 그리면 아래와 같습니다.
이번에는 표본크기를 36개로 늘려보겠습니다. 표본크기를 늘려보니 표본(집단)개수가 7000개만 돼도, 더욱 정교한 정규분포를 형성하는 것을 볼 수 있습니다.
표본크기가 100이 되면, 표본평균분포가 정규분포를 따르기 위해 필요한 표본(집단)수는 현격히 줄어들게 됩니다.
결국 표본크기가 충분히 크면 모집단으로 부터 추출하는 표본(집단)개수가 하나여도 정규분포를 이룰 수 있다는 추론이 가능해집니다.
개인적으로 생각했을 때는 결국 모집단으로부터 추출되는 표본의 총 수는 "표본크기×표본(집단)개수"가 되기 때문이 아닐까 싶습니다. 즉, 표본(집단)개수가 하나여도 표본크기가 엄청 크다보면 모집단의 평균에 해당하는 원소들이 가장 많이 추출이 될 것이기 때문입니다 (=자연스럽게 모집단 평균이 아닌 원소들이 선별되는 횟수가 점점 줄어들겠죠)
사실 표본통계량에서 공분산, 상관계수와 모집단에서의 공분산, 상관계수의 차이는 표본분산의 차이를 보면 이해할 수 있습니다. 하지만, 모집단 상관계수에서의 n과 표본집단 상관계수에서의 n-1 이 각각의 식에서 약분되기 때문에, 최종 수식은 동일하다고 볼 수 있습니다. 그래서, 이번 글에서는 공분산, 상관계수라는 개념 자체만을 설명하는데 집중해보도록 하겠습니다.
우선, 공분산과 상관계수를 설명하기에 앞서,
공분산과 상관계수를 배우는 이유는 "두 개 이상의 독립변수들 간의 관계를 분석하기 위함"이라는 점을 알아두시면 좋을 것 같습니다.
1. 상관분석
상관관계분석을 하는 이유는 두 변수 (X,Y) 가 서로 얼마나 상관이 있는지, 얼마나 관련이 있는지 알아보기 위한 분석방법입니다.
상관분석에는 '공분산', '상관계수'와 같은 개념들이 사용되는데 이에 대해서 알아보도록 하겠습니다.
2. 공분산 (Covariance)
데이터가 2차원(X,Y) 이상으로 표현되는 순간 각각의 차원(or 축) X, Y은 해당 축과 관련된 평균 값과 분산 값을 갖게 됩니다.
2차원 데이터는 2개의 변수(X,Y)를 갖게 되는데, 공분산을 이용하게 되면 두 변수 간의 (선형 or 상관) 관계를 나타낼 수 있습니다. (아래 공식 다음에 공분산이 어떻게 상관관계를 나타내는지 설명하는 예시가 있습니다)
아래 예시를 보면 X, Y 변수간의 상관관계는 반비례 하다는 것을 알 수 있습니다. 즉, 공분산 값이 음수가 나오면 (독립변수 X와 Y는) 반비례한 관계를 갖고 있음을 알 수 있습니다.
결과적으로 공분산을 통해 얻은 값을 통해 각각의 변수간의 상관관계는 아래와 같이 정리 할 수 있습니다.
위에서 알아본 공분산식은 2차원 데이터를 기반으로 하지만, 다차원 관점에서 일반화 하면 아래와 같이 정리 할 수 있습니다.
다차원 관점에서 살펴보긴 하지만 실제로 각각의 매트릭스에 원소는 두 가지의 변수만 고려하기 때문에 다차원 변수 중에서 관심있는 2가지의 변수들에 대한 상관관계를 골라서 찾아볼 수 있습니다.
2-1. 공분산의 특징1
공분산의 특징 중 하나는 X, Y축에 해당하는 범위가 동일하다면 기울기가 1에 가까울 수록 공분산 값이 커진다는 점이다.
(오른쪽 하단 그래프
2-2. 공분산의 특징2
또 다른 특징으로는 데이터들이 평균과 같은 거리에 있고, X, Y축의 범위가 동일하다고 할 때, 흩어짐 정도가 크면 상대적으로 공분산 값이 작습니다. (아래 그림에서 좌측에 산점도(scattering point)에서 평균에 해당하는 데이터도 (x2,y2) 입니다. 그림을 잘 못그려서;;;)
흩어짐의 정도는 해당 데이터들을 가장 잘 표현하는 선을 그렸을 때, 해당 선으로 부터 데이터들이 얼마나 벗어나 있는지 정도를 보고 판단합니다. (보통은 MSE(Mean Square Error)를 이용한 Linear regression을 통해 해당 라인(함수)를 추정하는데, 이에 대해서는 Linear regression 파트에서 설명하도록 하겠습니다)
참고로 공분산은 PCA(주성분 분석)에서도 사용되니 알아두시면 좋을 것 같습니다.
2. 상관계수 (Correlation Coefficient)
2-1. 공분산의 문제점
데이터가 2차원이 이라고 했을 때, 해당 차원은 X, Y축으로 표현할 수 있습니다.
이때 X, Y에 속하는 데이터들끼리 얼마나 관련이 있는지 알아보는 것도 중요합니다.
공분산에서도 어느 정도의 관계성(정비례 or 반비례 or 서로 관련성 없음)을 파악할 수 있지만, X, Y 축에 해당하는 범위가 달라지면 두 변수 X, Y가 어느정도까지 관련성이 강한건지 알 수 없습니다. (→ X, Y축의 범위에 따라 값이 공분산 값이 달라진다는 점)
아래 그림을 보면 데이터A의 공분산값이 데이터B의 공분산 값보다 큽니다. 하지만, X, Y 변수간의 관계성을 따져서 볼 때 데이터A에서의 X, Y의 관계와, 데이터B에서의 X, Y의 관계는 서로 같습니다. 그 이유는 서로 동일한 하나의 함수 (X=Y)로 표현가능하기 때문입니다 (관계라는 것 자체가 함수로 표현가능).
아래 그림에서 볼 수 있듯이 또 다른 측면에서 봤을 때, 흩어짐의 정도가 데이터 A가 심할지라도 X, Y 축의 범위로 인해 데이터A의 공분산 값이 더 크게 나오는 경우가 있습니다.
그러므로 공분산을 통해 X, Y 변수간의 관계를 정확히 파악하기 힘듭니다.
2-2. 공분산의 문제 (X, Y축 범위)를 해결하기 위한 방법 (예시)
그렇다면 X, Y축 범위에 관계없이 X, Y 변수간의 관계정도(상관관계)를 알아보기 위해서 어떻게 하면 좋을까요?
먼저 예를 들어서 설명해보겠습니다.
부자나라에 세 명의 부자가 있다고 합시다. 이 세명의 부자의 월급은 100, 200, 300 입니다. 이 부자의 나라에 월급 평균은 200이고, 분산 값은 \(\sqrt{\frac{100{^2}+0+100{^2}}{3}}\) 입니다.
가난한 나라에 세 명의 거지가 있다고 합시다. 이 세명의 거지의 월급은 10, 15, 20입니다. 이 나라의 월급 평균은 15이고, 분산 값은 \(\sqrt{\frac{5{^2}+0+5{^2}}{3}}\) 입니다.
그렇다면, 부자 나라에서 100을 버는 사람은 가난한 나라에서 어느 정도 위치에 있을까요?
이러한 문제에 답을 하기 위해서는 각 나라의 데이터들 간의 차이를 상대적인 비율로 알아보면 좋습니다. 분산이라는 것은 데이터들이 평균가 떨어져 있는 정도를 나타내는데, 당연히 범위가 큰 곳에 해당하는 분산 값도 클 것입니다. 그래서 해당 나라의 실제(절대적) 편차를 해당 나라의 분산 값으로 나누게 되면, 범위와 무관한 표준화된 편차값을 갖게 됩니다.
즉, 부자나라에서 월급 100을 버는 사람은 상대적으로 봤을 때 가난한 나라에서 월급 10을 버는 것과 같다고 볼 수 있습니다.
2-3. 상관계수 (피어슨의 상관계수)
위에서 설명한 예시를 일반화해서 수식으로 표현한 것이 상관계수입니다.
두 변수간의 관계정도를 파악하기 위해서 상관계수라는 개념이 사용됩니다.
상관계수 공식은 아래와 같습니다. (상관계수는 피어슨의 상관계수라는 이름으로도 사용됩니다)
공분산에서는 X, Y축의 범위가 문제가 되니 각 축에 해당하는 X, Y를 표준화 해주게 되면 X, Y의 범위와 무관하게 상관관계를 파악하는데 큰 도움이 됩니다.
결국, X축에 해당하는 편차들을 표준화하고, Y축에 해당하는 편차들을 표준화 한후, 표준화된 X, Y축에 대해서 공분산을 적용해주면, 이것이 상관계수를 구하는 식이 됩니다.
아래 그림을 보면 평균으로부터의 데이터A에서 X, Y와의 상관관계가 데이터B에 있는 X, Y와의 상관관계가 동일함을 알 수 있습니다.
※ 직관적인 이해를 위해 '큰 수의 법칙'과 연동시켜 이해해보려고 했으나, 정확하지 않을 가능성이 높으니 이상하다고 생각하시는 부분은 지적해주시면 감사하겠습니다. (아래 설명에서 나오는 큰 수의 법칙은 아래 "1-2. 큰 수의 법칙 (대수의 법칙: Law of large numbers)" 부분을 참고해주세요)
(무수히 많이 뽑다보면 = K→∞)
위의 예시를 통해 크기가 1인 표본평균의 평균은 모집단의 평균과 같다는 것을 알게 되었습니다. 이러한 사실을 기반으로 표본평균의 평균이 모집단 평균과 같다는 사실을 입증해보겠습니다.
200명 정도의 학생 몸무게를 측정하는건 어려운 일이 아니기 때문에 하루면 모두 측정가능하겠죠.
위와 같은 경우, 해당 집단의 전(체의)수를 대상으로 조사하는 것이 가능한데, 이러한 조사를 전수조사라고 합니다.
1-2-2. 표본조사 (Sample survey)
그런데, 대한민국 국민들의 몸무게 평균을 측정한다고 해보겠습니다.
어느 세월에 4천만 국민의 몸무게를 측정할 수 있을까요?
대부분 조사를 할 때, 모든 대상을 조사하는 것에는 현실적 어려움이 있기 때문에 모집단(population)으로 부터 표본집단(sampling)을 선별 하게됩니다.
모집단(populatioin):통계적인 관찰의 대상이 되는 모든 데이터들 (ex: 전 국민) → 모집단에서 '모'는 "어미 모"를 의미하는데, 표본집단의 어머니 격이라는 뜻
표본(sampling) (집단): 모집단을 대표하는 일부 데이터들 (ex: 각 지방별로 선별된 일부 국민들)→ 표본이라는 것은 본보기라는 뜻을 의미하는데, 모집단을 대표할 수 있는 (본보기가 되는) 집단이라는 뜻 → 모집단의 부분집합
표본조사라는 단어에서 '표본'은 앞서 언급한 표본집단을 의미하는 것이고, '조사'라는 용어안에 굉장히 많은 과정들이 함축되어 있습니다. 아래 표본조사에 대한 정의를 살펴보면서 '조사'라는 용어에 어떤 과정들이 포함되어 있는지 살펴보는게 좋을 것 같습니다.
"표본조사란, 모집단(population)에서 표본(sampling)을 뽑아서 표본집단의 통계량을 계산한 후, 표본집단의 통계량을 이용해 모집단의 모수(=모집단의 통계량=parameter)을 추론하고, 이를 이용해 내가 주장한 가설을 통계적으로 검증 (testing)하는 일련의 과정"을 의미합니다.
즉, 우리가 배우는 통계학 대부분은 표본조사를 배우는 과정이라고 볼 수 있죠. 그렇다면 지금부터 표본조사가 어떻게 이루어지는지 알아보도록 하겠습니다.
2. 두 번째 행위: 기술통계
앞서 말했듯이, 현실적으로 모든 사람들을 조사할 수는 없기 때문에, 대부분 표본을 추출 (sampling) 하여 조사를 실시하게 됩니다.
추출된 표본 데이터는 해당 집단의 특성을 규명하기 위해 사용됩니다. 즉, 표본 데이터를 통해 해당 집단을 상징(표현)하는 작업을 하는 것이죠.
측정이나 실험에서 수집한 자료(data)의 특성을 규명하는 것도 표본추출한 표본데이터라고 가정합니다. 왜냐하면, 실험에서 수집한 자료가 해당 그룹에 속하는 전세계 모든 대상(데이터)을 포함하진 않기 때문이죠.
그런데, 왜 해당 (표본)집단의 특성을 규명해야 할까요? 앞서 언급한 백신 예시를 통해 알아보도록 하겠습니다.
[(표본)집단의 특성을 규명해야 하는 이유 - 예시]
A백신을 투여했을 때 실험군에서 얻어지는 결과들이 있을 것이고, A백신을 투여하지 않았을 때 대조군에서 얻어지는 결과들이 있을 것입니다.
하지만, 실험군에서 얻어지는 결과들이 전부 같지는 않을 것이고, 대조군에서 얻어지는 결과들이 얻어지는 결과들이 전부 같진 않을 것 입니다.
예를들어, 실험군 내에서도 백신을 주입했을 때 효과가 강력한 경우, 미세한 경우, 또는 효과가 없는 경우가 있을 것입니다. 그래도, 대체적으로 효과가 있을 가능성이 있겠죠.
대조군 내에서도 백신을 주입하지 않았지만 우리도 모르는 현상 때문에 코로나에 면역이 있는 사람들도 있겠죠. 하지만, 대부분 코로나 바이러스에 감염이 될 것 입니다.
즉, 실험군과 대조군이라는 집단에 속한 데이터(사람들)를 살펴보면 '실험군 집단은 대체로, 평균적으로 XX하다' or '대조군 집단은 대체로, 평균적으로 XX하다'라는특성을 알아볼 수 있게 되는 것이죠.
결국, "A백신이 효과가 있다"는 나의 가설을 증명하는 과정 속에, 이러한 집단간의 특성들을 비교하는 것이 포함되어 있기 때문에 집단의 특성을 규명하게 됩니다.
앞서 언급한 표본집단의 특성을 통계학에서는 통계량이라고 합니다.
통계량의 정의는 표본집단의 몇몇 특징을 수치화한 값입니다.
표본 데이터를 입력으로 하는 특정한 함수를 계산함으로써 그 값을 계량하게 되는데, 앞서 배운 평균식, 분산식 등이 이에 포함이 되겠죠.
앞서 언급한 통계량을 이용해 표본집단을 표현(상징)할 수 있도록 그림으로 묘사(descriptive)할 수 있습니다. 이와 같이 수집한 데이터를 통계량을 통해 묘사하고 설명하는 통계기법을 기술통계(Descriptive Statistic)라고 합니다.
기술통계량 종류를 체계적으로 표현하자면 아래와 같습니다. (여기서 나오는 용어들 중 생소한 용어들은 앞으로 게재할 글에서 설명하도록 하겠습니다.)
기술통계량
집중화경향 (Central tendency): 표본 데이터가 어느 위치에 집중되어 있는가를 나타내는 통계량
평균 (Mean)
중앙값 (Median): 자료를 크기순으로 정렬할 때, 가장 중앙에 있는 값
ex) (1, 2, 35, 42, 53) → 35
ex) (1, 2, 35, 42, 53, 60) → (35+43)/2
최빈값 (Mode)
산포도 (Degree of scattering): 표본 데이터가 퍼져 있는 정도를 나타내는 통계량
최댓값: 데이터에서 가장 큰 값
최솟값: 데이터에서 가장 작은 값
범위(Range): 최대값 - 최솟값
분산
사분위편차 (Quartile deviation): 중앙값(Media)을 기반으로 하는 산포도
Q1: 하위에서부터 25%지점에 있는 요소의 값
Q2: 중앙값
Q3: 하위에서 75% 지점에 있는 요소의 값
표준오차
분포 (Distribution; ex: 확률분포)
첨도(kurtosis): 분포의 뾰족한 정도
왜도(skewness): 분포의 기울어진 정도
※ Box Plot
통계량을 이용해 아래와 같이 "Box Plot"을 통해 데이터를 시각화 할 수 도 있습니다. (Box Plot은 중앙값을 기반으로 한다는 것을 알아두세요!)
앞서 우리가 세웠던 가설 (=가설설정) 이 통계적으로 합당한지 증명하기 위해 이 가설을 검정(test)하게 됩니다.
가설검정이란, 추정을 통해 얻은 모수(parameter)와 관련해 특정한 가설을 세워 놓고, 표본의 정보를 사용해서 가설의 합당성 여부를 판정하는 과정을 의미합니다. ( ← 자세한 설명은 가설검정편과 관련된 글에서 하도록 하겠습니다)
통계적 가설은 통계학에서 사용하는 용어로, 하나의 특정 주장을 모수를 이용해 나타낸 형태를 지칭합니다.
예를 들어, '미국 성인여자의 평균신장은 170cm이다'는 통계적 가설이 될 수 있습니다.
왜냐하면, 평균신장은 모집단 특성을 나타내는 모수의 역할을 수행하기 때문입니다.
통계적 가설은 귀무가설(Null hypothesis ,H0, 영가설)과 이와 반대에 있는 대립가설(Alternative hypothesis,H1)로 나타낼 수 있습니다.
귀무가설: 연구에서 검증하는 가설 (기호는 H0) → ex) A백신은 효과가 없다.
대립가설: 연구자가 연구를 통해 입증되기를 기대하는 예상이나 주장 (기호 Ha 또는 H1) → ex) A백신은 효과가 있다
통계학에서 가설을 검증하는 방법은 아래와 같습니다.
우리가 주장하려고 하는 '대립가설'과 반대되는 '귀무가설'을 설정하고, 이러한 '귀무가설'이 통계적으로 합리적이지 않다는 것을 증명함으로써, '대립가설'이 통계적으로 합리적이다라는 것을 증명하는 방식입니다. (가설설정 단계에서 했던 것은 대립가설이고, 가설검증 단계에서 하는 것은 귀무가설이라는 점을 알아두시면 좋을것 같습니다!)
위 그림에서 귀무가설 기각 여부는 아래와 같은 의사결정을 합니다.
대립가설(H1)에 대한 증거가 충분하다면H0를 기각하고H1을 받아들인다.
기각: 그내용이실체적으로이유가없다고판단하여소송을종료하는 알 → 통계적 관점에서 봤을 때, 해당 주장이 "통계적으로" 적합하지 않다고 판단 내리는 것
대립가설(H1)에 대한 증거가 불충분한 경우H0를 기각하지 않는다.
결국, 새로운 내가 주장한 대립가설이 채택이 되면 "나의 주장(가설)이 통계적으로 합당하다는 것이 증명"되게 됩니다.
Introduction - 내가 제안한 가설(연구)이 어떤 측면에서 의미 있는지 광범위한 측면에서 설명
Background - 내가 주장한 가설을 이해하기 위해 필요한 배경지식들 설명
Method - 가설을 증명하기 위해 자신이 고안한 실험 방식
Experiment - 실험을 하기 위해 세팅했던 사항들 설명 → 어떻게 실험이 진행됐는지 설명
Result (and Analysis) - 실험결과가 유의미 했는지 해석 → 내가 실험한 결과를 통계적 (가설검정) 으로 봤을 때, 나의 가설(주장)을 뒷받침 해줄 수 있다고 한다면 (내가 세운 가설 관점에서) 유의미한 실험이 될 수 있음 → 가설검증을 통한 대립가설 채택 과정 → 즉, 유의미한 해석을 하기 위해 통계학이 사용 된 것
보통 아래 그림을 예로 들어보자면, 귀무가설을 "dose(약)를 0.5비율로 투약한 것과 dose를 1비율로 투약한 것에 큰 변화가 없다"라고 설정한다면 대립가설은 "dose(약)를 0.5비율로 투약한 것과 dose를 1비율로 투약한 것에 큰 변화가 있다"고 설정 할 것입니다.
기술통계를 통해 0.5비율을 투약한 집단과, 1.0비율을 투약한 집단간의 비교가 통계적으로 유의미하게 차이가 있는지 추론통계(추정 및 가설검정)을 통해 판별하게 됩니다. 만약, 유의미한 차이가 있다면, 귀무가설을 기각하고 대립가설을 채택하여 '나의 주장'을 통계적으로 입증하게 됩니다.
확률분포에 대한 개념은 "3-1.이산확률분포"에서 설명했기 때문에 여기에서는 바로 연속확률분포에 대해서 설명하도록 하겠습니다.
1. 연속확률분포를 사용하는 이유
앞서 이산확률분포에 대해서 알아보았습니다. 아래 그림을 2000~2024년 동안 비가 얼마나 자주 내렸는지에 대한 현상을 보여주는 데이터라고 해보겠습니다.
아래 확률분포를 통해 알 수 있는 사실은 12, 13년도에 비가 제일 자주 내렸다는 것을 알 수 있습니다. 그런데, 12년도 6월에는 얼마나 비가 내렸는지는 알 수 없습니다. 왜냐하면 아래의 정규분포는 연단위가 확률변수(random variable→12년도, 13년도)이기 때문입니다.
이처럼 우리는 보통 12년도 1월, 12년도 2월 또는 12년도 1월 1일, 12년도 1월 2일 더 나아가서는 시간대별로 얼마나 비가 내렸는지 알고 싶은 경우가 있습니다. 즉, 이산적인 경우가 아니라 모든 경우를 포함하는 연속적인 데이터(확률변수)에 대한 확률 값을 알고 싶은 경우가 많은 것이죠.
그런데, 이러한 모든 연속적인 데이터(=확률변수)를 수집하는 것은 불가능에 가깝습니다. 그렇기 때문에, 데이터(=확률변수)를 수집하고 실험하는 것은 이산적일 수 밖에 없는 것이죠.
그렇기 때문에, 이러한 이산적인 데이터(=확률변수→12년도에 내린 비의 횟수, 13년도에 내린 비의 횟수)를 기반으로해서 연속확률변수에 대한 확률 값을 추정하게 됩니다.
그럼 지금부터 어떻게 이산적인 데이터를 기반으로 연속확률분포를 그려낼 수 있는지 알아보겠습니다.
2. 이산적인 데이터에서 연속확률분포를 추정하는 법 (Feat. 적분 (구분구적법))
먼저, 이산적인 데이터를 설정하는 방식이 이산확률분포에서 봤던 것과 조금 다릅니다.
연속확률분포를 추정하기 위해서는 "계급"이라는 개념이 도입됩니다.
예를 들어, 몸무게를 확률변수로 삼았다고 해보겠습니다.
이산확률분포에서는 몸무게 확률변수가 10,11,12,13 이런식으로 이산적으로 설정이 됩니다. 그렇기 때문에 10.5kg 이라는 확률변수에 대한 확률 값을 알 수 있는 방법은 없는 것이죠.
이에 대한 문제를 해결하기 위해, 우리는 10~20 이라는 범위를 설정하고, 해당 범위 안에 들어가는 사람들의 빈도수를 기록합니다. (여기서 중요한 것은 실제로 우리가 얻은 데이터는 10kg, 10.2kg, 14kg 등 일 것이라는 점입니다. 즉, 10.1kg, 10.25kg 이러한 데이터는 없다는 것이죠.)
그저 이산적으로 모은 데이터를 10~20라는 범위에 포함시키고 앞선 10.1kg, 10.25kg 과 같은 데이터(=확률변수)에 해당하는 확률 값을 추정하는 것이죠.
이 때, 10~20(=A 클래스), 20~30(=B 클래스), 30~40(=C 클래스) 등 이런식으로 계급을 통해 표현하는 것이 연속확률변수를 추정하는 핵심 포인트가 됩니다. (어디까지나 이산적인 데이터를 계급안에 포함시켜 연속확률변수에 대한 확률 값을 추정하는 것이지, 추정된 확률변수가 해당 확률 값 만큼 실제세계에서 존재하는지는 알 수 없습니다)
그렇다면, 앞서 언급한 과정들이 어떻게 진행되면서 연속확률분포를 추정할 수 있는지 알아보겠습니다.
결국 연속확률분포에서의 확률 함수(P(x))는 확률분포로 나타내는 그래프 상의 면적이 됩니다. 이에 대한 자세한 설명은 바로 뒤에서 설명하도록 하겠습니다.
3. Probability Density Function (PDF) with 3가지 axiom
PDF는 간단히 말해 확률 함수(→ 확률함수 설명 링크)가 취하는 정의역이 연속확률변수(continuous probability variable)일 뿐입니다 (→확률변수 설명 링크).
Probability density function describes a probability distribution over continuous variables.
앞서 언급한 계급이라는 개념이 도입이되면서 연속확률변수를 고려하는 확률분포을 수 있게 됐습니다.
PDF는 확률함수이므로 P(X)라고 표현합니다. 여기 중요하게 봐야할 것은 이산확률분포에서 y축이 확률 값을 의미한 반면, 연속확률 분포에서의 y축은 확률 값을 의미하지 않습니다. 연속확률분포에서는 '면적'이 확률 값이 기 때문에 f(x)≠p(x) 인 셈이되는 것이죠.
그렇기 때문에 정확히 확률함수(P(X))는 아래와 같이 표현하게 됩니다.
하지만, 우리는 f(x)를 확률밀도함수(PDF)라고 부릅니다. 왜냐하면, f(x)는 확률변수의 분포를 표현해주기 때문이죠 (사실 f(x)값 자체가 확률 값을 도출하는 건 아니라 확률(밀도)함수라고 붙이는게 좋은게 이해가 되진 않네요....).
그리고, f(x)를 특정 구간으로 적분해주면 확률 값을 구할 수 있는데, 이 때 \(\int_{a}^{b}{f(x)}\)는 누적분포함수(CDF)라고 합니다 (누적분포함수는 "3-2. 이산확률 분포 종류들"를 참고해주세요)
예를 들어, 아래 정규분포의 확률밀도함수 f(x)는 아래 그림에서 나타내는 수식을 따르고, 해당 확률함수는 누적분포함수인 f(x)의 적분식으로 표현합니다.
연속확률함수에는 3가지 공리가 있습니다.
③먼저, 세 번째 공리는 위에서 설명한 연속확률분포에서의 확률함수와 관련된 부분입니다.
①첫 번째는 이산확률함수와 마찬가지로 모든 확률변수의 확률 값을 다 더했을 때 총합이 1이 되어야 한다는 점입니다.
② 두 번째는 연속확률분포서 y축을 담당하는 f(x) 부분이 1보다 클 수 있다는 접입니다. 이산확률분포에서 y축은 f(x)=p(x) 였기 때문에, f(x) 값의 제한범위는 "0≤f(x)≤1"인 반면에, 연속확률분포에서 f(x)는 p(x)가 아니기 때문에, "≤1"에 대한 제한이 없어지는 것이지요.
4. 연속확률분포의 평균과 분산
연속확률분포의 평균과 분산은 이산확률 분포의 평균과 분산과 동일한 맥락입니다. 연속확률분포에서는 확률변수가 연속적이기 때문에 이를 고려해 "(연속)확률함수와 해당 확률변수간의 관계식"으로 나타내면 됩니다. (참고로 연속확률분포에서의 x는 범위를 갖는다는 점을 염두해두시면 좋을 것 같습니다.)
지금까지 연속확률분포의 개념과 그와 관련된 여러 개념들(평균, 분산 등)에 대해서 알아보았습니다.
앞서 확률분포와 평균, 분산을 구하는 방법에 대해서 알아보았으니, 이번장에서는 각각의 확률분포가 어느 경우에 사용되는 건지, 해당 확률분포의 평균과 분산은 어떻게 되는건지 알아보도록 하겠습니다.
1. Cumulative Distribution (누적확률분포)
누적확률분포는 말 그대로 특정 확률변수까지 누적된 확률 값을 알아내기 위해 사용됩니다.
예를들어, 확률변수 3이전의 경우(1,2,3)가 나올 확률에 대해서 알아보는 것과 같습니다.
모든 확률분포는 PMF 또는 CDF로 표현 가능합니다.
2. Bernoulli Distribution (베르누이 확률분포)
2-1. 베르누이 확률함수
베르누이 분포는 성공과 실패 또는 이분법적인 상황에 대한 확률 값을 나타내고자 하는 확률분포입니다.
즉, 베르누이 분포에서 확률 변수는 2가지 만 존재하고, 이 두 가지의 확률값은 p, 1-p 입니다.
2-2. 베르누이 확률분포의 평균식 증명
2-2. 베르누이 확률분포의 분산식 증명
3. Binomial Distribution (이항확률분포)
3-1. 이항확률 함수
이항확률함수는 n번 실행했을 때 x번 성공할 경우에 대한 확률 값을 도출합니다. 이 때, x번 성공하는 횟수가 이항확률함수의 (Binomial) random variable이 됩니다. 예를 들어, 100번 동전을 던졌을 때 앞면이 50번 나올 확률을 구할 때 사용되는 함수입니다.
Binomial random variable is Independent Identically Distribution (I.I.D) Bernoulli. (독립시행 링크)
시행(trial)이 연속적일 때, 이전 시행의 결과가 다음 시행에서 일어날 확률에 아무런 영향을 미치지 않습니다. (Independent)
시행할 때마다 항상 성공과 확률이 같은 bernoulli distribution을 따릅니다 (Identically Distribution)
Binomial distribution은 독립시행 확률을 따르는 I.I.D라고 할 수 있습니다.
종합하자면, Bernoulli random variable을 따르는 bernoulli experment를 n번 실행하여 성공횟수를 binomial random variable로 삼는 확률분포를 binomial distribution이라 합니다.
이항분포는 아래와 같은 확률함수를 갖는다. (해당 확률함수의 증명은 아래 예시를 보면 직관적으로 파악할 수 있습니다)
(조합 관련 개념 또는 아래의 예시에 대한 자세항 설명은 다음 링크에서 독립시행 확률 part을 참조해주세요)
2-2. 베르누이 확률분포의 평균식 증명
2-3. 베르누이 확률분포의 분산식 증명
4. Geometric Distribution (기하분포, 연속확률변수에서는 지수분포가 됨)
4-1. 기하분포 확률함수
Geometric distribution의 random variable은 성공할 때 까지 시행한 횟수를 의미합니다.
(↓↓↓위에 무한 등비급수합 수식증명↓↓↓)
4-2. 기하분포 확률분포의 평균식 증명
왜 해당 시그마 공식이 1/p^2 를 도출하는지 증명하겠습니다.
먼저 등비수열 공식에 따라 아래와 같이 정의할 수 있습니다.
해당 등비수열 공식을 양쪽으로 미분해보겠습니다.
이로써 평균 수식의 증명이 완료되었습니다.
4-3.기하분포 확률분포의 분산식 증명
기하확률분포의 분산식 증명은 아래와 같습니다.
4-3. Memoryless property in Geometric distribution (무기억성 성질)
위의 식에 대한 이해을 위해 몇 가지 예시를 들어보겠습니다.
[첫 번째 예시]
P(X>t)라는 뜻은 t번 시도한 후에 3점 슛을 성공할 확률을 의미합니다.
농구를 좋아하는 학생이 3점 슛을 성공하기 위해 s번의 실패(시도)를 했다고 합시다. 그리고 t번의 실패(시도)를 더 한 끝에 슛을 성공했습니다. 그리고 s+t번 이후에는 계속해서 슛을 성공시킵니다. 이를 조건부 확률로 표현하자면 P(X≥s+t | X≥s) 입니다.
사실 위에서 설명한 개념들을 P(X≥s+t)만으로도 설명 가능한거라고 볼 수 도 있는데, 조건부 개념을 도입한건 무기억성이라는 특성을 설명하기 위해서 인듯합니다 (즉, 위의 수식을 만족하기 위해 도입한 개념). 그럼, 계속해서 알아보도록 하겠습니다.
P(X≥s+t | X≥s) = P(X≥t) 수식을 보면 s번의 시도를 한 후에 t번 더 시도해서 성공할 확률과, t번 시도해서 성공할 확률과 같다는 뜻이됩니다.
즉, s+t번의 시도를 한 것 과, t번의 시도를 한 것을 동일하게 보는 것인데, 예를 들어,s=5, t=2라고 했을 때 단순히 5+2(=s+t)번의 시도와 2(=t)번의 시도가 같다고 보는게 아니라, 5번의 시도를 어떻게 바라볼 것인가가 포인트가 될 수 있다고 생각합니다. 어떻게 보면 s번 시도 한것은 농구를 좋아하는 학생이 집중을 못했기 때문에 아무 의미가 없었다는 결론을 내릴 수도 있을 것 같습니다.
결과적으로, s번의 실패(시도)가 아무 의미 없어진 것과 같습니다. 즉, s번의 실패(시도)에 대한 기억을 잃어버리게 되는 것이죠.
어떤 기계가 처음 만들어져서 사용되기 시작한 뒤 t시간 이내에 고장날 확률과, 그 기계가 s시간 까지 계속 사용되다가 t시간 이내에 고장날 확률이 동일하다는 말과 같습니다.
기계가 이전 s시간 동안 사용되었다는 것을 기억하지 못하는 것과 같습니다 (무기억).
위의 예시를 통해 봤듯이, 무기억성이란 특정분포가 과거의 이력을 잊어버리는 성질을 의미합니다. 이력을 잃어 버리더라도 특정 분포를 여전히 따릅니다.
그렇다면 무기억성의 수식을 증명해보도록 하겠습니다.
4-4. 기하분포 어원
기하확률분포의 확률함수는 등비수열이라고 할 수 있는데, 왜 등비수열에 geometric이라는 표현을 사용했을까요?
5 Negative Binomial Distribution (음이항분포 or Pascal distribution)
5-1. 음이항분포 확률함수
r번의 성공횟수를 기록할 때 까지 x번 실패 할 횟수를 random variable로 갖는 확률분포입니다. 즉, r번 성공할 때 까지 x번 실패 하는 경우에 대한 확률값을 알고자 할 때 사용하는 확률함수가 음이항분포 확률함수입니다.
여기서 중요한 부분은 r은 고정 값이고, x는 random variable이기 때문에 변할 수 있는 변수이고, n=x+r이기 때문에 x에 따라 n(시행) 값이 변합니다.
먼저 예를 통해 설명해보도록 하겠습니다.
아래 예를 보면, 3번 성공하는 동안 실패하는 횟수에 따라 확률값을 알고자 합니다. 먼저, 3번 성공할 때까지 1번 실패할 확률을 구하는 과정은 아래와 같습니다. (음이항확률함수=P(X))먼저, 음이항분포를 표현하기 위해서는 성공횟수(r)가 고정되어 있어야 합니다. 실패횟수(x)가 random variable이기 때문에 시행횟수 (n=r+x)도 실패횟수에 따라 변경됩니다.
예를 들어, 아래 표에서 성공횟수는 10으로 고정되어 있고, 시행횟수는 보이지 않지만 implicit (암묵적)으로 실패횟수에 따라 변한다고 보시면 됩니다. 만약 아래 실패횟수(random variable)가 60이 최대치라면, 전체 시행횟수(n=x+r)는 70이 됩니다.)
5-2. 음이항분포의 평균식 증명
평균수식을 알아보기 전에 음이항분포에서의 모든 확률 값의 총합이 1임을 확인해보겠습니다.
지금부터 평균 식을 증명해보겠습니다.
5-3.음이항분포의 분산식 증명
5-4.음이항분포와 기하분포의 관계
음이항분포를 자세히 보면 r=1일 때 기하분포와 동일하다는 것을 확인할 수 있습니다. 즉, 성공횟수가 1이 나올 때 까지 시행한 횟수를 확률 변수를 삼는다는 것은 성공할 때까지 시행한 횟수를 확률변수로 삼는다는 것과 같습니다. 즉, 기하분포의 정의인 "성공할 때까지 시행한 횟수를 random variable로 삼는다"와 동일한 경우라고 볼 수 있습니다. 그러므로, 기하분포는 음이항분포의 특이한 케이스라고 보시면 될 것 같습니다.
식으로 증명하면 아래와 같습니다.
6. Hypergeometric Distribution (초기하 확률분포)
6-1.초기하분포 확률함수
초기하분포 역시 이항분포와 마찬가지로 '성공', '실패' 2가지 상황만 나오는 실험에서 사용됩니다.
하지만, 이항분포와 복원추출인 반면에 초기하분포는 비복원추출을 전제로 합니다.
결국, 현재 진행하는 실험의 sample space(표본공간)가 이전 실험의 sample space보다 작기 때문에 이전실험이 현재실험의 확률값에 영향을 미치게 됩니다. 그러므로, 초기하분포는 다음과 같은 의미를 내포합니다 → "Non-independent Bernoulli trials"
아래 수식은 초기하분포 확률함수 수식입니다. 이에 대해서 설명해보도록 하겠습니다.
초기하분포의 수식은 모집단과 표본에 대한 개념을 베이스로 두고 있습니다. 두 측면에서 초기하분포를 설명해보도록 하겠습니다.
[첫 번째 설명]
모집단의 크기를 N이라고 하고, 모집단 안에는 우리가 원하는 원소가 a개 있다고 하겠습니다.
모집단에서 크기가 n인 표본을 뽑습니다.
해당 표본안에서 우리가 원하는 원소가 x개 있을 확률분포를 초기하확률분포라고 합니다.
즉, 표본안에서 우리가 원하는 원소가 뽑히는 갯수 (x)가 random variable이 됩니다.
어느 전공 책 5페이지를 검사했는데, 10개의 오타가 발생했다. 이 책에서 어느 한 페이지를 검사했을 때, 오타가 3개 나올 확률은?
포아송 분포에서의 발생하는 사건의 횟수가 random variable이 되고, 발생하는 평균 횟수가 고정값(=\(\lambda\))이 됩니다. 발생하는 평균횟수는 "전체 시행횟수×사건이 발생할 확률"입니다. (위의 예시를 기준으로 값을 설정해보겠습니다)
사건이 발생하는 횟수=k→ 3
전체 시행횟수=n→ 5
사건이 발생할 확률=p=\lambda/n → (10/5)/5
특정 시행횟수에서 사건이 발생할 수 있는 평균 횟수= \(\lambda\)=n×p
위의 전공 책 관련 예시를 보면, 3건의 사건이 발생할 횟수 (오타가 나올 횟수=3) 가 random variable이 되고, 이러한 경우 (random variable=3)의 확률을 알아보기 위해, 한 페이지 당 오타가 발생할 평균 횟수 \(\lambda\)=10/5 을 알고 있어야 합니다. (여기에서는 성공할 확률을 딱히 몰라도 \(\lambda\)=2 이라는 건 알 수 있습니다.
우리는 "어느 전공 책 5페이지를 검사했는데, 10개의 오타가 발생했다."에 대한 정보를 기반으로, "어느 한 페이지를 검사했을 때, 오타가 3개 나올 확률은?"에 대한 답을 해야합니다.
어느 한 페이지라는 것은 단위공간이라고 볼 수 있고, 이것을 전체 시행 횟수(=n)로 볼 수 있습니다.
결국 이는 한 페이지에 n이라는 글자가 있다면, 거기서 k개의 오타가 나올 확률을 의미하고, 이를 다른 측면에서보면 n번 동전을 던졌을 때 k번 앞면이 나올 확률과 동일한 문제가 됩니다. 즉, 이항확률분포(Binomial distribution)의 확률 함수와 동일 한 것이죠.
포아송 분포에서 중요한 전제조건은 n이 굉장히 크다는 상황을 가정하고 있다는 것입니다. 즉, 이항확률분포에서 n이 엄청크다면 포아송 분포로 근사할 수 있다는 의미입니다. 이러한 방식을 사용했던 이유는, 과거에 계산기가 없었을 때 n이 엄청 크다면 이항확률분포를 계산하는게 엄청 힘들었기 때문에 n이 무한대라는 극한의 개념을 도입해 포아송 확률함수를 만들었다고 합니다. 즉, 이항확률분포에서 n이 굉장히 큰 경우 포아송 분포식으로 계산할 수 있게 되는 것이죠 (근래에는 컴퓨터의 발달로 이항확률분포 n이 충분히 커도 쉽게 계산 가능하다고 하지만, n>50, or \(\lambda\)=np<5 이면 컴퓨터에서 비트의 제한으로 수치에러가 날 경우가 있다고 합니다.)
그럼 지금부터 n이 무한대일 때 이항분포 확률함수가 어떠한 확률 함수를 갖는지 살펴보도록 하겠습니다.
①식 풀이
②번식 풀이 (해당 식을 풀이하기 위해서는 자연상수에 대한 개념을 이해할 필요가 있어서 자연상수 내용을 다루었습니다. (하...정말 글씨가....))
③번식 풀이
최종풀이
결국 위와 같은 식을 통해, 특정 시행횟수에 사건이 발생할 수 있는 평균 횟수 "\(\lambda\)"의 정보만을 갖고 random variable(=k)에 속한 확률 값을 알아낼 수 있고, 이를 위해 포아송 확률 함수라 합니다 (포아송 확률 함수를 적용하려고 할 때에는 n이 엄청 커야 한다는 전제를 항상 염두해두시면 좋을 것 같습니다).
람다가 고정값이기 때문에 시행횟수와 사건이 발생할 확률이 암묵적(implicit)으로 고정값으로 정해져 있습니다.
포아송 확률함수의 총합이 1임을 증명해보겠습니다.
7-1.포아송분포의 평균식 증명
7-2. 포아송분포의 분산식 증명
지금까지 이산확률분포의 여러 종류들과, 해당 확률분포의 평균 및 분산식에 대해서 알아보았습니다. 다음 글에서는 연속확률변수 및 연속확률분포에 대한 기본적인 개념들에 대해서 알아보도록 하겠습니다.