안녕하세요.

이번 글에서는 정규분포에 대해서 설명하도록 하겠습니다.

본래 정규분포는 연속확률분포이기 때문에 확률편에서 설명하는 것이 맞지만, 통계편에서 설명드리는 이유는 아래와 같습니다.

  • 정규분포는 연속확률분포입니다.
  • 하지만, 정규분포를 사용한다는 것에는 다양한 통계적 철학(사고)를 전제하고 있습니다.
  • 그렇기 때문에, 통계학 파트에서 다루는 것이 좋다고 판단했습니다.

이미지 출처: https://regressiontoyou.tistory.com/30

 

그럼 지금부터, 정규분포에 대한 수학적 정의를 설명하기 앞서, 왜 정규분포가 통계에서 사용되는지 설명을 해보도록 하겠습니다.

 

 

 

 

1. 가설점정을 한다는 의미 (Comparison by box plot)

  • 우리가 세운 가설이 옳다고 주장하기 위해서는 실험군과 대조군의 차이를 증명해야 합니다.
  • 예를 들어, "운동이 간 수치 향상에 효과가 있다"라는 가설을 증명한다고 해보겠습니다.
  • 우선 실험대상자를 30명 정도 선별하고 아래와 같이 실험을 진행했다고 해보겠습니다.
    • A group (실험군): 운동하기 전 간 수치 측정
    • B group (대조군): 운동한 후 간 수치 측정
  • A, B group의 운동능력에 따른 간 수치 차이가 통계적으로 유의미한지 살펴봅니다.
  • 보통 실험군에 대한 통계량과, 대조군에 대한 통계량을 box plot으로 표현하며, 이 둘 간의 차이가 유의미한지 시각화해줄 수 있습니다. (→ 어떻게 가설검정이 진행되는지는 가설검정 파트에서 설명하도록 하겠습니다.)

이미지 출처: https://www.datanovia.com/en/blog/how-to-add-p-values-onto-basic-ggplots/

 

(↓↓↓Box plot에 대한 설명↓↓↓)

https://89douner.tistory.com/200

 

[통계학]1. 통계학의 전체 구성도 (Feat. 기술통계, Box plot, 추론통계)

안녕하세요. 이번 글에서는 통계학에 대한 전반적인 틀에 대해서 설명해보도록 하겠습니다. 0. 통계학이란? 0-1. 통계학의 정의 Statistics is the discipline that concerns the collection, organization, anal..

89douner.tistory.com

 

  • 하지만, 위와 같이 30명만 선정하는 것이 문제가 되는 경우가 있습니다. 
  • 앞선 예시를 기반으로 아래 두 가지 문제를 살펴보겠습니다..

 

1-1. 표본집단이 하나만 있을 때 발생하는 문제점 (1) - 양의 관점

  • 가설검정을 통해 실험군과 대조군이 유의미한 차이를 보여 제가 세운 가설을 컨퍼런스에서 발표한다고 해보겠습니다.
  • 그런데, A신문사 기자가 "실험군, 대조군에 속한 선별된 인원(=30명)만 비교한 것으로 우리나라 사람들에게도 똑같이 적용될 수 있을지 의문이다"라고 말합니다. → 즉, 선별된 표본 30명이 우리나라 국민전체인 모집단을 대표할 수 있느냐라는 질문입니다.
    • 예를 들어, 선별된 30명의 사람들 대부분이 운동직전에 간에 좋은 음식을 먹어서 간 수치가 좋아진 것일 수도 있죠. 그렇기 때문에, 또 다시 다른 사람들을 30명 선별해 운동을 시킨 후 간 수치를 측정해본다면, 간 수치가 크게 개선되지 않을 가능성도 있습니다. 

1-1. 표본집단이 하나만 있을 때 발생하는 문제점 (2) - 시간의 관점

  • 이번에는 B신문사 기자가 "실험군, 대조군을 딱 한 번 실험해본걸로 충분한거냐?"라는 질문을 했다고 해보겠습니다.
    • 예를 들어, 실험을 했던 그 날 유독 실험군의 간 수치가 (운동을 통해) 개선된 것일 수 있습니다.
    • 즉, 다른 날에 했으면 실험군의 간 수치가 개선 개선되지 않을 가능성도 있다는 뜻이죠.

 

  • 결국, 앞서 언급한 두 문제들이 좀 달라 보이지만 결국, 다수의 표본집단을 선별하는 것이 필요하다는 결론을 보여줍니다.
  • Q. 그렇다면, 앞서 하나의 표본집단은 box plot으로 표현했는데, 다수의 표본집단들은 어떻게 표현하면 좋을까요? 다시말해, 다수의 표본집단들을 기반으로 어떻게 모집단을 표현할 수 있을까요? 이에 대한 답을 하기 위해 중심극한정리를 알아보도록 하겠습니다.

 

 

 

 

2. 중심극한 정리 (Central Limit Theorem))

  • 중심극한 정리란 "모집단의 분포에 상관없이 표본크기가 커질수록 (적어도 30개 이상) 표본평균 \(\bar{X}\) 의 분포가 정규분포에 가까워진다는 이론"입니다.
  • 예를 들어, 설명해 보겠습니다. (아래 그림(사진)과 같이 보시면 더 좋습니다.)
    • 우선 우리는 모집단의 분포를 모르는 상태입니다. (현실적으로 모집단을 파악하는건 불가능에 가깝습니다. 그래서, 통계학을 통해 표본을 추출하고 표본통계량을 기반으로 모집단과 관련된 모수들을 추정하는 것이죠)
    • 모집단의 분포를 파악하기 위해서 표본(집단)들을 추출합니다.
    • 개별적인 표본들(표본집단1, 표본집단2, ... 등)은 각각 별개의 확률분포를 갖고 있을 가능성이 큽니다.
    • 개별 표본들의 평균을 내면 표본평균의 분포를 구할 수 있다. (→ 표본평균 분포에 대한 개념은 우측 "링크"를 참고해주세요.)

 

  • 각각의 표본평균은 개별 표본집단을 대표하는 값입니다. 즉, 각각의 표본집단들의 대표를 모아두면 그것이 모집단을 상징한다고 가정할 수 있게됩니다. 

  • 그래서, 표본집단들의 대표인 표본평균들을 확률분포로 표현하면 모평균의 분포가 됩니다.
  • 중심극한정리에 따르면 표본(집단)크기가 커질 수록 (적어도 30개 이상) 표본평균의 분포가 정규분포에 가까워지기 때문에 모집단의 분포를 정규분포로 추론해볼 수 있습니다. → 통계학에서는 적어도 표본(집단)의 크기가 30개 이상이 되어야 한다고 합니다.
    • 표본의 크기 = 각 표본 집단에 속한 원소의 개수 = {x1, x2, ..., x3} 
    • 표본평균들의 평균이 모평균과 같다는 개념(→관련링크)과 같이 생각해봐도 좋을 것 같습니다 

 

(↓↓↓4:27초부터 시뮬레이션을 통한 직관적 설명↓↓↓)

https://www.youtube.com/watch?v=iTNHQXGIEuU 

 

 

[야구를 통한 중심극한정리 예시]

  • 일반적인 현상을 통계로 나타낼 때, 대부분 평균주위에 많이 몰려있을 확률이 높습니다. 이는 중심극한정리를 통해 설명될 수 있습니다.
    • 예를 들어, 대한민국 프로야구 선발선수들의 직구 구속을 측정한다고 해보겠습니다.
    • 팀 당 선발투수의 직구 구속을 측정했다고 가정해보겠습니다.
      • LG는 선발진이 강해서 150대를 던진다고 해보겠습니다. (무적LG 만세!)
      • 삼성은 선발진이 리그 평균이라 대부분 140대를 던진다고 해보겠습니다.
    • 총 30개 팀들의 평균 구속을 산출한 후, 각 팀 평균들의 분포 (=표본평균 분포)를 나타냈더니 평균 140대이면서 정규분포를 구성하게 됩니다. (By 중심극한정리)
    • 즉, 프로야구 선발투수들의 투구들은 대부분 평균 140대일 것이고, 150대 투수들과 130대 투수들은 평균보다 적을 것이라고 추정해볼 수 있습니다. 

 

 

2-1. 표본의 크기가 충분히 크다면 중심극한 정리가 성립한다.

  • 중심극한 정리를 공부하면서 가장 혼동되는 개념이 표본크기와 중심극한정리의 관계입니다.
  • 앞서 설명한 것을 따르면, 표본크기가 적어도 30개 이상이고, 표본(집단)개수를 많이 추출해야 표본평균분포가 정규분포를 따른다고 보여집니다.
  • 하지만, 아래 시뮬레이션을 보면 흥미로운 것이 표본크기인 n의 개수가 커질 수록, 표본(집단)개수(=Number of sampling)의 수가 줄어들어도 중심극한 정리가 형성되는 것을 볼 수 있습니다.

[시뮬레이션 예시]

  • 모집단이 지수분포를 따른다고 가정해보겠습니다.

 

  • 모집단에서 표본크기2를 갖는 20000개의 표본(집단)개수를 추출하여 표본평균분포를 그리면 아래와 같습니다.

 

  • 이번에는 표본크기를 36개로 늘려보겠습니다. 표본크기를 늘려보니 표본(집단)개수가 7000개만 돼도, 더욱 정교한 정규분포를 형성하는 것을 볼 수 있습니다.

 

  • 표본크기가 100이 되면, 표본평균분포가 정규분포를 따르기 위해 필요한 표본(집단)수는 현격히 줄어들게 됩니다.

 

  • 결국 표본크기가 충분히 크면 모집단으로 부터 추출하는 표본(집단)개수가 하나여도 정규분포를 이룰 수 있다는 추론이 가능해집니다.
  • 개인적으로 생각했을 때는 결국 모집단으로부터 추출되는 표본의 총 수는 "표본크기×표본(집단)개수"가 되기 때문이 아닐까 싶습니다. 즉, 표본(집단)개수가 하나여도 표본크기가 엄청 크다보면 모집단의 평균에 해당하는 원소들이 가장 많이 추출이 될 것이기 때문입니다 (=자연스럽게 모집단 평균이 아닌 원소들이 선별되는 횟수가 점점 줄어들겠죠)

이미지 출처: https://m.blog.naver.com/mykepzzang/220851280035
이미지 출처: https://m.blog.naver.com/mykepzzang/220851280035

 

 

 

(↓↓↓중심극한정리 시뮬레이션 싸이트↓↓↓)

http://www.ltcconline.net/greenl/java/Statistics/clt/cltsimulation.html

 

 

 

 

 

3. 정규분포(Normal distribution = Gaussian distribution)의 수학적 의미(정의) 

  • 앞서 중심극한 정리를 통해 아래와 같은 이야기를 할 수 있다고 했습니다.

 

"일반적인 현상을 통계로 나타낼 때 대부분 평균 주위에 가장 많이 몰려있고, 그 수치가 평균보다 높거나 낮은 경우 정규분포를 따른다고 합니다. "

 

  • 그렇다면, 정규분포의 수학적인 정의는 어떻게 될까요?
  • 정규분포는 영어로 normal distribution이라고 하는데, 가우스가 이러한 확률분포를 처음 발견했기 때문에 Gaussian distribution이라고 부르기도 합니다.

 

 

 

 

 

 

4. Parameterized by precision

  • 분산 값을 통해 알 수 있는 사실은 데이터들이 평균 보다 얼마나 멀리 떨어져 있는지 알 수 있습니다.
  • 하지만, 몇몇 사람들은 precision이라는 개념이 분산(variance)보다 더 직관적(intuitive)일 수 있다고 합니다.
  • 그 이유는, precision 값을 이용하면 평균 주위에 값들이 얼마나 많이 몰려있는지 알 수 있는데, 대부분의 경우 데이터들이 평균으로 부터 얼마나 떨어져 있는지 보다는 평균 주위에 얼마나 몰려있는지를 파악하는게 더 유용할 때가 있기 때문입니다.
  • Precision(=\(\beta\))은 분산의 반비례 입니다. 

 

 

 

 

5. Normal distribution 수식 도출

  • 수식 유도는 아래 영상을 참고하시면 될 것 같습니다.

 

https://www.youtube.com/watch?v=sFMjrnI93b4 

 

 

 

 

6. 정규분포 With 엑셀

실제 연구나 현업에서는 정규분포를 어떻게 구하는지 엑셀을 통해 간단히 알아보겠습니다.

  • 먼저, 우리에게 어떤 데이터들이 주어져 있다고 합시다.
  • 그럼 이러한 데이터들을 통해 평균, 분산, 표준편차 값을 구할 수 있을 겁니다.

(↓↓↓엑셀을 이용한 정규분포 구하는 방법↓↓↓)

https://www.youtube.com/watch?v=Ke0uCHgAYJw 

 

 

 

 

 

 

 

7. 정규분포의 활용 (Feat. 가설검정)

  • 지금까짖 정규분포를 배운 이유는 "우리가 세운 가설을 검정(testing)하는데 유용한 도구로 사용"되기 때문입니다.
  • 이 부분에 대한 자세한 설명은 '가설검정' 파트에서 설명드리도록 하겠습니다.

(↓↓↓중심극한정리 설명과 이것이 가설검정에 쓰이는 예시를 간단하게 보여주는 영상↓↓↓)

https://www.youtube.com/watch?v=YAlJCEDH2uY 

 

이미지 출처: https://yeomko.tistory.com/37

 

이미지 출처: https://techntalk.tistory.com/entry/%EB%B0%95%EC%8A%A4%ED%94%8C%EB%A1%AF-Box-Plot%EA%B3%BC-%EC%A0%95%EA%B7%9C%EB%B6%84%ED%8F%ACnormal-distribution%EC%9D%98-%EA%B4%80%EA%B3%84-%EB%B0%95%EC%8A%A4%ED%94%8C%EB%A1%AF-%EA%B7%B8%EB%A6%AC%EB%8A%94-%EB%B2%95

 

안녕하세요.

이번 글에서는 통계학에 대한 전반적인 틀에 대해서 설명해보도록 하겠습니다.

 

 

0. 통계학이란?

0-1. 통계학의 정의

  • Statistics is the discipline that concerns the collection, organization, analysis, interpretation, and presentation of data.
  • 통계학이라는 개념안에는 데이터를 수집하고, 수집한 데이터를 조직하고, 이러한 데이터를 분석하여, 의미있는 해석을 도출하는 일련의 과정을 의미합니다.

이미지 출처: https://www.ipracticemath.com/learn/statistics

  • 오늘날 (수리)통계학에서 배우는 교재들을 살펴보면 "이미 수집되고 조직된(data collection, organization) 데이터"가 있다는 가정하에 시작됩니다.
  • 즉, 학교에서는 이미 잘 조직된 데이터(organization)를 기반으로 산술적 방법 (or 확률적 방법)을 기초로 하면서, 해당 데이터를 관찰, 정리, 분석 및 해석하는 방법을 연구하는 수학의 한 분야로써 (수리)통계학을 배우게 됩니다.

※ 오늘날에는 의미있는 데이터 종류를 선별 (ex: 특징값 추출, PCA, 등) 하고, 조직(orgainzation)하는 것이 굉장히 중요해지고 있으니 이러한 분야도 알아두시면 좋을 것 같습니다!

 

 

0-2 통계학이 사용되는 이유

  • 통계학이 사용되는 이유는 여러가지가 있지만 제가 생각하는 근본적인 이유는 "나의 주장이 통계적으로 합당함을 증명하기 위해서"입니다.
    • 기업을 설득하든, 실험연구를 통해 새로운 이론을 증명하든, 우리는 누군가를 설득시켜야하는 상황에 마주치게 됩니다.
    • 위와 같이 누군가를 설득시키기 위해선 나의 주장이 보편적으로 타당하다는 것을 증명해야 하는데, 보통 이를 위해서 통계학을 이용하게 됩니다.

이미지 출처: https://eunnae.tistory.com/12

 

  • 그렇다면, 통계학은 어떤 과정을 통해 나의 주장이 합당함을 증명할 수 있을까요?
  • 이번 글에서는 "나의 주장이 통계적으로 합당하다는 것을 증명"하는 대략적인 과정을 순차적으로 살펴보려고 합니다.
    1. 가설설정(Statistical hypothesis setting) = 내가 주장하려고 하는 바
    2. 데이터 수집 (조사: survey)
    3. 기술통계 (Descriptive statistics; 기술 통계량)
    4. 추론통계
      • 추정
      • 가설검정(Statistical hypothesis test)

 

 

1. 첫 번째 행위: 가설설정 및 데이터 수집 (조사: Survey)

1-1. 가설설정 (Statistical hypothesis setting)

  • 보통 우리가 어떤 주장을 할 때, 가설을 세우게 됩니다. 예를 들어, "A백신은 효과가 있다"라는 가설을 세웠다고 해보겠습니다. 이를 증명하기 위해서는 실험군과 대조군이 있어야 합니다.
    • 실험군 (Experimental group): 인위적으로 실험요인을 조작하여 그 결과 어떤 변화가 생기는지 알아보기 위한 집단
    • 대조군 (Control group): 변화를 준 실험군과 비교하기 위해 실험 요인에 아무런 변화를 주지않는 집단

이미지 출처: https://m.post.naver.com/viewer/postView.nhn?volumeNo=27615896&memberNo=44483563

  •  
  • 그럼 지금부터 A백신을 투여한 실험군과, A백신을 투여하지 않은 대조군을 이용해 실험을 하고, 통계적으로 "A백신이 효과가 있다"는 나의 가설을 증명해보겠습니다. 
  • 아아!! 잠시만요, 가설 증명을 하기 전에 무심코 지나친 부분이있습니다.
  • 바로, 실험군과 대조군 집단에 속한 데이터(실험 대상자)를 모집하는 과정입니다. 
  • 제대로된 실험을 하기 위해서 전 세계 사람들을 조사해야하지만, 현실적으로 불가능하겠죠?
  • 그렇다면, 어떤 방식으로 조사하면 좋을까요? 이에 대한 답을 찾기 위해 '데이터 수집(Survey)'방법에 대해 더 자세히 살펴보도록 하겠습니다.

 

1-2. 데이터 수집 (survey)

1-2-1. 전수조사 (census) = 전부조사 (complete enumeration)

  • 만약 전교생이 200명인 A 초등학교 학생들의 평균 몸무게를 측정한다고 해보겠습니다.
  • 200명 정도의 학생 몸무게를 측정하는건 어려운 일이 아니기 때문에 하루면 모두 측정가능하겠죠.
  • 위와 같은 경우, 해당 집단의 전(체의)수를 대상으로 조사하는 것이 가능한데, 이러한 조사를 전수조사라고 합니다.

 

1-2-2. 표본조사 (Sample survey)

  • 그런데, 대한민국 국민들의 몸무게 평균을 측정한다고 해보겠습니다.
  • 어느 세월에 4천만 국민의 몸무게를 측정할 수 있을까요?
  • 대부분 조사를 할 때, 모든 대상을 조사하는 것에는 현실적 어려움이 있기 때문에 모집단(population)으로 부터 표본집단(sampling) 선별 하게됩니다.
    • 모집단(populatioin): 통계적인 관찰의 대상이 되는 모든 데이터들 (ex: 전 국민) → 모집단에서 '모'는 "어미 모"를 의미하는데, 표본집단의 어머니 격이라는 뜻
    • 표본(sampling) (집단): 모집단을 대표하는 일부 데이터들 (ex: 각 지방별로 선별된 일부 국민들)→ 표본이라는 것은 본보기라는 뜻을 의미하는데, 모집단을 대표할 수 있는 (본보기가 되는) 집단이라는 뜻 → 모집단의 부분집합
  • 표본조사라는 단어에서 '표본'은 앞서 언급한 표본집단을 의미하는 것이고, '조사'라는 용어안에 굉장히 많은 과정들이 함축되어 있습니다. 아래 표본조사에 대한 정의를 살펴보면서 '조사'라는 용어에 어떤 과정들이 포함되어 있는지 살펴보는게 좋을 것 같습니다.

 "표본조사란, 모집단(population)에서 표본(sampling)을 뽑아서 표본집단의 통계량을 계산한 후, 표본집단의 통계량을 이용해 모집단의 모수(=모집단의 통계량=parameter)을 추론하고, 이를 이용해 내가 주장한 가설을 통계적으로 검증 (testing)하는 일련의 과정"을 의미합니다. 

  • 즉, 우리가 배우는 통계학 대부분은 표본조사를 배우는 과정이라고 볼 수 있죠. 그렇다면 지금부터 표본조사가 어떻게 이루어지는지 알아보도록 하겠습니다.

이미지 출처: https://melissaeh.tistory.com/entry/%EB%AA%A8%EC%A7%91%EB%8B%A8%EA%B3%BC-%ED%91%9C%EB%B3%B8%EC%A7%91%EB%8B%A8%EC%9D%98-%EC%B0%A8%EC%9D%B4%EB%8A%94-%EB%AD%98%EA%B9%8C-%ED%8F%89%EA%B7%A0-%EC%A4%91%EC%95%99%EA%B0%92-%EC%B5%9C%EB%B9%88%EA%B0%92%EC%9D%80-%EB%98%90-%EB%AD%90%EC%95%BC

 

 

2. 두 번째 행위: 기술통계

  • 앞서 말했듯이, 현실적으로 모든 사람들을 조사할 수는 없기 때문에, 대부분 표본을 추출 (sampling) 하여 조사를 실시하게 됩니다. 
  • 추출된 표본 데이터는 해당 집단의 특성을 규명하기 위해 사용됩니다. 즉, 표본 데이터를 통해 해당 집단을 상징(표현)하는 작업을 하는 것이죠. 
    • 측정이나 실험에서 수집한 자료(data)의 특성을 규명하는 것도 표본추출한 표본데이터라고 가정합니다. 왜냐하면, 실험에서 수집한 자료가 해당 그룹에 속하는 전세계 모든 대상(데이터)을 포함하진 않기 때문이죠.
  • 그런데, 왜 해당 (표본)집단의 특성을 규명해야 할까요? 앞서 언급한 백신 예시를 통해 알아보도록 하겠습니다.

 

[(표본)집단의 특성을 규명해야 하는 이유 - 예시]

  • A백신을 투여했을 때 실험군에서 얻어지는 결과들이 있을 것이고, A백신을 투여하지 않았을 때 대조군에서 얻어지는 결과들이 있을 것입니다. 
  • 하지만, 실험군에서 얻어지는 결과들이 전부 같지는 않을 것이고, 대조군에서 얻어지는 결과들이 얻어지는 결과들이 전부 같진 않을 것 입니다.
    • 예를들어, 실험군 내에서도 백신을 주입했을 때 효과가 강력한 경우, 미세한 경우, 또는 효과가 없는 경우가 있을 것입니다. 그래도, 대체적으로 효과가 있을 가능성이 있겠죠.
    • 대조군 내에서도 백신을 주입하지 않았지만 우리도 모르는 현상 때문에 코로나에 면역이 있는 사람들도 있겠죠. 하지만, 대부분 코로나 바이러스에 감염이 될 것 입니다.

이미지 출처: http://blog.naver.com/PostView.nhn?blogId=cityeng1&logNo=220028131792&parentCategoryNo=&categoryNo=255&viewDate=&isShowPopularPosts=true&from=search

  • 즉, 실험군과 대조군이라는 집단에 속한 데이터(사람들)를 살펴보면 '실험군 집단은 대체로, 평균적으로 XX하다' or '대조군 집단은 대체로, 평균적으로 XX하다'라는 특성을 알아볼 수 있게 되는 것이죠.
  • 결국, "A백신이 효과가 있다"는 나의 가설을 증명하는 과정 속에, 이러한 집단간의 특성들을 비교하는 것이 포함되어 있기 때문에 집단의 특성을 규명하게 됩니다. 

 

  • 앞서 언급한 표본집단의 특성을 통계학에서는 통계량이라고 합니다.
    • 통계량의 정의는 표본집단의 몇몇 특징을 수치화한 값입니다. 
    • 표본 데이터를 입력으로 하는 특정한 함수를 계산함으로써 그 값을 계량하게 되는데, 앞서 배운 평균식, 분산식 등이 이에 포함이 되겠죠.

이미지 출처: http://contents.kocw.net/KOCW/document/2014/hanyang/maengseungjin/4.pdf
모수에 대한 개념은 뒷 부분에서 설명하도록 하겠습니다.

 

  • 앞서 언급한 통계량을 이용해 표본집단을 표현(상징)할 수 있도록 그림으로 묘사(descriptive)할 수 있습니다. 이와 같이 수집한 데이터를 통계량을 통해 묘사하고 설명하는 통계기법을 기술통계(Descriptive Statistic)라고 합니다.
  • 기술통계량 종류를 체계적으로 표현하자면 아래와 같습니다. (여기서 나오는 용어들 중 생소한 용어들은 앞으로 게재할 글에서 설명하도록 하겠습니다.)
  • 기술통계량
    1. 집중화경향 (Central tendency): 표본 데이터가 어느 위치에 집중되어 있는가를 나타내는 통계량
      • 평균 (Mean)
      • 중앙값 (Median): 자료를 크기순으로 정렬할 때, 가장 중앙에 있는 값
        • ex) (1, 2, 35, 42, 53) → 35
        • ex) (1, 2, 35, 42, 53, 60) → (35+43)/2
      • 최빈값 (Mode)
    2. 산포도 (Degree of scattering): 표본 데이터가 퍼져 있는 정도를 나타내는 통계량
      • 최댓값: 데이터에서 가장 큰 값
      • 최솟값: 데이터에서 가장 작은 값
      • 범위(Range): 최대값 - 최솟값
      • 분산
      • 사분위편차 (Quartile deviation): 중앙값(Media)을 기반으로 하는 산포도
        • Q1: 하위에서부터 25%지점에 있는 요소의 값
        • Q2: 중앙값
        • Q3: 하위에서 75% 지점에 있는 요소의 값
      • 표준오차
    3. 분포 (Distribution; ex: 확률분포)
      • 첨도(kurtosis): 분포의 뾰족한 정도
      • 왜도(skewness): 분포의 기울어진 정도

 

※ Box Plot 

  • 통계량을 이용해 아래와 같이 "Box Plot"을 통해 데이터를 시각화 할 수 도 있습니다. (Box Plot은 중앙값을 기반으로 한다는 것을 알아두세요!)

이미지 출처: https://blog.naver.com/running_p/90178707051

 

이미지 출처: https://leebaro.tistory.com/entry/%EB%B0%95%EC%8A%A4-%ED%94%8C%EB%A1%AFbox-plot-%EC%84%A4%EB%AA%85

 

(↓↓↓Box Plot에 대한 설명↓↓↓)

https://www.youtube.com/watch?v=Wuk17zg-jt8 

 

(↓↓↓Box Plot을 엑셀로 그리는 방법 → 2:30초부터 보시면 됩니다↓↓↓)

https://www.youtube.com/watch?v=fm9zn-MP2As 

 

 

  • 아래 사이트를 가시면 "Box plot"외 더욱 다양한 시각화 종류들을 볼 수 있습니다.

https://kr.mathworks.com/help/stats/statistical-visualization.html?s_tid=CRUX_lftnav 

 

통계적 시각화 - MATLAB & Simulink - MathWorks 한국

다음 MATLAB 명령에 해당하는 링크를 클릭했습니다. 명령을 실행하려면 MATLAB 명령 창에 입력하십시오. 웹 브라우저는 MATLAB 명령을 지원하지 않습니다.

kr.mathworks.com

 

 

※ 오늘날의 데이터 시각화 (data visualization) 개념은 아래의 두 개념을 포괄적으로 포함하고 있습니다.

  • "데이터 분석 전의 표본집단의 특징"을 시각화 =기술통계
  • "데이터 분석 결과"를 시각화 

오늘날 Data visualization은 고객을 설득시키는 데 강력한 도구가 되기도 하기 때문에, 데이터 시각화와 관련된 개념들이 주목을 받고 있습니다.

이러한 data visualization을 위해 제공되는 기존 도구 (R programming, Excel 등) 들이 있지만, 최근에 가장 핫하게 이용되는 새로운 도구"Tableau"도 있다는 점을 알아두시면 좋을 것 같습니다.

 

https://www.tableau.com/ko-kr/learn/articles/data-visualization

 

데이터 시각화 현장 가이드: 정의, 예제, 학습 리소스

데이터 시각화 현장 가이드: 정의, 예제, 학습 리소스

www.tableau.com

https://www.youtube.com/watch?v=YfE9jBq002s 

 

 

 

 

3. 세 번째 행위: 추정(추론)통계 (Statistical inference)

  • 기술통계를 통해 통계량 얻었다면, 이번에는 통계량을 통해 의미있는 추론들을 하게됩니다.
  • 의미있는 추론을 위해 "통계적 추론(Statistical inference)"이라는 개념들이 이용이 되는데, 먼저 통계적 추론을 구성하는 두 가지 개념들을 하니씩 살펴보도록 하겠습니다. 
    • 통계적 추론 = 추정 (estimation) + 가설검정 (test of hypotheses)
    • 추정 (estimation) = 점 추정 (point estimation) + 구간 추정 (interval estimation)

https://m.blog.naver.com/PostView.naver?blogId=kangoh7378&logNo=220008103745&proxyReferer=https:%2F%2Fwww.google.com%2F

 

https://gaincinema.kr/789

 

(↓↓↓추론통계와 관련된 강의 사이트↓↓↓)

https://genome.sph.umich.edu/wiki/Biostatistics_602:_Main_Page

 

Biostatistics 602: Main Page - Genome Analysis Wiki

Objective In Winter 2013, Biostatistics 602 aims to provide students with a deep understanding of key concepts of statistical inference. Statistical inference methods instruct us how to use data to address substantive questions. In this course, we will stu

genome.sph.umich.edu

 

 

3-1. 추정 (Estimation)

  • "1-1-2. 표본조사"에서 언급한 것 처럼, 표본집단의 통계량을 알았으니 이를 기반으로 모집단의 모수(←모집단의 통계량)을 알아보아야 합니다. 
    • 모집단에서 통계량은 흔히 모수(parameter)라고 합니다. 즉, 표본집단에서의 평균, 분산, 등 개념은 통계량(statistic)이라고 하고, 모집단에서의 평균, 분산 등은 모수라고 부르죠. (모수와 통계량을 표시하는 기호는 서로 다릅니다)

이미지 출처: https://ssacstat.com/default/cs/cs_05.php?com_board_basic=read_form&topmenu=5&left=5&&com_board_search_code=&com_board_search_value1=&com_board_search_value2=&com_board_page=&&com_board_id=12&com_board_idx=283

 

이미지 출처: http://contents.kocw.net/KOCW/document/2014/hanyang/maengseungjin/4.pdf

 

 

  • 추정(estimation)할 때 중요한 포인트 3가지 ( 출처링크)
    1. 표본집단은 모집단을 대표할 수 있는지?
      • 모집단의 일부인 표본을 보고 모집단을 추정하기 때문에 표본의 특성이 모집단을 잘 반영하고 있어야 합니다.
    2. 표본의 확률분포는 어떠한지?
      • 어떤 분포이냐에 따라 추정을 위한 기법이 달라지기 때문에 중요합니다. 다만 표본의 수가 많아질 수록 정규분포에 근사하게 됩니다. (→바로 앞으로 게재될 정규분포관련 글에서 설명할 예정입니다)
    3. 추정된 결과는 신뢰성이 있는지?
      • 추정된 결과를 활용할 수 있는지를 결정하는 요소이기 때문에 중요합니다.

 https://kkokkilkon.tistory.com/36

 

추론통계 - 가설 검정 한번에 정리하기

가설 검정 한번에 정리하기 (1) 추론통계 개요 (2) 가설 검정의 절차 (3) 주요 용어 정리 (4) 가설 검정 예시 (1) 추론통계 개요 추론통계란 모집단에서 샘플링한 표본을 가지고 모집단의 특성을 추

kkokkilkon.tistory.com

 

 

3-2. 가설 검정 (새로운 지식을 통계적으로 창출하는 방법)

  • 앞서 우리가 세웠던 가설 (=가설설정) 이 통계적으로 합당한지 증명하기 위해 이 가설을 검정(test)하게 됩니다.
  • 가설검정이란, 추정을 통해 얻은 모수(parameter)와 관련해 특정한 가설을 세워 놓고, 표본의 정보를 사용해서 가설의 합당성 여부를 판정하는 과정을 의미합니다. ( ← 자세한 설명은 가설검정편과 관련된 글에서 하도록 하겠습니다)
  • 통계적 가설은 통계학에서 사용하는 용어로, 하나의 특정 주장을 모수를 이용해 나타낸 형태를 지칭합니다.
    • 예를 들어, '미국 성인여자의 평균신장은 170cm이다'는 통계적 가설이 될 수 있습니다.
    • 왜냐하면, 평균신장은 모집단 특성을 나타내는 모수의 역할을 수행하기 때문입니다.
  • 통계적 가설귀무가설(Null hypothesis ,H0, 영가설)과 이와 반대에 있는 대립가설(Alternative hypothesis,H1)로 나타낼 수 있습니다.
    • 귀무가설: 연구에서 검증하는 가설 (기호는 H0) → ex) A백신은 효과가 없다. 
    • 대립가설: 연구자가 연구를 통해 입증되기를 기대하는 예상이나 주장 (기호 Ha 또는 H1) → ex) A백신은 효과가 있다
  • 통계학에서 가설을 검증하는 방법은 아래와 같습니다.
    • 우리가 주장하려고 하는 '대립가설'과 반대되는 '귀무가설'을 설정하고, 이러한 '귀무가설'이 통계적으로 합리적이지 않다는 것을 증명함으로써, '대립가설'이 통계적으로 합리적이다라는 것을 증명하는 방식입니다. (가설설정 단계에서 했던 것은 대립가설이고, 가설검증 단계에서 하는 것은 귀무가설이라는 점을 알아두시면 좋을것 같습니다!)

이미지 출처: https://angeloyeo.github.io/2020/03/25/hypothesis.html

 

  • 위 그림에서 귀무가설 기각 여부는 아래와 같은 의사결정을 합니다.
    • 대립가설(H1)에 대한 증거가 충분하다면 H0를 기각하고 H1을 받아들인다.
      • 기각:  내용이 실체적으로 이유가 없다고 판단하여 소송을 종료하는 알 → 통계적 관점에서 봤을 때, 해당 주장이 "통계적으로" 적합하지 않다고 판단 내리는 것
    • 대립가설(H1)에 대한 증거가 불충분한 경우 H0를 기각하지 않는다.
  • 결국, 새로운 내가 주장한 대립가설이 채택이 되면 "나의 주장(가설)이 통계적으로 합당하다는 것이 증명"되게 됩니다.

 

 

3-2-1. 가설 검정 5단계 (←가설검정 파트에서 자세히 다룰 예정입니다)

  1. 유의수준 결정, 귀무가설(H0)과 대립가설(H1) 설정
  2. sampling 및 검정통계량의 설정
  3. 기각역의 설정
  4. 검정통계량 계산 및 영가설 확인
  5. 통계적인 의사결정

 

4. Example (논문: Paper)

  • 지금까지 많은 내용들을 적었지만, 통계학을 사용하는 이유는 정말 간단합니다"

"나의 주장(가설)이 보편 타당함을 증명하기 위해서 통계학을 사용한다."

  • 우리는 논문을 통해 우리가 세운 가설(연구)이 합리적인지 아닌지 평가받게 됩니다. 
  • 논문 구성 요소들
    • Abstract - Introduction, background, method, experiment, result를 축약해서 설명
    • Introduction - 내가 제안한 가설(연구)이 어떤 측면에서 의미 있는지 광범위한 측면에서 설명
    • Background - 내가 주장한 가설을 이해하기 위해 필요한 배경지식들 설명
    • Method - 가설을 증명하기 위해 자신이 고안한 실험 방식
    • Experiment - 실험을 하기 위해 세팅했던 사항들 설명 → 어떻게 실험이 진행됐는지 설명
    • Result (and Analysis) - 실험결과가 유의미 했는지 해석 →  내가 실험한 결과를 통계적 (가설검정) 으로 봤을 때, 나의 가설(주장)을 뒷받침 해줄 수 있다고 한다면 (내가 세운 가설 관점에서) 유의미한 실험이 될 수 있음 → 가설검증을 통한 대립가설 채택 과정 → 즉, 유의미한 해석을 하기 위해 통계학이 사용 된 것
  • 보통 아래 그림을 예로 들어보자면, 귀무가설을 "dose(약)를 0.5비율로 투약한 것과 dose를 1비율로 투약한 것에 큰 변화가 없다"라고 설정한다면 대립가설은 "dose(약)를 0.5비율로 투약한 것과 dose를 1비율로 투약한 것에 큰 변화가 있다"고 설정 할 것입니다.
  • 기술통계를 통해 0.5비율을 투약한 집단과, 1.0비율을 투약한 집단간의 비교가 통계적으로 유의미하게 차이가 있는지 추론통계(추정 및 가설검정)을 통해 판별하게 됩니다. 만약, 유의미한 차이가 있다면, 귀무가설을 기각하고 대립가설을 채택하여 '나의 주장'을 통계적으로 입증하게 됩니다. 

이미지 출처: https://www.datanovia.com/en/blog/how-to-add-p-values-onto-basic-ggplots/

 

 

지금까지 통계에 대한 전반적인 가이드라인을 설명해 보았습니다.

그럼, 다음 글부터는 하나씩 자세히 알아보는 시간을 갖도록 하겠습니다.

 

https://www.youtube.com/watch?v=VM2NUAJUi7s 

 

 

 

 

 

5. 통계학 기원

아래 영상들은 통계학의 기원을 다룬 영상이니 참고해보셔도 좋을 것 같아 영상 첨부했습니다!

 

https://www.youtube.com/watch?v=YlGMHmzeW3Y 

 

https://www.youtube.com/watch?v=drhH5Wl419Q 

 

+ Recent posts