일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 | 29 |
30 | 31 |
- 실무로통하는인과추론
- 데이터 분석
- 네카라쿠배당토
- mathematicalthinking
- 코세라
- CausalInference
- chatGPT
- 데이터분석가
- 벡터
- 인과추론개요
- Bayesian
- 인과추론
- 빅쿼리
- 티스토리챌린지
- DataAnalyst
- 데이터분석
- 잠재적결과
- 독후감
- 베이지안통계
- 나의서양미술순례
- 데이터분석가 코딩테스트
- recommendation system
- SQL
- Recsys
- BigQuery
- 글또10기
- 선형대수학
- 인과추론 무작위 실험
- 수학적해석학
- 오블완
- Today
- Total
Derek 의 데이터 분석 성장기
[추론통계] 정규분포, 표준정규분포, 중심극한정리 설명 본문
분포란 데이터 분산과 그들이 얼마나 자주 발생하는가를 보여주는 함수이다.
주사위로 예를 들자면, 각 수들이 나올 확률은 1/6 로 일정하다.
1. 정규분포(Normal Distribution)
대칭이며, mean = median = mode 는 동일하다. no skew. 때문에, 평균으로부터 표준편차안에 모든 값들이 들어와있다.
평균은 743, 표준편차는 140 으로서 값들이 분포되어있음을 알 수 있다.
2. Standardization(표준화)
모든 분는 표준화할 수 있다. 표준화는 평균인(Mu) 를 0으로, 표준편차(시그마 제곱) 을 1로 바꿀 수 있다.
위의 공식이 해당 값들의 변환을 가능케 한다.
위와 같이 해당 공식에 따라, Z 분포(표준정규분포 )를 가능케 한다. Z ~ N(0,1)을 따르는 것 이다.
x는 각각의 데이터 포인트이고, Mu(평균)에서 데이터를 빼고 표준편차로 나누면 표준정규분포(표준화)를 할 수 있는 것 이다.
위 데이터셋을 참고하면, 각 데이터 분포가 존재하고, 평균에서 뺀 값에, 표준편차로 나누면 오른쪽 -1.63 ~ 1.63 의 값이 나오게 된다. 그리고, 해당 데이터의 셋의 평균은 0 이며, 표준편차는 1을 따르게 된다. 이것이 바로 표준화가 된 분포이다.
이 표준화의 장점은 예측과 추론이 용이해지기 때문이다.
3. 중심극한정리(Central Limit Theorem)
표본평균의 분포가 무수히 많다면, 해당 분포는 정규분포를 그린다. 위의 2,521.49 ~ 3,248.88 $는 모두 각 샘플들의 평균들이다. 해당 샘플의 평균이 무수히 많다면, 평균들의 평균으로 부터 정규분포를 그린다. Sampling Distribution of the Mean 이 가운데에 있는 것 이다. 2,800 $ 이다. 그리고, 해당값은 가설의 평균을 대표하는 아주 좋은 추정 값이다.
그렇다면, 중심극한정리는 어디에 유용할까? 예를 들어, 아래와 같은 봉오리가 2개인 분포의 경우, 신뢰도 높은 값을 추정하기 위해 중심극한 정리를 활용할 수 있는 것 이다.
이론적으론, 중심극한정리의 Sample Size 는 n > 30 을 충족해야 한다. 그리고, n(=sample size)가 클수록, 분산은 적어진다고 말한다. 중심극한 정리는 통계적 테스트, 문제해결시 모집단(population)이 정규분포를 따르지 않더라도, 정규 분포의 특징을 활용하여 추론을 할 수 있는 것이 장점이다.
특히, 중심극한 정리는 정규분포와 함께 통계학에서 가장 중요한 이론이자 꽃이라 할 수 있다.
4. 표준오차(Standard Error) = SE
표본평균의 표준편차이다. 중심극한 정리에서는 샘플들의 평균의 분포를 그릴 수 있었다. 그들의 편차가 바로 표준편차이다. 표본평균의 변동성이라고도 설명할 수 있다. 표본 크기가 클수록 표준오차는 줄어든다.
5. Estimate(추정)
추정에는 두가지가 있다. 점 추정(Point Estimator) 와 신뢰구간(Confidence interval) 이다. 점추정은 말 그대로 하나의 대표값으로 표현될 수 있다.
추정은 말 그대로 해당 값들이 어떤 범위, Bias 안에 존재하는지를 밝혀내는 것 이다. Statistics(통계치) 는 대표값, 단일값과 같은 보편적인 통계 의미이며, Estimators(추정치)는 통계치의 한 종류이자, 통계치를 추론,추정, 예하는 값이라 할 수 있다.
* 참고 : 해당 자료는 모두 유데미의 Complete Data Science Bootcamp 2024를 참조하였습니다.