[베이지안] 면적과 도형을 활용한 베이지안 이해
" 해당 정리글은 세상에서 가장 쉬운 베이즈 통계학 입문(링크) 를 기반으로 정리, 내용이 첨부되어있습니다"
세상에서 가장 쉬운 베이즈 통계학 입문은 위와 같이 도형의 면적을 활용하여 베이지안 통계학을 쉽게 설명한다.
Q. 해당 내용은 어느 특정 암에 걸릴 확률이 0.1%(0.001) 이라고 하자. 이 암 검사를 진행하는데, 암에 걸려있는 사람은 95% 확률로 양성 진단을 받는다고 하자. 한편, 건강한 사람이 양성으로 오진을 받을 확률은 2% 다. 이 검사에서 양성이라고 진단 받았을때, 암에 걸려 있을 확률은 얼마일까?
라는 사전 확률과 조건부 확률을 기반으로 베이지안을 설명한다.
* 면적은 A라는 사건이 발생 할 때, A가 발생하면서 B가 발생하는 조건부 확률을 면적으로 계산하여 풀어나간다.
EX) 암이 발생했을때, 양성일 확률. 암이 발생했으나 음성일 확률.
"관심 있는 것은 오직 양성인 세계이다"
우리가 관측하고 싶은, 혹은 알고 싶은 것은 암이 실제로 양성인지 아닌지를 아는 것 이다. 때문에, 위에서 오직 양성으로 확률을 구할 수 있는 세계만을 냅두고, 나머지는 소거(없애) 버린다.
그렇게 되면. 왼쪽 직사각형(0.095%) : 오른쪽 직사각형(1.998%) 만 남게 된다. 그리고, 확률이란 것은 결국 100% 미만(0<=x<=1) 이 되어야 한다. 때문에, 두 값을 합하여 정규화를 시켜줘야 한다.
0.0095 + 1.998 = 2.093 이다. 그리고 각 왼쪽과 오른쪽 각 값들을, 합한 값으로 나누어준다.
-> 0.0095 / 2.093 : 1.998 / 2.093
= 0.0454 : 0.9546 이라는 정규화를 통해, 사후확률 값을 구하게 된다. 이 결과로, 양성이라는 검사 결과를 받았을 때 암에 걸릴 사후 확률은 4.5% 정도임을 알 수 있는 것이다.
위의 프로세스를 통해 베이지안 추정 프로세스를 단계별로 정리할 수 있다.
1. 암 / 건강한가에 대한 사전 확률을 설정 (역학, 기존데이터 활용)
2. 검사 정밀도에 대한 조건부 확률을 설정(치료 데이터 활용)
3. 검사 결과 관측
4. 음성 가능성 소거
5. 암*건강에 대한 확률의 정규화
6. 암 사후확률(베이즈 역활률) 을 구함.
위의 시나리오를 기반으로, 문제를 다시 읽어보면. 만약 검사에서 양성을 받았다고 할 때, 95% 감도인 암 검사에서 양성이 나왔기 때문에 95% 확률로 암인가?에 대해서 걱정을 할 것 이다. 하지만, 사후 확률은 4.% 이다. 왜 이렇게 확률이 낮을까?에 대한 이유는 바로 원래 암에 걸린 사람 자체가 매우 드물다(0.001) 이기 때문이다. 건강한데 오진으로 양성이 나올 확률이 가능성이 상당히 높기 때문이다.
하지만, 사전확률은 업데이트가 된다. 해당 암에 걸릴 사전확률이 0.001 이였지만, 양성임이 관측된 후에 해당 확률은 업데이트 되어 0.045(=4.5%)가 되었다. 1000명중에 1명 걸릴 암에서, 20명 중에 1명 걸릴 수 있는 확률로 높아진 것 이다. 때문에, 그렇다고 해당 사례를 바탕으로 사전확률은 사후확률로 변경되었다. 이렇게, 베이지안은 증거(관측) 을 통해 사전확률이 업데이트 되는 통계학이다.
또다른 문제가 위와 같이 존재하는데, 해당 책은 베이지안을 그림으로서 이해하기 쉽게 설명하고 있다. 개인적으로, 베이지안이 좋은것은 빈도주의는 표본이 어느정도 쌓여야만 통계적 신뢰도를 구할 수 있는데, 베이지안은 표본이 적어도 해당과 같은 사전 확률을 기반으로 관측한 후에 확률을 업데이트하며 확률값을 구하는데 활용 되는 것으로 이해했다.
후반부에는 면적과 도형이 아니라, 베타분포 수식을 활용하여 사후확률을 구하는 것도 좋았다. 조금씩 난이도를 높여가는 방법도 좋았던 것 같다. 베이지안 기초를 직관적으로 이해하는데 도움이 된 책! 추천