보통 통계학에서 한 사건이 장기적으로 일어날 때 발생하는 빈도를 확률이라고 한다.
확률을 사건의 빈도로 보는 것을 빈도주의(frequentist)라고 하고 확률을 사건 발생에 대한 믿음 또는 척도로 바라보는 관점이 베이지안(baysian)이라고 한다.
빈도주의와 베이지안은 "확률을 해석하는 관점의 차이" 라고 설명할 수 있다.
빈도주의
- 빈도론자들은 얼만큼 빈번하게 특정한 사건이 반복되어 발생하는가를 관찰하고 가설을 세우고 모델을 만들어서 검증한다.
- 확률은 장기적으로 일어나는 사건의 빈도라고 주장
- 모수(parameter, 우리가 알아내고자 하는 값, 평균, 분산등)는 (우리가 모르는) 고정 된 상수
장점
여러번의 실험, 관찰을 통해 알게된 사건의 확률을 검정하므로 사건이 독립적이고 반복적이며 정규 분포형태일때 사용하는 것이 좋다.
대용량 데이터를 처리 할 수 있다면 계산이 비교적 복잡하지 않기 때문에 쉽게 처리가능
단점
사전에 관찰지식이 없는 경우 (데이터 부족으로 인한 결과가 적음) 실험 결과의 신뢰가 떨어짐
데이터가 불확실하거나 부족하면 결과가 불확실
베이지안
- 베이지안론자들은 (고정된) 데이터의 관점에서 파라미터에 대한 신념의 변화를 분석
- 확률은 사건 발생에 대한 믿음 또는 척도(주관적)
- 모수는 확률적으로 변하는 수(확률변수)
- 사전지식의 확실성/ 불확실성과 관련
- 베이지안 방법은 수학적 배경이 까다롭고, 계산량이 많기 때문에 구현의 어려움이 있어서 예전에는 통계학자들로부터 환영받지 못했다. 하지만 컴퓨터의 연산 능력확장과 다양한 알고리즘 개발로 인해 베이지안 방법도 통계/ 머신러닝에서 많이 사용됨
베이지안의 확률적추론 방법
장점
확률 모델이 명확히 설정되어 있다면 조건부로 가설을 검증하기 때문에 가설의 타당성이 높아진다.
단점
사전지식에 대한 모델링이 어렵고 사전지식 모델링에 따른 사후 확률결과가 크게 달라질 수 있다.
빈도주의와 베이지안 관점 차이 예시
1. 동전을 던졌을 때 앞/뒷면이 나오는 사건의 확률
빈도주의 - 동전을 던져 앞면이 나오는 사건의 '확률'은 0.5이다.
베이지안 - '앞면이 나왔다'는 주장의 신뢰도가 0.5이다.
2. 검진결과에 의해 암에 걸렸을 확률이 90%이다.
빈도주의(의사관점) - 이러한 검진결과를 가진환자는 정밀검사를 하면 100에 90명은 암에 걸려있다.
베이지안(환자관점) - 자신이 암에 걸렸음을 주장하는 의사의 주장이 사실일 가능성(신뢰도)가 90%이다.
3. 화산이 폭발할 확률을 계산 가능한가?
빈도 확률 구하듯이 화산이 폭발할 확률을 구할 수 없다. 예상하지 못한 지진으로 인해 화산이 폭발할 수 있는 경우도 있고 다양한 요인들이 화산폭발에 영향을 미칠수 있다. 또한, 화산폭발이 주기적으로 반복해서 일어나는것도 아니고 활화산이 휴화산으로 변할 수도 있고 또는 휴화산이 활화선으로도 변할 수 있다. 세상에는 반복할 수 없는 수많은 사건들이 많고 결과에 영향을 줄 수 있는 무수히 많은 변수들이 많기 때문에 빈도주의를 적용할 수 없는 경우가 많다.
즉, 일어나지 않은 일에 대한 확률의 불확실성의 개념과 사건과 관련있는 여러 확률을 이용해 새롭게 일어날 사건을 추정하는것이 베이지안이라고 할 수 있다.
댓글