본문 바로가기

취업준비/인공지능

[AI Tech] 4주차 19-1차시 베이즈 통계학 맛보기

19차시: 베이즈 통계학 맛보기

19-1. 베이즈 통계학 맛보기

오늘날 머신러닝 학습의 방법론적인 내용이다.

1. 조건부확률이란?

1) 베이즈 통계학을 이해하기 위해서는 조건부확률의 개념을 이해해야 한다.

조건부 확률

조건부확률 P(A|B)는 사건 B가 일어난 상황에서 사건 A가 발생할 확률을 의미한다.

2) 베이즈 정리는 조건부확률을 이용하여 정보를 갱신하는 방법을 알려준다.

A라는 새로운 정보가 주어졌을 때 P(B)로부터 P(B|A)를 계산하는 방법을 제공한다.

 

2. 베이즈 정리: 예제

사후확률(posterior): 데이터가 주어져 있을 때, 이 파라미터가 성립할 확률

사전확률: 데이터가 주어지지 않은 상태에서 \theta에 대해 가정하는 것

Evidence: 데이터 전체의 분포

COVID-99의 발병률이 10%로 알려져 있다. COVID-99에 실제로 걸렸을 때 검진될 확률은 99%, 실제로 걸리지 않았을 때 오 검진될 확률이 1%라고 할 때, 어떤 사람이 질병에 걸렸다고 검진결과가 나왔을 때 정말 COVID-99에 감염되었을 확률은?

Evidence 계산

Evidence of COVID-99

오판률이 오르게 되면 precision(정밀도)가 상당히 떨어지게 된다.

 

3. 조건부확률의 시각화

1종 오류를 줄일지 2종 오류를 줄일지 결정하는 것은 결과에 큰 영향을 미친다.

2종 오류는 의료계에서 좀 더 신경을 쓰기도 한다.

False Positive와 True Positive로 정밀도를 계산: TP / (TP + FP)

 

4. 베이즈 정리를 통한 정보의 갱신

베이즈 정리를 통해 새로운 데이터가 들어왔을 때 앞서 계산한 사후확률을 사전확률로 사용하여 갱신된 사후확률을 계산할 수 있다.

데이터를 새로 관측할 때마다 모델의 파라미터를 업데이트하는 방식을 취할 수 있다.

앞서 COVID-99 판정을 받은 사람이 두 번째 검진을 받았을 때도 양성이 나왔을 때 진짜 COVID-99에 걸렸을 확률은?

갱신된 사후확률

 

5. 조건부확률 → 인과관계

1) 조건부확률은 유용한 통계적 해석을 제공하지만 인과관계(causality)를 추론할 때 함부로 사용해서는 안된다.

( 데이터가 많아져도 조건부확률만 가지고 인과관계를 추론하는 것은 불가능하다.)

2) 인과관계는 데이터 분포의 변화에 강건한 예측모형을 만들 때 필요하다.

인과관계와 조건부확률

3) 인과관계를 알아내기 위해서는 중첩요인(confounding factor)의 효과를 제거하고 원인에 해당하는 변수만의 인과관계를 계산해야 한다.

여기서 Z가 중첩요인이다.

예제

신장결석 치료법
치료법 A를 선택했을 때의 완치율
치료법 B를 선택했을 때의 완치율

★ 강건한 데이터 모형을 만들 때 어느 것을 선택하는지가 매우 중요하다!!

 

 

 

 

 

© NAVER Connect Foundation. All Rights Reserved