19차시: 베이즈 통계학 맛보기
19-1. 베이즈 통계학 맛보기
오늘날 머신러닝 학습의 방법론적인 내용이다.
1. 조건부확률이란?
1) 베이즈 통계학을 이해하기 위해서는 조건부확률의 개념을 이해해야 한다.
조건부확률 P(A|B)는 사건 B가 일어난 상황에서 사건 A가 발생할 확률을 의미한다.
2) 베이즈 정리는 조건부확률을 이용하여 정보를 갱신하는 방법을 알려준다.
A라는 새로운 정보가 주어졌을 때 P(B)로부터 P(B|A)를 계산하는 방법을 제공한다.
2. 베이즈 정리: 예제
사후확률(posterior): 데이터가 주어져 있을 때, 이 파라미터가 성립할 확률
사전확률: 데이터가 주어지지 않은 상태에서 \theta에 대해 가정하는 것
Evidence: 데이터 전체의 분포
COVID-99의 발병률이 10%로 알려져 있다. COVID-99에 실제로 걸렸을 때 검진될 확률은 99%, 실제로 걸리지 않았을 때 오 검진될 확률이 1%라고 할 때, 어떤 사람이 질병에 걸렸다고 검진결과가 나왔을 때 정말 COVID-99에 감염되었을 확률은?
Evidence 계산
오판률이 오르게 되면 precision(정밀도)가 상당히 떨어지게 된다.
3. 조건부확률의 시각화
1종 오류를 줄일지 2종 오류를 줄일지 결정하는 것은 결과에 큰 영향을 미친다.
2종 오류는 의료계에서 좀 더 신경을 쓰기도 한다.
False Positive와 True Positive로 정밀도를 계산: TP / (TP + FP)
4. 베이즈 정리를 통한 정보의 갱신
베이즈 정리를 통해 새로운 데이터가 들어왔을 때 앞서 계산한 사후확률을 사전확률로 사용하여 갱신된 사후확률을 계산할 수 있다.
데이터를 새로 관측할 때마다 모델의 파라미터를 업데이트하는 방식을 취할 수 있다.
앞서 COVID-99 판정을 받은 사람이 두 번째 검진을 받았을 때도 양성이 나왔을 때 진짜 COVID-99에 걸렸을 확률은?
갱신된 사후확률
5. 조건부확률 → 인과관계
1) 조건부확률은 유용한 통계적 해석을 제공하지만 인과관계(causality)를 추론할 때 함부로 사용해서는 안된다.
( 데이터가 많아져도 조건부확률만 가지고 인과관계를 추론하는 것은 불가능하다.)
2) 인과관계는 데이터 분포의 변화에 강건한 예측모형을 만들 때 필요하다.
3) 인과관계를 알아내기 위해서는 중첩요인(confounding factor)의 효과를 제거하고 원인에 해당하는 변수만의 인과관계를 계산해야 한다.
예제
★ 강건한 데이터 모형을 만들 때 어느 것을 선택하는지가 매우 중요하다!!
© NAVER Connect Foundation. All Rights Reserved
'취업준비 > 인공지능' 카테고리의 다른 글
[AI Tech] 5주차 20-1차시 딥러닝 기본 용어 설명 (0) | 2024.02.13 |
---|---|
[AI Tech] 4주차 19-2차시 Quiz 7 (0) | 2024.02.06 |
[AI Tech] 4주차 18차시 통계학 맛보기 (0) | 2024.02.06 |
[AI Tech] 4주차 17차시 확률론 맛보기 (0) | 2024.02.05 |
[AI Tech] 3주차 15-3차시 프로젝트 6 (0) | 2024.02.03 |