17차시: AI Math - 1
17. 확률론 맛보기
1. 딥러닝에서 확률론이 왜 필요한가요?
1) 딥러닝은 확률론 기반의 기계학습 이론에 바탕을 두고 있다.
2) 기계학습에서 사용되는 손실함수(loss function)들의 작동 원리는 데이터 공간을 통계적으로 해석해서 유도하게 됩니다.
- 예측이 틀린 위험(risk)을 최소화되도록 데이터를 학습하는 원리는 통계적 기계학습의 기본 원리이다.
3) 회기 분석에서 손실함수로 사용되는 L2-norm은 예측오차의 분산을 가장 최소화하는 방향으로 학습하도록 유도한다.
4) 분류 문제에서 사용되는 교차엔트로피(cross-entropy)는 모델 예측의 불확실성을 최소화하는 방향으로 학습하도록 유도한다.
5) 분산 및 불확실성을 최소화하기 위해서는 측정하는 방법을 알아야 한다.
확률분포는 데이터의 초상화
1) 데이터 공간을 x * y라 표기하기 D는 데이터공간에서 데이터를 추출하는 분포이다.
2) 데이터는 확률변수로 (x, y) ~ D라 표기한다.
3) 결합분포 P(x, y)는 D를 모델링한다.
4) P(x)는 입력 x에 대한 주변확률분포로 y에 대한 정보를 주진 않습니다.

5) 조건부확률분포 P(x|y)는 데이터 공간에서 입력 x와 출력 y 사이의 관계를 모델링합니다.

2. 이산확률변수 vs 연속확률변수
1) 확률변수는 확률분포 D에 따라 이산형(discrete)과 연속형(continuous) 확률변수로 구분한다.
2) 데이터공간 x * y에 의해 결정된다.
3) 이산형 확률변수는 확률변수가 가질 수 있는 경우의 수를 모두 고려하여 확률을 더해서 모델링한다.

4) 연속형 확률변수는 데이터 공간에 정의된 확률변수의 밀도(density) 위에서의 적분을 통해 모델링한다.

★ 항상 이 두 가지로 분류하는 건 아니다.
3. 조건부확률과 기계학습
1) 조건부확률 P(y|x)는 입력변수 x에 대한 정답이 y일 확률을 의미합니다.
2) 로지스틱 회귀에서 사용했던 선형모델과 소프트맥스 함수의 결합은 "데이터에서 추출된 패턴을 기본으로 확률을 해석"하는 데 사용한다.
3) 분류 문제 softmax(W\phi + b)은 데이터 x로부터 추출된 특징패턴 \phi과 가중치행렬 W을 통해 조건부확률 P(y|X)을 계산한다.
4) 회귀 문제의 경우 조건부기댓값 E [y|x]을 추정합니다.

5) 딥러닝은 다층신경망을 사용하여 데이터로부터 특징패턴 \phi를 추출한다.
4. 기댓값이 뭔가요?
1) 확률분포가 주어지면 데이터를 분석하는 데 사용 가능한 여러 종류의 통계적 범함수(statistical functional)를 계산할 수 있다.
2) 기대값(expectation)은 데이터를 대표하는 통계량이면서 동시에 확률부포를 통해 다른 통계적 범함수를 계산하는 데 사용된다

3) 기대값을 이용해 분산, 첨도, 공분산 등 여러 통계량을 계산할 수 있다.

5. 몬테카를로 샘플링
1) 기계학습의 많은 문제들은 확률분포를 명시적으로 모를 때가 대부분이다
2) 확률분포를 모를 때 데이터를 이용하여 기댓값을 계산하려면 몬테카를로(Monte Carlo) 샘플링 방법을 사용해야 한다.

3) 몬테카를로 샘플링은 독립추출만 보장된다면 대수의 법칙(law of large number)에 의해 수렴성을 보장한다.
예제 1 - 적분 계산하기

풀이


1.49387 +- 0.0039이므로 오차 범위 안에 참값이 있다.
© NAVER Connect Foundation. All Rights Reserved
'취업준비 > 인공지능' 카테고리의 다른 글
[AI Tech] 4주차 19-1차시 베이즈 통계학 맛보기 (0) | 2024.02.06 |
---|---|
[AI Tech] 4주차 18차시 통계학 맛보기 (0) | 2024.02.06 |
[AI Tech] 3주차 15-3차시 프로젝트 6 (0) | 2024.02.03 |
[AI Tech] 3주차 16-2차시 Quiz 6 (0) | 2024.02.03 |
[AI Tech] 3주차 16-1차시 딥러닝 학습방법 이해하기 (0) | 2024.02.03 |