인공지능을 공부하다보면 수많은 모델들이
오늘 정리할 '베이즈 정리'에 기반을 두고 있다는 것을 확인 할 수 있다.
기초적인 조건부 확률을 통해서 모델을 구성하고 실제 세계에 이러한 모델들을 적용하고 있는 것이다
1. 조건부 확률?
고등학교 시절 확률과 통계를 배워본 학생이라면 '조건부 확률'은 한번쯤 들어보았을 것이다.
A와 B라는 사건이 있다고 가정해보자 여기서 조건부 확률은 특정한 사건이 발생한 상황에서 또 다른 사건이 발생할 확률로B가 일어난 상황에서 A가 발생할 확률(조건부 확률 예시)이다
이를 수식으로 표현하면 아래와 같다
$P(A|B)$
또한 이를 정리하면 아래와 같다
$P(A|B) = \frac{P(A \cap B)}{P(B)} $
이를 활용하면 베이즈 정리를 할 수 있다
2. 베이즈 정리
베이즈 정리는 위에 $P(A|B)$를 활용하여 $P(B|A)$를 구하는 방법으로 생각할 수 있다.
즉, A라는 새로운 정보가 주어졌을 때 $P(B)$로 부터 $P(B|A)$를 계산하는 방법이다
이를 위해서 '사전확률' B가 일어날 확률을 알고 있어야 한다.
이를 적용해서 베이즈 정리를 수식으로 표현하면 아래와 같다.
여기서 우리가 구하고 싶은 것은 사후 확률(posterior)이고 우리가 알고 있는 것은 $P(E|H)$와 $P(H)$이다
[A를 E로 B를 H로 변환해서 생각하면 된다]
이를 확률의 단어로 정리하면
- $P(H|E)$ : 사후 확률(Posterior)
- $P(H)$ : 사전 확률(Prior)
- $P(E|H)$ : 가능도(Likehood)
- $P(E)$ : Evidence
예를 들어서 설명하면 더 이해가하기 쉽기 때문에 아래 간단한 예시를 활용해 보겠다.
EX) 한 질병(A)이 있다. 이 질병은 발병률이 10%정도이다. 병원에서 이 질병을 판별하기 위해서 새로운 진단법(B)이 나왔다. 이 진단법은 '실제로 이 질병에 걸렸을 때 99%로 검진하고' 실제로 걸리지 않았을 때 1%로 검진한다고 하자
이때 어떤 사람이 이 질병에 걸렸다고 검진받았을 때 실제로 질병에 걸렸을 확률을 구하라
문제의 핵심은 다음과 같다.
우리가 구하고 싶은 것은 $P(A|B)$이다.
즉, 우리에게 주어진 것은
$P(A)$ : 질병에 걸릴 확률 = 0.1 [사전확률]
$P(B|A)$ : 질병에 걸렸을 때 진단법이 검진할 확률= 0.99 [가능도]
$P(B|!A)$: 질병에 걸리지 않았을 때 검진할 확률 = 0.01[가능도] 이다
즉, 우리가 구하려는 $P(A|B)$를 수식으로 풀면 아래와 같다
$P(A|B) = \frac{P(B|A)P(A)}{P(B)}$ 이다
그런데 여기서 우리는 P(B)가 없다
즉 우리가 가진 값을 대입해서 다시 정리하면 아래와 같다
$P(A|B) = \frac{0.99 \ast 0.1}{P(B)}$
즉, Evidence인 $P(B)$를 구해야하는 것이다
Evidence를 구하는 수식은 아래와 같다
Evience = $P(B|A)P(A) + P(B|!A)P(!A) = 0.99*0.1 + 0.01*0.9 = 0.108$
따라서 우리가 구하려는 최종값은 아래와 같다
$P(A|B) = 0.1* \frac{0.99}{0.108} = 0.916$
3. 사각형으로 베이즈 정리
이러한 복잡(?!)한 베이즈 정리를 이해하기 쉽게 사각형 하나로 정리할 수 있다
이러한 정리를 통해서 베이즈 정리를 쉽게 정리할 수 있다
베이즈 정리는 인공지능부분에 많이 활용되고 있는 수학정리이다
특히, 추천알고리즘과 같이 이용자의 선택확률을 향상하기 위한 모델링에서 핵심적으로 적용된다
따라서 베이즈 정리에 대한 기초적인 정리를 하는 것이 인공지능 모델링에 중요하다고 할 수 있다
좀더 이해를 위해서는 아래의 영상과 링크를 참고하길 바란다
'ML 🐼 > 수학 ☑️' 카테고리의 다른 글
[머신러닝+선형대수] 상관관계와 코사인 유사도 (0) | 2023.11.16 |
---|---|
[선형대수] 기저 (0) | 2023.05.25 |
Entropy, CrossEntropy 그게 뭔데? (0) | 2023.03.27 |