개인 공부/DS

[DS] 베이시언 결정 이론

AquaplaneMode 2022. 12. 23. 14:52

본 게시글은 개인 공부 정리용으로 작성되었기 때문에 내용이 부정확할 수 있습니다.

참고자료 : 오일석 패턴인식 (2008)

베이즈정리 (Bayes’ theorem)
: 사전확률과 사후확률 사이의 관계를 나타내는 정리로, 사전확률로부터 사후확률을 계산할 때 사용된다.
$$
P(A|B) = \frac {P(A)P(B|A)}{P(B)}$$

$$posterior = \frac {prior * likelihood}{evidence}
$$

1. 베이시언 분류기

I. 최소오류 베이시언 분류 (minimum error Bayesian classifier)

특징 벡터 $\textbf{x}$를 $\omega_1, \omega_2$ 두 부류로 구분하는 이진분류문제를 상정하자. 문제 해결을 위한 결정규칙(dicision rule)은 다음과 같다.

  • 특징 벡터 $\textbf{x}$에 대해 $\omega_1$일 확률이 더 높으면 $\textbf{x}$를 $\omega_1$로 분류한다.
  • 특징 벡터 $\textbf{x}$에 대해 $\omega_2$일 확률이 더 높으면 $\textbf{x}$를 $\omega_2$로 분류한다.

이를 수학적으로 표현하면 다음과 같다.

  • if $P(\omega_1|\textbf{x}) > P(\omega_2|\textbf{x})$, then classify $\textbf{x}$ as $\omega_1$
  • if $P(\omega_2|\textbf{x}) > P(\omega_1|\textbf{x})$, then classify $\textbf{x}$ as $\omega_2$

그러나 특징 공간이 무수히 많을 경우, 사후확률을 직접 구하는 것이 어렵기 때문에 베이즈 정리를 사용하여 이를 다르게 구할 수 있다.

  • if $p(\textbf{x}|\omega_1)P(\omega_1) > p(\textbf{x}|\omega_2)P(\omega_2)$, then classify $\textbf{x}$ as $\omega_1$

  • if $p(\textbf{x}|\omega_2)P(\omega_2) > p(\textbf{x}|\omega_1)P(\omega_1)$, then classify $\textbf{x}$ as $\omega_2$

    • $p(\textbf{x})$는 두 항에 공통으로 들어가므로 생략할 수 있다.

두 부류의 사전확률이 같고, 두 확률분포를 각각 $p(x|\omega_1)$와 $p(x|\omega_2)$라고 가정하자.

$x=a$일 때, $p(x|\omega_2)$가 더 크므로 $x$는 $\omega_2$로 분류될 가능성이 더 크지만, $error$만큼의 확률로 $\omega_1$로 분류될 수 있다.

$x$를 전체구간으로 확대한다면, 베이시언 분류기의 오류를 식으로 나타낼 수 있다.
$$
E = \frac{1}{2}(\int_{-\inf}^t p(x|\omega_2)\ dx+\int_{-t}^{inf} p(x|\omega_1)\ dx)
$$

  • 두 확률분포가 같아지는 지점을 $t$라고 했을 때, 오류가 최소가 된다.

이진분류가 아닌 M 부류일 때의 결정 규칙은 다음과 같다.

$$
classify(\textbf{x}) = \omega_{\underset{i}{argmax}\ p(\textbf{x}|\omega_i)P(\omega_i)}
$$

II. 최소위험 베이시언 분류 (minimum risk Bayesian classifier)

경우에 따라서는 오류확률을 최소화하는 상황이 적절하지 않을 때도 있다. 환자를 암이 있음 ($\omega_1$)과 암이 없음($\omega_2$)으로 진단하고자 할 때, $\omega_1$를 $\omega_2$로 오분류했을 때의 위험은 그 반대의 상황보다 크다는 것을 알 수 있다.

진단을 받았을 때의 손실 행렬(Loss matrix) $C$를 다음과 같이 정의해보자.
$$ \left[
\begin{matrix}
c_{11} & c_{12} \
c_{21} & c_{22} \
\end{matrix}
\right] $$
$c_{xy}$는 $x$를 $y$로 분류했다는 의미로, 가령 $c_{12}$은 암이 있다고 진단해야 하는데($\omega_1$), 없다($\omega_2$)고 진단했을 때의 위험을 보여준다.

환자가 암을 진단($\omega_1$) 받았다고 가정하자. 이 때의 기대손실을 다음과 같이 추정할 수 있다.
$$
d_1 = c_{11}\int_{R_1}p(\textbf{x}|\omega_1)d\textbf{x}+c_{12}\int_{R_2}p(\textbf{x}|\omega_1)d\textbf{x}
$$
즉, 확률분포 $p(\textbf{x}|\omega_1)$를 $\omega_1$으로 판단하는 구간 $R_1$과 $\omega_2$으로 판단하는 구간 $R_2$으로 나눈 후에, 각각의 구간에 손실($c_{1n}$)을 곱해준 것과 같다.

마찬가지로 암이 없다고 진단받았을 때의 기대손실 역시 구할 수 있다.
$$
d_2 = c_{21}\int_{R_1}p(\textbf{x}|\omega_2)d\textbf{x}+c_{22}\int_{R_2}p(\textbf{x}|\omega_2d\textbf{x}
$$

따라서 두 분류를 모두 고려한 평균손실 $D$는 다음과 같다.
$$
\begin{aligned}
D =&\ d_1P(\omega_1) + d_2P(\omega_2)\
=&\ c_{11}\int_{R_1}p(\textbf{x}|\omega_1)P(\omega_1)d\textbf{x}+c_{12}\int_{R_2}p(\textbf{x}|\omega_1)P(\omega_1)d\textbf{x}\
&+c_{21}\int_{R_1}p(\textbf{x}|\omega_2)P(\omega_2)d\textbf{x}+c_{22}\int_{R_2}p(\textbf{x}|\omega_2)P(\omega_2)d\textbf{x}\
=&\sum^{M=2}{i=1}\int{R_i}\left(\sum_{j=1}^{M=2}c_{ij}p(\textbf{x}|\omega_j)P(\omega_j)\right)d\textbf{x}
\end{aligned}
$$

$\sum_{j=1}^2c_{ij}p(\textbf{x}|\omega_j)P(\omega_j)$을 $q_i$라고 가정하자.

  • $\textbf{x}$를 $R_i$에 소속시키면 $q_i$만큼의 손실이 발생한다.

따라서 D를 최소화시키는 결정 규칙은 다음과 같이 정해진다.

  • if $q_1 < q_2$, then classify $\textbf{x}$ as $\omega_1$
  • if $q_1 > q_2$, then classify $\textbf{x}$ as $\omega_2$

i. 우도비 결정규칙

우도비 결정규칙(Likelihood ration decision rule)
: 우도비와 임계값을 비교하여 최소 위험 베이지언 분류를 하는 것

식 $q_1 > q_2$는 전개하여 다음과 같이 바꿔쓸 수 있다.
$$
(c_{12}-c_{11})p(\textbf{x}|\omega_1)P(\omega_1) > (c_{12}-c_{11})p(\textbf{x}|\omega_1)P(\omega_1)$$
$$\frac{p(\textbf{x}|\omega_1)}{p(\textbf{x}|\omega_2)} > \frac{(c_{21}-c_{22})P(\omega_2)}{(c_{12}-c_{11})P(\omega_1)} = T
$$

양변은 특징벡터와 관련이 있는 변과 없는 변으로 분류된 것이다.
이때, 좌변은 두 우도의 비율이므로 우도비라고 하며, 우도비에 의한 결정규칙을 우도비 결정규칙이라 한다.

$$
classify(\textbf{x}) =
\begin{cases}
\omega_1, &if\ \frac{p(\textbf{x}|\omega_1)}{p(\textbf{x}|\omega_2)}>T\
\omega_2, &if\ \frac{p(\textbf{x}|\omega_1)}{p(\textbf{x}|\omega_2)}< T\
\end{cases}$$

이진분류가 아닌 M 부류일 때의 결정 규칙은 다음과 같다.

$$
classify(\textbf{x}) = \omega_{\underset{i}{argmin}\ q_i}\
where, q_i = \sum_{j=1}^Mc_{ij}p(\textbf{x}|\omega_j)P(\omega_j)
$$

'개인 공부 > DS' 카테고리의 다른 글

[DS] MCMC (Monte Carlo Markov Chain)  (0) 2023.07.17
[DS] 수요 예측  (0) 2023.07.16
[DS] UnderSampling  (0) 2022.12.23
[DS] Over Sampling (RandomOverSampler, SMOTE, ADASYN)  (0) 2022.12.23
[DS] PCA 차원 감소 (PCA Dimensionality Reduction)  (0) 2022.12.23