개인 공부/DS 6

[DS] MCMC (Monte Carlo Markov Chain)

# 1. MCMC (Monte Carlo Markov Chain) Monte Carlo : 임의의 확률 분포로부터 무수히 많은 샘플을 추출하는 방법 Monte Carlo Markov Chain : 임의의 확률 분포로부터 무수히 많은 샘플을 추출하되, 이전에 추출된 샘플과 의존적인 (dependent) 샘플을 추출하는 방법 # 1.1. Metropolis-Hasting Metropolis-Hasting (이하 MH)는 사후확률을 정확히 알지 못하기 때문에 사후확률분포로부터 샘플을 추출하는 것이 어려울 경우, 사후확률분포를 추정하는 데 사용할 수 있다. 해당 sampling 방법은 다음과 같은 방법으로 진행된다. 1. 임의의 초기값 "theta_{0}"를 정한다. 2. "theta_{0}"를 중심으로 한 정..

개인 공부/DS 2023.07.17

[DS] 수요 예측

1. 수요 예측 방법 수요를 예측하는 방법은 정성적(Qualitative) 방법과 정량적(Quantitative) 방법, 크게 두 가지로 나눌 수 있다. 정성적 방법 - 해당 분야를 잘 알고 있는 전문가에게 직접 물어보는 것 - (장점) 수치화 불가능한 분야에 대한 전문성을 가지고 있음 - (단점) 주관적이기 때문에 수요에 대해 과대/과소평가하여 예측할 수 있음 정량적 방법 - 수치에 의존한 예측 방법 - (장점) 데이터에 기반하여 예측하기 때문에, 일관성 (Consistency)를 가짐 - (단점) 예측을 하기 위해 많은 데이터를 필요로 함. => 정량적인 방법으로 수요를 예측한 후, 전문가의 예상을 통해 수정하는 방법으로 두 방법 모두의 장점을 채택할 수 있음 2. 시계열 데이터 예측 시계열 데이터 ..

개인 공부/DS 2023.07.16

[DS] 베이시언 결정 이론

본 게시글은 개인 공부 정리용으로 작성되었기 때문에 내용이 부정확할 수 있습니다. 참고자료 : 오일석 패턴인식 (2008) 베이즈정리 (Bayes’ theorem) : 사전확률과 사후확률 사이의 관계를 나타내는 정리로, 사전확률로부터 사후확률을 계산할 때 사용된다. $$ P(A|B) = \frac {P(A)P(B|A)}{P(B)}$$ $$posterior = \frac {prior * likelihood}{evidence} $$ 1. 베이시언 분류기 I. 최소오류 베이시언 분류 (minimum error Bayesian classifier) 특징 벡터 $\textbf{x}$를 $\omega_1, \omega_2$ 두 부류로 구분하는 이진분류문제를 상정하자. 문제 해결을 위한 결정규칙(dicision ru..

개인 공부/DS 2022.12.23

[DS] UnderSampling

0. UnderSampling 언더샘플링(Under Sampling)은 오버샘플링(Over Sampling)과 반대되는 개념으로, 데이터 간 불균형을 해소하기 위한 기법 중 하나이다. 소수 클래스(Minority Class)의 데이터 양을 다수 클래스(Majority Class)에 맞춰 증가시키는 것이 오버 샘플링이라면, 다수 클래스의 데이터 양을 감소시키는 것이 언더샘플링이라고 할 수 있다. 0.1. Sample Dataset import pandas as pd import numpy as np from sklearn.datasets import make_classification import seaborn as sns import matplotlib.pyplot as plt random_seed = ..

개인 공부/DS 2022.12.23

[DS] Over Sampling (RandomOverSampler, SMOTE, ADASYN)

1. 오버 샘플링 오버 샘플링(Over Sampling)은 데이터 간의 불균형을 해결하기 위한 기법 중 하나로, 상대적으로 데이터가 적은 쪽의 데이터를 데이터가 많은 쪽의 데이터양과 맞춰주는 것이다. 2. RandomOverSampler RandomOverSampler는 데이터 분석 라이브러리인 sklearn에서 제공하는 클래스로, 이미 존재하는 데이터를 무작위로 추출하여 새로운 데이터를 생성하는 것이다. 즉, 중복된 데이터를 기존의 데이터에 추가하여 데이터의 절대적인 양을 늘리는 것이다. 2.1 예시 from sklearn.datasets import make_classification import matplotlib.pyplot as plt import numpy as np import pandas ..

개인 공부/DS 2022.12.23

[DS] PCA 차원 감소 (PCA Dimensionality Reduction)

참조 : 차원 감소와 PCA 분석 Principal Component Analysis for Dimensionality Reduction in Python 주성분 분석 1. PCA 주성분 분석 혹은 PCA(Principal Component Analysis) 고차원의 데이터를 저차원의 데이터로 선형변환하는 것을 의미한다. 즉, 데이터셋에 있어서 데이터셋의 column(혹은 feature) 개수를 줄일 수 있는 기법이다. 1.1 Feature의 개수를 왜 줄여야 할까 Feature의 개수가 많다는 것은, 한 데이터를 표현하는 정보의 양(volumn)이 많다는 것을 의미한다. 그러나 모든 feature가 데이터를 표현하기 위해 유의미한 정보를 담고 있는 것은 아니다. feature는 데이터와 관련이 없거나,..

개인 공부/DS 2022.12.23