ABOUT ME

-

Today
-
Yesterday
-
Total
-
choco@desktop:~/tistory
$ 정보처리기사 요점정리
1과목 2과목 3과목 4과목 5과목 실기

$ Linux Kernel
Power Management DVFS
  • 머신러닝 수업 5주차 - Parametric Methods
    SW개발/머신러닝 2018. 10. 12. 23:53

    2018.10.10


    Parametric Methods

    지난 시간에 Parameter methods를 조금 나갔는데, 앞부분은 그 내용들을 다시 복습하였다. i.i.d. (independent identically distributed)라는 강력한 assumption 덕분에 joint likelihood를 product of each individual likelihood로 계산할 수 있게 되었다. 데이터가 주어졌을 때,  joint likelihood를 maximize하는 parameter theta를 찾는 것이 MLE가 원하는 것이다. 계산할 때는 computational reason 때문에 log likelihood를 구한다. What the maximum value가 아닌, maximize하는 theta를 찾고자 하는게 목적이다. 그래서 이어서 본 것이 베르누이 density distribution 을 보았다. (p가 theta였다) set of binary value xn을 xn이 more than 2 discrete value인 multinomial density로 확장시킬 수 있다. 다음으로 univariate Gaussian density를 보았다. (mu와 sigma square를 parameter로 가지고 있다). theta (parameter) 들을 another random variable로 상정하고 새로운 distribution을 따른다고 보면 베이지안으로 확장할 수 있다. 


    오늘은 bias와 variance를 이야기 할 것이다. 이것은 model selection 에 적용할 수 있는 개념이다.



    이전에 본 3 케이스 (베르누이, multinomial, Gaussian)에서 parameter를 estimate하였다. 그리고 지금 나오는 Bias의 뜻은 sample로 부터 만든 (made) estimation이 real value of theta로부터 얼마나 bias되어있는지를 뜻하는 것이다. MLE는 fixed constant value of theta가 있다고 가정하였다. 하지만 베이지안에서 이 theta는 constant가 아니다. another random variable일 뿐이다. 그래서 이 Bias와 Variance 개념은 MLE에 있는 개념이다.


    - how much estimated theta hat how much different from the ground truth, the real value of the theta

    - how much estimated value is varying depending on the data (how much variable)


    그러면 constant fixed theta가 있다고 가정하고 위와 같이 bias와 variance를 정의해 볼 수 있다. different data set마다 expectation of theta hat을 구할 수 있다. theta hat 또한 another random variable로 볼 수 있다. different number of data set을 collecting하면 (data sample이 아니다) 각 data set마다 theta hat을 추정할 수 있는 nice way들이 있다. different data set 마다 different estimate를 갖게 된다. expectation of theta hat은 what's gonna be the average/ mean of the estimates. 그리고 how much this estimate different from ground truth 이것이 bias가 의미하는 것이다. 그리고 variance는 how much it's variable을 의미한다. 


    그림으로 보면 7 crosses가 있다. 이 1 cross는 1 data set을 의미한다. 1 data sample이 아니다!! 그래서 different data set마다 different estimate를 가지고 있다. data set 1은 theta 1 hat을 가지고 있고, data set 7은 theta 7 hat을 가지고 있다. estimate와 real ground truth를 비교해본다. 여기서 bias는 how much this estimate is different from the real one을 의미한다. 그리고 variance는 how much the estimate variable을 의미한다. 이 두 컨셉을 가지고 조금 더 볼 것이다.


    이 슬라이드는 sample mean mu in gaussian density를 본다. Expectation of m이 sample mean이다. 이전 수업에서 mu hat을 구할 때 sample mean으로 구했었다. 또한 sigma hat을 구할 때는 sample variance를 활용한다. (16) 식은 expectation of some function이고, sampling mean은 your data로부터 얻어진 kind of function이다. N은 constant이다. 그리고 분모에는 summation of xn이 들어가는데 xn은 random variable이다. 그러면 이 식은 expectation of each random variable이 된다. E[x1+x2+...+xn] = E[x1] + E[x2] +... + E[xn] 이다. 그리고 definition에 따르면 for each of xn 마다 E[x1] = mu (=μ) 이다.  N x (times) mu를 N으로 나누면 결국 mean과 똑같아 진다. 그래서 내 estimate of sample mean은 ground truth랑 똑같다. estimate of sample mean이 equal to real mean 한 것이다. 그들의 difference는 0이 된다. 이 estimate가 unbiased하다고 말할 수 있다. 그것을 위한 variance도 구할 수도 있는데 다루진 않을 것이다. straight forward하니까 직접 해볼 수 있을 것이다.


    expectation of sample variance는 's 스퀘어'라고 denote할 것이다. square term을 이용해서 식을 위와 같이 변형시킬 수 있고, 또 expectation이기 때문에 그 다음 변형도 가능하다. variance의 definition을 사용해서 다음과 같이 적는다. E[(X-mu)^2] = E[x^2] - mu^2

    이 데피니션을 사용할 것이다. 그러면 sigma^2 = E[X^2] -mu^2가 된다. 그래서 시그마로 식을 정리해볼 수 있는 것이다. 마지막에 reorganize the equation하면 (18)의 이런 폼으로 끝나게 될 것이다. 그러면 estimate of sample variance는 시그마 스퀘어랑 같지 않다. n-1/n은 1이 아니다. 그러면 sample variance는 somehow biased 되어 있다고 할 수 있다. 되어 있다. different from the ground truth인 것이다.


    N은 number of sample을 의미한다. 더 많은 샘플을 가질 수록 large value for N을 가진다. 그러면 이 value는 vanish to 1이 되고, estimate는 unbiased가 된다. 하지만 우리는 infinite number of sample을 가질 수 없고 limited number of sample만을 가지고 있기 때문에 bias를 피할 수가 없다. 그래서 우리가 unbiased value를 얻고 싶으면 N/N-1을 곱해줘야 한다. N/N-1 곱하기 E[s^2] 일 때, 이 앞 term이 bracket 안으로 이동 가능하다. E[N/N-1 s^2] = σ^2 이렇게 쓰는 것이다. 


    summary는 Gaussian을 가지고 있으면 그 parameter는 sample mean과 sample variance를 통해 구할 수 있다. unbiased sample mean을 가지고 biased density를 가진 estimation of sample variance를 이용해서 sigma도 구할 수 있다. 이것이 소개하고자 한 첫 번째 concept이었다. 


    다음에 볼 내용은 Evaluating the quality of an estimator theta에 대한 이야기이다. how good is your estimate를 보는 것이다. 위의 식 대로 theta hat과 real value의 difference가 얼마나 나는지를 볼 것이다. positive와 negative 값을 무시하기 위해서 square를 취해준 것이다. expectation of theta hat를 더하고 빼서 다음의 6줄을 도출해낼 수 있다. 


    theta hat은 fixed constant value이고, E[theta ^ ] 도 another constant이다. 모든 값은 정해진 값이고, 모두 vanished to 0도 가능하다. 맨 마지막 줄의 quality of estimator는 variance와 bias라는 2개의 term으로 쪼개서 볼 수 있다. bias를 줄이면 variance가 늘어날 것이고, variance를 줄이면 bias가 늘어날 것이다. 이것이 trade-off이고, 이것을 기억해두면 나중에 bias-variance dilemma를 공부할 때 다시 다루게 될 것이다. 



    여태까지는 maximum likelihood estimation에 대해서 다뤘다. 여기부터는 bayes estimator를 다룰 것이다. MLE와 bayes의 차이는 unknown parameter theta가 constant fixed value인지 혹은 another random variable인지 하는 것이다. prior knowledge를 사용하는데서 차이가 난다. different likelihood i for continuous case인 경우에 gaussian density estimate를 사용할 수 있다. 반면에 bayesian estimation은 다른 assumption을 사용한다. possible value range that parameter theta may take를 지정한다. 


    when you estimate gaussian distribution을 할 때 N(mu, sigma^2) 로 나타낼 수 있을 것이다. knowledge about the mu를 가지고 있는데 7에서 9 사이의 uncertain 값이라는 것을 알고 있다. 이 경우 다시 다른 gaussian이 mu를 위해 필요할 것이다. 


    p(/x) ~ N(mu, sigma^) 위의 이 식은 likelihood function이고 여기에 assumption을 추가한다. MLE는 mu와 sigma가 fixed constant라고 가정한다. 하지만 베이지안은 another assumption을 추가한다. mu가 7~9가 내 prior knowledge라면 x가 mostly distributed되어있다고 할 수 있겠지만 100% 확신을 할 수는 없다. 그러면 another guassian을 mean에 추가해서 위의 mu와 연결해서 이렇게 쓸 수 있다. mu~N(mu0, sigma0^2) 


    mu말고 sigma에 대해서도 다른 assumption을 추가할 수 있다. 그런데 sigma^2은 항상 positive값, 즉 non-negative값이기 때문에 감마 distribution을 따른다. sigma^2 ~ Gam



     posterior은 p(x|X) = likelihood . prior 

    divided by                evidence

    로 표현할 수 있다.

    likelihood와 prior을 위와 같이 표현하고 evidence는 likelihood x prior의 가능한 모든 경우에 대한 integral로 구할 수 있다. (식을 이렇게 쓰면 결국 posterior problem이 되는 것이다.)



    how can I use my prior knowledge? 여기 간단한 example이 있다. theta를 normal distribution을 따르는 mu라고 생각한다. 90%의 certainty이므로 10%의 uncertainty로 theta는 5와 9 사이에 있다. 이것이 prior knowledge이다. 그리고 7을 중심으로 symmetrically 분포해 있다. 


    probability density function은 다음과 같이 표현할 수 있다.

    P(a<=x<=b)

     = F(x<=b) - F(x<=a)


    그러면 p(5 <=mu<=9)은 위를 이용해서 다음과 같이 표현할 수 있다. (mu0는 7이고, symmetry하다)

    F(mu0+nsigma) - F(mu0-nsigma) = 0.9


    Gaussian 분포를 그려서 (종 형태로 그림을 그린다) 중간에 mu를 표시하고 왼쪽에 mu-nsigma 오른쪽에 mu+nsigma를 표시해준다. 그러면 전체 area의 90%를 cover하게 된다. 위의 예시에서 n은 1.644이다. 이 값은 mean이 0이고, standard deviation이 1인 normal distribution으로부터 나온다. (평균을 빼고 표준편차로 나눠서 구한다) 


    여기서 말하고 싶은 것은 how to use prior knowledge에 관한 것이었다. 


    P(theta | X)라는 posterior를 구하기 위해서 Data x는 gaussian distribution을 따르고, parameter mu (=prior over the mean) 도 gaussian distribution으로부터 나온다는 prior knowledge를 가지고 있다. 데이터를 observing하기 전에 이런 prior knowledge를 가지고 있고, 데이터를 observing한 후에는 prior를 likelihood를 apply함으로써 posterior로 업데이트 해준다.


    density를 구하기 위해서는 (21) 식 대로 도출하면 된다. 원래 theta 자리에 x가 들어가 있다. prediction을 하고 싶을 때는 regression function 을 넣어주면 (22) 식을 얻을 수 있다. MLE와 달리 베이지안은 theta가 another random variable이라서 theta에 대한 모든 가능한 경우를 다 고려해주어야 한다.


    training sample에서 how likelihood this x를 구하면 outlier detection도 가능하다. theta마다 different likelihood value를 가지고 있을 것이다. 그리고 marginal probability로 나눠준다. 이것으로 결과 value가 매우 작게 나온 abnormal한 경우인지 아닌지 판단 가능하다. 이것이 한 application이 될 수 있다.


    이 설명들은 전체의 한 부분들인데 이것들을 다 통합해서 이해해야 한다. 


    1) y = |w /xn + w0 이렇게 linear function을 적어줄 수 있다. 

    2) E_SSE = 1/N 시그마(yn-tn)^2 (이 yn이 내 타겟과 얼마나 다른지)

    3) Optimization technique


    regression은 1)식에서 y = sign(|w /xn+w0) 가 되도록하면 classifier가 된다.


    basic classifier를 가정하고 다음과 같이 쓰면

    P(Ci|/x) = p(/x|Ci)P(Ci) / p(/x)

    chapter 4는 p(/x|Ci) term에만 집중하면서 mle로부터 시작한다. chapter 4에서는 p(Ci) 부분은 무시하고 앞 부분만 보는 것이다. parametric method는 density estimation에 더 focus를 맞춘다. 그리고 bayes estimator로 넘어가면 mu를 another random variable로 고려한다. 


    챕터들은 서로 독립적이지 않고 연관되어있다. chapter 5는 univariate case를 고려하는 것 대신에 (=observation이 single value였는데) 이걸 multivariate로 확장한다. relation among different variable을 고려하게 된다. chapter 7으로 가면 guassian distributed라는 가정 대신 observation solely from the data를 사용한다. (=non-parametric approach) chapter 6에서는 dimension reduction을 다룬다. multivaraite case에서 too many number of variable을 가지고 있다. number of variable을 어떻게 줄일 수 있는지 알려주고, 어떻게 low dimensional space로 transform하는지를 알려준다. 


    following chapter들 도 다 연관이 되어있다. 챕터 8이나 9는 discriminant function을 다룰 것인데, likelihood, prior, evidence를 다 구할 필요 없이 discriminant function으로 posterior를 구할 수 있다. 이 discriminant function이 simple layer function으로부터 나올 수도 있고, limited capacity of linear function 때문에 linear model을 non-linear model로 확장시키는 트릭을 사용할 수도 있다. kernel method 혹은 neutral network가 사용될 수 있다. (또는 deep learning) 그리고 better decision을 이끌어내는 model들을 배울 것이다. 


    density에 관심이 있든, regression에 관심이 있든 input이 continuous일 때 integral이 사용된다. 그런데 일반적으로 integration의 exact value는 계산할 수가 없다. 그러면 한 가지 가능한 방법은 가능한 모든 theta를 구하는 대신에 

    이 value가 maximum probability를 가지고 있으므로 이 value를 고려하는게 합리적이라고 생각할 수 있을 것이다. 모든 값 대신 single mode point를 고려하는 것이다. 이게 Maximum A Posterior의 개념이다. posterior probability를 구하기 위해서 probability를 maximize하는 one single value만 구하면 된다. 


    * MAP 포스팅 참고

    http://darkpgmr.tistory.com/62

    http://sanghyukchun.github.io/58/


    알고리즘적으로 integration을 구할 수 없는 경우에approximation의 방법이 있다. 가우시안을 기반으로 한 두 가지 방법 중 하나는 sampling based approach인 몬테칼로 방식이 있다. 지금까지 배운 내용은 첫번째 과제와 관련이 있을 것이다. 


    내 데이터 xn이 gaussian distributed 되어 있다고 가정한다. theta는 mean을 의미한다. sigma square는 constant값이다. theta도 constant값으로 생각해서 ML을 구할 수 있고 another random variable이라고 생각할 수 있다. (mu0와 sigma0라는 some fixed value의 분포를 따르는) MAP 혹은 Bayes estimator를 구할 때는 given X일 때 expectation of theta를 구한다. MAP는 파란글씨로 표시되어있는 부분처럼 sample mean과 prior mean의 linear combination이다. 


    매우 큰 수를 설정해서 sigma 0이 무한대로 가면 prior mean이 uncertain해진다. sample mean에만 focus를 두게 된다. 그런데 N이 0에 가까워지면 왼쪽 term이 0이 된다. prior knowledge에 더 focus를 두게 된다. 


    과제의 첫번째는 2 equation을 derive하는 것이고, 두번째는 program을 짜는 것이다. 데드라인은 10/21까지이다. 위의 슬라이드를 참고하고 슬라이드에 있는 3개의 질문에 대해 생각해봐야 한다. 1) infinite number of sample이라면? 2) little or no data라면? 3) strong knowlege of distribution theta가 있다면?


    과제

    Assignment1.pdf



    posterior probability를 구하고, probability를 기반으로 error를 minimize하는 방향으로 decision을 내린다. 식에서 product로 표시된 부분을 log를 취함으로써 summation으로 변경할 수 있다. univariate gaussian의 log likelihood는 위 식과 같다. 


    그런데 prior와 variance가 같다면 constant로 취급해서 위와 같이 간단하게 계산할 수 있다. σ = σ i 로 sigma는 모두 같은 값을 가지고 있다. i ~ {1 ... K} 이다.


    g1(x) = -log σ -(x-mu1)^2/2 σ^2 + log P(C1)

    g2(x) = -log σ -(x-mu2)^2/2 σ^2 + log P(C2) 

    일 때, log sigma는 같기 때문에 g에 영향을 주지 않는다. 


    i^ = argmax_i gi(x) 이다. 위 식의 normalizing 부분도 똑같기 때문에 영향을 주지 않는다. 가운데 있는 x-mu i 부분이랑 맨 뒤에 있는 prior에만 focus를 두면 된다. prior도 같다면 distance로 결정되게 된다. 


    prototype이 있다고 보고 new sample 들어오면 prototype 1과 2 사이의 거리를 계산한다. 더 가까운 것에 속한다고 보는 것이다. decision boundary는 단순히 average of two prototype으로 구해진다. 


    .             .

    mu 1    .   mu 2


    2개 이상일 때는 partition을 하나 더 나누면 된다. (총 화면을 3개로 나눠주셨다) 


    여기서 x axis는 input space를 denote한다. y axis는 p(x) given C이다. class conditional probability 혹은 class conditional likelihood이다. 다른 input value마다 어떻게 likelihood가 달라지는지를 볼 수 있다. red one이 한 class이고, blue one은 다른 class이다. 


    discriminant function이 prior를 무시하거나 같아서 likelihood로만 결정된다면 이것이 decision boundary가 된다. negative 값을 가지고 있다면 다 파란색으로 분류하고, positive 값을 가지고 있다면 다 빨간색으로 분류한다. 이때 빨간색의 probability가 파란 것에 비해 높기 때문이다. 


    P(x|C) x P(C)로 이번에는 prior를 고려한다. prior for class 1은 0.2 (point 2)이고, prior for class 2는 0.8이다. 그러면 sample이 없을 때 class 2에 들어갈 확률이 높다. 이걸 적용하면 posterior도 변하게 된다. decision boundary가 원래는 0이었다면 이제는 더 왼쪽으로 이동하게 된다. 즉, different prior는 decision boundary를 shift시킨다.


    variance가 다를 때는 위와 같다. 위 경우에는 2개의 decision boundary가 생긴다. 그래서 이렇게 prior와 variance의 다른 impact에 대해서 보았다. 


    이제 regression파트로 이동한다. real observation은 noise에 의해 contaminate되게 된다. noise (앱실론) 는 normal distribution을 따른다. constant와 random variable을 합하면 another random variable이 되기 때문에 y도 uncertain한 값을 보이게 될 것이다. y의 gaussian 분포는 f(x)와 noise로부터 온 variance에 의해 결정된다. 그리고 f(x)는 우리가 알 수 없으므로 g(x|theta)로 approximation이 이루어진다. 이것이 regression model이다. 



    그리고 Maximum likelihood를 위와 같이 쓸 수 있다. log를 취해주고 sigma는 noise로부터 나온 constant이기 때문에 무시할 수 있다. 


    최종적으로 얻어진 식은 친숙할 것이다. MLE로부터 시작해서 reorganize terms을 해서 이 식을 얻어낼 수 있다. 서로 다른 영역에서 얻어졌지만 내 데이터 x가 Gaussian을 따른다는 가정을 하면 동일한 objective function을 얻어낼 수 있는 것이다. 


    이는 내 regression식이고 w1과 w0라는 2 parameter가 있다. partial derivative를 해서 얻은 위 식을 linear algebra로 표현할 수 있다. 그러면 parameter w를 inverse of A와 y의 곱으로 얻을 수 있다.


    이전 슬라이드에서 least square estimate를 구할 때 gaussian 분포를 가정한다는 것을 위를 통해 알 수 있다. 주어진 x에 대한 g(x)는 위의 파란 선이다. x*라는 값에 대한 output은 특정 point가 될 것이다. 하지만 probability perspective에서 이 값 근처에 uncertainty가 있다. 그 부분만 분리해봤을 때 (dissecting) gaussian distribution이 얻어진다. 


    error measure의 종류가 이렇게 있다. least squared error가 있고, sample mean으로부터 얼마나 다른지를 고려하는 relative square error도 있다. 앱실론-sensitive error는 support vector regression 이나 kernel method를 다룰 때 나올 것이다.


    (41) 식을 자세하게 보면, 기본적으로 how much error를 나타낸 것이다. y bar는 mean of the train output이다. 전체 식의 error가 1보다 크게 나온다면 분자가 1보다 크다는 것으로 시간을 낭비하고 있다는 뜻이 된다! (글쓴이 - 내 모델이 단순한 평균으로부터의 variance보다 설명을 못하면 안 되니까)


    g of xn을 gn이라고 표현할 것이다.


    시그마 (yn-gn)^2

    --------------

    시그마 (yn-y-)^2


    일 때, y hat은 average of train data set이다. y- = 1/N 

    이 값이 1보다 크게 되면 분자가 분모보다 크다는 것을 의미하고, 학습된 모델로부터 얻은 error가 단순한 mean으로부터 차이인 error보다 크다는 것을 의미한다. 이는 predictive model이 is not working at all 한다는 것이다. 이런 방식으로 how good your model is 를 측정할 수 있다. input에 상관없이 constant value가 나오는 것보다 설명을 못한다면 모델의 capacity를 증가시켜야 할 것이다.


    linear function의 capacity를 증가시키려면 polynomial 차수를 높이는 방법이 있다. input에 대해 x^2부터 x^k까지의 값을 만든다. 이것은 input을 이런 식으로 transform하는 것과 같다.


    x-> [ x]

        [ x2]

        [ x3]

        [ ...]

        [ xk]


    function은 non-linear해지게 되고 more capacity를 갖게 된다. 


    polynomial 차수가 올라가면 더 power가 강해진다. 


    그런데 Model selection 관점에서의 bias와 variance를 볼 것이다. 데이터 set X가 주어졌을 때 간단히 regression function을 사용한다. noise는 평균이 0이고 variance를 가지고 있는 gaussian distribution을 따른다. 이 식은 마지막에 (45)가 될 것이다. variance와 bias의 합으로 나타낼 수 있다. 그래서 최종적으로 variance of noise (내가 control 할 수 없는 것) 과 이 control 가능한 2개의 term으로 총 3개로 나눠볼 수 있다. variance를 늘리면 bias가 줄어들고, 반대의 경우도 가능하다. 차수가 낮으면 bias가 크고, 차수가 높아지면 bias가 작아질 것이다. 그러면 작은 차이가 큰 변화를 가져오기 때문에 variance가 크다고 할 수 있다.


    optimal한 값을 얻기 위해서는 validation set을 이용해야 한다. train에 들어가지 않도록 미리 separate 한 sample로 power를 estimate해야 한다. validation은 나중에 소개할 것이다.


    Model selection 먼저 모델을 define하고 loss function을 구한다. 모델마다 inductive bias의 차이가 있다. 적절한 모델을 선택하면 error가 작을 것이고, 많은 수의 데이터를 얻으면 error를 줄일 수 있을 것이다. 


    Model selection 을 위해 사용되는 위와 같은 방법들이 있다.

    1) validation set으로 평가한다.

    2) 여전히 high order model 라면 penalty를 준다. ex) 람다 값으로 complexity에 따른 penalty를 준다.

    3) Information theory에서 나오는 AIC나 BIC과 SRM이 있다. 


    4) 다른 내용들은 스킵하고 Bayesian model selection을 볼 것이다. 이 방식을 사용하면 optimal order of function을 natural way로 구할 수 있다. 이것이 idea of hierarchical bayesian이다. mu나 sigma square를 또다른 random variable로 가정한다. 계속해서 올라가면서 random variable을 가정하면 어떤 point에서 한 distribution이 optimal order를 determine하게 된다.


    여기까지가 chapter 4의 내용이었다. Parametric method를 보았고, MLE를 보았다. Bayes estimator로 확장해서 봤고, classification과 regression의 두 컨셉을 보았다. bias variance dilemma 또한 regression case에까지 확장해서 적용할 수 있다. 이 딜레마는 model selection과 관련이 있다. evaluation을 위해서 cross validation, regularization 등의 테크닉등을 사용할 수 있다.


    * 질문

    Regularization에서 sum of parameter로 penalty를 줘서 왜 weight들의 값을 작게 만드는 것이 모델의 복잡도를 줄이는 것인지 이해가 가지 않는다.

    E=SSE + lambda||w||2

    => 20개의 sample을 가지고 있을 때 20 order polynomial이라면 error 가 0 이 될 수 있겠지만 작은 변화가 큰 output value를 만들어내는 overfitting을 만들 수 있을 것이다. 이것과 관련이 있다. (L1과 L2 norm에 대한 간단한 설명이 있었지만 자세하지 않아 옮기지 못했다)


    수업 교재

    ParametricMethods_2P(1).pdf



    Multivariate Methods

    챕터 5는 챕터 4에서 배운 것을 확장한 extended concept들을 다룰 것이다. single univariate case를 multivariate case로 확장하는 것이다. univariate guassian을 다루는 것이 아니라 set of observation들로부터 얻어진 more practical case를 다룰 것이다. 그러면 다른 variable들이 아마 relation을 가지고 있을 것이라는 reasonable assumption을 가질 수 있다. multivariate라는 것은 variance를 2개 이상 가지고 있다는 것이다. 


    앞서 gaussian 에서는 다루지 않았지만 exponential term안에 내재된 의미를 다룰 것이다. 그리고 distance의 concept도 define할 것이다. 유클리디언 distance가 친숙할 것인데, distributional characteristic을 고려한 마할라노비스 distance도 있다. 자세한 content들은 다음주에 다룰 것이다.

    댓글

Designed by Tistory.