통계 학습은 함수 F를 추정하기 위한 다양한 방법들의 집합입니다. 여기서 는 함수로, 입력값을 받아 결과값을 반환하는 구조를 가집니다. 여기서 말하는 f는 f(X)할 때의 f입니다. 즉 함수입니다. 함수는 어떠한 입력값이 있으면 결과값이 나오는 구조입니다.
X를 입력한다고 했을 때, 여기서 X는 입력 변수 혹은 예측변수, 피쳐(feature) 등으로 불립니다.
이에 해당하는 결과값은 Y로 보통 결과변수라고 표현합니다. 또한 이러한 함수들은 아래의 그림과 같이 흔히 저희가 봐왔던 선형적인 관계에 있는 것이 대부분이였습니다. 하지만 실생활에서는 선형적인 그래프 보다는 비선형적임을 띄는 상황이 많습니다.
데이터 출처 | https://www.statlearning.com/resources
저희는 이런 선형적인 관계부터 출발해서 비선형적인 관계 까지 이해하고 예측해보려고 합니다.
먼저 왜 f를 추정해야 할까요?
두 가지 이유가 있습니다. 예측과 추론입니다. 현재 많은 학습 방법이 나오면서 지도학습, 비지도학습을 통해서 어떠한 도메인에서도 높은 정확도를 자랑하고 있으며, 이를 활용하여 AI 시대가 도달했습니다.
하지만 black-box 말 그대로 "검은 상자" 정확도는 좋지만, 왜 그런 결과가 나오는지에 대한 이유는 저희가 알지 못 하는 상황이 많습니다. 이는 예측의 부분입니다. 하지만 이러한 예측 부분을 현재 사람 목숨이 달린 파트에 접목한다면 적용할 수 있을까요? 적용하지 못 할 것입니다. (black-box) 왜 그런지에 대한 이유를 모르기 때문입니다 .즉 f를 추론 할 수 없었기 때문입니다. 그렇다면 f를 추론한다면 예측 더 자세히 말해서 정확도는 보존될까요? 당연하게도 추론을 중점으로 한다면 정확도는 내려갑니다. 그 이유는 아래 그림과 같이 설명하겠습니다.
왼쪽 그래프에서는 선형 적인 관계에 있음을 알 수 있습니다. 하지만 쉽게 추론은 할 수 있어도 점들과의 거리는 다소 있습니다.
하지만 오른쪽 그래프는 선형 관계에 있지 않습니다. 따라서 고차원이 된다면 저희는 아무리 축소해도 해석할 수 없을 것 입니다. 하지만 점들의 거리는 다소 가까워 보여서 예측에는 좋아 보입니다. 이런 서로의 장단점이 존재합니다.
따라서 분야별로 f를 추론 하거나 , 예측에 더 중점을 두거나 선택해 적용해야 합니다.
먼저 예측 및 추론을 하기전에 MSE에 대해 알아보겠습니다. 위에서 언급했던 내용 중 점들과의 거리를 언급했습니다.
실제로 오른쪽이 더 정확도가 높긴 하지만, 이는 육안적으로 확인할 수 있었기 때문입니다.
차원이 늘어난다면 이를 직접 확인하기보다는 어떤 정확한 수치를 통해서 비교해야 합니다. 이 때 적합한 것이 MSE입니다.
Mean Squared error (평균 제곱 오차)
Yi은 정답 벡터이고 Y^i은 내가 예측한 벡터들입니다. 이를 평균 제곱 하여 값을 구하는 것 입니다.
제곱은 왜 할까요? Yi - Y^i이 만약 음수가 나온다면 이는 예측값이 더 큰 값이고, 양수라면 이는 예측값이 더 작은 값이라는 것 입니다. 하지만 양수든 음수든 틀린건 분명합니다. 또한 양수와 음수가 존재하는데 제곱하지 않고 한다면 오류된 수치를 만들 수 있기 때문입니다. 따라서 위와 같은 평가 방식이 존재하고 이를 한번 수학적으로 분해 해보고 의미를 파악해보겠습니다.
결국 분해 해보면 아무리 예측을 잘하여 통계적 모델을 만들어도 var(입실론)이 있기 때문에 0이 될 순 없습니다.
따라서 저희는 (f(x)-f^(x))**2 부분을 최대한 줄여야 합니다. 이를 예측오차라고 표현하며 예측오차를 최대한 줄이는 통계모델을 만드는 것으로 목표를 잡습니다.
'ISLR' 카테고리의 다른 글
모수적 방법, 비모수적 방법 (0) | 2025.03.20 |
---|---|
ISLR | Basic | 데이터셋 탐색(Smarket_Data,NCI60_data) (2) | 2025.03.13 |
ISLR | Basic | 데이터셋 탐색(Wage_Data) (0) | 2025.03.13 |