일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 | 29 |
30 | 31 |
- Bayesian
- 잠재적결과
- CausalInference
- BigQuery
- SQL
- 티스토리챌린지
- 선형대수학
- 네카라쿠배당토
- mathematicalthinking
- 실무로통하는인과추론
- 코세라
- 베이지안통계
- recommendation system
- DataAnalyst
- 글또10기
- 수학적해석학
- Recsys
- 인과추론
- 인과추론 무작위 실험
- 데이터분석
- 데이터 분석
- 독후감
- 인과추론개요
- 빅쿼리
- 나의서양미술순례
- 데이터분석가 코딩테스트
- 벡터
- 오블완
- chatGPT
- 데이터분석가
- Today
- Total
Derek 의 데이터 분석 성장기
[선형대수학] 회귀 모델(Regression Model) 과 Norms(노름) and Distance 본문
[선형대수학] 회귀 모델(Regression Model) 과 Norms(노름) and Distance
Derek Grey 2024. 4. 4. 20:54
0. 들어가기 앞서
벡터의 내적을 통해 벡터의 유사성을 구하는 방법과 내적의 목적을 알 수 있었다. 유사성을 구하는 방법은 알았는데, 그렇다면 단일 벡터가 가지는 크기와 길이는 어떻게 측정할까? 이를 알기 위해 선형대수에서 놈(Norm) 이라는 용어가 나오는데, 이는 벡터의 길이와 크기를 측정하는 방법이다. 그리고, 두 점선간의 거리를 구하는데 이 놈이 사용된다.
또한, Linear Combination. 또는 Affine Function 도 배울 수 있었다. 그리고, 이 친구들은 Y= ax + b 와 같은 기울기와 상수 값이 존재하는 회귀식과 비슷한 것 또한 배웠다. 그래서, 오늘은 이 식들과 비슷한 회귀 모델에 대해서 공부해보고 정리해보려 한다.
1. Regression Model
벡터는 방향과 크기를 가진 값이다. 여러 연속적인 RAW 값이 될수도 있다. Affine Function 의 식은 회귀 모델과 수식이 유사하다. Affine Function 과 Linear Combination 은 Y = ax + b 와 같은 연립방정식으로 표현될 수 있다. x는 벡터이다.
그리고, 만약 우리가 보스턴에 있는 집들의 면적과 방갯수에 대한 빅데이터를 보유했다고 가정해보자. 그런 데이터들의 벡터들을 가지고 우리는 아래와 같은 회귀식을 하나 만들 수 있다. 만약 위와 같은 데이터가 존재할 때, 해당 데이터 분포를 가장 잘 표현하는 것이 바로 회귀선이다.
Y = 148.73 * (면적) - 18.85 * (방갯수) + 54.40
이와 같은 데이터를 얻었을때, 실제값과 예측값의 차이를 가지고 우리는 Error(오차) 를 표현할 수 있다. House 4 를 예시로 보자면, 이는 회귀선과 차이가 크다. 반대로, Houe 5는 상대적으로 잘 예측되었다고 볼 수 있다.
근데, 왜 방 갯수 계수가 - 일수록, 집값이 더 높을까? 이는 변수가 서로 독립적이지 않을 때 발생 하는 문제이다. 대체로, 회귀는 두 변수간의 독립성을 보존해야 하는 것이 맞다. 그러나, 우리는 공부중이기 때문에 해당과 같은 데이터를 해석해보자.
예를 하나 들어볼 수 있는데, 집의 면적이 같더라도 방의 갯수가 많을 수록 같은 면적에서는 방의 갯수가 클수록 집 값이 낮아질 수 있다고 해석할 수 있다. 때문에, 이런 회귀식을 이해할 때는 해석에 주의해야 한다. 두 변수(=벡터)가 영향을 미치는 것이 각각 독립이라 생각하지 말고, 두 변수가 반영되었을 때 하나의 변수가 갖는 의미를 생각하는 것이 중요하다.
2. Norm and distance
Norm 은 벡터의 크기와 길이를 측정하는 방법이다. X 라는 n-vector 가 주어졌을 때, 각 원소의 제곱의 합을 더해 놈을 구하는 것을 위에서 설명하고 있다. 위에서는 유클리디안 놈(L-2)을 예시로 들고 있다. 각 원소의 제곱합의 근을 취하고 있다.
하지만, 이외에도 맨하탄 놈(L-1) or P-Norm 이 존재한다. 그렇다면 놈의 머신러닝의 관점에서 어떻게 사용될까? 놈은 벡터의 합임을 위해서 알 수 있었다. 그리고, 각각의 벡터는 물리적 방향과 크기를 가진다. 그리고, 우리는 회귀모델을 위에서 배웠다.
놈을 통해 예측값과 실제값의 차이를 구해 각 벡터가 가지는 크기의 차이를 구할 수 있다. 그리고, 선형회귀 모델이 실제 데이터와 예측 데이터의 합한 놈의 값 비교를 통해 얼마나 회귀선을 잘 대변하는가를 판단할 수 있다.
간단하게, L-1 Norm(맨하탄) 과 L-2 Norm(유클리디안) 의 차이는
수식으로 위와 같이 표현될 수 있다. 각각은 벡터의 크기와 길이를 판단하는 방법의 차이이며 각자 특성이 있다. 두 L-1 과 L-2 norm 의 차이에 대해 선형회귀 기준으로는 해당 블로그가 제일 설명을 잘하고 있는 것 같다. 링크
Norm 이란 함수 개념은 결국 벡터가 들어와서 단 하나의 스칼라 값을 반환하는 함수이다. 이 또한, 벡터의 크기를 측정하는 함수라 할 수 있다.
그러나, Norm 은 위와 같은 특징을 갖는다. 예를 들어 homogeneity 특징을 보자면, 절대값 B * Norm(x) 는 Norm(Bx)와 같다고 한다.이를 해석하자면 위에서 배운 것과 같이 Norm 은 원소제곱 합에 스퀘어를 취한 것이기 때문이다.
Norm 은 두 벡터( 혹은 두 점선)의 길이를 표현할 수 있다. 아래 식과 같이, x+ y라는 것이 (x,y) 이고. 각각의 길이는 ||norm|| 등으로 표현할 수 있다. 그리고, 이는 위에서 배운 L-1 norm, L-2 norm 등 벡터의 크기와 길이를 평가하는 방법이라 할 수 있다.
그리고, 삼각형에서 가장 큰 선은 두 점선의 합보다 작다는 것이 위의 triangle inequality를 충족하는 것을 설명하고 있다.
3. RMS Value
Root Mean square error 를 의미한다. 선형회귀 모델을 평가할때 쓰이는 공식이자 방법은 결국 Norm 개념을 활용하여 실제값 벡터와 예측값 차이의 합의 제곱근을 취한 것을 통해 해당 모델을 평가할 수 있는 것이다. 결국 벡터의 크기와 길이를 판단하는 하나의 값을 구하는 공식이다.
4. 체비셰프 부등식
체비셰프 부등식에 대한 설명도 선대 강의에서 나오게 되는데, 체비셰프 부등식은 확률 분포를 정확히 모를 때 해당 확률 분포의 평균과 표준편차의 값만으로 특정한 확률의 최솟값만큼은 알아낼 수 있는 부등식이다. 결국, 정규분포나 어떤 분포 값에서 특정 값이 확률적으로 몇 % 안에 존재할 것인가? 에 대한 질문이고 대답이라 이해했다. 해당 선대 강의에서는
No more than 4% of entries can satisfy |xi| > 5 * rms(x) 가 중요한데, 이는 어떤 X(n-vector) 벡터든 그 벡터의 RMS 보다 큰 값은 4% 미만이다. 라는 것을 의미한다. 그것을 설명하는 수식이다. 위에서 언급했듯, RMS 5를 곱했을 때 어떤 원소든 그 벡터 안에서 5 곱한 결과를 넘는 값은 4% 미만이다. 라는 것을 의미하는 용어이다. 위 설명이 익숙하지 않다면 결국 평균과 표준편차 안에 그 값이 몇% 안에 들어있는지를 이해하는 글을 읽어야 할 것 같다.
5. Distance(거리)
어떤 두 점과의 거리 차이를 구할 때도, Norm 을 활용할 수 있다. 두 벡터간의 차이를 구할 때도 L-1 or L-2 Norm 등 여러 방법을 취하여 두 점선간의 거리를 구할 수 있는 것 이다.
6. 정리
Norm 은 벡터의 크기와 길이를 구하는 함수이자 값이다. 각 원소들의 합을 구하던가 원소들의 제곱합 근을 취하는 방식들이 다양하다. 이는 L-1, L-2 Norm 등 놈을 구하는 방법으로 설명된다. 그리고, 회귀모델은 결국 Affine Function or Linear Combination 과 같은 벡터를 설명하기도 한다. 놈은 또한, 두 점과의 거리를 구하는데도 사용된다.
* 참고 : 선대 1-4강. Regression Model 과 Norm (링크)
* 김종한 교수님 : 링크
* Introduction Linear Algebra(링크)
* 혁펜하임 설명 : 링크
'Data > 수학(Mathematical Thinking)' 카테고리의 다른 글
[선형대수학] 가짜연구소 선대 후기 (0) | 2024.08.04 |
---|---|
[선형대수학] Linear Equations(선형 방정식) (0) | 2024.07.11 |
[선형대수학] Matrix 와 Vector의 곱셈(Multiplication) (0) | 2024.06.16 |
[선형대수학] 벡터의 내적(Inner Product) 과 Affine Functions (0) | 2024.03.16 |
[선형대수학] 벡터(Vector) (0) | 2024.03.13 |