일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- 인과추론
- BigQuery
- 코세라
- 데이터분석가
- 데이터분석가 코딩테스트
- 빅쿼리
- 실무로통하는인과추론
- CausalInference
- 글또10기
- 인과추론개요
- 데이터 분석
- 데이터분석
- 선형대수학
- 잠재적결과
- SQL
- 티스토리챌린지
- 벡터
- DataAnalyst
- 네카라쿠배당토
- recommendation system
- chatGPT
- Recsys
- 수학적해석학
- mathematicalthinking
- Bayesian
- 오블완
- 베이지안통계
- 독후감
- 인과추론 무작위 실험
- 나의서양미술순례
- Today
- Total
목록Data/머신러닝 (4)
Derek 의 데이터 분석 성장기

처치(Treatment)의 순수한 영향을 예측하는 업리프트 모델링인과효과를 알 수 있으며, 기대이익을 높일 수 있는 모델링1. 개요 Uplift 모델링은 마케팅, 의사 결정, 의료 분야 등에서 특정 개입(예: 광고, 프로모션, 치료)이 개별 고객이나 그룹에게 미치는 순수한 영향(Uplift) 을 예측하는 기법입니다. 일반적인 머신러닝 모델이 결과를 단순히 예측하는 것과 달리, Uplift 모델링은 개입을 받았을 때와 받지 않았을 때의 차이를 학습하는 것이 핵심입니다. 단순 처치 효과(Uplift) 효과를 넘어 Persuadable(설득 가능 고객)을 구별하는데 강점이 있는 모델입니다. 기존 예측 모델은 고객이 구입을 할 것(1) 혹은 말 것(0) 을 아는데 초점을 두었습니다. 하지만, 업리프트 모델링은..

0. 개요 대 생성형 A.I 시대입니다. 하루가 멀다하고 기능적 강점이 다른 LLM 모델들이 쏟아져 나오고 있습니다. 기본 베이스라인은 LLM or RAG 이지만 이미지 생성, 웹서칭, 자동 코딩 등에 목적에 따라 다양한 A.I 를 사용할 수 있는 시대입니다. 데이터 분석 혹은 모델링일을 하며 해당 A.I 가 제 업무를 얼마나 편하게 도와주는지 모릅니다. 하지만, 반대로 나의 기술력은 이미 이 모델들에게 대체될 수 있는 것 아닌가? 라는 생각을 합니다. 그정도로, 이 생성형 A.I 들은 인간의 업무 효율성을 극대화 시켜주지만, 반대로 인간이 할 수 있는 일을 넘는 기술력과 강점을 가지고 있습니다. 이런 상황속에 우리는 어떻게 우리만이 할 수 있는 고유성과 일을 유지할 수 있을까요? 제가 현재 내리는 정답..

1. RMSE 정의 RMSE 는 Root Mean Squared Error의 약자로, 평균 제곱근 오차를 의미한다. 이는 예측값과 실제값 사이의 오차를 측정하는데 사용되는 통계적 지표이다. 대부분, 회귀분석에서 모델의 성능을 평가하는데 활용된다. 해당 수식에서 n은 데이터의 개수를 나타낸다. yi는 실제값 그리고 ^yi(y hat i) 는 예측값을 의미한다. 예측값과 실제값의 차이의 제곱의 합에 평균을 취하고, 루트를 취하는 것이다. 2. 설명 1. 예를 들어, 우리가 머신러닝 회귀모델을 하나 만들었다고 가정해보자. 해당 모델의 실제값: [3, 5, 7, 9, 11] 이고, 예측값: [2, 4, 6, 8, 10] 이다. 2. 그리고, 위 수식을 바탕으로 RMSE를 계산하려 한다. 실제값과 예측값의 차이를..

1. 목적(사용 이유) 시계열 데이터를 클러스터링 하는데, 일반적인 방법은 시계열 데이터를 인덱스로 평면한 다음 K-means 같은 클러스터링 알고리즘을 적용 하는 것 이다. 클러스터링 알고리즘은 '레이블' 없이 유사한 데이터 포인트를 군집화하는 비지도 학습 방법(Unsupervised Learning) 이다. 클러스터링 알고리즘은 유사한 데이터 포인트를 그룹화 하기 때문에, 데이터 포인트 간의 유사성을 찾는데 초점을 맞춘다. 서로 다른 시계열(ex: 카카오와 엔비디아의 주가 등) 을 유사한 그룹으로 클러스터링 하는 것은 각 시계열이 가진 시간차원을 무시한다는 점이다. 문제가 생기게 되는 점은 유클리디안 방법과 같은 일반적인 클러스터링 기법을 사용시, 시계열로 되어 있는 데이터를 클러스터링 하며 '시간에..