일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 | 31 |
- Recsys
- 오블완
- 벡터
- 티스토리챌린지
- 인과추론 무작위 실험
- 글또10기
- 선형대수학
- 수학적해석학
- 베이지안통계
- 인과추론
- Bayesian
- 인과추론개요
- 네카라쿠배당토
- 데이터분석
- 독후감
- chatGPT
- CausalInference
- 나의서양미술순례
- BigQuery
- 빅쿼리
- 실무로통하는인과추론
- SQL
- 데이터분석가
- 잠재적결과
- recommendation system
- mathematicalthinking
- 회고
- DataAnalyst
- 코세라
- 데이터분석가 코딩테스트
- Today
- Total
목록Data (40)
Derek 의 데이터 성장기

분포란 데이터 분산과 그들이 얼마나 자주 발생하는가를 보여주는 함수이다. 주사위로 예를 들자면, 각 수들이 나올 확률은 1/6 로 일정하다. 1. 정규분포(Normal Distribution) 대칭이며, mean = median = mode 는 동일하다. no skew. 때문에, 평균으로부터 표준편차안에 모든 값들이 들어와있다. 평균은 743, 표준편차는 140 으로서 값들이 분포되어있음을 알 수 있다. 2. Standardization(표준화) 모든 분는 표준화할 수 있다. 표준화는 평균인(Mu) 를 0으로, 표준편차(시그마 제곱) 을 1로 바꿀 수 있다. 위의 공식이 해당 값들의 변환을 가능케 한다. 위와 같이 해당 공식에 따라, Z 분포(표준정규분포 )를 가능케 한다. Z ~ N(0,1)을 따르는 ..
1. QUALIFY SQL을 활용하다보면, WINDOW 함수를 사용하게 된다. Window 함수의 장점은 RANK, ROW OVER 이나 RANGE 를 걸어 RAW 데이터들을 용이하게 조작할 수 있다. 단점이라고 하면 서브쿼리(Subquery) 를 활용하여, 항상 윈도우 함수를 적용한 칼럼에 조건을 줘야 한다는 단점이 존재한다. EX) : X 를 Group by 하였을때, y 기준으로 가장 높은 ranking 을 적용하는 쿼리, 그리고 그 중 랭킹이 1등인 것을 추출하는 쿼리 SELECT * FROM ( SELECT *, RANK() OVER(PARTITION BY x ORDER BY y) as rnk ) WHERE rnk = 1 근데, 빅쿼리에서는 이 Window 함수에 바로 조건을 설정할 수 있는 함..

0. 들어가기 앞서 벡터의 내적을 통해 벡터의 유사성을 구하는 방법과 내적의 목적을 알 수 있었다. 유사성을 구하는 방법은 알았는데, 그렇다면 단일 벡터가 가지는 크기와 길이는 어떻게 측정할까? 이를 알기 위해 선형대수에서 놈(Norm) 이라는 용어가 나오는데, 이는 벡터의 길이와 크기를 측정하는 방법이다. 그리고, 두 점선간의 거리를 구하는데 이 놈이 사용된다. 또한, Linear Combination. 또는 Affine Function 도 배울 수 있었다. 그리고, 이 친구들은 Y= ax + b 와 같은 기울기와 상수 값이 존재하는 회귀식과 비슷한 것 또한 배웠다. 그래서, 오늘은 이 식들과 비슷한 회귀 모델에 대해서 공부해보고 정리해보려 한다. 1. Regression Model 벡터는 방향과 크기..

1. 인기도 기반 추천 시스템 인기도 기반의 추천 시스템이란 사람들에게 많이 구매, 클릭, 좋아요 등으로 인기가 높은 상품을 추천해주는 시스템을 의미한다. 인기도 기반이 추천? 인가에 대한 의문도 들수 있지만, 상품을 유저에게 제안해주고 구매를 유도한다는 점에서 인기도 기반 추천 시스템도 추천의 한 종류이다. 무엇보다, 인기도 기반 추천 시스템은 머신러닝 방법론과 다르게 적용되는 룰베이스 기반의 강력한 추천 시스템이다. 쇼핑몰에 개인화나 추천은 없어도, 인기 Top 10 이나 판매량 Top 10 등으로 카테고리가 기획된다. 그리고, 해당 카테고리는 추천 그 이상의 효과나 판매량을 가져온다. 때문에, 인기도 기반은 개인화나 추천과 함께 시너지를 낼 수 있는 추천 시스템이자 필수적인 추천 시스템이다. 해당 ..
1. Pivoting SQL을 활용하다보면, Pivoting이 필요한 시점이 있다. 대표적으로, 한 칼럼안에 있는 다중 ROW 값들을 다중 Column 으로 전환하고 싶을 때 이다. 예를 들어, 우리 서비스에서 발생한 모든 Event LOG 를 파악하고 싶다. Event 라는 칼럼 안에 500개가 존재하는데 하나하나 모두 CASE WHEN 문으로 활용해서 할수 없기 때문이다. GROUP BY COUNT도 유저 별로 다중 RAW를 만드는 테이블 형식 일뿐, 칼럼형태론 변환하지 못한다. Pandas 에서 Pivot 하는 함수가 존재하지만, Bigquery 에서도 존재한다. 빅쿼리에서 제공하는 Sample Data를 기준으로 따라가보자. ## SAMPLE : PIVOTING 할 칼럼을 정함. 열로 분할할 것들..

1. RMSE 정의 RMSE 는 Root Mean Squared Error의 약자로, 평균 제곱근 오차를 의미한다. 이는 예측값과 실제값 사이의 오차를 측정하는데 사용되는 통계적 지표이다. 대부분, 회귀분석에서 모델의 성능을 평가하는데 활용된다. 해당 수식에서 n은 데이터의 개수를 나타낸다. yi는 실제값 그리고 ^yi(y hat i) 는 예측값을 의미한다. 예측값과 실제값의 차이의 제곱의 합에 평균을 취하고, 루트를 취하는 것이다. 2. 설명 1. 예를 들어, 우리가 머신러닝 회귀모델을 하나 만들었다고 가정해보자. 해당 모델의 실제값: [3, 5, 7, 9, 11] 이고, 예측값: [2, 4, 6, 8, 10] 이다. 2. 그리고, 위 수식을 바탕으로 RMSE를 계산하려 한다. 실제값과 예측값의 차이를..

1. 벡터의 내적(Inner Product) 이란? 벡터의 내적이란 두 벡터의 각 성분끼리의 곱한 후, 합하는 것을 의미한다. 내적이란 것은 안쪽으로 곱한다는 의미이다.두 벡터 내적 연산을 통해 우리는 두 개의 벡터를 단 하나의 스칼라 값으로 변환시킬 수 있다. 내적은 Inner Product, Dot Product 등으로도 불리운다. 조건은 두 벡터의 길이는 같아야 한다. 그렇다면, 내적을 통해 기대할 수 있는 혹은 얻을 수 있는 효과는 무엇일까? 바로, 두 벡터간의 유사함(=닮음의 정도)을 값으로 나타낼 수 있다. 기하학 혹은 물리학적으로는 방향과 크기를 가진 물리량(힘 = 효율 = 스칼라 값)을 얻을 수 있다. 1장에서 우리는 벡터는 바로 방향성과 크기를 가진 값이라고 배울 수 있었다. 그렇다면, ..

1. 벡터란? 벡터란 정렬된 숫자 목록들을 의미한다. 그러나, 벡터의 특성은 물리적 방향성과 공간을 가지고 있다. 벡터에서 차원이란, 벡터의 크기이자, 원소의 개수이다. n-vector(벡터의 크기) 라고 표시 할 수 있으며, 그 안의 숫자인 원소들은 scalar(스칼라) 라고 부를 수 있다. n-vecotr 의 i번째 원소는 ai 라고도 표현할 수 있다. 또한, 벡터의 특징상 a = [ b, c, d] 라고 있을 때, b = (x + y + z) 로 구성될 수 있는 다차원 특성을 가진다. 그리고, 벡터에서는 0 이 n개 들어있으면 0 vector / 1이 n 개 들어있으면 1 vector 라고 한다. 여기서, Unit vectore는 원소가 1 이고, 나머지는 0으로 구성된 벡터를 의미한다. 그리고, ..