일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 | 29 |
30 | 31 |
- 베이지안통계
- 빅쿼리
- BigQuery
- CausalInference
- 데이터분석
- DataAnalyst
- 네카라쿠배당토
- mathematicalthinking
- 인과추론
- SQL
- chatGPT
- 인과추론 무작위 실험
- Recsys
- 실무로통하는인과추론
- 데이터분석가
- 오블완
- 글또10기
- 독후감
- 티스토리챌린지
- 데이터 분석
- 코세라
- 인과추론개요
- Bayesian
- 나의서양미술순례
- 선형대수학
- 잠재적결과
- recommendation system
- 수학적해석학
- 데이터분석가 코딩테스트
- 벡터
- Today
- Total
목록전체 글 (60)
Derek 의 데이터 분석 성장기

분포란 데이터 분산과 그들이 얼마나 자주 발생하는가를 보여주는 함수이다. 주사위로 예를 들자면, 각 수들이 나올 확률은 1/6 로 일정하다. 1. 정규분포(Normal Distribution) 대칭이며, mean = median = mode 는 동일하다. no skew. 때문에, 평균으로부터 표준편차안에 모든 값들이 들어와있다. 평균은 743, 표준편차는 140 으로서 값들이 분포되어있음을 알 수 있다. 2. Standardization(표준화) 모든 분는 표준화할 수 있다. 표준화는 평균인(Mu) 를 0으로, 표준편차(시그마 제곱) 을 1로 바꿀 수 있다. 위의 공식이 해당 값들의 변환을 가능케 한다. 위와 같이 해당 공식에 따라, Z 분포(표준정규분포 )를 가능케 한다. Z ~ N(0,1)을 따르는 ..
1. QUALIFY SQL을 활용하다보면, WINDOW 함수를 사용하게 된다. Window 함수의 장점은 RANK, ROW OVER 이나 RANGE 를 걸어 RAW 데이터들을 용이하게 조작할 수 있다. 단점이라고 하면 서브쿼리(Subquery) 를 활용하여, 항상 윈도우 함수를 적용한 칼럼에 조건을 줘야 한다는 단점이 존재한다. EX) : X 를 Group by 하였을때, y 기준으로 가장 높은 ranking 을 적용하는 쿼리, 그리고 그 중 랭킹이 1등인 것을 추출하는 쿼리 SELECT * FROM ( SELECT *, RANK() OVER(PARTITION BY x ORDER BY y) as rnk ) WHERE rnk = 1 근데, 빅쿼리에서는 이 Window 함수에 바로 조건을 설정할 수 있는 함..

0. 들어가기 앞서 벡터의 내적을 통해 벡터의 유사성을 구하는 방법과 내적의 목적을 알 수 있었다. 유사성을 구하는 방법은 알았는데, 그렇다면 단일 벡터가 가지는 크기와 길이는 어떻게 측정할까? 이를 알기 위해 선형대수에서 놈(Norm) 이라는 용어가 나오는데, 이는 벡터의 길이와 크기를 측정하는 방법이다. 그리고, 두 점선간의 거리를 구하는데 이 놈이 사용된다. 또한, Linear Combination. 또는 Affine Function 도 배울 수 있었다. 그리고, 이 친구들은 Y= ax + b 와 같은 기울기와 상수 값이 존재하는 회귀식과 비슷한 것 또한 배웠다. 그래서, 오늘은 이 식들과 비슷한 회귀 모델에 대해서 공부해보고 정리해보려 한다. 1. Regression Model 벡터는 방향과 크기..

2024.03.03 아이유 H.E.R 서울 Day 2 콘 후기 이번에도 가게 된 아이유 콘서트. KSPO DOM에서 열린 콘서트! 다른 공연은 지속적으로 팔로우 하지 않아도, 아이유 공연만큼은 기회가 되면 갈려고 한다. 해외팝스타 국내 아티스트들 공연 여러개를 봤지만, 아이유만큼 다채롭게 무대를 꾸미는 아티스트는 없는 것 같다. 이번 아이유 HER 공연에서 놀랐던점은, Shopper 라는 노래가 콘서트에서 가지는 힘을 알게 된 것이라 생각한다. 이번 미니앨범에서 첫 공개했기 때문에, 첫 공연이지만 음원으로 들을 때 보다 콘서트에서 라이브무대로 들려지는 음악은 완전히 다른 음악이라 느꼈다. 또한, Shh. 무대연출도 기존에 아이유가 연출하던 방식과는 다른 안무와 구성들이 멋졌는데, 이제 확실한 어른유임이 ..

1. 인기도 기반 추천 시스템 인기도 기반의 추천 시스템이란 사람들에게 많이 구매, 클릭, 좋아요 등으로 인기가 높은 상품을 추천해주는 시스템을 의미한다. 인기도 기반이 추천? 인가에 대한 의문도 들수 있지만, 상품을 유저에게 제안해주고 구매를 유도한다는 점에서 인기도 기반 추천 시스템도 추천의 한 종류이다. 무엇보다, 인기도 기반 추천 시스템은 머신러닝 방법론과 다르게 적용되는 룰베이스 기반의 강력한 추천 시스템이다. 쇼핑몰에 개인화나 추천은 없어도, 인기 Top 10 이나 판매량 Top 10 등으로 카테고리가 기획된다. 그리고, 해당 카테고리는 추천 그 이상의 효과나 판매량을 가져온다. 때문에, 인기도 기반은 개인화나 추천과 함께 시너지를 낼 수 있는 추천 시스템이자 필수적인 추천 시스템이다. 해당 ..

1. Json Normalize ROW 값 안에 기록된 Json 타입의 데이터를 평면화 하는 함수. Pandas 의 내장 함수중에서는 제이슨 구조로 된 데이터를 평면화 시키는 함수가 있다. pandas.json_normalize(data, record_path=None, meta=None, meta_prefix=None, record_prefix=None, errors='raise', sep='.', max_level=None) 위와 같은 형식으로 코드를 활용할 수 있다. 코드설명은 공식문서에서도 참고할 수 있으니, 실 사용예시는 어떻게 활용될지 얘기해보자. 예를 들어 NoSQL(MongoDB) 데이터를 분석해야 한다. 예를 들어, 우리 서비스 유저들이 특정 키워드로 검색, 필터를 걸어 검색서비스를 이용..
1. Pivoting SQL을 활용하다보면, Pivoting이 필요한 시점이 있다. 대표적으로, 한 칼럼안에 있는 다중 ROW 값들을 다중 Column 으로 전환하고 싶을 때 이다. 예를 들어, 우리 서비스에서 발생한 모든 Event LOG 를 파악하고 싶다. Event 라는 칼럼 안에 500개가 존재하는데 하나하나 모두 CASE WHEN 문으로 활용해서 할수 없기 때문이다. GROUP BY COUNT도 유저 별로 다중 RAW를 만드는 테이블 형식 일뿐, 칼럼형태론 변환하지 못한다. Pandas 에서 Pivot 하는 함수가 존재하지만, Bigquery 에서도 존재한다. 빅쿼리에서 제공하는 Sample Data를 기준으로 따라가보자. ## SAMPLE : PIVOTING 할 칼럼을 정함. 열로 분할할 것들..

1. RMSE 정의 RMSE 는 Root Mean Squared Error의 약자로, 평균 제곱근 오차를 의미한다. 이는 예측값과 실제값 사이의 오차를 측정하는데 사용되는 통계적 지표이다. 대부분, 회귀분석에서 모델의 성능을 평가하는데 활용된다. 해당 수식에서 n은 데이터의 개수를 나타낸다. yi는 실제값 그리고 ^yi(y hat i) 는 예측값을 의미한다. 예측값과 실제값의 차이의 제곱의 합에 평균을 취하고, 루트를 취하는 것이다. 2. 설명 1. 예를 들어, 우리가 머신러닝 회귀모델을 하나 만들었다고 가정해보자. 해당 모델의 실제값: [3, 5, 7, 9, 11] 이고, 예측값: [2, 4, 6, 8, 10] 이다. 2. 그리고, 위 수식을 바탕으로 RMSE를 계산하려 한다. 실제값과 예측값의 차이를..