본문 바로가기

Machine Learning/Scikit-learn

(2)
[TestDome] Marketing Costs Marketing Costs 문제에 주어진 표를 보면 과거 마케팅 비용을 얼마 투자했을 때 얼마나 많은 단위가 팔렸는지에 대한 데이터가 있다. 즉, 투자한 마케팅 비용(Marketing expenditure)을 $X$로, 팔린 단위(Units sold)를 $y$로 선형회귀를 학습할 수 있다. 그런데 여기서 함정(?)은 학습한 모델로 $X$를 넣었을 때 $\widehat{y}$을 return하는 것이 아니라 원하는 $\widehat{y}$이 나오려면 $X$ 가 몇이어야 되는지를 묻고 있다. 즉, 문제에서 나온 예시처럼 6만 단위를 팔려면 마케팅 비용은 얼마나 투자해야하는지 return해야 하는 것이다. 선형회귀를 통해 추정된 회귀선은 아래와 같다. $\widehat{unitsSold}= \beta_0 + ..
LightGBM 정리 개념 LightGBM은 기존 GBDT (Gradient Boosting Decision Tree)의 한계를 극복하기 위해 만들어진 모델로, 같은 accuracy를 유지하면서 계산 속도는 더 빠르고 메모리 사용량은 더 적은 GBDT이다. GBDT (Gradient Boosting Decision Tree)란? GBDT에서 gradient는 손실 함수의 그래디언트(gradient)가 아니라 예측값과 실제 타깃값의 잔차(residual)를 의미 GBDT는 손실 함수를 최소화하는 모델을 만들기 위해 이러한 잔차를 줄이는 방향으로 모델을 학습 각 트리는 이전 트리가 만든 잔차에 대해 학습하며, 잔차에 대한 예측값의 그래디언트를 기반으로 합니다. cf) boosting은 약한 학습기(분류기/예측기)를 여러 개 연결..