2017년 9월 12일 화요일

[ML] XGBoost 파라미터에 대한 이해.

'Tree'
=> When Trees forms a 'Forest' (Tree Ensembles)

Tree Ensembles 개념을 쓰는 알고리즘이 몇가지 있다.
1. Random Forest (Breiman 1997)
2. Gradient Tree Boosting (Friedman 1999)
3. Gradient Tree Boosting with Regularization (variant of original GBM)
 = XGBoost (eXtreme Gradient Boosting)

...

캐글에서 예측 모델로 이걸 많이 쓴다. 그만큼 예측 성능이 좋고, 병렬로 동작하기 때문에 속도도 빠르다. 일단 따라 써보는건 어렵지 않았는데 파라미터 이름과 의미가 생소했기 때문에 파라미터를 임의로 조절할 수 없었다. 그러다가 어떤 아티클에서 다음과 같은 문구를 읽게 되었는데...
"using xgboost without parameter tuning is like driving a car without changing its gears; you can never up your speed."
헐.. 그래서 XGBoost의 파라미터에 대해 정리해보고자 한다. 정리하고도 뭐가 뭔지 잘 모르겠지만 :D,, 일단 정리하고 보자. xgboost를 이용하는 기본 꼴은 이렇다.

[python]
import xgboost as xgb

# read in data
dtrain = xgb.DMatrix(x_train, y_train)
dtest = xgb.DMatrix(x_test)

# specify parameters via map
param = {'max_depth': 4, 'eta': 1, 'silent': 1, 'objective': 'binary:logistic' }
num_round = 100
bst = xgb.train(param, dtrain, num_round)

# make prediction
preds = bst.predict(dtest)

:: 이제 파라미터에 대해 알아보자.
  XGBoost의 파라미터는 아래 General Parameters, Booster Parameters, Learning Task Parameters의 3개 카테고리로 구분된다. 각 카테고리에 대한 주요 파라미터는 아래와 같고, 모든 파라미터에 대한 정보가 필요하다면 공식 문서를 참조하자.

□ General Parameters : XGBoost의 전반적인 기능을 정의함.
 > booster [default=gbtree] >> 일반적으로 gbtree의 성능이 낫다.
   - gbtree: tree-based models
   - gblinear: linear models
 > silent [default=0]
   - 1: 동작 메시지를 프린트하지 않음.

□ Booster Parameters (아래는 gbtree booster 기준으로 정리되어있음.)
 > eta [default=0.3] => learning_rate
   - GBM의 학습 속도와 유사.
   - 각 단계에서 가중치를 줄임으로써 모델을 더 강건하게 만든다.
   - 일반적으로 0.01-0.2
 > min_child_weight [default=1] (Should be tuned using CV)
   - child의 관측(?)에서 요구되는 최소 가중치의 합
   - over-fitting vs under-fitting을 조정하기 위한 파라미터.
   - 너무 큰 값이 주어지면 under-fitting.
 > max_depth [default=6] (Should be tuned using CV)
   - 트리의 최대 깊이.
   - 일반적으로 3-10
 > max_leaf_nodes
   - 최종 노드의 최대 개수. (max number of terminal nodes)
   - 이진 트리가 생성되기 때문에 max_depth가 6이면 max_leaf_nodes는 2^6개가 됨.
 > gamma [default=0]
   - 분할을 수행하는데 필요한 최소 손실 감소를 지정한다.
   - 알고리즘을 보수적으로 만든다. loss function에 따라 조정해야 한다.
 > subsample [default=1]
   - 각 트리마다의 관측 데이터 샘플링 비율.
   - 값을 적게 주면 over-fitting을 방지하지만 값을 너무 작게 주면 under-fitting.
   - 일반적으로 0.5-1
 > colsample_bytree [default=1]
   - 각 트리마다의 feature 샘플링 비율.
   - 일반적으로 0.5-1
 > lambda [default=1] => reg_lambda
   - 가중치에 대한 L2 정규화 용어 (Ridge 회귀 분석과 유사(?))
 > alpha [default=0] => reg_alpha
   - 가중치에 대한 L1 정규화 용어 (Lasso 회귀 분석과 유사(?))
 > scale_pos_weight [default=1]
   - 불균형한 경우 더 빠른 수렴(convergence)에 도움되므로 0보다 큰 값을 쓸것.

□ Learning Task Parameters : 각 단계에서 계산할 최적화 목표를 정의하는 데 사용된다.
 > objective [default=reg:linear]
   - binary:logistic : 이진 분류를 위한 로지스틱 회귀, 예측된 확률을 반환한다. (not class)
   - multi:softmax : softmax를 사용한 다중 클래스 분류, 예측된 클래스를 반환한다. (not probabilities)
   - multi:softprob : softmax와 같지만 각 클래스에 대한 예상 확률을 반환한다.
 > eval_metric [default according to objective]
   - 회귀 분석인 경우 'rmse'를, 클래스 분류 문제인 경우 'error'를 default로 사용.
   - rmse : root mean square error
   - mae : mean absolute error
   - logloss : negative log-likelihood
   - error : Binary classification error rate (0.5 threshold)
   - merror : Multiclass classification error rate
   - mlogloss : Multiclass logloss
   - auc : Area under the curve
 > seed [default = 0]
   - 난수 시드
   - 재현 가능한 결과를 생성하고 파라미터 튜닝에도 사용할 수 있다.

:: 원문 링크
  > https://www.analyticsvidhya.com/blog/2016/03/complete-guide-parameter-tuning-xgboost-with-codes-python/

+ 용어 정리.
  # 부스팅(Boosting)? Bagging과 유사하나 Bagging과 다르게 순차적으로 학습을 시킨다. 학습 결과에 가중치를 부여하게 되는데 오답에 높은 가중치를 부여해 정확도를 높게 가져가는 것이 목적이다. (XGBoost, AdaBoost, GradientBoost)
  부스팅은 여러 분류기가 상호보완적 역할을 할 수 있도록 단계적으로 학습을 수행하여 결합함으로써 성능을 올리기 위한 방법이다. (약한 분류기를 세트로 묶는다.)
부스팅이 배깅과 다른 가장 큰 차이점은 분류기들을 순차 학습하도록 하여, 먼저 학습된 분류기의 결과가 다음 분류기의 학습에 정보를 제공하여 이전 분류기의 결점을 보완하는 방향으로 학습이 이루어지도록 한다는 것이다.

  # 배깅(Bagging)? 복원 랜덤 샘플링 방법을 이용해 동일한 모델을 여러 번 모델을 학습시키는 방법. (랜덤하게 추출된 데이터가 일종의 표본 집단이 되는셈.) 학습 과정에서 나온 결과를 중간값으로 맞춰주기 때문에 높은 Variance로 인한 Overfitting을 일부 극복할 수 있다. (RandomForest)


2017년 9월 11일 월요일

딥러닝 모르는 나를 어느정도 이해하게 만든 슬라이드 소개

https://www.slideshare.net/yongho/ss-79607172

카카오 개발자가 쓴 딥러닝 설명 슬라이드인데 회사 동료가 추천해줘서 방금 읽어보았다. 이제 막 데이터 전처리와 머신 러닝을 공부하고 있어서 딥러닝은 잘 모르는데 이걸 읽고나니 어느정도 이해가 된다. 공부 엄청 하셨으니 이정도로 이야기를 쉽게 풀어낼 수 있으셨겠지만 어쨌든 본인이 이해하고 있는 내용을 이렇게 설명해낼 수 있는 능력이 부럽다ㅠㅠ 겁먹은 동생 살살 달래주면서 차근차근 알려주는 동네 형아 스타일.

위 슬라이드를 읽고 나면 적어도 아래 용어에 대한 거부감은 갖지 않게 된다.
ReLU
Stochastic Gradient Decent
DropOut
Convolution
MaxPooling
SoftMax

ReLU (Gradient vanishing 문제의 해결책(?), Underfitting을 막는다.)
예전엔 Back propagation(현재 내가 틀린 정도를 미분(기울기) 한 것)을 수행할 때 sigmoid 함수를 사용했었나 보다. 문제는 back propagation 학습 과정에서 sigmoid의 미분함수가 들어가게 되는데 sigmoid의 미분함수는 최대값 0.25에 양끝으로 갈수록 0에 가까워지는 모양이라 학습이 진행되면서 gradient가 0에 수렴해질 가능성을 갖고 있다. 그래서 앞 쪽에 위치한 hidden layer가 잘 학습되지 않는 문제가 발생하였다. (이 문제를 'Gradient vanishing'이라 부르나 보다.)
이 문제의 해결책으로 제시된 것이 바로 ReLU 함수이다. 설명 내용에서 처럼 용어가 익숙하지 않아 거부감이 드는 것이지 실제론 max(0, x)의 아주 단순한 함수에 불과하다. 이 함수의 장점은 양의 구간에서 미분값이 전부 '1'이 되기 때문에 sigmoid 함수를 이용했을 때의 문제점을 해결해주며 미분 계산마저 간단해짐에 따라 학습 속도가 빨라진다는 장점까지 가지고 있다. (음의 값을 갖을 때 gradient가 0이 될텐데 유사한 문제가 있는건 아닌가 하는데 잘 모르겠다. 어쨌든 sigmoid를 쓸바엔 ReLU를 쓰라는 정도로 이해하고 있어야 겠다.)

슬라이드 작성하신 분 께서는 위처럼 구구절절한 내용을 2줄로 어떻게 정리하셨냐면,
문제? 전달하다가, 사그라져 버린다 (vanishing gradient)
해결! sigmoid -> ReLU = 뒤로전달 오케이!
이 부분만 봐도 이분 일 참 잘하실듯 ㅋㅋ

Stochasic Gradient Decent (NN이 느리게 동작하는 단점을 보완)
기존의 Gradient Decent는 모든 트레이닝 데이터의 전체 에러를 계산한 뒤에 weight를 업데이트 시키는 방식이었다고 한다. 문제는 시간이 너무 오래 걸린다는 점인데 Stochastic Gradient Decent는 이 단점을 보완하기 위해 등장하였다. SGD는 '느린 완벽'보다 '조금 훑고 빨리 지나가는' 방식을 택한다. SGD는 스텝마다 에러를 계산할 때 일부 데이터 셋만 검토한 뒤 weight를 업데이트하게 되는데 Gradient Decent에 비해 최적의 해는 아니더라도 어쨌든 목적지 근처로 빠르게 다가설 수 있다. (이 분께선 SGD도 좋지만 '방향'과 '보폭'을 고려하는 개선된 버전인 'Adam'을 권하고 있다.)

이것도 2줄로 정리됨.
문제? 걸음마다 batch로 전부다 계산하려니 GD가 너무 오래 걸린다.
해결! SGD로 mini-batch마다 움직여 같은 시간에 훨씬 더 많이 진행해서 해결!

DropOut! (Overfitting 문제를 해소한다.)
학습 시킬 때, 일부러 정보를 누락시키거나 중간 중간 노드를 끄는 방식이라고 한다. 트레이닝 데이터가 아주 상세한 경우 오버피팅 문제가 발생할 수 있는데 이럴 때 dropout을 하면 잘 발견되지 않았던 패턴이 드러나거나 진짜로 중요한 요소가 무엇인지 네트워크가 알 수 있게 된다고 한다.

# 문제의 유형에 따른 아키텍쳐
스냅샷성 데이터 > CNN
시퀀스성 데이터 > RNN / LSTM

그 다음엔 VGG에 대해 설명하고 있다.
CNN의 일종으로 믿고 쓰는 알고리즘의 일종이란다. 슬라이드 작성자 분 꼐서는 조각을 보고, 패턴을 익힌 후 점점 멀리서 조합을 보는 방식이라고 설명하고 있다. 설명과정에서 개념 용어가 몇가지 나온다.
Convolution: 특정 패턴이 있는지 박스로 훑으며 마킹. (일반적으로 머신 비전에서도 흔히 쓰는 테크닉이다.)
MaxPooling: n x n pool을 중요한 정보로 줄이는 테크닉. 선명한 정보만 남겨서 판단과 학습을 쉽게끔 해준다.

위와 같은 기법으로 input 데이터를 추상화시킨 후, 결과물을 Fully Connected Layer에게 전달해서 output을 얻는다. (O/X 문제는 output에 sigmoid 함수를 먹여서 얻고, category 문제는 output에 softmax를 먹여서 답을 얻는다 한다.)

듣도보지못한 블로그라 슬라이드 작성자 분께서 이 글을 읽으실일은 없겠지만 정말 감사하다는 얘기를 남기고 이만 총총.

2017년 9월 5일 화요일

Lego My First Computer Byte Edition Speed Build designed by Chris McVeigh



크리스 맥베이(Chris McVeigh)가 만든 마이 올드 데스크탑(My Old Desktop) 시리즈 중 Byte Edition 조립 영상. 키보드와 마우스를 연결하는 부분에선 흐믓한 미소가 지어진다 :D.

내가 처음 사용했던 PC도 저렇게 생긴 486DX 일체형 PC였기에 하나쯤 가지고 싶다가도 가격이 무려 78불이라 그림의 떡이다.

판매 사이트는 https://powerpig.ecwid.com