Shallow Learning vs Deep Learning

Shallow Learning??

 

블랙 박스 1개 = Layer 1개

 

> 모든 것을 Tracking 할수 있다. but universial 하게 확장하기 어려움

> Application  Specific, 낭비 없음

 

Deep Learning

 

블랙 박스 n개 = Layer n개

> Layer 하나하나는 심플. 하지만 Simple function을 여러개 쌓으면 복잡한 것을 설명할 수 있다.

Deep Learning 성공 요소.

어떻게 쌓느냐에 따라 

1 모델만 보면 낭비 같지만 Universial 하게 적용가능. 요소만 바꿔주면 다른 방식에도 사용가능.

 

 

 

Activation Function

 

ReLu

 

tahn, sigmoid < 6배 빨라짐

문제 : Dead neurons 생김. Data Cloud 구간을 1면으로 만들어버리면 사용되지 않는 뉴런. => Waste

MLP기준 보통 2-30% 

빨라지는 이유? Vanishing gradient가 없어서 

 

Why Many layers?

 

Cross Entropy  vs MSE 

class가 많은 경우 cross Entropy loss가 유리. 

 

 

Backpropagation

Add: gradient distributor

Max ; gradient router (ReLu)

Multi : gradient switcher

 

 

Dealing with Big DATA

Gradient mini-batch를 만들어 집어 넣어서 (32,64..)

Random sampling 을 통해 32개의 샘플을 만듦.

 

1 epoch - 1 Training data를 한번 보는것

 

 

SGD ( Single Gradient Descent)

Learning 

 

 

Regularization

simple is  better

weight를 조정.

Occam's razer

 > 날이 1개 유연성이 없으면 여러번 해야 하지만 모든 사람이 면도 할수 있다.

 > 곡선을 가진 면도기는 맞는 사람만 깎을 수 있다.

 

 

More Recent Trend

Densenet

Mobilenet

Efficient net

Deformsable convalrution

 > 어디랑 계산할지를 Learning해서 연산

NAS (Network architecture Search)

> connection, search 해야

Meta- learning

task가 n개 존재. 서로 다른 task에서 동작하도록 배워서 new task에서도 동작 할수 있도록 parameter를 학습

. network은 고정. 즉 Initialize를 잘하는 방법임.

 

 

 

+ Recent posts