데이타마이닝을 할 때에 지도학습(Supervised Learning)과 비지도학습(Unsupervised Learning)이 자주 거론된다.
지도학습(Supervised Learning)은 말 그대로 학습을 지도한다는 뜻으로,
훈련용 데이터(training data)에 알고리즘을 적용하여 함수를 추론하고, 이제 그 추론된 함수를 통해 컴퓨터가 알아서 답을 찾도록 만드는 것이다. 따라서 지도학습은 명확한 input과 output이 존재한다. 이러한 지도학습에는 분류(Classification)과 예측(Regression)이 있다.
먼저 예측(Regression)은 데이터를 대표하는 선형모델 등을 만들고 그 모델을 통해 미래의 사건을 예측하는 것이다.
분류(Classification)는 이전까지 학습된 데이터를 근거로, 새로운 데이터가 기존에 학습된 데이터에 분류가 되냐 안되냐를 판단할 수 있다.
비지도학습(Unsupervised Learning)에서도 역시 분류를 하지만, 컴퓨터에게 답을 알려줄 수 없다. 즉, 훈련용 데이터를 통해 함수를 추론할 수 없다. 컴퓨터가 알아서 분류를 하고, 의미있는 값을 보여준다. 따라서 예측 등이 아닌, 데이터가 어떻게 구성되어 있는지 밝히는데 주로 사용하고, 일종의 그룹핑 알고리즘으로 볼 수 있다.
이러한 지도학습, 비지도학습의 대표적인 알고리즘을 표로 정리해보았다.
지도학습
|
Classification
|
kNN
|
Naïve Bayes
|
||
Support Vector machine
|
||
Decision Tree
|
||
Regression
|
Linear regression
|
|
Locally weighted linear regression
|
||
Ridge
|
||
Lasso
|
||
비지도학습
|
Clustering
|
|
K means
|
||
Density estimation
|
||
Expectation maximization
|
||
Pazen window
|
||
DBSCAN
|
출처
- 머신러닝 입문#1, http://www.slideshare.net/Byungwook/1-knn
- 일반인을 위한 머신러닝, http://gorakgarak.tistory.com/437
- 기계학습의 정의 및 종류, http://eunwoopark.com/wp/2014/03/24/machine_learning/
댓글 없음:
댓글 쓰기