기계학습 알고리즘 중 지도 학습 종류와 구분
기계학습의 알고리즘에 대해서 살펴보겠는데요. 크게 세 가지로 분류할 수 있습니다. 첫 번째는 지도 학습, 그다음에 비지도 학습, 그다음에 강화 학습, 이렇게 크게 분류할 수가 있겠습니다. 먼저 지도 학습입니다. supervised learning이라고 하는데, 지도 학습이라는 것은 입력 데이터와 원하는 출력 값을 모두 제공해서 기계를 훈련시키는 방법입니다. 그래서 이 지도 학습의 데이터에는 정답이 있습니다. 그래서 입력과 목표 출력으로 이루어진 표본으로 이들 간의 함수 관계를 추정해서 미지의 입력을 하면 출력을 해주는 그런 학습 방법을 갖추게 되는 것입니다. 그래서 우리가 입력을 feature input이라고도 하고, 출력을 target output 또는 teacher output. 그래서 input과 output 모든 데이터에 이 정답, 즉 label이 붙어 있습니다. 이 지도 학습은 많은 학습 데이터가 필요하고, 훈련 과정에서 사람이 일일이 예측 값이 옳았는지 확인해주어야 하기 때문에 노동집약적인 면이 있고 시간이 걸리는 측면도 있습니다.
지도 학습
지도 학습 방법론에는 크게 두 가지가 있는데요. regression과 classification이 있습니다. 즉, 회귀분석과 분류가 있습니다. 그다음에 feature engineering이라는 것이 있는데요. 이것은 기계 학습하는 알고리즘은 아니지만 실제로 기계학습을 실행하는 데 있어서 핵심적인 작업 중에 하나입니다. 왜냐하면 머신러닝 모델을 위해서 이 데이터 테이블의 칼럼(feature, 설명변수)들을 생성하거나 선택하는 작업이 매우 중요합니다. 이 feature를 어떻게 설정하고 결정하는가에 따라서 기계학습의 성과가 결정이 됩니다. 그러니까 이 feature engineering에 많은 시간을 쏟게 되는 것입니다. 그래서 어떤 feature가 유용했는지 아닌지를 확인하는 과정을 거치게 되고요. 이런 과정을 위해서 차원 축소라는 방법론을 사용합니다. dimensionality reduction인데요. 여기에 어떤 feature를 selection 하거나 feature를 extraction 하는, 특성을 선택하거나 추출하는 그런 방법론이 사용이 됩니다. 이 특성 선택이라는 것은 feature selection이라고 하는데, 특성 랭킹을 매겨서 높은 순서대로 높은 랭킹에 있는 것들을 선택하는 것이고요.
feature Importance
feature Importance라는 것이 있습니다. 특성의 중요도에 따라서 중요한 특성들을 선택하는 것입니다. 이 특성 선택의 목적은 모든 특성의 부분 집합을 선택할 수가 없고 또 불필요한 특성을 제거해서 간결한 특성 집합을 만드는 것입니다. 우리가 너무 많은 설명변수나 너무 많은 feature가 들어가면 이 모형이 over-fitting이 됐다고 합니다. 과적합 된 거죠. 그러면 모형 성능이 아주 떨어지게 됩니다. 그래서 되도록이면 간결한 핵심적인 feature를 선택해서 모형을 설정하는 것이 매우 중요한 것입니다. 그다음에 특성 추출이라는 것이 있는데, feature extraction입니다. 이 고차원의 원본 feature 공간을 저차원의 새로운 feature 공간으로 투영(projection)해서 그것을 사용하는 것입니다. 그래서 이 방법론에는 주성분 분석(PCA, Principle Component Analysis)을 통해서 예를 들어서 10개의 feature가 있는데 10개의 feature들이 특성이 비슷해서 실제로 핵심적인 피처들은 두세 가지더라. 그러면 이 두세 가지 feature를 가지고 이 feature로 활용하는 것입니다. 이 과정에서 실제로는 10가지지만 3가지 feature로 차원을 축소하는 과정에서 핵심적인 특성을 추출하게 되는 것입니다. 그래서 feature의 숫자를 늘리는 것도 중요하지만 핵심적인 feature를 선택하거나 추출해서 모형에 산정하는 것이 매우 중요한 것입니다. 그래서 이러한 작업들을 feature engineering이라고 합니다. 그래서 이 기계학습의 분류에는 해당되지 않지만, 실질적으로 모든 기계학습 과정에서 매우 중요한 과정입니다.
'주식, 시장가설 이론, NFT 전망' 카테고리의 다른 글
주가 예측 기법과 기술의 방향 (0) | 2022.06.24 |
---|---|
인공지능과 딥러닝 개념 구분 이해하는 방법 (0) | 2022.06.24 |
기계학습의 내용 이해하기 (0) | 2022.06.23 |
직장인 부업으로 할 수 있는 아이템 종류와 각각의 장단점 (0) | 2022.06.23 |
변화하는 메타버스 (0) | 2022.06.22 |