데이터셋과 머신러닝

Feb 12, 2019

올바른 데이터란?

딥러닝에서 해결하기 어려운 문제 중 한개는 올바른 데이터를 얻는 것이다. 올바른 데이터는 예측할려고 하려는 결과와 관계가 있는 데이터를 수집 또는 식별 하는 것입니다. 또한 데이터는 해결하기 위한 문제점과 같아야 할 필요성이 있다.

하나의 예를 들자면 새끼 고양이의 사진은 얼굴 인식 시스템을 구축할 떄에는 매우 쓸모가 없게 됩니다.        Data Scientist에 의해서 데이터와 해결해야 하는 문제점이 동일한지 확인하게 됩니다. 만약 올바른 데이터를 가지고 있지 않다면 처음으로 돌아가 다시 데이터 수집 단계에서부터 시작해야 합니다.

 

Deep learning을 위한 데이터 포맷

Deep learning을 위한 포맷은 일반적으로 텐서, 타차원 배열로 되어 있다. 그래서 Deep learning을 위한 데이터들은 일반적으로 이미지, 비디오, 소리, 목소리, 텍스나, Time Series 같은 모든 데이터들을 선형 대수학 연산을 적용할 수 있는 벡터 및 텐서로 변환하는 작업을 거치게 됩니다. 

 

트레이닝 셋

딥러닝과 머신러닝을 제대로 동작시키기 위해서는 일반적으로 트레이닝 셋을 필요로 합니다. 많은 양의 데이터의 트레이닝 셋을 수집하고 구성하기 위해서는 관련 정보를 수집하는 위치와 방법 뿐만 아니라 도메인 별 지식이 필요합니다. 트레이닝 셋은 딥러닝 넷을 훈련시키기 위한 기준으로 사용하게 됩니다. 많은 시간과 전문 지식을 필요로 하는 트레이닝 셋은 Data Science의 세계에서 문제 해결을 위한 독점적 인 역할을 할수 있습니다. 유용한 트레이닝 셋을 만들기 위해서는 해결하려는 문제에 대해 정확하게 이해하고 있어야 한다.   즉, 예측을 했을때 어떤 결과가 도출될지 예상하고 있어야 한다는 말이다.

 

머신러닝에 다른 데이터 셋

머신러닝은 일반적으로 트레이닝 셋과 테스트 셋 두개의 데이터 셋으로 동작한다. 큰 전체 데이터를 랜덤으로 샘플링하여 트레이닝셋과 테스트셋으로 분류하게 된다.

첫번째 셋은 트레이닝 셋으로 가장 큰 데이터 셋이다. 신경 네트워크를 통해 트레이닝이 진행되는 동안에    각각의 특징마다 어떻게 가중치를 줄 것인지, 결과에 대한 오류를 어떻게 최소화 할 것인지 변수의 계수를 어떻게 조절할 것인지를 배우게 된다.

계수는 파라미터로 알라져 있으며 텐서를 포함하고 있으며 함께 훈련되는 데이터의 모델을 인코딩하기 떄문에 모델이라 불린다. 

두번째 셋은 테스트 셋이다. 테스트셋은 모든 트레이닝이 끝날때 까지 사용되서는 안되는 데이터 셋이다.      그 이유는 트레이닝셋을 통해 트레이닝을 최적화 한 이후에 최종 랜덤 샘플링을 통해서 인공 신경망의 결과를 테스트 해야 하기 떄문이다.

최종 결과를 통해서 사진 인식의 정확도를 입증하거나 이미지의 최소 몇 퍼센트 인식하는지 입증 할 것입니다. 만약 정확한 예측을 하지 못했다면 트레이닝 셋을 구성해야 되는 초기 단계로 돌아가 변수들과 데이터 관련하여 다시 한번 살펴봐야 할 것이다.

 

 

Share:

블로그

데이터셋과 머신러닝

머신러닝에서 사용되는 데이터셋에 대해 알아보자

Supervised Learning

A Beginner’s Guide to Supervised Learning

AI vs ML vs DL

AI vs ML vs DL

Random Forest

Random Forest

자동화된 머신러닝과 AI

자동화된 머신러닝과 AI 블로그

Machine Learning Software

Machine Learning Software

Unsupervised Learning

Unsupervised Learning

머신러닝

머신러닝에 관한 블로그

딥러닝 업무를 위한 아파치 스파크

아파치 스파크에 대한 블로그

텍스트 분석

텍스트 분석이란?

 

 

 

© 2017 IMGURU, Inc. All rights reserved.

 
서울 금천구 가산디지털1로 181 가산 W 센터 710호
우편번호 : 08503  |  전화번호 : 070-4099-2021  |  이메일 : imguru@imgr.co.kr