현실을 데이터로 표현해서 처리한다면 크고 작은 복잡한 문제들을 해결하기 쉽다.
데이터를 표현하기는 어렵지만 만약 표현을 할 수 있다면 데이터를 처리하는 기법 중 하나를 머신러닝이라고 부른다. 이렇게 현실에 문제를 데이터화해서 여러가지 복잡한 문제들을 보기쉽게 단순하게 만들어서 해결하는것을 데이터 산업이라고한다.
데이터 산업은 2가지로 나뉘어져있다.
- 데이터 과학 : 데이터를 만들고, 만들어진 데이터를 이용하는 일
- 데이터 공학 : 데이터를 다루는 도구를 만들고 도구를 관리하는 일
데이터 과학과 데이터 공학은 정신과 육체의 관계로 보면된다.
그렇기 때문에 둘의 관계는 서로 상관관계가 존재한다.
표(table)
인간은 무언가를 배울 때 시각, 청각, 촉각 등 다수의 감각을 가지고 학습한다.
머신러닝을 사용하기 위해서는 무엇이 필요한가? 바로 데이터이다.
데이터를 사용해서 머신러닝 기법으로 문제를 처리한다. 현실의 문제를 데이터로 변환하면 복잡하지 않을 수도 있고 복잡할수도 있다. 만약 데이터가 복잡하게 되있다면 머신러닝을 이용해서 문제를 해결하기전에 데이터를 보기 좋게 정리할것이다.
데이터를 보기 좋게 정리하는것이 데이터의 시각화이고 정리할때 가장많이 사용하는 도구가 표(table)이다. (표는 data들의 집합이기 때문에 data set이라고도 불리운다.)
독립변수와 종속변수
변수(variable)
변할수 있는 수
독립변수와 종속변수
표(table)에서도 변수라는 말을 사용하는데 표에서는 어떤게 변수일까?
위의 표를 보면 날짜, 요일, 온도, 판매량의 값이 계속달라진다. 표에서 변수는 컬럼이다.
그럼 표에서 독립변수와 종속변수는 무엇일까? 표를 분석해보면 온도에 따라서 판매량이 달라진다.
독립변수는 결과에 영향을 받지 않고 독립적으로 바뀌는 변수를 독립변수라고한다.
종속변수는 어떤것의 영향을 받기 때문에 종속되있다고 해서 종속변수라고한다.
위의 표에서 보듯이 온도에 따라서 판매량이 달라지기 때문에 온도가 독립변수(원인) 판매량이 종속변수(결과)이다.
표에서 보는 변수
독립변수 = 원인이 되는 컬럼
종속변수 = 결과가 되는 컬럼
상관관계와 인과관계
상관관계란 서로 상관(관련)이 있는 관계이다.
인과관계란 원인과 결과에 의한 관계이다.
결국 독립변수와 종속변수는 상관관계와 인과관계 모두를 포함한다.
특성(컬럼)들 사이의 관계를 파악하는것은 매우 어려운 작업이기 때문에 적은수의 데이터를 가지고 관계를 단정지어서는 안된다.
https://opentutorials.org/course/4548/28928
https://opentutorials.org/course/4548/28929
'Machine Learning' 카테고리의 다른 글
[ML] Pre 4. 머신러닝의 분류 (0) | 2021.08.03 |
---|---|
[ML] Pre2. 모델(Model) (0) | 2021.02.10 |
Pre 1.머신러닝이란? (0) | 2021.02.09 |
0. 머신러닝 공부하기 앞서... (1) | 2021.02.09 |
댓글