목차
1. 데이터 시각화를 포스팅하려는 이유 (나의 공부 필요성)
2. 데이터 시각화에 대해
1. 데이터 시각화를 포스팅하려는 이유 (나의 공부 필요성)
현재(2021년 7월) 나는 데이터사이언스를 공부하는 대학원 석사과정 중이다.
머신러닝/ 딥러닝을 공부하면서 데이터에 대한 전처리 과정에 중요성을 절실히 깨닫고 있는 중이다. 머신러닝에서 garbage in garbage out 이라는 말이 있는데 쓰레기 데이터를 넣으면 결과는 쓰레기 밖에 나오지 않아서 나온 말이다.
데이터를 전처리 과정 중 python의 matplotlib, seaborn과 같은 시각화 툴을 사용해서 데이터에 대한 통찰력을 얻으려고 한다. 하지만 어떻게 효과적으로 데이터를 시각화할지는 생각하지 않고 단순히 남들과 같은 코드를 이용해서 시각화 했다.
그렇게 코드를 복붙하면서 "그냥 원래 이렇게 하는거지" 라는 생각이 안일하다는 생각이 문뜩 들었다. 내가 무엇인가 발표하거나 주장할때 사람들이 직관적이고 쉽게 이해할 수 있는 시각화된 데이터를 보여준다면 내가 말하고자 하는바를 더 잘 이해하지 않을까?
이런 나의 생각이 툴을 이용해서 데이터 시각화하기 전에 어떤 방식이 직관적으로 사람들이 이해하고 쉽게 받아들이는 방법을 공부하고 정리한 내용을 블로그에 포스팅해야겠다는 마음을 가지게 했다.
"데이터 시각화 교과서" 라는 책으로 공부하면서 필요한 이론적인 내용을 포스팅하고 파이썬의 여러가지 툴들을 활용해서 실습을 진행할 생각이다.
https://clauswilke.com/dataviz/
2. 데이터 시각화에 대해
'데이터를 수집하고 활용하는것' 은 현재 전세계적으로 주목하고 빠르게 발전하는 기술 산업 중 하나이다. 컴퓨터의 발전이 방대한 양의 데이터 처리와 계산을 가능하게 만들었기 때문에 사람 대신 컴퓨터가 데이터를 처리하고 심지어는 중요한 결정을 할 수 있게 통찰력까지 제공해준다. 그러면 데이터를 활용하기 위해서는 어떤 역량이 필요할까?
- 데이터분석 - 기술적으로 데이터를 수집하고 정제하는 데이터 가공단계부터 분석기법을 활용해 데이터 분석을 하는 능력
- 시각적 스토리 텔링 - 데이터 분석결과를 시각적으로 표현해 스토리텔링해서 효과적으로 표현방법
다양한 세분화된 능력이 필요하겠지만 (예를 들어, 통계학 능력, 해석 능력, 코드로 구현할 수 있는 능력 등) 크게 나누면 위의 두가지로 표현할 수 있다.
데이터 분석가가 데이터 분석을 할 때 데이터가 어떤 데이터인지 이상한 값이 들어있는지 알기 위한 과정인 EDA 과정을 통해 연구할 데이터를 탐구한다. EDA 과정 중 분석가에게 도움을 줄 수 있는 방법중 하나가 데이터 시각화이고 시각화를 통해 전반적인 데이터 경향을 파악할 수 있다.
또한, 결과가 나오고 보고할때 표, 그래프를 통한 시각화를 한다면 길게 글을 쓰지 않더라도 사람들이 쉽게 이해할 수 있다.
결국 직관적이고 누구나 이해할 수 있게 도와주는 방법 중 하나가 데이터 시각화이다.
'데이터 시각화 (Data Visualization)' 카테고리의 다른 글
[데이터 시각화 이론] 1. 데이터 시각화 : 매핑 데이터의 시각화 (0) | 2021.08.09 |
---|
댓글