본문 바로가기

전체 글14

[Baysian 1] 빈도주의(Frequentist) VS 베이지안(Baysian) 보통 통계학에서 한 사건이 장기적으로 일어날 때 발생하는 빈도를 확률이라고 한다. 확률을 사건의 빈도로 보는 것을 빈도주의(frequentist)라고 하고 확률을 사건 발생에 대한 믿음 또는 척도로 바라보는 관점이 베이지안(baysian)이라고 한다. 빈도주의와 베이지안은 "확률을 해석하는 관점의 차이" 라고 설명할 수 있다. 빈도주의 빈도론자들은 얼만큼 빈번하게 특정한 사건이 반복되어 발생하는가를 관찰하고 가설을 세우고 모델을 만들어서 검증한다. 확률은 장기적으로 일어나는 사건의 빈도라고 주장 모수(parameter, 우리가 알아내고자 하는 값, 평균, 분산등)는 (우리가 모르는) 고정 된 상수 장점 여러번의 실험, 관찰을 통해 알게된 사건의 확률을 검정하므로 사건이 독립적이고 반복적이며 정규 분포형태.. 2021. 8. 16.
작심삼일 처음 공부를 시작할때는 엄청난 의지를 가지고 공부를 시작한다. 하지만 점점 어렵고 이해안가는 부분에 마주치면 공부를 더 이상하고 싶지않고 '나는 의지가 부족해서 못하는거야' 또는 '내 능력이 부족해서 못하는거야' 이런 생각을 가지게 된다. 지금 내가 배우고 있는 학문, 분야 등 여기까지 발전하기 위해서 얼마나 많은 사람들이 자신의 인생을 받쳤을까? 라는 생각을 해보자. 누군가는 평생을 받쳐서 발전시킨것을 단 글자 몇자만 보고 이해하기 쉬울까? 전혀 아니다. 이해를 잘 할때도 있고 못할때도 있지만 내가 직접 익히지 않고는 한번에 이해하기란 쉽지않다. 그러니까 포기가 아니라 잠시 쉼을 가져라. 쉬면서 공부했던것도 정리해보고 내가 이걸 배워서 어떤 문제를 해결하고 싶었는지 생각해보고 문제 해결에 사용해봐라. .. 2021. 8. 9.
[데이터 시각화 이론] 1. 데이터 시각화 : 매핑 데이터의 시각화 목차 시각적 속성 데이터 유형 데이터 스케일에 따른 시각화 1. 시각적 속성 (Aesthetics type) 데이터 시각화의 과정 데이터 값을 "체계적이고 논리적인 방식을 통해" 시각적 속성으로 변환 후 속성을 이용해서 최종 그래프를 만듬 시각화 유형 산점도, 파이차트, 히트맵등 다양 모든 데이터 시각화는 데이터 값을 정량화(수치화) 가능한 속성으로 표현 후 그래픽으로 나타내는데 이를 시각적 속성(aesthetics) 라고 함 시각적 속성은 그래프를 구성하는 요소의 모든 측면을 나타낸다. 시각적 속성의 유형 2. 데이터 유형 모든 시각적 속성은 연속형 데이터를 표현할 수 있는 데이터와 없는 데이터로 나눔 데이터의 연속성에 따른 데이터 유형 연속형 데이터(continous data)시각적 속성 중 위치, .. 2021. 8. 9.
[ML] Pre 4. 머신러닝의 분류 머신러닝의 기법은 다양하지만 크게 세가지로 나누게 된다면 지도학습, 비지도학습, 강화학습이다. 지도학습(supervised learning) 지도학습이란 기계에 무언가를 가르친다는 의미이다. 예를 들어 문제와 답을 학습시켜서 비슷한 문제가 나오면 풀수있게 하는것이 지도학습이다. "문제집으로 학생을 가르치듯이 지도하는것"이 지도학습이라고 생각하면된다. 위의 표를보면 온도에 따라서 판매량이 변화되는 것을 볼수있다. "그러면 1.9일의 온도에 따라 판매량을 추측할수있지 않을까?" 라는 생각을 가질수있다. 결국 지도학습은 과거의 데이터를 학습해서 결과를 예측하는데 주로 사용되는 것을 볼수있다. 지도학습에는 독립변수(원인)과 종속변수(결과)를 통해서 모델을 만들고 모델을 통해 문제를 해결하고 있다. 지도학습을 잘.. 2021. 8. 3.
[데이터 시각화 이론] 0. 데이터 시각화에 대해 목차 1. 데이터 시각화를 포스팅하려는 이유 (나의 공부 필요성) 2. 데이터 시각화에 대해 1. 데이터 시각화를 포스팅하려는 이유 (나의 공부 필요성) 현재(2021년 7월) 나는 데이터사이언스를 공부하는 대학원 석사과정 중이다. 머신러닝/ 딥러닝을 공부하면서 데이터에 대한 전처리 과정에 중요성을 절실히 깨닫고 있는 중이다. 머신러닝에서 garbage in garbage out 이라는 말이 있는데 쓰레기 데이터를 넣으면 결과는 쓰레기 밖에 나오지 않아서 나온 말이다. 데이터를 전처리 과정 중 python의 matplotlib, seaborn과 같은 시각화 툴을 사용해서 데이터에 대한 통찰력을 얻으려고 한다. 하지만 어떻게 효과적으로 데이터를 시각화할지는 생각하지 않고 단순히 남들과 같은 코드를 이용해서.. 2021. 8. 2.
[ML] Pre3. 머신러닝을 배우기 전 필요한 지식 현실을 데이터로 표현해서 처리한다면 크고 작은 복잡한 문제들을 해결하기 쉽다. 데이터를 표현하기는 어렵지만 만약 표현을 할 수 있다면 데이터를 처리하는 기법 중 하나를 머신러닝이라고 부른다. 이렇게 현실에 문제를 데이터화해서 여러가지 복잡한 문제들을 보기쉽게 단순하게 만들어서 해결하는것을 데이터 산업이라고한다. 데이터 산업은 2가지로 나뉘어져있다. 데이터 과학 : 데이터를 만들고, 만들어진 데이터를 이용하는 일 데이터 공학 : 데이터를 다루는 도구를 만들고 도구를 관리하는 일 데이터 과학과 데이터 공학은 정신과 육체의 관계로 보면된다. 그렇기 때문에 둘의 관계는 서로 상관관계가 존재한다. 표(table) 인간은 무언가를 배울 때 시각, 청각, 촉각 등 다수의 감각을 가지고 학습한다. 머신러닝을 사용하기 .. 2021. 7. 26.