Playing with Data/R | Python

데이터 분석의 시작은 데이터 반죽하기

아르센 루팽 2018. 1. 22. 10:05

데이터 분석 업무를 수행하면서, 가장 큰 고민이 "데이터 분석의 기본이 무엇일까?"였습니다. 그리고, 스스로 가장 기본은 데이터를 원하는대로 만들고, 조작할 수 있는 데이터 반죽 능력이라고 결정을 내렸습니다. 정말 데이터 반죽 능력이 중요해? 라고 되짚어본다면, 전통적으로 통계 분석 툴의 강자인 SAS의 구성을 보더라도 데이터 반죽이 기본이라는 것을 알 수 있습니다.

SAS는 크게 Data 부분과 Proc 부분으로 구성되어 데이터를 분석하는 것이 기본 프레임입니다. 그리고 항상 데이터 분석 Procedure를 호출하는 Proc부분 앞에 Data 부분이 있습니다. 그리고, Data부분에서 원하는 형태로 데이터를 가공한 후에야 비로소 Proc를 통해 데이터 분석이 가능합니다. 그만큼 데이터 분석 전에 데이터를 원하는 형태로 만들어 놓은 것이 중요하다는 반증이라 할 수 있겠죠.

그래서 저에게는 SAS와 R를 사용할 줄 아는 것이 중요하지만, 그 중에도 데이터를 원하는 형태로 가공하는 방법부터 시작해보려고 합니다.


반응형