Playing with Data 13

데이터 분석의 시작은 데이터 반죽하기

데이터 분석 업무를 수행하면서, 가장 큰 고민이 "데이터 분석의 기본이 무엇일까?"였습니다. 그리고, 스스로 가장 기본은 데이터를 원하는대로 만들고, 조작할 수 있는 데이터 반죽 능력이라고 결정을 내렸습니다. 정말 데이터 반죽 능력이 중요해? 라고 되짚어본다면, 전통적으로 통계 분석 툴의 강자인 SAS의 구성을 보더라도 데이터 반죽이 기본이라는 것을 알 수 있습니다. SAS는 크게 Data 부분과 Proc 부분으로 구성되어 데이터를 분석하는 것이 기본 프레임입니다. 그리고 항상 데이터 분석 Procedure를 호출하는 Proc부분 앞에 Data 부분이 있습니다. 그리고, Data부분에서 원하는 형태로 데이터를 가공한 후에야 비로소 Proc를 통해 데이터 분석이 가능합니다. 그만큼 데이터 분석 전에 데이터..

Cloudera Impala에서의 Date and Time 함수 정리

SQL 내장 함수 중에서 Date와 Time가 가장 중요하다고 생각이 되요. SQL에서 데이터를 가져올 때, "언제언제 이후 데이터를 뽑아주세요"라는 식으로 요청받기 때문이예요. 그래서 최근 Hadoop을 Impala를 통해 데이터를 다루기 시작하면서 Date와 Time 관련 함수를 정리해보았습니다. 주로 활용한 URL은 Cloudera 매뉴얼(https://www.cloudera.com/documentation/enterprise/latest/topics/impala_datetime_functions.html)입니다. 위 함수 중에서 FROM_UNIXTIME과 UNIX_TIMESTAMP가 가장 유용하다고 생각됩니다. 추가로, Timestam를 String으로 만들 때, 원하는 형태로 입력하고 출력하고 ..

SQL Format Rule 만들기

SQL을 익히고 코딩을 하다보니, 가독성이 좋은 SQL를 위한 룰을 수립하는 것이 좋을거 같다는 생각이 들었어요. 인터넷 상에서 관련 글을 검색하면서 Rule을 만들어 정리해보고자 합니다. 현 시점에 수립한 Template입니다. 일단 SELECT 구문부터 시작하려고 합니다. /*********************************************************** -- Name : Template.sql -- Purpose/Desc : -- Required grants : CRUD / RU -- Source tables : -- Called/Used by : ************************************************************/ SELECT co..

반응형