HIVE

Hive CLI 작업을 Crontab에 설정하는 경우 삽질

2018-02-20

Hive의 CLI 명령을 Crontab에 등록하여 주기적으로 작업하는 경우가 가끔있습니다. 예를 들면 로그를 매일 새로운 파티션에 저장하는 경우 강제적으로 Hive에 파티션을 추가해야 하는 작업 등이 있습니다. 보통 Crontab의 shell 환경은 터미널로 접속했을 때와의 shell 환경과는 조금 차이가 있는데, 이번 글은 이런 차이로 인해 발생한 문제 및 삽질기에 대한 내용입니다. 문제 상황 Crontab에서 다음과 같은 Hive 파티션 생성 스크립트를 매일 새벽 00:05 분에 실행하도록 설정...

Hive에서 Druid로 주저 없이 데이터 적재하기[번외:airflow]

jerryjung

2017-11-13

데이터분석, 아키텍처 및 설계 | druid, hadoop, Hive

Hive에 있는 데이터 Druid에 적재하려면? 다음과 같은 다양한 삽질 방법이 존재한다. Hive에 metastore로부터 hdfs location을 파악한 후 orc format이나 parquet format이냐에 따라 그에 맞는 hadoop ingestion spec을 작성해야함. orc인 경우 struct type정보를 잘 파악해야하며, parquet인 경우에는 avro schema를 읽기 때문에 orc에 비해 덜 번거롭다. 자세한 내용은 요기를 참고: ORC ingestion spec , Parquest ingestion spec -> 여기서 문제점 하나가 발생 partition column의 경우는 어떻게 ingestion하지? partition column이 dimension이나 metric 또는 timestamp로 들어가는 경우가 있어서 이를 위해서는 별도 패치가 필요하다. 다행히 내부 브랜치에서 이런 기능을 구현하여 사용중...

벤치마크 Apache Hive와 Druid를 통한 sub-second 분석 -2편

jerryjung

2017-05-22

해외글 요약, 데이터분석 | druid, hadoop, Hive

이번 글에서는 Apache Hive와 연동된 Druid를 이용하여 초 단위 미만 분석을 수행한 결과를 리포팅하고 있다....

Hive 와 Druid로 울트라-빠른 OLAP 분석하기-1편

jerryjung

2017-05-17

해외글 요약, 데이터분석, 아키텍처 및 설계 | druid, hadoop, Hive

Druid는 대용량 데이터를 실시간으로 분석/저장하는 기능을 제공하는 반면 여러가지 제약 조건을 가지고 있다. 이 제약 조건을 극복하기 위해 Druid에 저장된 데이터를 Hive를 이용하여 SQL로 분석하게 구성하였는데 어떤 장/단점이 있는지 살펴보자....

[마케터를 위한 SQL #2] WHERE Clause 살펴보기

홍 태희

2016-11-24

소프트웨어, 데이터분석 | Hive, SQL, HQL

DB 전문가를 위한 SQL 설명이 아닌, 마케터를 위한 초간단 SQL 설명입니다. 오늘은 WHERE Clause 의 기본편 입니다....

[마케터를 위한 SQL #1] 데이터 조회를 위한 SELECT Clause 살펴보기

홍 태희

2016-11-22

소프트웨어, 데이터분석 | Hive, SQL, HQL

DB 전문가를 위한 SQL 설명이 아닌, 마케터를 위한 초간단 SQL 설명입니다. 앞으로 몇편에 걸쳐 연재 예정입니다....

[삽질기] JDBC를 통한 하둡 적재, 알면 도움되는 삽질 이야기 1편

jerryjung

2016-11-14

미분류, 소프트웨어, 데이터분석 | druid, Hive, YARN

Pain past is pleasure! 이번 글에서는 JDBC를 통해 하둡에 데이터를 적재할때 한번 쯤 고민해 볼만한 주제로 삽질기를 공유하려고 한다. 먼저 필자가 경험한 내용은 아주 특이한 케이스로 일반적인 경우에 해당되지 않는다. 주위에 이런 삽질을 하는 사람도 있구나 라고 참고만 하시길... 기존 레거시에 있는 데이터 베이스로부터 하둡에 데이터를 적재할 때, 가장 많이 쓰는 방식은 JDBC를 통해 데이터를 로딩하여 하둡 에코 시스템에 적재하는 방식일 것이다. 가장 잘 알려진 오픈소스 기술로는 sqoop이 있다....