DRUID

2018-06-07
Druid에서 주로 발생하는 문제에 대해 Q&A 형태로 정리한 글입니다....
2017-11-13
Hive에 있는 데이터 Druid에 적재하려면? 다음과 같은 다양한 삽질 방법이 존재한다. Hive에 metastore로부터 hdfs location을 파악한 후 orc format이나  parquet format이냐에 따라 그에 맞는 hadoop ingestion spec을 작성해야함. orc인 경우 struct type정보를 잘 파악해야하며,  parquet인 경우에는 avro schema를 읽기 때문에 orc에 비해 덜 번거롭다. 자세한 내용은 요기를 참고: ORC ingestion spec , Parquest ingestion spec -> 여기서 문제점 하나가 발생 partition column의 경우는 어떻게 ingestion하지? partition column이 dimension이나 metric 또는 timestamp로 들어가는 경우가 있어서 이를 위해서는 별도 패치가 필요하다. 다행히 내부 브랜치에서 이런 기능을 구현하여 사용중...
2017-06-19
타임시리즈 기반 분산 Database 인 Druid 의 국내 4번째 밋업 참석 후기 입니다....
2017-05-30
6/8일 4번째 드루이드(Druid) 밋업 일정이 잡혀서 공유드립니다. 드루이드는 컬럼형 분산 데이터베이스 중 하나로 뛰어난 성능을 바탕으로 최근 활용사례가 늘어나고 있는 상황입니다. SKT 에서 드루이드를 기반으로 많은 프로젝트가 진행되고 있으며, 이에 대한 기술 소개 및 적용 사례 등이 공유될 예정입니다. 4th Druid Meetup 밋업 일시 Thursday, June 8, 2017 7:00 PM to 9:00 PM 장소 : 서울시 강남구 테헤란로 1길 48번지 (역삼동 619-16) CNN the Biz Center 201호, Seoul...
2017-05-22
이번 글에서는 Apache Hive와 연동된 Druid를 이용하여 초 단위 미만 분석을 수행한 결과를 리포팅하고 있다....
2017-05-17
Druid는 대용량 데이터를 실시간으로 분석/저장하는 기능을 제공하는 반면 여러가지 제약 조건을 가지고 있다. 이 제약 조건을 극복하기 위해 Druid에 저장된 데이터를 Hive를 이용하여 SQL로 분석하게 구성하였는데 어떤 장/단점이 있는지 살펴보자....
2016-11-14
Pain past is pleasure! 이번 글에서는 JDBC를 통해 하둡에 데이터를 적재할때 한번 쯤 고민해 볼만한 주제로 삽질기를 공유하려고 한다. 먼저 필자가 경험한 내용은 아주 특이한 케이스로 일반적인 경우에 해당되지 않는다. 주위에 이런 삽질을 하는 사람도 있구나 라고 참고만 하시길... 기존 레거시에 있는 데이터 베이스로부터 하둡에 데이터를 적재할 때, 가장 많이 쓰는 방식은 JDBC를 통해 데이터를 로딩하여 하둡 에코 시스템에 적재하는 방식일 것이다. 가장 잘 알려진 오픈소스 기술로는 sqoop이 있다....
2016-10-26
본 글에서는 이러한 Druid의 쿼리 응답 성능을 측정하고 요즘 각광을 받고 있는 Spark과 비교, 대조함으로써 Druid가 가진 장단점을 파악하고자 합니다. ...
2016-10-11
NO PAINS, NO GAINS 고급진 개발자가 갖춰야 할 덕목(?) 중 하나는 좋은 툴을 발견하여 반복적이고 시간을 까먹는 작업을 효율화 하거나 필요시에는 툴을 직접 개발 하는 일이다. 필자의 경우 구현한 실시간 처리 시스템의 성능 테스트(throughput) 측정을 위해 반복적으로 가짜 데이터를 생성 해야 했다. 나름 자동화 하겠다고 임의의 JSON 메시지를 생성 하고 메시지 큐에 전송하는 스크립트를 만들어서 사용했었는데 최근에서야.... 좋은 툴을 발견하고 그간 작업했던 스크립트와는 이별을 고했다....
2016-09-20
Druid - 어벤저스 계획을 세우지 못하는 것은 실패를 계획하는 것이다 - 에피존스 람다 아키텍처는 데이터 처리 아키텍처로 대용량 데이터에 대한 배치 처리와 스트림 처리 방법을 활용하여 처리하기 위해 설계된 데이터 프로세싱 아키텍처 이다. 아래의 아키텍처에서 수집된 레코드는...
더보기