BIGDATA

2018-06-07
Druid에서 주로 발생하는 문제에 대해 Q&A 형태로 정리한 글입니다....
2018-04-23
최근 아파치 하둡 3.1.0의 출시로 HDFS 의 Erasuere Coding 외에 분산 자원 관리자인 YARN에 특히 실용적인 기능들이 적용되었는데, 어떠한 기능들인지 차근차근 소개하겠습니다. ...
2018-04-19
스파크 스트리밍이 시작 되었을 때, 데이터를 처리하는 내부 동작을 설명합니다....
2017-11-09
빅데이터용 RDBMS가 필요해! 인터파크 사내에 추천시스템을 제공하기위해서 수많은 상품과 사용자 데이터를 마이닝하고 모델링을 거친 추천 상품들을 핸들링하기 위한 RDBMS가 필요했습니다. (그러나,,, RDBMS가 꼭 필요한 경우가 아니라면, 오픈소스 MPP 보단 가급적 Parquet 또는 다른 하둡 에코를 이용하시는게 정신건강에 이롭습니다.) 후보 솔루션 및 솔루션 선정 찾아본 솔루션은 다음과 같습니다. Cockroach DB : Raft 합의알고리즘채택으로 가장 많이 기대하고 사용해 봤으나, 1천만 건 테이블 Join 시 killed. 적은 건수는 잘 됨. (go로 개발되었는데, 메모리 할당할 때 문제가 생기는 듯...)...
2017-10-24
난생 처음 DEVIEW에 가보다 매년 DEVIEW 시즌이면 항상 이래저래 일이 생기거나 신청이 늦어 10년동안 한차례도 참석해 본적이 없었다. DEVIEW는 네이버가 주관하는 국내 최대 개발자 컨퍼런스 행사로 올해로 10주년을 맞았다. DAY1은 아쉽게 놓쳤지만 DAY2에 참석한 소감과 발표된 내용에 대한 간단 리뷰를 작성해 보려고 한다. 세션은 주관적인 취향에 의해 선택된 것이므로 몸이 여러개라면 전 트랙을 돌며 다 듣고 싶었지만 몸이 하나인 관계로 몇몇 세션에 대한 리뷰글을 적어 보려 한다....
2017-02-20
이 글은 kubernetes관련 삽질기로 시리즈로 연재될 예정이다. kubernetes에 대한 내용은 이전글을 참조하시기 바란다. kubernetest(이하 k8s)는 오픈소스 컨테이너 관리 툴이다. k8s는 Go언어로 개발되어 있으며 경량의 이식 가능한 어플리케이션이다. k8s를 Linux기반의 OS에 올려 다수의 호스트에 클러스터 풀을 생성한후 docker컨테이너 어플리케이션을 올리고 관리하고 확장 가능하게 설정할 수 있다....
2016-10-21
이번 글 에서는 대표적인 Business Intelligence(이하 BI) 솔루션 중 하나인 Spotfire 의 기능과 특성에 대해 살펴보고, 빅데이터 시대를 살아가며 효율적으로 BI 솔루션을 활용할 수 있는 분야와 방법에 대해 살펴보고자 합니다. 단, 솔루션 Provider 입장에서의 제품 홍보성 기능 설명이 아닌, 사용자 입장에서 경험했던 장점과 단점을 바탕으로 BI 솔루션의 적절한 적용 분야와 그 효과에 대해 소개하도록 하겠습니다....
2016-09-25
Apache NiFi는 NSA(National Security Agency)에서 Apache에 기증한 Dataflow 엔진입니다. 복잡해지는 기업의 시스템들에서 신속하고, 유실 없는 데이터 전송은 점점 더 중요해 지고 있습니다. 빅데이터 시스템도 마찬가지로 데이터의 전송 경로가 더 복잡해지고, 실시간 처리가 중요해지는 시점에 Apache NiFi는 훌륭한 솔루션입니다. ...
2016-09-23
우버는 하루가 다르게 다양한 서비스를 Uber 플랫폼을 통하여 선보이고 있는데요 우버의 최신 서비스를 간단히 살펴본 후 데이터를 활용한 우버만의 특장점에 대해 알아보도록 하겠습니다. 우버는 하나의 플랫폼으로서 다양한 서비스를 User와 연결을 하고 있으며 그 기반으로는 다양한 데이터를 활용한 우버만의 서비스를 제공하고 있습니다. ...
2016-08-31
복잡해지는 빅데이터 클러스터 간에 데이터 동기화와 투명한 데이터 관리를 위한 고민을 공유하고, 이 문제를 해결하기 위한 오픈소스인 Apache NiFi를 소개하겠습니다....
더보기