HBase의 puts와 batch의 차이

2016-07-16

오늘 지인이 질문때문에 HBase의 HTable 클래스의 puts와 batch에 대해 코드를 잠깐 살펴 보았습니다. At a glance로 본거라서 틀린 부분이 있을 수 있습니다. 틀린 부분이 있으면 알려주시면 수정하겠습니다.

puts와 batch는 처리 성능을 높이기 위해 여러개의 row를 모아서 한번에 보내는 방식으로 구현되어 있습니다. 내부적으로는 파라미터로 받은 Row 목록에서 rowkey를 이용하여 같은 regionserver에서 서비스 되고 있는 Row로 묶어서 각 regionserver 별로 여러개의 row를 한번에 보내는 방식입니다. 그리고 각 regionserver 별로는 쓰레드로 처리되어 병렬 처리되기 때문에 성능을 향상하는 구조입니다. 단점은 클라이언트의 CPU 부하가 올라가는 문제가 있습니다. 여기서 puts와 batch 처리 방식이 다르기 때문에 사용시 주의를 해야 합니다.

puts의 경우 파라미터로 받은 Row를 하나씩 버퍼에 넣다가 버퍼가 일정 크기가 되면 실제 regionserver로 보냅니다. 그리고 regionserver로 puts 요청을 호출한 다음에 처리 결과를 기다리지 않고 바로 다음번 단계를 처리하는 async 방식입니다. 따라서 사용자가 한번의 puts를 요청하지만 실제로는 여러번 나누어서 실행될 수 있는데 이렇게 여러번 나누어 지는 것도 순서가 보장되지 않고 병렬로 처리될 수 있다는 의미입니다. 이 경우 하나의 rowkey에 대해 여러 작업을 하는 연산이 있는 경우 순서가 보장되지 않는 문제가 있기 때문에 순서가 보장되어야 하는 연산이라면 puts를 사용하면 안됩니다.

반면 batch()는 파라미터로 받은 Rows를 한번의 요청으로 처리합니다. 그리고 그 요청에 대한 처리가 종료될때 까지 기다리는 sync 방식으로 처리합니다.

요약해보면

puts가 batch보다는 성능이 조금 더 빠를 것으로 기대.
put은 순서 보장은 안됨.
batch는 순서 보장이 됨.

따라서 시스템의 데이터 처리 패턴에 따라 적절한 기능을 선택해서 사용해야 할 것 같습니다.

Popit은 페이스북 댓글만 사용하고 있습니다. 페이스북 로그인 후 글을 보시면 댓글이 나타납니다.

HBase의 puts와 batch의 차이

요약해보면

김 형준 님의 다른 글

더 보기