[개요] 아파치 하둡 3.1.0

여는 글

최근 아파치 하둡 3.1.0의 출시로 HDFS 의 Erasuere Coding 외에 분산 자원 관리자인 YARN에 특히 실용적인 기능들이 적용되었는데, 어떠한 기능들인지 차근차근 소개하겠습니다. 먼저, 공식 사이트에 게시 된 개요로부터 시작 하겠습니다.

hadoop-3

개요

hadoop-logo

이 글에서는 주요 변경 사항에 대한 간략한 개요를 제공합니다.

  • YARN 기반에서 장기 실행 서비스들을 native와 가깝게 호스트하기 위하여 Yarn Service 프레임워크는 최고 등급의 support와 API를 제공합니다. 간단히, YARN에서 컨테이너 서비스를 관리하기 위하여 컨테이너 오케스트레이션 플랫폼 역할을 합니다. 자세한 내용은 yarn-service overview를 참고 하세요. (추후에 popit 문서로 대체하겠습니다.)
  • YARN 위에서 최고 등급의 GPU 스케쥴링과 격리를 제공합니다. (docker와 non-docker 컨테이너들 모두) 자세한 내용은 hadoop-yarn-site/UsingGpus 를 참고 하세요.
  • YARN 위에서 최고 등급의 FPGA 스케쥴링과 격리를 제공합니다. (docker와 non-docker 컨테이너들 모두) 자세한 내용은 hadoop-yarn-site/UsingFPGA 를 참고 하세요.
  • YARN 기반에서 더욱 표현이 풍부한 배치 제약들을 지원합니다. 이 제약들은 특히 기계학습과 스트리밍 워크로드와 같은  장기 실행 컨테이너가 포함 된 어플리케이션의 성능과 복원력에 중대할 수 있습니다. 예를 들면, (affinity constraints) 네트워크비용을 줄이기 위하여 동일 랙에서의 작업을 동일 위치에 배치하고, (anti-affinity constraints) 시스템 간의 할당을 분산하여 리소스의 간섭을 최소화 하고, (cardinality constraints) 노드 그룹에서 특정 개수의 할당 제약을 풀어주어 다른 작업과의 균형을 맞추어 줍니다. 또한, Placement decision은 탄력성에 영향을 미치는데, 동일한 클러스터 업그레이드 도메인 내에 배치 된 (작업)할당은 동시에 오프라인이 됩니다. 자세한 내용은 hadoop-yarn-site/PlacementConstraints 를 참고 하세요.
  • 관리자가 백분율 기반 설정을 제공하는 대신 대기열에 절대 리소스 (X 메모리, Y VCores, Z GPU 등)를 지정할 수 있도록 지원합니다. 이렇게하여 관리자가 특정 대기열에 필요한 자원을 구성 할 수있는 제어 기능이 향상됩니다. 자세한 내용은 hadoop-yarn-site/CapacityScheduler 를 참고 하세요.
  • 제공된 저장소를 사용하면 HDFS 외부에 저장된 데이터를 HDFS에 매핑하고 HDFS에서 처리 할 수 있습니다. DataNode의 미디어 세트에 새로운 스토리지 유형 인 PROVIDED를 도입하여 이기종 스토리지 사용을 지원 합니다. 자세한 내용은 hadoop-hdfs/HdfsProvidedStorage 를 참고 하세요.

닫는 글

다음 글부터는 개요에 소개된 항목대로 차례차례 요약해 보겠습니다.

// 저자 소개

28468194_2011079945599297_5206148957827382702_n

Software Engineer 15년차 아재입니다.

인터파크에서 하둡3.0과 Spark기반의 빅데이터 분석 플랫폼 및 도서부문 추천 시스템의 구축과 운영을 담당하였습니다.

계속하여 데이터 엔지니어로서의 경험을 이어나가기 위하여, 다른 곳 에서의 새로운 시작을 준비하고 있습니다.


Popit은 페이스북 댓글만 사용하고 있습니다. 페이스북 로그인 후 글을 보시면 댓글이 나타납니다.