하둡이란

하둡이라는 분산처리시스템에 대해 기초적인 개념과 구조를 파악하고 이해를 해보려고 한다. 1. 하둡이란 하둡은 High-Availability Distributed Object-Oriented Platform의 줄임말로써 간단하게 말하면 분산 환경에서 대용량 데이터를 분산처리할 수 있는 자바 기반의 오픈 소스 프레임워크이다. 일반적으로 하둡은 하둡파일시스템(HDFS)와 매리듀스(MapReduce) 프레임워크로 시작되었으나 현재는 빅데이터의 저장, 처리, 실행 등등의 다양한 역할을 수행하는 하둡 생태계를 의미하는 의미로 확장되었다. 2. 하둡의 구성 요소 · 하둡 분산형 파일 시스템(Hadoop Distributed File System, HDFS) 수십 테라바이트 또는 페타바이트 이상의 대용량 파일을 분산..
야뤼송
'하둡이란' 태그의 글 목록