맵리듀스

하둡이라는 분산처리시스템에 대해 기초적인 개념과 구조를 파악하고 이해를 해보려고 한다. 1. 하둡이란 하둡은 High-Availability Distributed Object-Oriented Platform의 줄임말로써 간단하게 말하면 분산 환경에서 대용량 데이터를 분산처리할 수 있는 자바 기반의 오픈 소스 프레임워크이다. 일반적으로 하둡은 하둡파일시스템(HDFS)와 매리듀스(MapReduce) 프레임워크로 시작되었으나 현재는 빅데이터의 저장, 처리, 실행 등등의 다양한 역할을 수행하는 하둡 생태계를 의미하는 의미로 확장되었다. 2. 하둡의 구성 요소 · 하둡 분산형 파일 시스템(Hadoop Distributed File System, HDFS) 수십 테라바이트 또는 페타바이트 이상의 대용량 파일을 분산..
빅데이터가 나온 후 여기저기서 자주 듣게 되는 용어 중 하나인 맵리듀스에 대한 기본적인 내용에 대해 알아보고 간략하게 정리하고자 한다. 1. 맵리듀스란? 구글에서 대용량 데이터 처리를 분산 병렬 컴퓨팅에서 처리하기 위해 제작하여 2004년에 발표한 소프트웨어 프레임워크이다. 맵리듀스는 맵(Map)과 리듀스(Reduce)가 합져진 말로써 맵(Map)은 우리가 흔히 알고 있듯이 Key와 Value라는 두 개의 쌍으로 가지고 있는 자료구조이다. 리듀스(Reduce)는 맵(Map)의 중복된 값을 줄이거나, 값을 합쳐서 최종 결과물로 만드는 방법이라고 할 수 있다. 간단하게 말해서 맵리듀스는 맵의 데이터를 중복 제거하거나 값을 합쳐서 데이터를 만드는 것을 의미한다. 2. 맵리듀스의 처리 과정 맵리듀스의 처리과정을..
야뤼송
'맵리듀스' 태그의 글 목록