분산처리/Hadoop

2022.07.28 - [InfraStructure] - 하둡의 설치 하둡의 설치 2022.07.25 - [InfraStructure] - 하둡이란? - 기본 하둡이란? - 기본 하둡이라는 분산처리시스템에 대해 기초적인 개념과 구조를 파악하고 이해를 해보려고 한다. 1. 하둡이란 하둡은 High-Availability Distribu. yarisong.tistory.com 지난 하둡의 설치 후 실제 HDFS(Hadoop File System)에 파일 저장 및 조회를 테스트 해보려고 한다. 1. namenode와 datanode 위치 지정 지난 하둡 설치를 진행할 때 별도로 위치를 설정하지 않았다. 위치를 지정하지 않을 경우 기본 설정을 따라가도록 되어있고 이 위치는 임시 폴더를 사용하게 되어있다. 기본값..
2022.07.25 - [InfraStructure] - 하둡이란? - 기본 하둡이란? - 기본 하둡이라는 분산처리시스템에 대해 기초적인 개념과 구조를 파악하고 이해를 해보려고 한다. 1. 하둡이란 하둡은 High-Availability Distributed Object-Oriented Platform의 줄임말로써 간단하게 말하면 분산 yarisong.tistory.com 하둡에 대한 기초 지식을 알아보고 난 후 실습을 위해 설치를 진행해보자 1. 하둡 설치 macOS 환경에서 하둡 설치는 매우 간단하게 brew를 이용하면 쉽게 설치가 가능하다 $ brew install hadoop 만약 설치중에 'brew unlink yarn'이라는 문구가 발생하는 경우가 발생한다. 그런 경우에는 아래와 같은 순으로 ..
하둡이라는 분산처리시스템에 대해 기초적인 개념과 구조를 파악하고 이해를 해보려고 한다. 1. 하둡이란 하둡은 High-Availability Distributed Object-Oriented Platform의 줄임말로써 간단하게 말하면 분산 환경에서 대용량 데이터를 분산처리할 수 있는 자바 기반의 오픈 소스 프레임워크이다. 일반적으로 하둡은 하둡파일시스템(HDFS)와 매리듀스(MapReduce) 프레임워크로 시작되었으나 현재는 빅데이터의 저장, 처리, 실행 등등의 다양한 역할을 수행하는 하둡 생태계를 의미하는 의미로 확장되었다. 2. 하둡의 구성 요소 · 하둡 분산형 파일 시스템(Hadoop Distributed File System, HDFS) 수십 테라바이트 또는 페타바이트 이상의 대용량 파일을 분산..
빅데이터가 나온 후 여기저기서 자주 듣게 되는 용어 중 하나인 맵리듀스에 대한 기본적인 내용에 대해 알아보고 간략하게 정리하고자 한다. 1. 맵리듀스란? 구글에서 대용량 데이터 처리를 분산 병렬 컴퓨팅에서 처리하기 위해 제작하여 2004년에 발표한 소프트웨어 프레임워크이다. 맵리듀스는 맵(Map)과 리듀스(Reduce)가 합져진 말로써 맵(Map)은 우리가 흔히 알고 있듯이 Key와 Value라는 두 개의 쌍으로 가지고 있는 자료구조이다. 리듀스(Reduce)는 맵(Map)의 중복된 값을 줄이거나, 값을 합쳐서 최종 결과물로 만드는 방법이라고 할 수 있다. 간단하게 말해서 맵리듀스는 맵의 데이터를 중복 제거하거나 값을 합쳐서 데이터를 만드는 것을 의미한다. 2. 맵리듀스의 처리 과정 맵리듀스의 처리과정을..
야뤼송
'분산처리/Hadoop' 카테고리의 글 목록