Spark History Server 관련하여 발생하는 오류들을 별도로 모아 정리하고자 한다. FileNotFoundException : File file:/tmp/spark-events does not exist ./start-history-server.sh 실행 시 아래와 같은 오류가 발생하게 되는 경우 failed to launch: nice -n 0 /usr/local/Cellar/apache-spark/3.3.0/libexec/bin/spark-class org.apache.spark.deploy.history.HistoryServer at org.apache.spark.deploy.history.FsHistoryProvider.start(FsHistoryProvider.scala:421) at..
분류 전체보기
2022.07.29 - [InfraStructure] - 스파크란? -기본 스파크란? -기본 빅데이터, 분산처리 관련 기술들을 공부하다보니 스파크란 프레임워크를 알게되었고 이번 기회에 내용을 정리해보도록 한다. 1.스파크란? & 등장배경 스파크를 한마디로 정의하면 빅데이터처리 yarisong.tistory.com 지난 포스팅을 통해 스파크에 대해 알아보았고 이제 설치를 통해 이해도를 높여보도록 한다. 1. Spark 설치 Spark 설치를 위해서는 홈페이지에서 다운받아 설치하는 방법과 Homebrew를 사용하는 방법 2가지가 있다. homebrew가 보통 편하기에 이 포스팅에서는 homebrew를 통해 설치를 진행한다. 터미널을 열어 아래와 같이 명령어를 실행한다. $ brew install apache..
빅데이터, 분산처리 관련 기술들을 공부하다보니 스파크란 프레임워크를 알게되었고 이번 기회에 내용을 정리해보도록 한다. 1.스파크란? & 등장배경 스파크를 한마디로 정의하면 빅데이터처리를 위한 오픈소스 분산처리 플랫폼, 또는 빅데이터 분산처리엔진이다. 스파크가 나오게 된 배경으로는 하둡의 단점을 보완하기 위해서 탄생하였다. HDFS는 DISK I/O를 기반으로 동작한다. 이는 하둡의 처리 속도를 느리게 하는 요인이었고 실시간성 데이터에 대한 니즈를 증가하는 상황에서 충족하지 못하는 상황이 발생하였다. 스파크의 경우 메모리로부터 map/reduce할 데이터를 불러오고 결과도 메모리에 저장한다. 그렇기에 속도도 하둡에 비해 1000배 정도 빠르고 배치 분석 뿐만 아니라, 스트리밍 데이터 양쪽 분석 모두 지원함..
2022.07.28 - [InfraStructure] - 하둡의 설치 하둡의 설치 2022.07.25 - [InfraStructure] - 하둡이란? - 기본 하둡이란? - 기본 하둡이라는 분산처리시스템에 대해 기초적인 개념과 구조를 파악하고 이해를 해보려고 한다. 1. 하둡이란 하둡은 High-Availability Distribu. yarisong.tistory.com 지난 하둡의 설치 후 실제 HDFS(Hadoop File System)에 파일 저장 및 조회를 테스트 해보려고 한다. 1. namenode와 datanode 위치 지정 지난 하둡 설치를 진행할 때 별도로 위치를 설정하지 않았다. 위치를 지정하지 않을 경우 기본 설정을 따라가도록 되어있고 이 위치는 임시 폴더를 사용하게 되어있다. 기본값..
2022.07.25 - [InfraStructure] - 하둡이란? - 기본 하둡이란? - 기본 하둡이라는 분산처리시스템에 대해 기초적인 개념과 구조를 파악하고 이해를 해보려고 한다. 1. 하둡이란 하둡은 High-Availability Distributed Object-Oriented Platform의 줄임말로써 간단하게 말하면 분산 yarisong.tistory.com 하둡에 대한 기초 지식을 알아보고 난 후 실습을 위해 설치를 진행해보자 1. 하둡 설치 macOS 환경에서 하둡 설치는 매우 간단하게 brew를 이용하면 쉽게 설치가 가능하다 $ brew install hadoop 만약 설치중에 'brew unlink yarn'이라는 문구가 발생하는 경우가 발생한다. 그런 경우에는 아래와 같은 순으로 ..
하둡이라는 분산처리시스템에 대해 기초적인 개념과 구조를 파악하고 이해를 해보려고 한다. 1. 하둡이란 하둡은 High-Availability Distributed Object-Oriented Platform의 줄임말로써 간단하게 말하면 분산 환경에서 대용량 데이터를 분산처리할 수 있는 자바 기반의 오픈 소스 프레임워크이다. 일반적으로 하둡은 하둡파일시스템(HDFS)와 매리듀스(MapReduce) 프레임워크로 시작되었으나 현재는 빅데이터의 저장, 처리, 실행 등등의 다양한 역할을 수행하는 하둡 생태계를 의미하는 의미로 확장되었다. 2. 하둡의 구성 요소 · 하둡 분산형 파일 시스템(Hadoop Distributed File System, HDFS) 수십 테라바이트 또는 페타바이트 이상의 대용량 파일을 분산..