'분산처리/Spark' 카테고리의 글 목록

2022.07.31· 분산처리/Spark

Spark History Server 관련하여 발생하는 오류들을 별도로 모아 정리하고자 한다. FileNotFoundException : File file:/tmp/spark-events does not exist ./start-history-server.sh 실행 시 아래와 같은 오류가 발생하게 되는 경우 failed to launch: nice -n 0 /usr/local/Cellar/apache-spark/3.3.0/libexec/bin/spark-class org.apache.spark.deploy.history.HistoryServer at org.apache.spark.deploy.history.FsHistoryProvider.start(FsHistoryProvider.scala:421) at..

Apache Spark 설치 및 예제 실습- macOS

2022.07.30· 분산처리/Spark

2022.07.29 - [InfraStructure] - 스파크란? -기본 스파크란? -기본 빅데이터, 분산처리 관련 기술들을 공부하다보니 스파크란 프레임워크를 알게되었고 이번 기회에 내용을 정리해보도록 한다. 1.스파크란? & 등장배경 스파크를 한마디로 정의하면 빅데이터처리 yarisong.tistory.com 지난 포스팅을 통해 스파크에 대해 알아보았고 이제 설치를 통해 이해도를 높여보도록 한다. 1. Spark 설치 Spark 설치를 위해서는 홈페이지에서 다운받아 설치하는 방법과 Homebrew를 사용하는 방법 2가지가 있다. homebrew가 보통 편하기에 이 포스팅에서는 homebrew를 통해 설치를 진행한다. 터미널을 열어 아래와 같이 명령어를 실행한다. $ brew install apache..

스파크란? -기본

2022.07.29· 분산처리/Spark

빅데이터, 분산처리 관련 기술들을 공부하다보니 스파크란 프레임워크를 알게되었고 이번 기회에 내용을 정리해보도록 한다. 1.스파크란? & 등장배경 스파크를 한마디로 정의하면 빅데이터처리를 위한 오픈소스 분산처리 플랫폼, 또는 빅데이터 분산처리엔진이다. 스파크가 나오게 된 배경으로는 하둡의 단점을 보완하기 위해서 탄생하였다. HDFS는 DISK I/O를 기반으로 동작한다. 이는 하둡의 처리 속도를 느리게 하는 요인이었고 실시간성 데이터에 대한 니즈를 증가하는 상황에서 충족하지 못하는 상황이 발생하였다. 스파크의 경우 메모리로부터 map/reduce할 데이터를 불러오고 결과도 메모리에 저장한다. 그렇기에 속도도 하둡에 비해 1000배 정도 빠르고 배치 분석 뿐만 아니라, 스트리밍 데이터 양쪽 분석 모두 지원함..

티스토리툴바