분산처리

1. 메시지큐란? 메시지 지향 미들웨어(Message Oriented Middleware), 즉 MOM은 독립된 서비스간에 데이터를 주고받을 수 있는 형태의 미들웨어를 말한다. 메시지를 통해 여러 분산되어 있는 시스템간의 Connector 역할을 통해 결합성을 낮추고, 실시간으로 비동기식 데이터를 교환할 수 있도록 하는 소프트웨어를 말한다. 그렇다면 Message Queue(MQ)는 무엇일까? MOM을 구현한 솔루션으로 비동기 메시지를 사용하는 서비스들간에 데이터를 교환해주는 역할을 한다. Producer, Consumer가 존재하고 Producer는 메시지를 큐에 전송하고 Consumer가 큐의 메시지를 처리한다. MQ를 사용하면 비동기로 요청을 처리하고 Queue에 저장하여 Consumer에게 병목을..
Spark History Server 관련하여 발생하는 오류들을 별도로 모아 정리하고자 한다. FileNotFoundException : File file:/tmp/spark-events does not exist ./start-history-server.sh 실행 시 아래와 같은 오류가 발생하게 되는 경우 failed to launch: nice -n 0 /usr/local/Cellar/apache-spark/3.3.0/libexec/bin/spark-class org.apache.spark.deploy.history.HistoryServer at org.apache.spark.deploy.history.FsHistoryProvider.start(FsHistoryProvider.scala:421) at..
2022.07.29 - [InfraStructure] - 스파크란? -기본 스파크란? -기본 빅데이터, 분산처리 관련 기술들을 공부하다보니 스파크란 프레임워크를 알게되었고 이번 기회에 내용을 정리해보도록 한다. 1.스파크란? & 등장배경 스파크를 한마디로 정의하면 빅데이터처리 yarisong.tistory.com 지난 포스팅을 통해 스파크에 대해 알아보았고 이제 설치를 통해 이해도를 높여보도록 한다. 1. Spark 설치 Spark 설치를 위해서는 홈페이지에서 다운받아 설치하는 방법과 Homebrew를 사용하는 방법 2가지가 있다. homebrew가 보통 편하기에 이 포스팅에서는 homebrew를 통해 설치를 진행한다. 터미널을 열어 아래와 같이 명령어를 실행한다. $ brew install apache..
빅데이터, 분산처리 관련 기술들을 공부하다보니 스파크란 프레임워크를 알게되었고 이번 기회에 내용을 정리해보도록 한다. 1.스파크란? & 등장배경 스파크를 한마디로 정의하면 빅데이터처리를 위한 오픈소스 분산처리 플랫폼, 또는 빅데이터 분산처리엔진이다. 스파크가 나오게 된 배경으로는 하둡의 단점을 보완하기 위해서 탄생하였다. HDFS는 DISK I/O를 기반으로 동작한다. 이는 하둡의 처리 속도를 느리게 하는 요인이었고 실시간성 데이터에 대한 니즈를 증가하는 상황에서 충족하지 못하는 상황이 발생하였다. 스파크의 경우 메모리로부터 map/reduce할 데이터를 불러오고 결과도 메모리에 저장한다. 그렇기에 속도도 하둡에 비해 1000배 정도 빠르고 배치 분석 뿐만 아니라, 스트리밍 데이터 양쪽 분석 모두 지원함..
2022.07.28 - [InfraStructure] - 하둡의 설치 하둡의 설치 2022.07.25 - [InfraStructure] - 하둡이란? - 기본 하둡이란? - 기본 하둡이라는 분산처리시스템에 대해 기초적인 개념과 구조를 파악하고 이해를 해보려고 한다. 1. 하둡이란 하둡은 High-Availability Distribu. yarisong.tistory.com 지난 하둡의 설치 후 실제 HDFS(Hadoop File System)에 파일 저장 및 조회를 테스트 해보려고 한다. 1. namenode와 datanode 위치 지정 지난 하둡 설치를 진행할 때 별도로 위치를 설정하지 않았다. 위치를 지정하지 않을 경우 기본 설정을 따라가도록 되어있고 이 위치는 임시 폴더를 사용하게 되어있다. 기본값..
2022.07.25 - [InfraStructure] - 하둡이란? - 기본 하둡이란? - 기본 하둡이라는 분산처리시스템에 대해 기초적인 개념과 구조를 파악하고 이해를 해보려고 한다. 1. 하둡이란 하둡은 High-Availability Distributed Object-Oriented Platform의 줄임말로써 간단하게 말하면 분산 yarisong.tistory.com 하둡에 대한 기초 지식을 알아보고 난 후 실습을 위해 설치를 진행해보자 1. 하둡 설치 macOS 환경에서 하둡 설치는 매우 간단하게 brew를 이용하면 쉽게 설치가 가능하다 $ brew install hadoop 만약 설치중에 'brew unlink yarn'이라는 문구가 발생하는 경우가 발생한다. 그런 경우에는 아래와 같은 순으로 ..
야뤼송
'분산처리' 카테고리의 글 목록