Developers Haven

(DH)블로그는 개발자들이 기술 정보를 찾아볼 수 있는 안식처가 되고 싶음을 희망하여 시작하게 되었습니다. 공부한 내용과 성장 과정을 기록해두었으니 편히 둘러보시길 바랍니다.

Welcome to DH's Blog
반응형

spark 3

Apache Spark 자료구조 - DataFrame, DataSet

지난 시간에는 스파크 자료구조의 RDD에 대해서 알아보았다. 만약 아직 보지 못했다면 아래 페이지를 참고하도록 하자. 이번 시간에는 또 다른 자료구조인 DataFrame, DataSet에 대해서 알아보도록 하자. 2023.11.09 - [[기술공부]/BigData] - Apache Spark 자료구조 - RDD Apache Spark 자료구조 - RDD 지난 시간에 스파크의 등장배경과 아키텍처 구조에 대해 살펴보았다. 아직 보지 못했다면 아래 페이지를 참고하도록 하자. 이번 시간에는 스파크 자료구조 중 하나인 RDD에 대해서 자세히 알아 developers-haven.tistory.com 🔎 Spark Application 구현방법 Spark v1 → RDD Spark v2 → DataFrame, Dat..

Apache Spark 자료구조 - RDD

지난 시간에 스파크의 등장배경과 아키텍처 구조에 대해 살펴보았다. 아직 보지 못했다면 아래 페이지를 참고하도록 하자. 이번 시간에는 스파크 자료구조 중 하나인 RDD에 대해서 자세히 알아보도록 하자. 2023.11.09 - [[기술공부]/BigData] - Apache Spark에 대하여 - 등장 배경과 아키텍처 Apache Spark에 대하여 - 등장 배경과 아키텍처 대규모 빅데이터를 저장하고 처리하기 위해 Hadoop이 등장하게 되었지만 시간이 지나면서 성능적으로 아쉬운 부분이 생기게 되었다. 하둡의 이러한 부분을 보완하기 위해 등장한 것이 Apach Spark이 developers-haven.tistory.com 🔎 Spark Application 구현방법 Spark v1 → RDD Spark v2..

Apache Spark에 대하여 - 등장 배경과 아키텍처

대규모 빅데이터를 저장하고 처리하기 위해 Hadoop이 등장하게 되었지만 시간이 지나면서 성능적으로 아쉬운 부분이 생기게 되었다. 하둡의 이러한 부분을 보완하기 위해 등장한 것이 Apach Spark이며, 이번 시간에는 스파크의 등장 배경과 구조에 대해 알아보도록 하자. 1. Apache Spark의 등장 배경 🧩 디스크로부터 데이터를 읽어온다 → Map task에서 데이터를 (key, value) 형태로 반환한다 → Reduce task에서 중복된 key값을 가진 데이터를 제거하고 원하는 데이터를 추출한다 → 마지막 결과를 다시 디스크에 저장한다 하둡의 맵리듀스(mapReduce)는 디스크에서 작업을 처리하여 디스크 I/O 성능이 좋지 못했다. 하둡의 이러한 문제점을 보완..

반응형