웨비나 소개
다양한 종류와 방대한 양의 빅데이터는 기업의 데이터베이스(DB)에 저장되어 비즈니스 기반 의사결정의 기반이 되고 있습니다. 데이터를 다루는 솔루션/기술/플랫폼 등이 다양해지면서 전통적인 관계형/비관계형/OLAP/OLTP의 경계는 허물어졌고 융합형 DB의 시대에 들어오게 되었습니다. 이번 웨비나에서는 데이터 분야의 신기술 트렌드를 배우고 각 산업 분야의 인사이트를 함께 공유하는 시간을 가지고자 합니다.
Session1. 미래 AI 환경을 위한 데이터 레이크하우스 전략
발표자 - 권동수 전문위원 (효성인포메이션시스템)
머신러닝과 딥러닝 기술이 발전하면서 더 많은 학습 데이터를 확보하고 처리하는 기술이 중요해지고 있다. 이러한 과정에서 최근 기업들은 다크 데이터(Dark Data)를 활용하기 위해 노력하고 있는데 다크 데이터란 무엇일까?
다크 데이터(Dark Data)란?
- 기업에서 정보를 수집하여 저장만 하고 분석에 활용되지 않은 데이터
- 수치 등의 정형화된 데이터가 아닌 이미지/영상/음성 등의 비정형 데이터 형태로 존재
다크 데이터가 쌓일 수 밖에 없는 이유
- 다크 데이터를 수집하고 분석할 수 있는 도구의 부재
- 너무 많이 쌓인 데이터를 활용할 수 있는 환경의 부재
이러한 이유 때문에 데이터를 단순히 수집하는 것보다 처리하고 인사이트 도출에 활용할 수 있는 기술이 더욱 중요해지고 있다. 이때 다양한 형태의 데이터를 수집하여 원하는 형태로 활용할 수 있도록 해주는 기술이 '데이터 레이크(Data Lake)'이다. 그럼 데이터 레이크에 대해 더 자세히 알아보도록 하자.
(1) 1세대 데이터 레이크
- 데이터 타입에 따라 저장소 구분(Hadoop / Data Mart / Data Warehouse)
- ETL (데이터를 형식에 맞게 변환 후 저장)
(2) 차세대 데이터 레이크 (오브젝트 스토리지 + 초고성능 병렬파일시스템)
- 오브젝트 스토리지(Object Storage)를 도입하여 데이터 저장 속도가 빨라지고 사용자의 필요에 맞게 데이터를 변환하여 사용
- ELT (데이터를 추출해서 바로 저장하고 이후에 필요에 맞게 데이터 변환하여 사용)
- Object Storage를 도입한 이유? : Hadoop은 데이터 노드가 늘어나면서 서버를 계속 확장시켜주는 관리가 필요하기 때문에 확장성이 높은 Object Storage를 사용하여 1차 저장소에 데이터를 저장하게 되었다.
(3) 데이터 레이크하우스 (데이터 웨어하우스 + 데이터 레이크)
- 데이터 레이크하우스(Data Lakehouse)는 데이터 웨어하우스와 데이터 레이크 기능을 조합하여 만든 아키텍처
- 오브젝트 스토리지에 Spark, Trino 등을 통해 테이블 데이터 조회 가능
- Hadoop의 hdfs가 아닌, 오브젝트 기반으로 데이터 웨어하우스 사용 가능
계속 발전하는 기술에 맞춰 가려면 데이터 레이크를 적극 활용하는 것이 중요하다. 이를 위해 산재된 데이터를 한곳에 모아 추출, 분석하고 의사결정에 필요한 인사이트를 얻음으로써 디지털 혁신을 이뤄가는 것이 핵심이다.
Session2. 데이터의 모든 Lifecycle을 하나로, 클라우드 빅데이터 플랫폼 활용 전략
발표자 - 이승화 센터장 (kt NexR)
최근 기업들은 자동화된 데이터 생산과 소비를 원하고 있고, 이를 기술적으로 지원하면서 데이터의 신뢰도/보안/활용성을 보장할 수 있는 것이 중요해졌다. RDB에서 Nosql을 거쳐 빅데이터 시대로 들어오면서 바뀌게 된 기술적 측면에 알아보도록 하자.
RDB와 빅데이터의 가장 큰 차이점
- 기존의 RDB(Schema on Write) : 스키마 구조를 먼저 정의하고 구조에 맞게 데이터를 변환하여 적재
- 빅데이터(Schema on Read) : 원본 데이터를 그대로 저장하여 데이터를 읽을 때 스키마 구조 생성
(2017) 인공지능(AI/ML) 기술이 발전하면서 데이터 활용이 중요해지는 시대의 시작
- 원천 데이터를 바로 분석에 사용할 수 있는 요구사항이 시작되면서 데이터 레이크의 필요성 증대
- 더 빠른 응답과 다양한 분석 환경의 등장
(2020) Automation - 자동화된 데이터의 생산과 소비 시대의 시작
- 데이터와 인공지능이 분석 및 운영을 위해 내부 프로세스와 외부 어플리케이션에 내장되기 시작
- 클라우드 데이터 웨어하우스의 등장
- 분석가의 역할이 중요해짐
- 데이터의 엔지니어링 자동화
(2023) 더 이상 특별해지지 않은 AI 환경
- 데이터 팀의 세분화와 전문화
- 데이터 프라이버시 및 보안에 집중
- AI를 통한 자동화된 데이터 분석 환경
이렇게 발전하는 환경 속에서 기업이 고객을 이해하고 고객에게 맞는 데이터 분석 환경을 제공해주는 것이 매우 중요해졌다. 이에 맞게 NexR은 기업의 데이터를 자동으로 수집하고 관리해주는 데이터 레이크(DataLake) 서비스를 통해 분석가의 업무를 고도화하고 기업 내의 엔지니어링 작업을 최소화해주는 것을 도와주고 있다.
Session3. [Snowflake 오락실] 최강 데이터 엔지니어들의 Tech Talk 배틀
발표자 - 정영훈 이사 (스노우플레이크코리아) & 최경진 팀장 (메가존클라우드)
Snowflake에 대하여
- 클라우드 기반의 데이터베이스 / 데이터 웨어하우스 / 데이터 레이크를 제공하는 SaaS(서비스형 소프트웨어)
- cloud service / query processing / data storage 로 분리된 구조
- 컴퓨팅 엔진과 스토리지를 분리시킴으로써 자원 제한 없이 데이터 활용 가능
Snowflake의 3가지 캐시
1) Metadata 캐시 : 쿼리 플랜을 생성하는 과정에서 빠른 액세스를 위해 사용하는 캐시
2) 데이터 캐시 : 자주 사용되는 데이터를 Warehouse SSD에 캐시
3) 쿼리 결과 캐시 : 동일한 쿼리 수행은 컴퓨팅 없이 캐싱된 결과셋을 반환(query-result file을 key-value 형태로 구성)
💬 세미나 후기
이번 웹 세미나 참여를 통해 타회사에서 제공하고 있는 데이터 기술과 적용 방식에 대해 배워보는 시간을 가질 수 있었다. 현재 근무하고 있는 회사에서도 자체 개발한 솔루션을 사용하다 보니 타회사의 솔루션을 접해볼 기회가 많이 없었는데, 이번 기회에 많은 기술을 배우고 견문을 조금 더 넓힐 수 있었는 것 같다. 앞으로도 다양한 세미나에 참여하면서 더 다양한 기술을 접하고 배우는 기회를 가져보도록 하자.
이 글의 내용은 [AI/클라우드 시대를 위한 데이터 관리 전략 by. 바이라인 플러스] 웨비나를 기반으로 정리되었습니다.