Tagged: Spark Streaming

데이터 입수 이상징후 탐지

안녕하세요. Data Infrastructure팀(이하 DI팀)에서 최근에는 주로 Data Application 개발을 하고 있는 Data Engineer 추이삭입니다. 이번 내용은 데이터 입수 과정에서 주요한 이상징후를 탐지하고 탐지 결과를 유관된 구성원들에게 전파하기 위한 시스템 또는 활동에 대한 소개입니다. 배경 SK플래닛은 다양한 서비스와 BM을 보유하고 있고, 200여개의 클라이언트/서버 로그와 800여개의 DB스냅샷데이터를 입수하고 있습니다. 원천 데이터의 제공 방식도 매우 다양하여 여러 가지 […]

RecoPick 실시간 데이터 처리 시스템 전환기 (Storm에서 Spark Streaming으로 전환)

안녕하세요. Data Infrastructure팀(이하 DI팀) 박소라, 엄태욱 입니다. 이번에 소개해 드릴 내용은 SK플래닛의 추천 플랫폼인 레코픽(RecoPick)에서 실시간 로그 처리를 위해 AWS(Amazon Web Services) 상에서 Storm을 기반으로 구현됐던 작업들을, 사내 클러스터인 DI클러스터(이하 DIC)에서 Spark Streaming 작업으로 전환한 경험입니다. 레코픽(RecoPick)이란? 사이트 내 상품추천(웹/모바일)과 개인화 마케팅을 위한 추천(메일/문자/푸쉬알림 등)을 서비스 형태(SaaS)로 제공하는 추천 플랫폼입니다. 쇼핑몰 고객의 로그 데이터를 분석해 […]

Spark Streaming으로 유실 없는 스트림 처리 인프라 구축하기

안녕하세요. Data Infrastructure팀에서 Data Infra/Application 개발을 하고 있는 Data Programmer 엄태욱 입니다. 이번 글을 통해 대용량 데이터의 실시간 분산 처리를 위한 유실 없는 스트림 처리 인프라를 Spark Streaming으로 구축한 경험을 공유해 드리겠습니다. 실시간 처리(Real-time processing)와 스트림 처리(Stream processing) 스마트폰이 널리 퍼지고 IoT(Internet of Things) 세상이 다가오면서, Big Data의 3Vs(Volume, Variety, Velocity) 중에서 Volume(크기)도 중요하지만 스마트폰의 […]