엄태욱 Data Infrastructure 팀

Data Infrastructure팀 Data Programmer

Posts

    11번가 추천 엔진 교체 (RecoPick -> Colloseo)

    안녕하세요. Data Infrastructure팀(이하 DI팀)에서 Data Infra/Application 개발을 하고 있는 Data Programmer 엄태욱 입니다. 이번 글을 통해 지난 글에 공유 드렸던 실시간 데이터 처리 결과와 함께 Spark으로 재구현한 xTogehter를 이용해, 기존에 11번가에서 사용하던 레코픽(이하 RecoPick) 추천 엔진을 Colloseo 추천 엔진으로 교체한 과정을 공유하겠습니다. 11번가의 추천 서비스 11번가는 RecoPick에서 제공하는 두 가지 추천 서비스를 사용합니다. 먼저, “실시간 개인화 […]

    RecoPick 실시간 데이터 처리 시스템 전환기 (Storm에서 Spark Streaming으로 전환)

    안녕하세요. Data Infrastructure팀(이하 DI팀) 박소라, 엄태욱 입니다. 이번에 소개해 드릴 내용은 SK플래닛의 추천 플랫폼인 레코픽(RecoPick)에서 실시간 로그 처리를 위해 AWS(Amazon Web Services) 상에서 Storm을 기반으로 구현됐던 작업들을, 사내 클러스터인 DI클러스터(이하 DIC)에서 Spark Streaming 작업으로 전환한 경험입니다. 레코픽(RecoPick)이란? 사이트 내 상품추천(웹/모바일)과 개인화 마케팅을 위한 추천(메일/문자/푸쉬알림 등)을 서비스 형태(SaaS)로 제공하는 추천 플랫폼입니다. 쇼핑몰 고객의 로그 데이터를 분석해 […]

    Spark Streaming으로 유실 없는 스트림 처리 인프라 구축하기

    안녕하세요. Data Infrastructure팀에서 Data Infra/Application 개발을 하고 있는 Data Programmer 엄태욱 입니다. 이번 글을 통해 대용량 데이터의 실시간 분산 처리를 위한 유실 없는 스트림 처리 인프라를 Spark Streaming으로 구축한 경험을 공유해 드리겠습니다. 실시간 처리(Real-time processing)와 스트림 처리(Stream processing) 스마트폰이 널리 퍼지고 IoT(Internet of Things) 세상이 다가오면서, Big Data의 3Vs(Volume, Variety, Velocity) 중에서 Volume(크기)도 중요하지만 스마트폰의 […]

    Scalding: Scala로 하는 Big Data Processing

    안녕하세요, Data Infrastructure팀의 Data Programmer 엄태욱입니다. 저는 이번 사내 기술 세미나 @tech에서 “Scalding: Scala로 하는 Big Data Processing”을 주제로 발표했는데요, 이번 포스팅을 통해 공유합니다. 이번 @tech에서 Hadoop MapReduce의 개발을 편리하게 해주는 Data Application 개발 Platform인 Cascading의 Scala 버전인 Scalding 적용에 대해 발표했습니다. Scalding 설명을 위해 Data Processing과 Functional Programming의 관계에 대해 언급하고, Cascading 과 Scalding의 비교해서 […]