Tagged: Big data

RecoPick 실시간 데이터 처리 시스템 전환기 (Storm에서 Spark Streaming으로 전환)

안녕하세요. Data Infrastructure팀(이하 DI팀) 박소라, 엄태욱 입니다. 이번에 소개해 드릴 내용은 SK플래닛의 추천 플랫폼인 레코픽(RecoPick)에서 실시간 로그 처리를 위해 AWS(Amazon Web Services) 상에서 Storm을 기반으로 구현됐던 작업들을, 사내 클러스터인 DI클러스터(이하 DIC)에서 Spark Streaming 작업으로 전환한 경험입니다. 레코픽(RecoPick)이란? 사이트 내 상품추천(웹/모바일)과 개인화 마케팅을 위한 추천(메일/문자/푸쉬알림 등)을 서비스 형태(SaaS)로 제공하는 추천 플랫폼입니다. 쇼핑몰 고객의 로그 데이터를 분석해 […]

Kafka New Producer API를 활용한 유실 없는 비동기 데이터 전송

안녕하세요. SK플래닛의 Data Infrastructure팀(이하 DI팀) 강병수 입니다. Spark Streaming으로 유실 없는 스트림 처리 인프라 구축하기 에 이어지는 DI팀의 포스팅입니다. • Previous Posts • Spark Streaming으로 유실 없는 스트림 처리 인프라 구축하기 written by 엄태욱 • Upcoming Posts • RecoPick Stream Processing 데이터 처리 시스템 전환기: Storm에서 Spark Streaming으로 • 업데이트가 필요한 큰 테이블 입수 및 조회 성능 제고 이번 글을 통해 Kafka Producer […]

Node.js를 사용한 Big Data 사례 연구

이번 포스팅에서는 Node.js를 사용한 Big Data 사례 연구에 대해 말씀드리려고 합니다. 안녕하세요 , Data Infrastructure 팀 이병준 입니다. Node.js  많이 쓰고 계시는지요? Node.js는 Google에서 개발한 JavaScript 엔진 V8을 이용하여 개발된 Back-end 플랫폼입니다. JavaScript 기반이라서 많은 개발자에게 친숙하여 빠른 속도로 인기를 얻게 되었고 PayPal, IBM, Microsoft 등 대형 IT 기업이 후원을 하게 되어 이제는 탄탄한 입지를 […]

Spark Streaming으로 유실 없는 스트림 처리 인프라 구축하기

안녕하세요. Data Infrastructure팀에서 Data Infra/Application 개발을 하고 있는 Data Programmer 엄태욱 입니다. 이번 글을 통해 대용량 데이터의 실시간 분산 처리를 위한 유실 없는 스트림 처리 인프라를 Spark Streaming으로 구축한 경험을 공유해 드리겠습니다. 실시간 처리(Real-time processing)와 스트림 처리(Stream processing) 스마트폰이 널리 퍼지고 IoT(Internet of Things) 세상이 다가오면서, Big Data의 3Vs(Volume, Variety, Velocity) 중에서 Volume(크기)도 중요하지만 스마트폰의 […]

Scalding: Scala로 하는 Big Data Processing

안녕하세요, Data Infrastructure팀의 Data Programmer 엄태욱입니다. 저는 이번 사내 기술 세미나 @tech에서 “Scalding: Scala로 하는 Big Data Processing”을 주제로 발표했는데요, 이번 포스팅을 통해 공유합니다. 이번 @tech에서 Hadoop MapReduce의 개발을 편리하게 해주는 Data Application 개발 Platform인 Cascading의 Scala 버전인 Scalding 적용에 대해 발표했습니다. Scalding 설명을 위해 Data Processing과 Functional Programming의 관계에 대해 언급하고, Cascading 과 Scalding의 비교해서 […]

[Tech planet 2014] Track 3 동영상 자료입니다

Tech planet 2014 의 Track 3 강연자료입니다.  동영상 강의 제공이 불가한  Alibaba Group의 Pan Pan 및 SK 플래닛 송재하 팀장, 윤홍서 팀장님 강의를 제외하고  올려드립니다. Track 3 Cloud-based Deep Learning for Enterprise: Turning Big Data into Value(자료보기) : Adam Gibson / Founder, Skymind Scaling Foursquare: From Check-ins to Recommendations(자료보기) :  Jon Hoffman / Software Engineer, Foursquare IoT 커넥티비티 대용량 서버 구축기 – […]

[Tech planet 2014] Track 1 동영상 자료입니다

Tech planet 2014 의 Track 1 강연자료입니다. Track 1 오픈소스 기반 Big Data Platform SW 개발과 하둡 관련 기술적 이슈(자료보기)  : 김병곤 / 대표, 클라우다인 사용자경험(UX)의 본질: 융합기술의 미래는 사용자 특성에 대한 이해에서 출발 : 이주환 / 교수, 한독미디어대학원대학교(KGIT) 딥러닝 서비스 개발 경험기(자료보기) : 김정희 / 수석연구원, NAVER LABS How Big Data and Location Analytics is Changing What We know about Retail […]

Tech planet 2014! 사진과 강의자료입니다

Tech planet 세번째 행사가 11월 3일 월요일 아침, 분주하게 시작되었습니다. ‘Tech planet 2014’는 SK 플래닛이 주최하는 global & emerging 기술 컨퍼런스입니다. ‘Technologies Changing the World’라는 슬로건 아래 올해는 commerce와 platform 기술에 대해 진행됩니다. ‘Tech planet 2014’는 글로벌 Commerce 및 IT 기업과 국내외 주요 업체들이 참여한 가운데 키노트, 패널 토론 그리고 3개 트랙, 18개 일반 세션으로 […]

[Tech planet 2013] 키노트 / Panel Discussion 동영상 자료입니다

Tech planet 2013 의 키노트 및 Panel Discussion 강의자료입니다. 추가로 필요하신 사항이나 다음 Tech planet에 바라는 점 있으시면 아포가토 댓글로 남겨주세요~:) 1.키노트 Big data with Google : Cory Franzmeier / Head of Cloud Platform, Asia Pacific at Google The State of Apache HBase : Michael Stack / Chair of Apache HBase, Cloudera 2. Panel Discussion 온-오프라인 서비스 제공을 위한 […]

Code Sprint의 round 2 post-mortem

지난 11월 16일 Planet X 컨퍼런스에서 있었던 Code Sprint 우승자 발표를 끝으로 Code Sprint의 주요 일정이 마무리되었습니다. 많은 실력있는 프로그래머 분들이 관심을 갖고 지켜봐주셨고 또 참여해주셨습니다. 치열한 접전 끝에 round 2에서는 황태현님이 우승을 차지했습니다. 출제 의도 기존의 알고리즘 대회가 정해진 알고리즘에 대한 사고 능력 위주로 평가하는 데 반하여, 데이터가 주어졌을 때 그것을 분석하고 그에 맞춘 […]