에세이
넷플릭스 데이터 사이언티스트 인터뷰
Rudi
2020. 2. 28. 17:52
해당 글은 아래 글을 번역한 것 입니다. 해당 본문의 작성일은 2020/02/25 월 입니다. 상당히 최근의 글 입니다.
The Netflix Data Scientist Interview
넷플릭스는 캘리포니아 로스 가토스에 본사를 둔 스트리밍 미디어 회사로, 가장 큰 미디어 회사로 인식되고 있습니다. 1997년에 DVD 대여 서비스로 시작해서 향후 스트리밍 사업으로 확장했습니다.
현재 넷플릭스는 1억 5천만 명의 유료구독자와 6천만명의 US 사용자를 보유하고 있습니다.
(거대 하다..거대 해) 수천 개의 기기에 대한 스트리밍 지원에 매월 전체 상영 시간은 30억 시간 정도 되고 1000억 개의 Event 가 매일 모아진다고 합니다.
Netflix 에서 데이터 사이언스의 역할
넷플릭스에서 데이터 사이언티스트에 대한 역할은 팀에 따라서 천차만별입니다.
그러나 일반적인 데이터 사이언티스트의 역할은 비지니스 분석, 확률적 모델링, 머신 러닝, 딥러닝을 구현하는 것 입니다. 개인맞춤(Personalization), 알고리즘, 마케팅 분석팀, 상품 연구, Tool 연구팀등을 포함해서 넷플릭스는 30개 정도의 팀이 있습니다.
요구되는 기술
넷플릭스는 전문가 수준의 데이터 사이언스만 영입합니다. 적어도 5년의 관련 분야에 대한 경험이 있어야 합니다.
요구사항은 세세하고 채용담당자는 각 직무별로 맞춰서 채용을 합니다.
다른 관련 자격은 다음을 포함합니다.
- 통계, 경제, 컴퓨터 과학, 물리, 또는 관련 양적인 분야에 대한 대학원 이상의 학위 (MS or PhD)
- 대용량 데이터를 다룬 5 +년 이상의 경험
- 분산 분석 처리 기술에 대한 경험 (Spark, SQL, Pig, Presto, or Hive)
- 프로그래밍 능력 (Python, R, Java or Scala)
- 현실에 바탕을 둔 영향력 있던 머신러닝 모델
- A/B 테스트, 분석 관찰 데이터, 모델링에 대한 깊은 통계적 기술
- 데이터 제품을 만들어본 경험, 대쉬보드(in Tableau, R Shiny, or D3)
넷플릭스에서 데이터 사이언스팀이란?
데이터 사이언스에 대한 다양한 분야를 다룹니다.
- 개인 맞춤 알고리즘(Personalization Algorithms) :
제품, 엔지니어링 팀과 결합해서 영화 , TV show, artwork 등에 대하여 개인 맞춤 알고리즘을 최적화 합니다. - UI 데이터 사이언스:
사용자 맞춤 머신러닝 모델에 대하여 유저가 경험하는 제품에 대하여 최적화를 합니다. - 제품 연구 및 툴링(Tooling):
메소드에 대한 개발과 실행을 담당합니다. 데이터 시각화 프레임워크, 툴, 분석 프로그램등 다른 팀에 대하여 insight를 제공하기 위한 프로그램을 개발합니다. - Growth 데이터 사이언스와 엔지니어링:
소비자에게 전달하는 데이터 파이프라인을 구축하고 정제하는 역할을 합니다. - 마케팅 데이터 사이언스 엔지니어링:
주주에게 의미있고 신뢰할 수 있는 데이터 파이프라인을 제공하기 위한 데이터 제품을 만듭니다.
넷플릭스에서 어떤 질문을 하는가?
- 스트리밍에서 A/B 테스팅에 대해서 말할 수 있는 것은?
- L1 과 L2 regularization의 차이점은? 왜 L 0.5 Regularization은 없는가?
- online 과 batch gradient descent 의 차이점은 무엇인가?
- stakeholder 와 ML 결과물에 대해서 소통하는 가장 좋은 방법은 무엇인가?
- 로지스틱 리그레션을 사용한 Classifier를 세우기 위한 수식을 쓰시오.
- 계정 아이디, 기기 아이디, 지급에 대한 메타데이터가 주어졌을 때. 지급 사기를 검출할 수 있는 방법은?
- 새로운 컨텐츠에 대하여 추천하는 모델을 세우는 방법은? 어떤 metrics 이 중요한가?
- 두 개의 사건에 대해서 시간 차이를 구하는 SQL 쿼리를 작성하시오
- 두 유저의 영화/TV 쇼에 대한 선호 리스트가 주어졌을 때, test metric을 세우는 방법은?
- 5백만 데이터에서 search 쿼리에 대한 샘플을 세우는 방법은?
- Rectified Linear Unit 이 좋은 활성 함수인 이유는 무엇인가?
- 넷플릭스가 아시아로 확장한다면, 아시아 시장을 평가할 수 있는 요소(factor)는 무엇인가?
- 시장의 영향력을 측정하기 위해서 평가모델을 세우는 방법은?
- 넷플릭스 구독이 가격에 의해 결정된다는 것을 어떻게 확인할 수 있는가?