[Lean Analytics] Chapter 4. Data-Driven Versus Data-Informed
이 글은 Lean Analytics 책을 읽은 후, 요약하기 위해 작성되었습니다. ‘불특정 다수에게 공유’하기 위한 목적보다는 ‘개인적인 학습’과 ‘가까운 동료들과 토론’하기 해 작성되었습니다.
모든 것을 데이터에 의존하는 방향이 아니라, 데이터를 활용하는 방향이 되어야한다. 정량적인 데이터는 가설을 검증하기에 적절하지만, 인간의 통찰력과 결합하지 않으면 새로운 것을 만들 수 없다.
LinkedIn의 데이터 분석가 Monica Rogati는 스타트업이 데이터를 다룰 때 겪을 수 있는 일반적인 10가지 함정을 이야기한다.
10가지 함정
- 데이터가 깨끗하다는 가정. 데이터에 대한 작업 대부분은 데이터 전처리 과정이다. 확보한 데이터의 30% 이상이 null은 아닌가? 혹은 많은 사용자가 1900년에 태어나지는 않았는가? 데이터가 유효하고 유용한지 먼저 확인해라.
- 정규화하지 않음. 가장 인기있는 결혼식 장소 목록을 작성한다고 가정해보자. 당신은 단순히 결혼식을 목적으로 비행기를 이용하는 사람 수를 셀 수도 있다. 하지만, 해당 비행기를 이용하는 총 사람 수를 고려하지 않는다면 해당 결과는 단순히 인기있는 도시가 될 것이다.
- 데이터 이상치 제외. 하루에 천 번이상 당신의 서비스를 이용하는 사용자가 21명이 있다. 이들은 당신의 서비스의 굉장한 팬이거나 당신의 서비스를 크롤링하는 봇(bot)일 수도 있다. 이상치를 제외하면 실수가 발생할 수 있다.
- 데이터 이상치 포함. 하루에 천 번 이상 당신의 서비스를 이용하는 사용자가 실제 사용자라면, 질적 관점에서는 흥미로울 수 있다. 하지만, 일반적인 모델을 수립할 때 그들의 관점을 적용한다면, 예상하지 못한 결과를 얻을 수 있다.
- 정기적 변동 무시. 데이터의 패턴을 볼 때 시간, 요일, 월별 변경을 고려하지 않는다면 잘못된 의사 결정을 할 수 있다.
- 성장 보고시, 규모 무시.
- 과잉 데이터. 대시보드에 정보가 너무 많고, 무엇을 확인해야 하는지 혹은 어디로 가야하는지 모르겠다면 그 대시보드는 의미가 없다.
- 과잉 지표. 무언가 잘못된 것을 빠르게 알아채기 위해 많은 알림을 설정할 수 있다. 하지만 임계값이 필요 이상으로 민감하게 설정되면 너무 빈번한 알림으로 결국 무시하게 된다.
- “여기서 수집된 것 아님” 증후군. 우리 서비스에서 발생한 데이터가 아니더라도, 다른 서비스의 데이터와 함께 정리하면 다음 실험 혹은 성장 전략에 좋은 아이디어를 얻을 수 있다.
- 노이즈에 집중.
Rather than be a slave to the data, we should be data-informed, not data-driven. Quantitative data is great for testing hypotheses, but it’s lousy for generating new ones unless combined with human insights.
Monica Rogati, a data scientist at LinkedIn, gave us the following 10 common pitfalls that entrepreneurs should avoid as they dig into the data their startups capture.
10 common pitfalls
- Assuming the data is clean. Cleaning the data you capture is often most of the work. Is an instrumentation bug causing 30% of your numbers to be null? Do you really have that many users born in 1900? Check your data at the door to be sure it’s valid and useful.
- Not normalizing. Let’s say you’re making a list of popular wedding destinations. You could count the number of people flying in for a wedding, but unless you consider the total number of air travellers coming to that city as well, you’ll just get a list of cities with busy airports.
- Excluding outliers. Those 21 people using your product more than a thousand times a day are either you biggest fans, or bots crawling your site for content. Whichever they are, ignoring them would be a mistake.
- Including outliers. While those 21 people using your product a thousand times a day are interesting from a qualitative perspective, because they can show you things you didn’t expect, they’re not good for building a general model.
- Ignoring seasonality. Failure to consider time of day, day of week, and monthly changes when looking at patterns leads to bad decision making.
- Ignoring size when reporting growth.
- Data vomit. A dashboard isn’t much use if you don’t know where to look.
- Metrics that cry wolf. You want to be responsive, so you set up alerts to let you know when something is awry in order to fix it quickly. But if your thresholds are too sensitive, they get “whiny” — and you will start to ignore them.
- The “Not Collected Here” syndrome. Mashing up your data with data from other sources can lead to valuable insights.
- Focusing on noise.