내일배움캠프

[본캠프] 데이터기반 QA/QC 부트캠프 7일차

min0jun 2026. 5. 19. 23:13

1. 오늘 학습 목표

- 데이터 리터러시란?
- 데이터 분석 파이썬 종합반

 

2. 오늘 학습 한 내용

파이썬 복습

이미 많이 배웠던 내용이라 새로 알았던 내용만 적고 넘어가기
(중복된 내용을 여기에 적으면 나중에 다시 찾아볼때 헷갈릴까봐 중복은 적지 않겠음)

 

  • Colab 기준 단축키

단축키

 

  • 슬라이싱
# 리스트 슬라이싱의 구분
# 아래는 실행하는 코드가 아닙니다
new_list = old_list[start:end:step]

 

다만, 슬라이싱을 할 때, 끝에 입력할 인덱스는 내가 선택할 인덱스보다 +1을 해주어야 함.

my_list = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]

# 1. 일부분만 추출하기
print(my_list[2:5])   # 출력: [3, 4, 5]

# 2. 시작 인덱스 생략하기 (처음부터 추출)
print(my_list[:5])    # 출력: [1, 2, 3, 4, 5]

# 3. 끝 인덱스 생략하기 (끝까지 추출)
print(my_list[5:])    # 출력: [6, 7, 8, 9, 10]

# 4. 음수 인덱스 사용하기 (뒤에서부터 추출)
print(my_list[-3:])   # 출력: [8, 9, 10]

# 5. 간격 설정하기 (특정 간격으로 추출)
print(my_list[1:9:2]) # 출력: [2, 4, 6, 8]

# 6. 리스트 전체를 복사하기
copy_of_list = my_list[:]
print(copy_of_list)   # 출력: [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]

# 7. 리스트를 거꾸로 뒤집기
reversed_list = my_list[::-1]
print(reversed_list)  # 출력: [10, 9, 8, 7, 6, 5, 4, 3, 2, 1]

 

  • 튜플이란?
    변경할 수 없는 시퀀스 자료형으로, 여러 개의 요소를 저장하는 컨테이너이다. 리스트와 유일하지만 한번 생성되면 변경이 불가능하여 데이터를 보호하고 싶을 때 주로 사용한다.
my_tuple = (1, 2, 3, 'hello', 'world')

print(my_tuple[0])      # 첫 번째 요소에 접근
print(my_tuple[-1])     # 마지막 요소에 접근
print(my_tuple[2:4])    # 인덱스 2부터 3까지의 요소를 슬라이싱

 

데이터 리터러시

1. 데이터 리터러시란?

데이터 리터러시는 데이터를 단순히 다루는 기술이 아니라, 데이터를 읽고, 이해하고, 비판적으로 분석하고, 결과를 의사소통에 활용하는 능력이다.
즉 SQL, Python, Tableau 같은 도구를 잘 쓰는 것보다 먼저 “무엇을 알고 싶은가?”, “왜 분석하는가?”를 명확히 하는 능력이 중요하다.

데이터 분석은 보통 다음 흐름으로 진행된다.

문제 및 가설 정의 → 데이터 분석 → 결과 해석 및 액션 도출

이 중에서 특히 문제 정의결과 해석 단계는 단순 작업보다 사고력이 더 중요하다.


2. 데이터 분석에서 조심해야 할 오류

데이터가 있다고 해서 항상 올바른 결론이 나오는 것은 아니다. 대표적인 오류는 다음과 같다.

1) 심슨의 역설

전체 데이터에서는 A가 좋아 보이지만, 집단을 나누어 보면 반대 결과가 나올 수 있다.
예를 들어 전체 치명률만 보면 백신 접종자의 치명률이 높아 보였지만, 연령대별로 나누어 보면 50세 이상 집단에서는 미접종자의 치명률이 훨씬 높게 나타났다.  

핵심:
전체 평균만 보고 판단하지 말고,
집단별로 나누어 해석해야 한다.

2) 시각화 왜곡

같은 데이터라도 그래프 축, 로그 변환, 기준값 설정 방식에 따라 전혀 다르게 보일 수 있다.
그래프를 볼 때는 축, 단위, 기준점, 표현 방식을 반드시 확인해야 한다.

3) 샘플링 편향

표본이 전체를 대표하지 못하면 분석 결과가 왜곡된다.
1936년 미국 대선 여론조사 사례처럼 응답 수가 많아도 표본이 특정 계층에 치우치면 예측이 틀릴 수 있다.  

4) 상관관계와 인과관계 혼동

두 데이터가 함께 움직인다고 해서 한쪽이 다른 쪽의 원인이라고 단정하면 안 된다.
아이스크림 판매량과 특정 질병 발생률이 함께 증가해도, 실제 원인은 여름이라는 공통 변수일 수 있다.


3. 문제 정의가 중요한 이유

데이터 분석이 실패하는 가장 큰 이유 중 하나는 풀고자 하는 문제를 명확하게 정의하지 않기 때문이다.  

예를 들어 “매출을 늘리고 싶다”는 너무 모호하다.
더 좋은 문제 정의는 다음과 같다.

“지난 6개월 동안 25~35세 여성 고객층의 구매 전환율이 2%로 감소했다. 이를 5%까지 높이기 위해 어떤 마케팅 전략이 필요한가?”

좋은 문제 정의는 다음 조건을 가진다.

  • 대상이 명확하다.
  • 기간이 명확하다.
  • 현재 상태와 목표 상태가 있다.
  • 분석 방향을 정할 수 있다.

4. 문제를 구조화하는 방법

MECE

MECE는 문제를 중복 없이, 빠짐없이 나누는 방식이다.
문제를 체계적으로 쪼개야 어떤 부분을 분석해야 할지 명확해진다.

잘못된 분류 예시는 다음과 같다.

  • 사람: 남성, 여성, 아저씨 → 남성과 아저씨가 중복됨
  • 자동차: SUV, 세단, 쿠페, 현대차 → 차종과 브랜드가 섞임
  • 영화 장르: 액션, 스릴러, 공포 → 멜로, 코미디 등 누락됨

로직트리

로직트리는 큰 문제를 작은 하위 문제로 나누는 도구이다.
예를 들어 수익성 개선은 크게 다음처럼 나눌 수 있다.

수익성 개선 = 매출 증가 + 비용 감소

매출 증가는 다시 신규 고객 증가, 기존 고객 매출 증가 등으로 나눌 수 있다.
이렇게 구조화하면 막연한 문제가 분석 가능한 문제로 바뀐다.


5. 데이터의 유형

데이터는 크게 정성적 데이터정량적 데이터로 나뉜다.  

구분설명예시

정성적 데이터 사람의 경험, 의견, 태도처럼 수치화되지 않은 데이터 리뷰, 인터뷰, 고객 의견
정량적 데이터 숫자로 표현되어 측정과 분석이 가능한 데이터 매출, 방문자 수, 구매 금액, 전환율

정성적 데이터도 필요에 따라 수치화할 수 있다.
예를 들어 만족도 설문에서 “매우 만족=5점, 만족=4점”처럼 변환하면 정량 분석에 활용할 수 있다.


6. 지표 설정

지표는 특정 목표나 성과를 측정하기 위한 구체적이고 측정 가능한 기준이다.
문제 정의가 “무엇을 풀 것인가?”라면, 지표 설정은 “어떤 결과를 기대하는가?”를 정량화하는 과정이다.

예시:

목표애매한 표현좋은 지표

날씬해지기 날씬함 BMI, 체지방률
사용자 성장 방문자 수 증가 재방문율, 구매 전환율, 평균 객단가
광고 반응 개선 반응이 적다 유입 수, 클릭률, 매출, 문의 수

중요한 것은 지표가 단순히 숫자로 측정 가능해야 할 뿐 아니라, 목표와 직접 연결되어야 한다는 점이다.


7. 주요 지표 정리

1) Active User

활성 유저는 서비스에서 의미 있는 행동을 한 사용자를 뜻한다.
단순 방문자를 활성 유저로 볼 수도 있고, 구매나 신청까지 완료한 사람을 활성 유저로 볼 수도 있다. 기준에 따라 숫자와 전략이 달라진다.

2) Retention

리텐션은 사용자가 다시 서비스를 이용하는 비율이다.
리텐션이 높다는 것은 고객이 서비스를 반복적으로 사용한다는 뜻이며, 서비스 성장에 매우 중요한 지표다.

대표 방식은 다음과 같다.

  • N-Day 리텐션: 특정 N일차에 다시 방문한 비율
  • Unbounded 리텐션: 특정 날짜 이후 한 번이라도 재방문한 비율
  • Bracket 리텐션: 특정 기간 구간 안에 재방문한 비율

서비스 사용 주기가 짧으면 N-Day, 사용 주기가 길면 Unbounded나 Bracket 방식이 더 적합할 수 있다.

3) Funnel

퍼널은 사용자가 최종 목표 행동까지 가는 과정을 단계별로 나누어 보는 방식이다.
예를 들어 다음처럼 볼 수 있다.

유입 → 상품 조회 → 장바구니 → 결제 → 재구매

각 단계의 전환율을 보면 사용자가 어디서 이탈하는지 확인할 수 있다.

4) LTV

LTV는 고객 한 명이 서비스 이용 기간 동안 만들어내는 총가치이다.
LTV가 높으면 고객 충성도와 수익성이 좋다는 의미다.

대표적으로 다음 방식으로 계산할 수 있다.

평균 구매 단가 × 구매 빈도 × 구매 기간

단, LTV는 서비스마다 계산 방식이 달라서 절대 공식보다 왜 이 지표를 쓰는지가 더 중요하다.

5) 북극성 지표

북극성 지표는 서비스의 핵심 성공을 나타내는 가장 중요한 지표이다.
좋은 북극성 지표는 사용자가 느끼는 핵심 가치와 사업 성장을 동시에 반영해야 한다.

예를 들어 온라인 교육 플랫폼이라면 “평균 완강률”이 북극성 지표가 될 수 있다.
완강률이 높다는 것은 사용자가 실제로 학습 가치를 얻고 있다는 의미이기 때문이다.


8. 결과와 결론의 차이

데이터 분석에서 결과결론은 다르다.  

구분의미

결과 분석을 통해 나온 숫자, 그래프, 통계
결론 결과를 바탕으로 도출한 의미, 해석, 액션

예를 들어 “금요일 판매량이 다른 요일보다 15% 높다”는 결과이다.
이를 바탕으로 “금요일 저녁 시간대에 프로모션을 강화하면 판매량 증가에 도움이 될 수 있다”는 결론이다.

결론을 낼 때는 데이터에 없는 내용을 억지로 끼워 넣으면 안 된다.
예를 들어 “대구 지점 판매가 낮은 이유는 경쟁사 때문”이라고 말하려면 경쟁사 관련 데이터가 있어야 한다.


9. 결론을 잘 정리하는 방법

결론을 정리할 때는 다음 흐름이 좋다.

  1. 전체 내용을 한 문장으로 요약
  2. 분석 주제 설명
  3. 왜 이 분석을 했는지 설명
  4. 문제 정의
  5. 핵심 결과
  6. 결론 및 액션 아이템

결론 보고서에서는 화려한 그래프보다 막대그래프, 선그래프처럼 직관적인 시각화가 더 효과적이다.
또한 그래프에는 반드시 단위, 범례, 기준을 표시해야 한다.


최종 정리

데이터 리터러시는 단순히 데이터를 분석하는 기술이 아니다.
핵심은 다음 5가지다.

  • 왜 분석하는지 먼저 정의하기
  • 문제를 구체적이고 측정 가능하게 만들기
  • 데이터를 볼 때 편향과 오류 가능성을 의심하기
  • 목표에 맞는 지표를 설정하기
  • 결과에서 끝내지 말고 결론과 액션까지 도출하기

 

Tip. 코랩에서 Ctrl + M + Z 하면 전체 행동 되돌리기, -는 실제론 잘 안쓰임

 

나의 간단 소감

- 데이터 리터러시를 처음 들어봐서 그런가 너무 유익한 내용이 많았다. 시간적 여유가 있으면 나중에 다시 듣고 싶다.