[본캠프] 데이터기반 QA/QC 부트캠프 28일차

내일배움캠프

[본캠프] 데이터기반 QA/QC 부트캠프 28일차

min0jun 2026. 6. 19. 20:48

1. 오늘 학습 목표

2. 오늘 학습 한 내용

오늘 학습한 내용

오늘은 통계학에서 중요한 개념인 모집단과 표본, 그리고 표본오차와 신뢰구간에 대해 학습했다.

처음에는 모집단과 표본이라는 단어가 그냥 통계에서 나오는 기본 용어 정도로 느껴졌는데, 내용을 보다 보니 데이터 분석에서 꽤 중요한 출발점이라는 생각이 든다.

결국 우리가 데이터를 분석할 때 항상 전체 데이터를 다 가지고 있는 것은 아니다.
그래서 전체를 전부 조사하지 못할 때, 일부 데이터를 뽑아서 전체를 추정하는 방식이 필요하다.

모집단은 전체, 표본은 그 전체 중에서 뽑은 일부라고 생각하면 된다.

1. 모집단과 표본

모집단이란?

모집단은 관심의 대상이 되는 전체 집단을 의미한다.

예를 들어 한 국가의 모든 성인을 대상으로 조사하고 싶다면, 그 국가의 모든 성인이 모집단이 된다.

즉, 내가 알고 싶은 전체 대상이 모집단이다.

표본이란?

표본은 모집단에서 추출한 일부를 의미한다.

예를 들어 한 국가의 모든 성인을 전부 조사하기 어렵기 때문에, 그중 일부 사람들만 뽑아서 조사한다면 그 일부가 표본이 된다.

처음에는 그냥 전체를 다 조사하면 되는 거 아닌가 싶을 수 있다.
하지만 현실에서는 시간, 비용, 접근성 문제 때문에 모든 데이터를 수집하기가 어렵다.

그래서 통계에서는 표본을 통해 모집단의 특성을 추정하는 방식을 많이 사용한다.

2. 왜 표본을 사용할까?

표본을 사용하는 이유는 크게 현실적인 제약, 대표성, 데이터 관리 측면에서 생각할 수 있다.

먼저 전체 모집단을 모두 조사하는 것은 비용과 시간이 많이 든다.
예를 들어 전국의 모든 사람을 대상으로 설문조사를 한다고 생각하면, 현실적으로 조사 비용도 크고 시간도 오래 걸린다.

또 모든 데이터를 수집하는 것이 물리적으로 불가능한 경우도 많다.
특정 질병에 걸린 모든 환자의 데이터를 수집하거나, 모든 소비자의 구매 성향을 직접 조사하는 것은 쉽지 않다.

그래서 모집단 전체를 조사하는 대신, 일부 표본을 뽑아 분석한다.

다만 아무 표본이나 뽑으면 안 된다.
표본이 모집단의 특성을 잘 반영해야 의미 있는 분석이 가능하다.

표본에서 가장 중요한 것은 대표성이다.

표본이 모집단을 잘 대표하지 못하면, 표본을 분석해도 전체를 제대로 설명하기 어렵다.
그래서 무작위 추출처럼 편향을 줄일 수 있는 방법이 중요하다.

3. 전수조사와 표본조사

전수조사는 모집단 전체를 조사하는 방법이다.

전체를 다 보기 때문에 가장 정확할 것 같지만, 모집단의 크기가 크면 비용과 시간이 많이 든다.
그래서 현실에서는 전수조사가 항상 좋은 방법이라고 보기는 어렵다.

표본조사는 모집단 중 일부만 조사하는 방법이다.

표본조사는 전수조사보다 비용과 시간이 적게 들고, 데이터 처리도 비교적 쉽다.
하지만 표본이 대표성을 가져야 한다는 조건이 중요하다.

쉽게 말하면 전수조사는 전체를 다 보는 방법이고, 표본조사는 일부를 보고 전체를 추정하는 방법이다.

현실적인 데이터 분석에서는 표본조사가 자주 사용된다.

4. 모집단과 표본 실습

이번 실습에서는 정규분포를 따르는 모집단 데이터를 만들고, 그중 일부를 표본으로 추출했다.

import numpy as np
import matplotlib.pyplot as plt

# 모집단 생성
population = np.random.normal(170, 10, 1000)

# 표본 추출
sample = np.random.choice(population, 100)

plt.hist(population, bins=50, alpha=0.5, label='population', color='blue')
plt.hist(sample, bins=50, alpha=0.5, label='sample', color='red')

plt.legend()
plt.title('population and sample distribution')
plt.show()

코드 설명

np.random.normal(170, 10, 1000)은 평균이 170이고 표준편차가 10인 정규분포 데이터를 1000개 만든다.

여기서는 모집단을 국가의 모든 성인 키 데이터처럼 가정한 것이다.

np.random.choice(population, 100)은 모집단에서 100개의 데이터를 무작위로 추출한다.

이렇게 추출된 데이터가 표본이다.

plt.hist()는 히스토그램을 그리는 함수다.
여기서는 모집단과 표본의 분포를 한 그래프에 함께 나타낸다.

alpha는 투명도를 의미한다.
두 히스토그램을 겹쳐서 볼 때 투명도를 주면 분포를 비교하기 쉽다.

실습 정리

그래프를 보면 모집단은 데이터 수가 많기 때문에 더 넓고 부드러운 분포를 가진다.
반면 표본은 일부 데이터만 뽑은 것이기 때문에 모집단과 완전히 똑같지는 않다.

그래도 표본이 잘 뽑히면 모집단의 전체적인 분포와 비슷한 모습을 보인다.

이 부분을 보면서 표본이 왜 중요한지 조금 더 이해된다.
표본은 전체를 다 보지 않고도 전체의 특징을 추정하게 해주는 역할을 한다.

표본은 작지만, 모집단을 잘 대표해야 의미가 있다.

5. 표본오차

표본오차는 표본에서 계산된 값과 모집단의 실제 값 사이의 차이를 의미한다.

예를 들어 모집단의 실제 평균 키가 170cm인데, 표본에서 계산한 평균 키가 168cm라면 차이가 발생한다.
이 차이가 표본오차라고 볼 수 있다.

표본오차가 발생하는 이유는 표본이 모집단을 완벽하게 대표하지 못하기 때문이다.

아무리 표본을 잘 뽑아도 일부만 조사하기 때문에 모집단과 완전히 같을 수는 없다.
그래서 표본을 이용해 분석할 때는 항상 오차 가능성을 생각해야 한다.

표본오차를 줄이는 방법은 크게 두 가지다.

첫 번째는 표본 크기를 늘리는 것이다.
표본이 많아질수록 모집단을 더 잘 대표할 가능성이 높아진다.

두 번째는 무작위 추출을 사용하는 것이다.
모집단의 모든 대상이 뽑힐 가능성을 공정하게 가져야 편향을 줄일 수 있다.

표본 크기가 커질수록 표본오차는 작아지는 경향이 있다.

6. 신뢰구간

신뢰구간은 모집단의 평균이나 비율 같은 값을 추정할 때, 그 값이 포함될 것으로 기대되는 범위를 의미한다.

예를 들어 어떤 표본을 조사했더니 평균 점수가 75점이라고 해보자.
하지만 이 75점이 모집단의 진짜 평균이라고 단정할 수는 없다.

그래서 평균이 어느 정도 범위 안에 있을 것이라고 추정하는데, 이 범위가 신뢰구간이다.

신뢰구간은 보통 다음과 같은 형태로 생각할 수 있다.

신뢰구간 = 표본평균 ± z값 × 표준오차

95% 신뢰수준에서는 보통 z값으로 1.96을 사용한다.

처음에는 신뢰구간이라는 말이 조금 어렵게 느껴진다.
그런데 쉽게 생각하면 “진짜 평균이 이 범위 안에 있을 가능성이 높다”라고 보는 것이다.

신뢰구간은 표본으로 모집단을 추정할 때, 그 추정값을 얼마나 믿을 수 있는지 보여주는 범위다.

7. 신뢰구간 실습

이번 실습에서는 표본 평균과 표본 표준편차를 계산하고, 이를 바탕으로 95% 신뢰구간을 구했다.

import numpy as np
import scipy.stats as stats

# 표본 평균과 표본 표준편차 계산
sample_mean = np.mean(sample)
sample_std = np.std(sample)

# 95% 신뢰구간 계산
conf_interval = stats.t.interval(
    0.95,
    len(sample) - 1,
    loc=sample_mean,
    scale=sample_std / np.sqrt(len(sample))
)

print(f"표본 평균: {sample_mean}")
print(f"95% 신뢰구간: {conf_interval}")

코드 설명

np.mean(sample)은 표본의 평균을 계산한다.

np.std(sample)은 표본의 표준편차를 계산한다.

stats.t.interval()은 t분포를 이용해 신뢰구간을 계산하는 함수다.

0.95는 95% 신뢰수준을 의미한다.

len(sample) - 1은 자유도다.
보통 표본 크기에서 1을 뺀 값을 사용한다.

loc=sample_mean은 신뢰구간의 중심을 표본 평균으로 설정한다는 의미다.

scale=sample_std / np.sqrt(len(sample))은 표준오차를 의미한다.
표본 표준편차를 표본 크기의 제곱근으로 나누어 계산한다.

실습 정리

신뢰구간을 계산하면 단순히 표본 평균 하나만 보는 것보다 더 안정적으로 모집단을 추정할 수 있다.

표본 평균만 보면 하나의 숫자만 나오지만, 신뢰구간을 보면 실제 모집단 평균이 어느 범위 안에 있을지 함께 확인할 수 있다.

그래서 데이터 분석에서는 평균만 보는 것보다, 그 평균이 얼마나 신뢰할 수 있는지도 같이 보는 것이 중요하다.

표본 평균은 하나의 추정값이고, 신뢰구간은 그 추정값의 불확실성을 함께 보여준다.

오늘 학습 정리

오늘 배운 내용을 정리하면 다음과 같다.

모집단은 관심의 대상이 되는 전체 집단이다.

표본은 모집단에서 추출한 일부 데이터다.

전수조사는 모집단 전체를 조사하는 방법이다.

표본조사는 모집단 중 일부를 조사해 전체를 추정하는 방법이다.

표본을 사용하는 이유는 비용, 시간, 접근성, 데이터 처리 문제 때문이다.

표본오차는 표본 통계량과 모집단의 실제 값 사이의 차이다.

표본 크기가 커질수록 표본오차는 줄어드는 경향이 있다.

신뢰구간은 모집단의 실제 값이 포함될 것으로 예상되는 범위다.

오늘 내용의 핵심은 전체를 다 볼 수 없을 때, 일부 표본을 통해 전체 모집단을 추정하는 방법을 이해하는 것이다.

나의 간단 소감

- 오늘은 모집단과 표본, 표본오차와 신뢰구간에 대해 학습했다.

처음에는 모집단은 전체, 표본은 일부라는 정도로만 생각했는데, 생각보다 이 개념이 통계 분석에서 중요한 기준이 된다.

실제 데이터 분석에서는 모든 데이터를 다 가지고 있는 경우보다, 일부 데이터만 가지고 전체를 추정해야 하는 경우가 많다.
그래서 표본이 모집단을 잘 대표하는지, 표본오차가 얼마나 발생할 수 있는지를 생각하는 것이 중요하다.

표본은 단순히 일부 데이터가 아니라, 전체를 추정하기 위한 근거가 되는 데이터다.

또 신뢰구간을 배우면서 평균 하나만 보는 것이 항상 충분하지 않다는 것도 느껴진다.

평균은 데이터를 대표하는 값이지만, 그 평균이 얼마나 믿을 만한지까지는 알려주지 않는다.
그래서 신뢰구간처럼 추정값의 범위를 함께 보는 것이 필요하다.

처음에는 신뢰구간이라는 말이 어렵게 느껴졌지만, 결국 “진짜 값이 있을 만한 범위”라고 생각하니 조금 이해가 쉽다.

오늘 내용은 앞으로 가설검정이나 t검정 같은 내용을 배울 때도 계속 이어질 것 같다.
통계는 단순히 계산하는 과목이라기보다, 불확실한 데이터를 가지고 얼마나 합리적으로 판단할 수 있는지를 배우는 과정에 가깝다.

앞으로 데이터를 분석할 때는 평균이나 결과값만 보는 것이 아니라, 그 값이 어떤 표본에서 나왔고 얼마나 신뢰할 수 있는지도 함께 생각해야겠다.

'내일배움캠프' 카테고리의 다른 글

[본캠프] 데이터기반 QA/QC 부트캠프 31일차 (0)	2026.06.24
[본캠프] 데이터기반 QA/QC 부트캠프 30일차 (1)	2026.06.23
[본캠프] 데이터기반 QA/QC 부트캠프 26~27일차 (0)	2026.06.17
[본캠프] 데이터기반 QA/QC 부트캠프 25일차 (1)	2026.06.16
[본캠프] 데이터기반 QA/QC 부트캠프 24일차 (1)	2026.06.15

현재글[본캠프] 데이터기반 QA/QC 부트캠프 28일차

min0jun 님의 블로그

min0jun 님의 블로그 입니다.

Today :
Yesterday :

min0jun 님의 블로그