1. 오늘 학습 목표

2. 오늘 학습 한 내용
오늘 학습한 내용
오늘은 통계학 기초와 머신러닝 기초를 함께 학습했다.
처음에는 통계학과 머신러닝이 서로 다른 내용처럼 느껴졌는데, 정리해보니 두 개념은 자연스럽게 연결된다.
통계학은 데이터를 이해하고 해석하기 위한 기본기이고, 머신러닝은 데이터를 바탕으로 패턴을 학습해 예측이나 분류를 수행하는 방법이다.
결국 데이터 분석을 잘하려면 통계학으로 데이터를 이해하고, 머신러닝으로 데이터의 패턴을 활용할 수 있어야 한다.
1. 통계학 기초
1-1. 데이터 분석에서 통계가 중요한 이유
데이터 분석에서 통계는 데이터를 이해하고 해석하는 데 중요한 역할을 한다.
데이터를 단순히 모아두기만 하면 의미 있는 판단을 내리기 어렵다.
하지만 통계를 활용하면 데이터를 요약하고, 패턴을 찾고, 이를 바탕으로 의사결정을 할 수 있다.
예를 들어 고객 만족도 설문조사를 분석하면 고객의 불만 사항을 파악할 수 있다.
또 고객을 유형별로 나누면 각 고객군에 맞는 상품 추천이나 마케팅 전략을 세울 수도 있다.
통계는 데이터를 보고 “그래서 무엇을 해야 하는가?”를 판단할 수 있게 도와주는 도구다.
1-2. 기술통계와 추론통계
통계는 크게 기술통계와 추론통계로 나눌 수 있다.
기술통계는 현재 가지고 있는 데이터를 요약하고 설명하는 방법이다.
대표적으로 평균, 중앙값, 분산, 표준편차 등이 있다.
평균은 전체 데이터를 더한 뒤 데이터 개수로 나눈 값이다.
중앙값은 데이터를 크기 순서대로 정렬했을 때 가운데에 위치한 값이다.
분산과 표준편차는 데이터가 평균에서 얼마나 퍼져 있는지 확인할 때 사용한다.
즉, 기술통계는 데이터를 한눈에 파악하기 위해 대표값으로 정리하는 과정이다.
반면 추론통계는 일부 데이터를 바탕으로 전체 모집단을 추정하는 방법이다.
대표적으로 신뢰구간과 가설검정이 있다.
전체 데이터를 모두 확인하기 어려울 때, 표본 데이터를 이용해 전체의 특성을 추정하거나 어떤 가설이 맞는지 판단한다.
기술통계는 데이터를 설명하는 데 초점이 있고, 추론통계는 일부 데이터를 바탕으로 전체를 추정하는 데 초점이 있다.
1-3. 다양한 분석 방법
통계 분석에는 여러 방법이 있다.
먼저 위치추정은 데이터의 중심을 확인하는 방법이다.
대표적으로 평균과 중앙값을 사용한다.
import numpy as np
data = [85, 90, 78, 92, 88, 76, 95, 89, 84, 91]
mean = np.mean(data)
median = np.median(data)
print(f"평균: {mean}, 중앙값: {median}")
다음으로 변이추정은 데이터가 얼마나 퍼져 있는지 확인하는 방법이다.
대표적으로 분산, 표준편차, 범위가 있다.
variance = np.var(data)
std_dev = np.std(data)
data_range = np.max(data) - np.min(data)
print(f"분산: {variance}, 표준편차: {std_dev}, 범위: {data_range}")
분포를 확인할 때는 히스토그램이나 박스플롯을 사용할 수 있다.
히스토그램은 값들이 어느 구간에 많이 몰려 있는지 보여주고, 박스플롯은 중앙값, 사분위수, 이상치 등을 확인할 때 유용하다.
import matplotlib.pyplot as plt
plt.hist(data, bins=5)
plt.title('histogram')
plt.show()
plt.boxplot(data)
plt.title('boxplot')
plt.show()
또한 두 변수 사이의 관계를 보고 싶을 때는 상관관계를 확인한다.
상관계수는 -1에서 1 사이의 값을 가지며, 1에 가까우면 양의 상관관계, -1에 가까우면 음의 상관관계가 강하다고 볼 수 있다.
study_hours = [10, 9, 8, 7, 6, 5, 4, 3, 2, 1]
exam_scores = [95, 90, 85, 80, 75, 70, 65, 60, 55, 50]
correlation = np.corrcoef(study_hours, exam_scores)[0, 1]
print(f"공부 시간과 시험 점수 간의 상관계수: {correlation}")
plt.scatter(study_hours, exam_scores)
plt.show()
다만 상관관계가 있다고 해서 무조건 인과관계가 있는 것은 아니다.
예를 들어 아이스크림 판매량과 익사 사고 수가 함께 증가한다고 해서, 아이스크림이 익사 사고의 원인이라고 볼 수는 없다.
상관관계는 두 변수 사이의 관련성을 보여주지만, 원인과 결과를 바로 증명하는 것은 아니다.
2. 머신러닝 기초
2-1. 머신러닝이란?
머신러닝은 데이터를 기반으로 패턴을 학습하고, 그 패턴을 이용해 예측이나 분류를 수행하는 방법이다.
머신러닝과 함께 자주 나오는 개념으로는 AI, 딥러닝, 데이터 사이언스, 데이터 분석이 있다.
AI는 인간의 지능이 필요한 업무를 수행하기 위한 시스템이다.
머신러닝은 관측된 패턴을 기반으로 의사결정을 하기 위한 알고리즘이다.
딥러닝은 인공신경망을 이용한 머신러닝이다.
범위로 보면 AI 안에 머신러닝이 있고, 머신러닝 안에 딥러닝이 포함된다.
머신러닝이 발전한 이유는 사람이 데이터를 기반으로 더 나은 의사결정을 내리고 싶어하기 때문이다.
또한 데이터 저장 기술과 처리 기술이 발전하면서 대용량 데이터를 다룰 수 있게 된 것도 중요한 이유다.
머신러닝은 전체 데이터에서 패턴을 파악하고, 이를 바탕으로 예측과 분류를 수행하는 방법이다.
2-2. 머신러닝의 종류
머신러닝은 크게 지도학습, 비지도학습, 강화학습으로 나눌 수 있다.
지도학습은 정답이 있는 데이터를 가지고 학습하는 방법이다.
입력값과 정답을 함께 제공하고, 모델이 그 관계를 학습한다.
예측이나 분류 문제에 많이 사용된다.
예를 들어 집값 예측, 스팸 메일 분류, 불량품 분류 등이 지도학습에 해당한다.
비지도학습은 정답이 없는 데이터를 가지고 학습하는 방법이다.
모델이 데이터 안에 숨어 있는 패턴이나 구조를 스스로 찾는다.
대표적으로 군집화가 있다.
예를 들어 고객 데이터를 보고 비슷한 구매 패턴을 가진 고객군을 나누는 작업이 비지도학습에 해당한다.
강화학습은 보상을 통해 학습하는 방법이다.
모델이 어떤 행동을 했을 때 보상을 받으면 그 방향으로 학습하고, 보상이 낮으면 다른 방향을 탐색한다.
게임 AI나 로봇 제어 같은 분야에서 자주 사용된다.
지도학습은 정답을 보고 배우고, 비지도학습은 정답 없이 패턴을 찾고, 강화학습은 보상을 통해 더 나은 행동을 학습한다.
2-3. 선형회귀
선형회귀는 머신러닝에서 가장 기본이 되는 회귀분석 방법이다.
회귀분석은 숫자를 예측하는 문제에 사용된다.
예를 들어 몸무게를 보고 키를 예측하거나, 광고비를 보고 매출을 예측하는 방식이다.
선형회귀는 데이터의 관계를 가장 잘 설명하는 직선을 찾는 과정이라고 볼 수 있다.
예를 들어 키와 몸무게 데이터가 있다고 가정한다.
weights = [87, 81, 82, 92, 90, 61, 86, 66, 69, 69]
heights = [187, 174, 179, 192, 188, 160, 179, 168, 168, 174]
몸무게가 증가할수록 키도 어느 정도 증가하는 패턴이 있다면, 두 변수 사이에는 관계가 있다고 볼 수 있다.
이때 선형회귀는 이 점들을 가장 잘 설명하는 직선을 찾으려고 한다.
좋은 직선은 실제 데이터와 예측값의 차이, 즉 오차가 작은 직선이다.
실제 데이터 값 - 직선의 예측 값 = Error
하지만 오차는 양수와 음수가 섞일 수 있다.
그대로 더하면 서로 상쇄될 수 있기 때문에 보통 오차를 제곱해서 계산한다.
선형회귀는 결국 오차가 가장 작은 직선을 찾는 과정이다.
선형회귀 식은 다음과 같이 표현할 수 있다.
통계학에서는 보통 다음과 같이 표현한다.
Y = β0 + β1X + ε
머신러닝에서는 다음처럼 표현한다.
Y = wX + b
여기서 X는 독립 변수, Y는 종속 변수다.
w는 가중치이고, b는 편향이다.
결국 X값이 주어졌을 때 Y값을 예측하기 위해 가중치와 편향을 찾는 것이 선형회귀의 핵심이다.
예를 들어 몸무게와 키 데이터를 이용해 다음과 같은 식이 나왔다고 하면,
y = 0.86x + 109.37
몸무게가 1kg 증가할 때 키가 약 0.86cm 증가한다고 해석할 수 있다.
물론 모든 데이터를 완벽하게 설명할 수는 없다.
그래서 실제 값과 예측값 사이에는 항상 오차가 생길 수 있다.
머신러닝은 이 오차를 줄이는 방향으로 더 좋은 모델을 찾아가는 과정이라고 볼 수 있다.
오늘 학습 정리
오늘 배운 내용을 정리하면 다음과 같다.
통계학은 데이터를 이해하고 요약하고 해석하는 데 필요하다.
기술통계는 현재 데이터를 요약하는 방법이다.
추론통계는 표본을 통해 전체 모집단을 추정하는 방법이다.
상관관계는 두 변수 사이의 관련성을 보여주지만, 인과관계를 바로 의미하지는 않는다.
머신러닝은 데이터의 패턴을 학습해 예측이나 분류를 수행하는 방법이다.
머신러닝은 지도학습, 비지도학습, 강화학습으로 나눌 수 있다.
선형회귀는 숫자를 예측하는 가장 기본적인 머신러닝 방법이며, 오차가 가장 작은 직선을 찾는 과정이다.
통계학은 데이터를 이해하는 기반이고, 머신러닝은 그 데이터를 활용해 예측하는 방법이라는 점이 가장 크게 정리된다.
나의 간단 소감
- 오늘은 통계학과 머신러닝의 기초를 함께 학습했다.
처음에는 통계학과 머신러닝이 따로 떨어진 내용처럼 느껴졌는데, 정리하다 보니 두 개념이 꽤 자연스럽게 이어진다.
통계학은 데이터를 요약하고 해석하는 데 필요한 기본 도구이고, 머신러닝은 그 데이터를 바탕으로 패턴을 학습하고 예측하는 방법이다.
결국 머신러닝을 제대로 이해하려면 통계학 기본기가 먼저 필요하다는 생각이 든다.
특히 기술통계와 추론통계를 배우면서 데이터를 보는 관점이 조금 정리된다.
평균이나 표준편차처럼 단순해 보이는 값들도 데이터를 이해하는 데 중요한 역할을 한다.
또 상관관계와 인과관계의 차이도 중요하게 느껴진다.
두 값이 같이 움직인다고 해서 무조건 원인과 결과로 판단하면 안 된다.
데이터 분석을 할 때는 숫자가 보여주는 관계를 조심스럽게 해석해야 한다.
머신러닝에서는 AI, 머신러닝, 딥러닝의 차이를 정리한 부분이 좋았다.
평소에는 비슷하게 쓰이는 단어처럼 느껴졌는데, 실제로는 포함 관계가 다르다는 점이 명확해진다.
선형회귀는 생각보다 직관적인 개념이다.
결국 여러 데이터 점을 가장 잘 설명하는 직선을 찾는 과정이고, 그 기준은 오차를 얼마나 줄이느냐에 있다.
오늘 학습을 통해 통계학은 데이터를 이해하는 언어이고, 머신러닝은 그 데이터를 활용해 예측하는 방법이라는 흐름이 조금 잡힌다.
아직은 수식이나 용어가 한 번에 익숙해지지는 않지만, 기본 개념을 잡고 나면 이후에 배우는 모델들도 조금 더 이해하기 쉬울 것 같다.
앞으로는 단순히 코드를 따라 치는 것보다, 이 모델이 어떤 데이터를 보고 무엇을 예측하려는지 같이 생각하면서 학습해야겠다.
'내일배움캠프' 카테고리의 다른 글
| [본캠프] 데이터기반 QA/QC 부트캠프 30일차 (1) | 2026.06.23 |
|---|---|
| [본캠프] 데이터기반 QA/QC 부트캠프 28일차 (0) | 2026.06.19 |
| [본캠프] 데이터기반 QA/QC 부트캠프 25일차 (1) | 2026.06.16 |
| [본캠프] 데이터기반 QA/QC 부트캠프 24일차 (1) | 2026.06.15 |
| [본캠프] 데이터기반 QA/QC 부트캠프 23일차 (0) | 2026.06.12 |