내일배움캠프

[본캠프] 데이터기반 QA/QC 부트캠프 13일차

min0jun 2026. 5. 28. 18:11

1. 오늘 학습 목표

- 데이터 전처리 & 시각화, VSCODE 사용법


 

2. 오늘 학습 한 내용

2-1. 데이터 분석가란?

  • 비즈니스 분석가
  • 프로덕트 분석가
  • 데이터 분석가
  • BI 분석가
  • 데이터 사이언티스트
데이터를 분석하는 목적은 결국 설득이다.
설득을 하기위해 데이터를 잘 전달하고 그 방법 중 하나가 시각화이다.

 

설득의 예시

여기 보고서에서 가장 많은 체육활동과 3번째로 많은 체육활동이 뭔지 판단할 때, 둘 중에 어떤 보고서가 더 정보 전달이 잘될지를 고민해보면 데이터 전달 목적을 어떻게 잡느냐가 매우 중요해진다.

 

이로 인해, 데이터 전처리를 단순히 어떻게 해야 할지 고민하는것 보단 '무엇을 위해 ~한 형태의 데이터가 필요하다'라는 것을 먼저 정의할 필요가 있다.

1. 목표 설정하기 : 무엇을 위해 데이터 전처리와 시각화가 필요한 것인가?
2. 예상 산출물 정의하기 : 데이터 처리 및 시각화해서 나타날 예상 결과물은 무엇인가?
3. "As-is" VS "To-be" 생각하기 : 현재 문제와 상황이 무엇인지 인지하고 어떤식으로 개선할 것인지 생각하여 분석 뱡향 설정

 

2-2. Visual Studio Code 오류 없어 질때 까지 해결하기

더보기

① pandas 설치 오류

오류

[오류 메시지] ModuleNotFoundError: No module named ‘pandas’

원인

pandas가 현재 노트북 커널에 설치되어 있지 않았다.

해결

[실행 코드] %pip install pandas

설치 후 커널을 재시작했다.


② numpy 별칭 오류

오류

[오류 메시지] NameError: name ‘np’ is not defined

원인

np.nan을 사용했지만 numpy를 import하지 않았다.

해결

[실행 코드] import numpy as np


③ seaborn 별칭 오류

오류

[오류 메시지] NameError: name ‘sns’ is not defined

원인

seaborn을 sns라는 이름으로 import하지 않았거나, import 셀을 실행하지 않았다.

해결

[실행 코드] import seaborn as sns


④ matplotlib / seaborn 백엔드 오류

오류

[오류 메시지] ValueError: backend 관련 오류

원인

VS Code Jupyter 커널과 그래프 출력 설정이 꼬였다.

해결

VS Code 상단의 Restart로 커널을 재시작한 뒤 다시 실행했다.

[실행 코드] import matplotlib.pyplot as plt
[실행 코드] import seaborn as sns


⑤ seaborn 예제 데이터 SSL 오류

오류

[오류 메시지] SSLCertVerificationError
[오류 메시지] CERTIFICATE_VERIFY_FAILED

원인

sns.load_dataset(‘tips’)가 인터넷에서 데이터를 받아오는데, Mac Python 인증서 문제로 막혔다.

해결

Mac 터미널에서 인증서 설치 명령어를 실행했다.

[터미널 명령어] /Applications/Python\ 3.14/Install\ Certificates.command

그 후 VS Code 커널을 재시작했다.


⑥ openpyxl 오류

오류

[오류 메시지] ModuleNotFoundError: No module named ‘openpyxl’

원인

pandas로 엑셀 저장을 할 때 필요한 openpyxl 패키지가 없었다.

해결

[실행 코드] %pip install openpyxl


⑦ df 변수 오류

오류

[오류 메시지] NameError: name ‘df’ is not defined

원인

df라는 변수를 만든 적이 없는데 df.to_excel()을 실행했다.

해결

변수명을 맞춰서 사용했다.

[실행 코드] data.to_excel(“temp/tips_data.xlsx”, index=False)

또는 처음부터 df라는 변수명으로 만들었다.

[실행 코드] df = sns.load_dataset(‘tips’)
[실행 코드] df.to_excel(“temp/tips_data.xlsx”, index=False)


⑧ temp 폴더 저장 오류 예방

원인

temp 폴더 안에 저장하려면 해당 폴더가 먼저 있어야 한다.

해결

[실행 코드] import os
[실행 코드] os.makedirs(“temp”, exist_ok=True)
[실행 코드] df.to_excel(“temp/tips_data.xlsx”, index=False)


⑨ xlsx 파일이 VS Code에서 안 열리는 문제

문구

[안내 문구] The file is not displayed in the text editor…

원인

.xlsx 파일은 텍스트 파일이 아니라 엑셀 파일이라 VS Code 기본 편집기로 바로 볼 수 없다.

해결

Finder에서 Numbers나 Excel로 열었다.
VS Code에서 보고 싶으면 Excel Viewer 확장프로그램을 설치하면 된다.


자주 쓰는 기본 import 코드

[실행 코드] import pandas as pd
[실행 코드] import numpy as np
[실행 코드] import matplotlib.pyplot as plt
[실행 코드] import seaborn as sns
[실행 코드] import os
[실행 코드] import warnings
[실행 코드] warnings.filterwarnings(‘ignore’)

너무 길어서 접은 글로 정리했으니 도움이 필요하면 참고하시길..

 

Tip. VS Code에서의 오류 대부분은 코드문제가 아니라 환경 설정의 문제였다.
앞으로 패키지 오류가 나면 아래 순서로 확인하면 된다.

① import 했는지 확인
② 변수명을 맞게 썼는지 확인
③ %pip install 패키지명 실행
④ 커널 Restart
⑤ 현재 커널이 맞는지 확인

 

3. 오늘의 과제 - 데이터 분석가 채용 분석, numpy/pandas 실습

 

실제 데이터 분석 관련 채용공고 중 자격 요건과 우대사항

1. 공통으로 많이 보이는 핵심 역량

SQL은 거의 필수 역량이다.
KREAM, NAVER, 하림지주, 삼성전자 모두 SQL 또는 쿼리 역량을 요구하거나 강하게 언급한다.

 

Python은 우대사항에서 필수 역량으로 넘어가는 추세이다.
특히 KREAM, 하림지주, 삼성전자 공고에서는 Python, Pandas, Numpy, R 등의 분석 도구 활용 능력을 직접적으로 요구하거나 우대한다.

 

대시보드 및 BI 도구 경험이 중요하다.
Tableau, Looker, Power BI, Zeppelin, BI, 데이터 마트, 데이터 웨어하우스 같은 키워드가 반복적으로 등장한다.

 

단순 분석보다 ‘문제 정의 → 분석 → 인사이트 도출 → 액션 제안’ 흐름을 중요하게 본다.
최근 데이터 분석가는 단순히 숫자를 추출하는 역할이 아니라, 비즈니스 문제를 데이터 분석 과제로 전환하고 실제 의사결정까지 연결하는 역할로 인식되고 있다.

 

도메인 경험이 우대된다.
KREAM은 이커머스·플랫폼, NAVER는 CRM·캠페인, 하림은 EDW·BI, 삼성전자는 AI·대규모 데이터 관련 도메인 경험을 중요하게 본다.

 

2. VS Code 실습 (pandas와 numpy)

1=pandas / 2,3=numpy

 


나의 간단 소감

- 데이터 분석을 배우는거보다 VS Code 오류안나게 하려고 환경설정 배운 시간이 더 길었던 것 같다.ㅋㅋㅋㅋㅋ

그래서 다른 동료분들과 팀원분들을 돕다보니 나도 모르게 지피티를 안쓰고 오류를 해결하는 오류 해결 전문가가 되어 버렸다.

뭐라도 성장했으니 좋아쓰...?