내일배움캠프

[본캠프] 데이터기반 QA/QC 부트캠프 1일차

min0jun 2026. 5. 11. 19:29

1. 오늘 학습 목표

- 데이터 분석 문열기

 

2. 오늘 학습 한 내용

데이터 분석이란?

  • 하고자 하는 바에 대한 명확한 근거를 줄 수 있게 도와주는 도구이다.

 

※ 캐글로 예제가져와서 데이터 분석의 기초 살펴보기! ※

캐글(kaggle)이란 데이터 사이언티스트들의 유명한 커뮤니티 플랫폼

 

 

*국제 보건 기구로부터 탐정 여러분에게 의뢰가 들어 왔습니다.*

-요청 내용-

애리조나 사막지역 원주민인 피마 인디언이 세계에서 당뇨병 발병률이

가장 많은 종족으로 조사되었습니다.

피마 인디언은 사막지대에 살다 보니, 조금만 먹어도 잘 생존 할 수 있도록,

음식을 축적 해 놓으려는 유전자를 가지게 되었습니다.

하지만, 식생활이 서구화 되면서 비만을 초래해 각종 성인병을 유발한 것으로 예측 됩니다.

피마 인디언들을 포함해 세계인의 당뇨병 조기 발견 및 치료를 위해 우리 국제 보건 기구는

“**당뇨병 발병에 가장 큰 영향을 미치는 요소는 글루코스(혈당) 수치라고 가설”**을 내렸습니다.

우리가 제시하는 피마 인디언 당뇨병 데이터 세트를 분석해

우리가 세운 가설이 맞는지 확인해주세요!

사례는 두둑히 하겠습니다.💵

 

 

1. 확장 프로그램 "XLMiner Analysis ToolPak"에서 'Correlation'기능 활용

왼쪽이 데이터, 오른쪽이 상관관계 툴

 

2. 모든 데이터를 선택 후 옆 칸에 출력

OK버튼을 눌러 출력한 모습

 

3. 출력된 전체 값을 선택하고 필터링하여 차트를 클릭

 

4. 이렇게 차트가 생성이 되는데 필요한 Outcome만 필터링

오른쪽 계열에서 Outcome빼고 삭제

 

5. 행/열 전환과 맞춤설정에서 데이터 라벨링을 이용해 그래프 생성

이렇게 하면 완성

 

6. Outcome은 당연히 제외하고 보면, Glucose가 가장 크므로 'Glucose가 당뇨병 발병에 가장 큰 영향을 미치는 요소'가 맞다고 결론을 내릴 수 있다.

 

Tip. 그래프가 1로 나올땐 당황하지말고 행/열 전환

 

 

 

나의 간단 소감

- 데이터 분석 예상했던대로 재밌었고(아직은 알파벳도 안배운 수준이지만..) 일단 복잡했던 SQL을 벗어나서 기분이 좋다. 근데 파이썬도 어려워 보여서 멀리하고 싶었지만 엑셀보다 더 쉽고 간단하게 자동화하여 사용할수 있다니 궁금하긴하다.