1. 오늘 학습 목표
- 데이터 분석 문열기
2. 오늘 학습 한 내용
데이터 분석이란?
- 하고자 하는 바에 대한 명확한 근거를 줄 수 있게 도와주는 도구이다.
※ 캐글로 예제가져와서 데이터 분석의 기초 살펴보기! ※
캐글(kaggle)이란 데이터 사이언티스트들의 유명한 커뮤니티 플랫폼
*국제 보건 기구로부터 탐정 여러분에게 의뢰가 들어 왔습니다.*
-요청 내용-
애리조나 사막지역 원주민인 피마 인디언이 세계에서 당뇨병 발병률이
가장 많은 종족으로 조사되었습니다.
피마 인디언은 사막지대에 살다 보니, 조금만 먹어도 잘 생존 할 수 있도록,
음식을 축적 해 놓으려는 유전자를 가지게 되었습니다.
하지만, 식생활이 서구화 되면서 비만을 초래해 각종 성인병을 유발한 것으로 예측 됩니다.
피마 인디언들을 포함해 세계인의 당뇨병 조기 발견 및 치료를 위해 우리 국제 보건 기구는
“**당뇨병 발병에 가장 큰 영향을 미치는 요소는 글루코스(혈당) 수치라고 가설”**을 내렸습니다.
우리가 제시하는 피마 인디언 당뇨병 데이터 세트를 분석해
우리가 세운 가설이 맞는지 확인해주세요!
사례는 두둑히 하겠습니다.💵
1. 확장 프로그램 "XLMiner Analysis ToolPak"에서 'Correlation'기능 활용


2. 모든 데이터를 선택 후 옆 칸에 출력

3. 출력된 전체 값을 선택하고 필터링하여 차트를 클릭

4. 이렇게 차트가 생성이 되는데 필요한 Outcome만 필터링

5. 행/열 전환과 맞춤설정에서 데이터 라벨링을 이용해 그래프 생성

6. Outcome은 당연히 제외하고 보면, Glucose가 가장 크므로 'Glucose가 당뇨병 발병에 가장 큰 영향을 미치는 요소'가 맞다고 결론을 내릴 수 있다.
Tip. 그래프가 1로 나올땐 당황하지말고 행/열 전환
나의 간단 소감
- 데이터 분석 예상했던대로 재밌었고(아직은 알파벳도 안배운 수준이지만..) 일단 복잡했던 SQL을 벗어나서 기분이 좋다. 근데 파이썬도 어려워 보여서 멀리하고 싶었지만 엑셀보다 더 쉽고 간단하게 자동화하여 사용할수 있다니 궁금하긴하다.
'내일배움캠프' 카테고리의 다른 글
| [본캠프] 데이터기반 QA/QC 부트캠프 3일차 (0) | 2026.05.13 |
|---|---|
| [본캠프] 데이터기반 QA/QC 부트캠프 2일차 (1) | 2026.05.12 |
| [사전캠프] 데이터기반 QA/QC 부트캠프 9일차 (0) | 2026.05.08 |
| [사전캠프] 데이터기반 QA/QC 부트캠프 8일차 (0) | 2026.05.07 |
| [사전캠프] 데이터기반 QA/QC 부트캠프 7일차 (0) | 2026.05.06 |