테키테크 TEKITECH
혼자 공부하는 데이터 분석 with 파이썬 / 한빛미디어 본문
데이터 과학은 데이터 세계와 비즈니스 세계를 잇는 다리입니다.
- Ji Li
위 문장은 책에서 데이터 과학자 Ji Li가 Quora에 올린 글을 번역한 내용 중 일부이다. 이 문장은 '데이터 분석'과 '데이터 과학'의 차이점을 잘 드러낸다. 글의 다음 내용을 더 읽어보면 "데이터 과학을 하려면 프로그래밍, 통계학, 시각화와 더불어 비즈니스 감각을 갖추어야 합니다."라고 말한다. 즉, 데이터 과학은 아주 넓은 범위를 아우른다는 말이다. 반면 데이터 분석은 데이터 과학의 한 부분에 해당한다.
'결과물'을 중점으로 이해해 보면 데이터 과학은 문제 해결을 위한 최선의 솔루션을 만드는 데 초점을 맞춘다면, 데이터 분석은 올바른 의사 결정을 돕기 위한 통찰을 제공하는 데 초점을 맞추고 있다.
이 책에서는 데이터 분석의 의미와 더불어 데이터 분석을 하는 데이터 분석가에 대해 상세하게 설명해주고 있다. 데이터 과학자, 데이터 분석가, 통계학자, 프로그래머 등 여러 이름 사이에서 데이터 분석가의 역할과 역량에 대해 더 자세히 알고 싶다면 책의 1장을 참고해 보길 바란다.
데이터 분석은 아래와 같은 순서를 거쳐 이루어진다.
1. 데이터 수집 단계에서는 공개된 데이터 셋을 다운로드하여 사용하거나 API를 통해 데이터를 얻는 방법, 웹 스크래핑을 통해 올바른 데이터를 수집하는 방법을 알려준다.
2. 데이터 정제 단계에서는 수집된 데이터에 문제가 없는지 확인하고, 분석 결과를 왜곡시키지 않도록 올바르게 정제하는 방법을 알려준다. 대부분 가장 많은 시간이 소요되는 단계이기도 하며, 그만큼 번거롭기도 하고 중요하기도 한 데이터 정제에 대해 공부할 수 있다.
3. 데이터 요약 및 시각화 단계는 준비된 데이터로부터 분석 결과를 도출하고, 미래를 예측하는 단계이다. 그만큼 중요하고 어려운 부분이다. 이 책에서 모든 통계 이론과 시각화 방법을 다루지는 않지만, 데이터로부터 원하던 답을 도출해 나가는 과정을 혼자서도 이해하기 쉽도록 잘 설명해주고 있다.
이 책에서는 구글 코랩에서 파이썬을 사용하여 대부분의 분석을 연습한다. 특히 데이터 분석에 대표적으로 사용하는 파이썬 패키지인 NumPy, Pandas, Matplotlib, SciPy, scikit-learn 등을 주로 사용한다. '혼자 공부하는'이라는 제목처럼 혼자 공부하면서 어렵지 않도록 설명이 자세해서 약 500쪽 가까이 되는 분량에도 공부하는데 부담이 덜했다.
'혼자 공부하는' 시리즈는 한빛미디어에서 <혼공학습단>이라는 스터디 교재로 사용하고 있다. <혼공학습단>은 6주 동안 매주 정해진 분량을 혼자 공부하고 인증하는 방식으로 운영되는데 오롯이 혼자 공부하는 것보다 훨씬 공부가 잘 된다. 교재의 뛰어남보다도 이런 프로그램을 활용할 수 있다는 점이 이 책의 좋은 점인 것 같다.
이 책으로 공부하면서 도움이 될 실습 예제와 용어 노트, 동영상 강의와 질문을 할 수 있는 사이트가 있어 첨부해 두었다.
'그리고 > 책' 카테고리의 다른 글
추천 시스템 입문 - 한빛미디어 (0) | 2023.05.28 |
---|---|
오라일리 개발자를 위한 머신러닝&딥러닝 / 한빛미디어 (0) | 2023.04.23 |
비즈니스 데이터 과학 - 비즈니스 의사결정을 위한 통계학, 경제학, 인공지능의 만남 (0) | 2022.12.30 |
이모티콘 만들기 (0) | 2022.11.27 |
데이터로 전문가처럼 말하기 - 칼 올친 (0) | 2022.10.02 |