비전공자가 데이터 분석을 시작하는 초심에서부터 원리를 하나하나 깨우치며 단계별 실무 학습단계까지 진행할 수 있도록 기획하고 저술하였다. 실제 경험한 사례를 예제로 제공하여 데이터 수집부터 R 프로그래밍 분석까지 체계적으로 접근했다. 또한 실제 R 프로그램으로 무엇을 할 수 있는지 분명히 밝혀 응용으로 나아가는 발판을 마련했다. 따라서 처음 데이터 분석 도구인 R을 시작하는 학습자에게는 많은 도움이 될 것이다.
STEP 1. 준비학습 : 개념 이해하기(1장)
데이터가 무엇이며, 데이터 분석을 위한 기술은 어떻게 발전해 왔는지에 대한 기본 내용을 다룬다. 데이터 모델의 필요성과 데이터 분석을 위한 통계, 예측, 데이터 마이닝, 기계학습 그리고 빅 데이터 등 데이터 분석이 적용되는 분야의 간단한 내용과 기술의 용어들을 학습한다. 비전공자 혹은 일반인에게는 생소하고 어려운 용어일 수 있으니, 과거에서 현재의 기술이 어떻게 변화되어 왔으며 어디에 적용되어 왔는지 이야기 중심의 흥미를 유발하는 학습으로 진행하기 바란다. 그리고 구글의 트렌드 분석과 온라인 설문지를 이용한 데이터 수집 방법도 직접 체험 학습해 보길 바란다.
STEP 2. 기본학습 : R의 설치와 사용(2~3장)
R 소프트웨어는 무료로 사용할 수 있는 데이터 분석 툴의 한 도구이다. 다른 상용 소프트웨어 도구에 비해서 많은 기능과 패키지 라이브러리를 제공하고 있고, R 소프트웨어의 범용성과 활용성이 좋으며, C, Python, Java와 같은 다른 응용 프로그래밍 언어와 연결성이 좋고, 데이터베이스에 연결하여 데이터를 활용하는 방법도 제공하고 있다. R 소프트웨어 설치와 사용 방법을 직접 학습하길 바란다.
STEP 3. 문법학습 : R의 데이터 구조와 제어문 그리고 함수(4~6장)
R 소프트웨어도 다른 프로그래밍 언어와 유사하게 기본적인 문법과 함수를 제공하고 있다. 특히 R은 함수기반 언어라고 할 정도로 많은 패키지(package)와 라이브러리(library)를 제공하고 있다. 따라서 데이터의 구조 종류와 제어문 그리고 함수의 생성과 사용 방법을 충분하게 학습하고 각 데이터 구조의 특징과 장점을 이해하는 것이 중요하다.
STEP 4. 시각화학습 : R의 2차원 3차원 시각화 기법(7~8장)
R 소프트웨어는 데이터 분석의 결과를 시각화(visualization) 표현하는 2차원, 3차원의 패키지를 다양하게 제공하고 있다. 따라서 데이터 분석의 결과를 막대 그래프, 파이 그래프, 히스토그램 등 2차원의 그래프로 시각화는 다양한 기법을 학습한다. 또한 3차원 그래픽에서는 3차원의 입체적 그래프 시각화를 위해 표면(surface) 그래프, 색상 적용 입체 그래프 등 다양한 예제 중심의 학습을 진행한다.
STEP 5. 응용학습 : R의 실무적 프로젝트(9~10장)
R은 데이터 분석을 위한 전문적 소프트웨어 툴이다. 데이터 분석을 위한 데이터베이스 활용은 실무적으로 많이 사용하고 있는 기술이며 기존의 데이터를 수집하고 분석하는 중요한 과정중 하나이다. 따라서 MySQL 데이터베이스와의 연결을 이용해 데이터를 추출하고 분석하는 과정을 학습한다. 그리고 비정형 데이터 분석을 통해 워드 클라우드를 생성하는 프로젝트와 지도 그래프를 생성하는 프로젝트를 통해 좀더 실무적인 데이터 분석가가 되기 위한 학습을 진행한다.
홍성용_
공학박사 졸업 후 미국 사바나 주립 대학교 CIS 학과에서 교수로 재직하였고(2005년~2007년) 현재는 한국과학기술원(KAIST)에 재직 중이다.
관심 연구 분야는 데이터베이스, 빅데이터 마이닝, 차세대 SW 교육, 미래지능형 로봇, 지능정보 시스템, 시맨틱 웹, 융합지식 서비스, 국가 IT 정책 분야 등에 많은 관심을 갖고 연구 중이다. 또한 한국전자상거래 상임이사, 한국정보과학회 데이터베이스 이사, 한국영재교육학회 이사, 한국창의력교육학회 학술위원장으로 역임하였다.
저서 : (한빛 아카데미, 2015), <창의력 향상을 위한 C 프로그래밍>(내하출판사, 2014), <지능로봇 프로그래밍>(북스홀릭, 2012), <차세대 프로젝트 관리>(내하출판사, 2009), <자바2 프로그래밍>(피어슨에듀케이션코리아, 2005) 외 다수
머리말. 빅 데이터 전쟁시대, 데이터 과학자의 역할은?
이 책의 사용 설명서
CHAPTER 01 데이터와 데이터 분석 개념 그리고 환경
1.1 데이터 개념
1.2 데이터 분석 기술
1.3 빅 데이터 처리 기술
1.4 구글 트렌드 분석을 이용한 빅 데이터 분석
1.5 구글 설문지를 이용한 데이터 수집하기
CHAPTER 02 R 기반 데이터 분석 환경 구축
2.1 R 소프트웨어 설치
2.2 R 프로그램 기본 사용
2.3 RStudio 설치 및 사용
2.4 RStudio 프로젝트 실습
CHAPTER 03 데이터 분석과 R 기초
3.1 데이터 이해하기
3.2 패키지 함수 이해하기
3.3 데이터 저장과 조작
3.4 데이터 시각화 이해하기
CHAPTER 04 벡터와 행렬 조작 및 활용
4.1 벡터 데이터 연산과 조작
4.2 행렬 데이터 연산과 조작
CHAPTER 05 고급 데이터 구조 조작과 활용
5.1 배열 구조와 조작
5.2 리스트 구조와 조작
5.3 데이터 프레임 구조와 조작
5.4 펙터와 테이블 활용
CHAPTER 06 제어문과 사용자 정의 함수 활용
6.1 if문 활용
6.2 다중 if-else문 활용
6.3 for문과 repeat문 활용
6.4 while문 활용
6.5 switch문 활용
6.6 함수 정의 및 활용
CHAPTER 07 데이터 시각화와 그래픽 함수 활용
7.1 그래프 plot 함수 활용
7.2 그래프 curve 함수 활용
7.3 그래프 관련 함수
7.4 실무 데이터 시각화 응용
CHAPTER 08 3D 그래픽과 데이터시각화 함수 활용
CHAPTER 09 R과 데이터베이스 연동
9.1 MySQL 데이터베이스 설치
9.2 MySQL ODBC 다운로드 및 설치
9.3 MySQL 데이터베이스와 R 프로그래밍
CHAPTER 10 R을 활용한 데이터 분석 실무 프로젝트
10.1 비정형 데이터 분석 실무 프로젝트
10.2 정형 데이터 분석을 이용한 지도 그래프 생성 프로젝트
부록. 국제적 데이터 분석 관련 자격증
찾아보기