2015년 11월 29일 일요일

데이터 분석가가 되기 위한 학습

빅데이터, 딥러닝, 머신러닝 등 데이터 과학이 한참 이슈이다.

여테 석사를 하면서 통계적 품질관리(관리도)를 전공했지만,
품질관리던지, 어느 분야던지 데이터 분석에 대한 이슈가 앞으로도 뜨거울 것 같다고 느껴진다.

사실 데이터분석에 대한 사전 지식이 없는 상황에서, 얼마전 모 회사에서 데이터분석 면접을 보았지만... 아무말도 못한 정말 챙피한 경험

그래서 늦었지만 데이터 분석을 제대로 공부하려고 결심을 해보았다. (너무 늦은 결정이 아닐까 걱정되지만... 그래도 해보고 싶다)

몇 가지 데이터분석 관련 책을 선별해보았다.

1. 앞으로 데이터 분석을 시작하려는 사람을 위한 책, 구도 타쿠야
2. R을 활용한 전산통계개론, 손건태
3. R을 활용한 기계 학습, 브레트 란츠

석사시절, 기본적인 통계(아주 기초적)와 R은 어느 정도 익숙했기에, tool은 R로 정하였다. 기회가 된다면 파이썬도 배워야지.

첫 번째 책은 데이터 분석가가 기본적으로 가져야할 마인드와 간단한 분석기법 등을 소개한다. 두 번째 책은 통계적인 알고리즘을 배우기에 무척 좋고, 세 번째 책은 머신러닝을 위한 기본적인 도서이다.

위의 도서를 훑어보고 앞으로 배워야 할 알고리즘 등을 작성해보았다.
하나씩 차근차근.




개념
분석 수법
사례
수리통계학
1변량
기술통계학
분포와 대표값
요약통계량
품질 관리
RFM 분석
롱테일 분석
도수집계
히스토그램
추론 통계학
빈도론
모수적 검정
실험 계획법
임상 시험
부작용의 특정
비모수적 검정
점 추정
구간 추정
주관론
베이지안 확률
스펨 필터링
다변량
탐색적 자료 분석, 기계학습
자율학습
(데이터를 어떤 기준에 따르지 않고 분류, 해석)
주성분 분석
가격 최적화
행렬, 정체 회피 분석
마켓 바스켓 분석
고객 세분화
추천
크로스셀/업셀분석
계통트리(생명과학)
설문 조사 분석
인자 분석
상관 분석
연관 규칙 분석
대응 분석
수량화 이론 III
다차원 척도 구성법
계층적 군집 분석
k-평균법
자기조직화 지도
지도학습
(데이터를 어떤 기준에 따라 분류하고 해석)
협업 필터링
고객 이탈 예측 모델
신용카다의 부정 이용 감지
캠페인 효과 측정
매정별 매출 총량 예측
선거 예측
세이버매트릭스
물류 최적화
소셜 미디어 분석
화상 분석(연령 추정)
화상 진단
예방 의료
유전자 발견
범죄 프로파일링
인공 신경망
의사 결정 트리 분석
k-근접 이웃법
일반 선형 모델
(정규분포를 전체로 한 선형 모델)
단회귀 분석
분산 분석
수량화 이론 I
다중 회귀 분석
정준 상관 분석
공분산 구조 분석
일반화 선형 모델
(정규 분포 이외의 분포를 다룰 수 있도록 일반 선형 모델을 확장한 모델)
로지스틱 회귀 분석
로그 선형 모델
수량화 이론 II
판별 분석
생존 분석
서포트 벡터 머신
<표 1> 주요 데이터 분석법

분석 모델
태스크
최근접 이웃
분류
나이브 베이즈
분류
결정 트리
분류
선형 회귀
수치 예측
회귀 트리
수치 예측
모델 트리
수치 예측
신경망
다중 용도
서포트 벡터 머신
다중 용도
연관 규칙
패턴 탐지
K 평균 군집화
군집화
<표 2> 알고리즘 별 태스크

위의 <표 1, 2>에 작성한 분석 기법들을 전부 R로 구현해보면서 공부 할 계획이다.
이 밖에 Genetic algorithm 등을 추가적으로 습득. 한 주에 1~2가지 알고리즘을 공부하기.


출처

  • "앞으로 데이터 분석을 시작하려는 사람을 위한 책", 구도 타쿠야, 루비페이퍼
  • "R을 활용한 전산통계개론", 손건태, 자유아카데미
  • "R을 활용한 기계 학습",  브레츠 란츠, 에이콘

댓글 1개:

  1. 앞으로의 포스팅도 기대하겠습니다 응원합니다

    답글삭제