여테 석사를 하면서 통계적 품질관리(관리도)를 전공했지만,
품질관리던지, 어느 분야던지 데이터 분석에 대한 이슈가 앞으로도 뜨거울 것 같다고 느껴진다.
사실 데이터분석에 대한 사전 지식이 없는 상황에서, 얼마전 모 회사에서 데이터분석 면접을 보았지만... 아무말도 못한 정말 챙피한 경험
그래서 늦었지만 데이터 분석을 제대로 공부하려고 결심을 해보았다. (너무 늦은 결정이 아닐까 걱정되지만... 그래도 해보고 싶다)
몇 가지 데이터분석 관련 책을 선별해보았다.
1. 앞으로 데이터 분석을 시작하려는 사람을 위한 책, 구도 타쿠야
2. R을 활용한 전산통계개론, 손건태
3. R을 활용한 기계 학습, 브레트 란츠
석사시절, 기본적인 통계(아주 기초적)와 R은 어느 정도 익숙했기에, tool은 R로 정하였다. 기회가 된다면 파이썬도 배워야지.
첫 번째 책은 데이터 분석가가 기본적으로 가져야할 마인드와 간단한 분석기법 등을 소개한다. 두 번째 책은 통계적인 알고리즘을 배우기에 무척 좋고, 세 번째 책은 머신러닝을 위한 기본적인 도서이다.
위의 도서를 훑어보고 앞으로 배워야 할 알고리즘 등을 작성해보았다.
하나씩 차근차근.
개념
|
분석 수법
|
사례
|
|||
수리통계학
|
1변량
|
기술통계학
|
분포와 대표값
|
요약통계량
|
품질 관리
RFM
분석
롱테일 분석
|
도수집계
|
|||||
히스토그램
|
|||||
추론 통계학
|
빈도론
|
모수적 검정
|
실험 계획법
임상 시험
부작용의 특정
|
||
비모수적 검정
|
|||||
점 추정
|
|||||
구간 추정
|
|||||
주관론
|
베이지안 확률
|
스펨 필터링
|
|||
다변량
|
탐색적 자료 분석, 기계학습
|
자율학습
(데이터를 어떤 기준에 따르지 않고 분류, 해석)
|
주성분 분석
|
가격 최적화
행렬, 정체 회피 분석
마켓 바스켓 분석
고객 세분화
추천
크로스셀/업셀분석
계통트리(생명과학)
설문 조사 분석
|
|
인자 분석
|
|||||
상관 분석
|
|||||
연관 규칙 분석
|
|||||
대응 분석
|
|||||
수량화 이론 III류
|
|||||
다차원 척도 구성법
|
|||||
계층적 군집 분석
|
|||||
k-평균법
|
|||||
자기조직화 지도
|
|||||
지도학습
(데이터를 어떤 기준에 따라 분류하고 해석)
|
협업 필터링
|
고객 이탈 예측 모델
신용카다의 부정 이용
감지
캠페인 효과 측정
매정별 매출 총량 예측
선거 예측
세이버매트릭스
물류 최적화
소셜 미디어 분석
화상 분석(연령 추정)
화상 진단
예방 의료
유전자 발견
범죄 프로파일링
|
|||
인공 신경망
|
|||||
의사 결정 트리 분석
|
|||||
k-근접 이웃법
|
|||||
일반 선형 모델
(정규분포를 전체로 한 선형 모델)
|
단회귀 분석
|
||||
분산 분석
|
|||||
수량화 이론 I류
|
|||||
다중 회귀 분석
|
|||||
정준 상관 분석
|
|||||
공분산 구조 분석
|
|||||
일반화 선형 모델
(정규 분포 이외의 분포를 다룰 수 있도록 일반 선형 모델을 확장한 모델)
|
로지스틱 회귀 분석
|
||||
로그 선형 모델
|
|||||
수량화 이론 II류
|
|||||
판별 분석
|
|||||
생존 분석
|
|||||
서포트 벡터 머신
|
<표 1> 주요 데이터 분석법
분석 모델
|
태스크
|
최근접 이웃
|
분류
|
나이브 베이즈
|
분류
|
결정 트리
|
분류
|
선형 회귀
|
수치 예측
|
회귀 트리
|
수치 예측
|
모델 트리
|
수치 예측
|
신경망
|
다중 용도
|
서포트 벡터 머신
|
다중 용도
|
연관 규칙
|
패턴 탐지
|
K 평균 군집화
|
군집화
|
<표 2> 알고리즘 별 태스크
위의 <표 1, 2>에 작성한 분석 기법들을 전부 R로 구현해보면서 공부 할 계획이다.
이 밖에 Genetic algorithm 등을 추가적으로 습득. 한 주에 1~2가지 알고리즘을 공부하기.
출처
- "앞으로 데이터 분석을 시작하려는 사람을 위한 책", 구도 타쿠야, 루비페이퍼
- "R을 활용한 전산통계개론", 손건태, 자유아카데미
- "R을 활용한 기계 학습", 브레츠 란츠, 에이콘
앞으로의 포스팅도 기대하겠습니다 응원합니다
답글삭제