본문 바로가기

카테고리 없음

[R] 중급 코드 작성 및 데이터 키워즈 정리

R 데이터 용어

Name Description
요건정의 데이터 분석 업무의 배경, 주요 이슈, 기대효과 등을 파악한다
간단한 기초분석을 통해 분석수행 타당성을 확인한다.
분석 기법, 수행 단계 및 절차(WBS) 등을 식별해 구성하고 분석방법론 구축.
방향성을 확인하는 정도만 할 것
비지니스 영향도, 효과 산출 투자 대비 효과를 정량화해서 TCO, ROI, NPV 등 산출
모델링에서는 Detection Rate가 증가하거나
Lift가 개선돼 발생하는 정량적 효과 제시
사업 특성상 비용요소가 이미 영업이익율이나 공헌이익에 반영되었을 수 있음
na.omit() 데이터프레임에서 NA를 포함한 행 제거
na.omit(airquality)
벡터의 연산 서로 길이가 다르면 길이가 큰 쪽에 길이를 맞추고 짧은 쪽을 반복
apply(data, n, 통계량) data의 행(1)과 열(2)을 기준으로 통계량 계산
ddply(data, "col", summarise, mean.count = mean(count) d라는 데이터프레임에
col라는 변수별로count라는 변수의 평균을 구해
mean.count라는 변수명으로 구성된 데이터 프레임 생성
reshape 패키지 데이터의 구조를 손쉽게 변경할 수 있도록 돕는다.
melt()와 cast()함수가 속해있다.
의사결정나무의 특징 비모수적 방법으로 설명이 용이하고 계산이 단순하며 빠르다
노드의 불순도(impurity) 지니계수, 엔트로피계수, 분류오류율
감마계수 연관성측도
hierarchical clustring 계층적 구조를 보여주는 클러스터링
위치측도, 산포측도 사분위수 범위는 산포측도, 평균, 중앙값 등은 위치측도이다
산점도의 특징 선형 또는 비선형 관계여부
이상점의 존재 여부
원인과 결과의 시간적 선후 관계 여부
is.na() NA가 존재하는 인덱스를 논리벡터 혹은 논리 메트릭스로 추출
측정방법에 따른 통계기법 명목척도(측정 대상이 속한 집단 파악)
순서척도(범위)
구간척도(최빈값)
비율척도(표준편차)
princomp(data, cor=T) 주성분 분석 코드, Cumulative Proportion으로 설명력 확인
arima() 시계열 모형 알파 값은 ar1에 나온다
mosaic plot 모자이크 플롯
다중회귀분석의
독립변수의 수에 따른 부작용
설명력의 즉가가 현저히 줄어든다.
추정치의 표준요차는 커진다.
회귀식의 적합도나 타당도가 낮아진디
na.rm 함수 안에서 사용되는 옵션으로 해당 함수의 연산 중 NA를 무시하고 진행한다.
Boxplot boxplot(score~gender, data)
편상관 partial correlation XZ ZY-> X~Y
다차원척도법 Multidimensional Scaling
여러 대상 간의 관계에 대한 수치적 자료를 이용해
유사성에 대한 측정치를 상대적 거리로 시각화
연관규칙 A->B P(A|B)
Corpus 텍스트 형태의 문서를 구조화하여 분석할 수 있는 형태로 만듬
워드클라우드 텍스트 문서 중 출현 단어의 횟수 기반으로 그려진다.
term-Document 행렬 불용어 제거(Stopword)
구두점(punctuation)제거
빈칸(space)제거
오피니언 마이닝 절차 크롤링 - 필터링 - NLP
사회연결망 분석
매개중심성 측도
전체 관계만을 고려하였을 때, 중계자 역할의 정도를 나타낸다 betweeness
최적화 기법 선형계획법이 최적화기법 중에서 가장 많이 활용된다.
함수를 선형으로 표현하는 방법
난수생성법 역변환법(inverse transform method)
합성법(composition method)
채택-기각법(acceptance-rejection method)
빅데이터 분석
프로세스
요건정의 -> 모델링 -> 검증 및 테스트 -> 적용
데이터 처리 과정을 단축시키는 방법 빠르게 원시모형(Prototype)을 만들어 모델에 적용한다.
mean 함수 X 가 numeric 일 때 가능하다. Factor X
paste() 문자열 혹은 벡터들을 지정된 구분자를 사용해 결합한다.
다중회귀분석
변수선택법
전진선택, 후진제거, 단계적 방법