R 데이터 용어
Name | Description |
---|---|
요건정의 | 데이터 분석 업무의 배경, 주요 이슈, 기대효과 등을 파악한다 간단한 기초분석을 통해 분석수행 타당성을 확인한다. 분석 기법, 수행 단계 및 절차(WBS) 등을 식별해 구성하고 분석방법론 구축. 방향성을 확인하는 정도만 할 것 |
비지니스 영향도, 효과 산출 | 투자 대비 효과를 정량화해서 TCO, ROI, NPV 등 산출 모델링에서는 Detection Rate가 증가하거나 Lift가 개선돼 발생하는 정량적 효과 제시 사업 특성상 비용요소가 이미 영업이익율이나 공헌이익에 반영되었을 수 있음 |
na.omit() | 데이터프레임에서 NA를 포함한 행 제거 na.omit(airquality) |
벡터의 연산 | 서로 길이가 다르면 길이가 큰 쪽에 길이를 맞추고 짧은 쪽을 반복 |
apply(data, n, 통계량) | data의 행(1)과 열(2)을 기준으로 통계량 계산 |
ddply(data, "col", summarise, mean.count = mean(count) | d라는 데이터프레임에 col라는 변수별로count라는 변수의 평균을 구해 mean.count라는 변수명으로 구성된 데이터 프레임 생성 |
reshape 패키지 | 데이터의 구조를 손쉽게 변경할 수 있도록 돕는다. melt()와 cast()함수가 속해있다. |
의사결정나무의 특징 | 비모수적 방법으로 설명이 용이하고 계산이 단순하며 빠르다 |
노드의 불순도(impurity) | 지니계수, 엔트로피계수, 분류오류율 |
감마계수 | 연관성측도 |
hierarchical clustring | 계층적 구조를 보여주는 클러스터링 |
위치측도, 산포측도 | 사분위수 범위는 산포측도, 평균, 중앙값 등은 위치측도이다 |
산점도의 특징 | 선형 또는 비선형 관계여부 이상점의 존재 여부 원인과 결과의 시간적 선후 관계 여부 |
is.na() | NA가 존재하는 인덱스를 논리벡터 혹은 논리 메트릭스로 추출 |
측정방법에 따른 통계기법 | 명목척도(측정 대상이 속한 집단 파악) 순서척도(범위) 구간척도(최빈값) 비율척도(표준편차) |
princomp(data, cor=T) | 주성분 분석 코드, Cumulative Proportion으로 설명력 확인 |
arima() | 시계열 모형 알파 값은 ar1에 나온다 |
mosaic plot | 모자이크 플롯 |
다중회귀분석의 독립변수의 수에 따른 부작용 |
설명력의 즉가가 현저히 줄어든다. 추정치의 표준요차는 커진다. 회귀식의 적합도나 타당도가 낮아진디 |
na.rm | 함수 안에서 사용되는 옵션으로 해당 함수의 연산 중 NA를 무시하고 진행한다. |
Boxplot | boxplot(score~gender, data) |
편상관 | partial correlation X |
다차원척도법 | Multidimensional Scaling 여러 대상 간의 관계에 대한 수치적 자료를 이용해 유사성에 대한 측정치를 상대적 거리로 시각화 |
연관규칙 A->B | P(A|B) |
Corpus | 텍스트 형태의 문서를 구조화하여 분석할 수 있는 형태로 만듬 |
워드클라우드 | 텍스트 문서 중 출현 단어의 횟수 기반으로 그려진다. |
term-Document 행렬 | 불용어 제거(Stopword) 구두점(punctuation)제거 빈칸(space)제거 |
오피니언 마이닝 절차 | 크롤링 - 필터링 - NLP |
사회연결망 분석 매개중심성 측도 |
전체 관계만을 고려하였을 때, 중계자 역할의 정도를 나타낸다 betweeness |
최적화 기법 | 선형계획법이 최적화기법 중에서 가장 많이 활용된다. 함수를 선형으로 표현하는 방법 |
난수생성법 | 역변환법(inverse transform method) 합성법(composition method) 채택-기각법(acceptance-rejection method) |
빅데이터 분석 프로세스 |
요건정의 -> 모델링 -> 검증 및 테스트 -> 적용 |
데이터 처리 과정을 단축시키는 방법 | 빠르게 원시모형(Prototype)을 만들어 모델에 적용한다. |
mean 함수 | X 가 numeric 일 때 가능하다. Factor X |
paste() | 문자열 혹은 벡터들을 지정된 구분자를 사용해 결합한다. |
다중회귀분석 변수선택법 |
전진선택, 후진제거, 단계적 방법 |