본문 바로가기

데이터분석

[차트] 원형 차트 시각화 🤖 설명 Pie 차트와 비슷하지만 Pie차트의 경우 하나의 Pie에는 하나의 데이터 종류만 들어갈 수 있었습니다. 원형 차트의 경우, 각도에 따라서 데이터를 다중으로 쌓을 수 있다는 장점이 있습니다. 특징 Programming Language Python Libraries plotly [ .graph_objects ] numpy Data [start, end] (0~1사이 값을 가진다.) 사용자 설정 가능 부분 base_r = 0.5 # 검은색 원의 반지름 num_points = 360 # 점을 찍는 개수 r_gap = 0.1 # 선 사이 간격 mode='lines', # 종류 line_width=10, # 선 굵기 name='FXNNXC' + str(index+1) # Label 구현 만든이: Christ.. 더보기
DB Oracle SQL 구문 기본 구문 -- table select * from department; select * from employee; -- where select * from department d, employee e where d.deptno = e.dno; select distinct e2.empno, e2.empname from employee e1, employee e2 where e1.manager = e2.empno; -- join select * from department natural join employee ; -- order by select empname from employee order by empname desc; select empname from employee order by empnam.. 더보기
t-distribution 더보기
Titanic [EDA] 타이타닉 탐색적 분석 data['Age_band']=0 data.loc[(data['Age']>16) &(data['Age']32) &(data['Age']48) &(data['Age']64, 'Age_band'] = 4 data['Age_band'].value_counts().to_frame().style.background_gradient(cmap='summer') --- numeric describe 1 train_df.describe() cs --- object describe 1 train_df.describe(include=['O']) cs --- info 1 2 3 train_df.info() print('_'*40) test_df.info() cs --- > Correlation between The Featu.. 더보기
공공부문 1. 서울시 그늘막 설치 적합지역 분석 1. Base Data * 위성(Landsat 8)영상 기반 여름철 지표면 온도(LST) * 서울생활인구 기반 폭염 취약계층 밀집지역 * 현재 그늘막 설치 위치 * 도로망 * 건물 용도 2. 후보지 추출 조건 * 취약계층 밀집지역 * 33도 이상 지역 * 넓은 도로 * 그늘막 미설치 지역 더보기
[차원축소][PCA의 원리] Principal component analysis 데이터 분석을 할 때, 컬럼의 수가 너무 많은 경우 차원을 줄여야 하는데 여러 기법들 중 하나인 PCA(Principle Componenet Analysis)의 원리에 대한 소개입니다. 먼저 "Principle Component" 부터 살펴보겠습니다. 메트릭스 A 는 SVD(Single Value Decomposition)에 의해서 분해가 되는데, 시그마(아래 그림에서 핑크색)들로 나타낼 수 있습니다. 빠른 예시) 이 경우, 첫 번째 시그마 값인 9가 가장 큰 값을 차지하고 뒤로 갈수록 줄어듭니다. 위의 예시를 가지고 계속 설명하면 약간의 변형을 통해서 다음 식을 얻습니다. 여기서 U,V가 바로 Principle Componenet(주성분) 입니다. PCA를 하다보면 나오는 그래프에서 두 개의 방향이 위.. 더보기
bartlett.test 등분산 검정 Data : energy (ISwR) 기존에 lean 과 obese의 분산을 보면 값이 퍼져있는 형태가 유사한 것을 볼 수 있습니다. 이 경우에 두 개가 등분산이라고 이야기를 합니다. (데이터의 수가 적고 빨간색의 아웃라이어도 데이터) 이번에는 빨간색의 값에 3배를 해보겠습니다. 그 결과 lean이 퍼진 정도에 비하면 obese는 꽤 수축한 모습을 보입니다. 이 경우에는 등분산이 아니다고 할 수 있습니다. 이제 bartlett.test 를 해보겠습니다. H0(귀무가설) : 두 그룹의 분산은 같다. 분산이 비슷해 보이는 기존데이터에 대해서는 p-value = 0.712 따라서 기존데이터는 귀무가설을 기각할 수 없습니다. 두 그룹의 분산은 비슷하다고 할 수 있습니다. 특정 그룹에 대해서 3배를 한 데이터에 .. 더보기
R programming 비율 검정 prop.test binom.test chisq.test fisher.test prop.test 몇 가지 상황을 생각해봅시다. 2번 중에서 1번 성공하면 확률은 0.5입니다. 10번 중에서 5번 성공하면 확률은 0.5입니다. 10번 중에서 5번 성공했는데, 사.실. 이 사건의 확률은 0.1 입니다. 세 가지 경우 중에서 3번째는 뭔가 좀 이상하군요. 기존 확률에 비해서 너무 많이 성공했습니다. 그럼 제가 0.1이라고 생각한 비율이 정말 맞는지 의심이 갑니다. 그래서 이게 얼마나 믿을만 한지 검정을 해봅시다. 2번 중에서 1번 성공하면 확률은 0.5입니다. 10번 중에서 5번 성공하면 확률은 0.5입니다. 10번 중에서 5번 성공했는데, 사.실. 이 사건의 확률은 0.1 입니다. 결론적으로 prop.tes.. 더보기