본문 바로가기

데이터분석

[Warehouse] PLT Plot 정리 📊 SUB PLOTS f, ax = plt.subplots(2,2, figsize=(7,7)) ax[0][0].plot(range(len(Y)), Y.values) ax[0][1].boxplot(Y.values) sns.kdeplot(Y.values, ax=ax[1][0]) sns.distplot(Y.values, hist_kws=dict(cumulative=True), kde_kws=dict(cumulative=True), ax=ax[1][1]) ax[0][0].set_title("revenue by index") ax[0][0].set_title("cdf by index")​ 🦜 Seaborn Set Palette sns.set_palette(sns.color_palette("husl", 8)) 📊 .. 더보기
Feature Importance by Boruta 모델을 훈련하면서 다중공선성을 지닌 특성에 대해서는 훈련이 제대로 진행되지 않습니다. 자세한 내용은 아래 포스트에서 확인할 수 있습니다. 2020/08/12 - [Data/Theory] - 다중공선성은 모델에 어떤 영향을 미치는가? 다중공선성은 모델에 어떤 영향을 미치는가? 다중공선성 (Multicolinearity) 데이터를 다루다 보면 특징에 대해서 서로 관계성이 있는 경우가 많이 있습니다. 회귀분석의 4가지 가정(선형, 독립, 등분산, 정규) 중에서 Feature들 간에 독립성을 만족 jrc-park.tistory.com 그래서 이번 포스트에서는 Feature Importance를 제대로 찾기 위한 방법에 대해서 소개하겠습니다. 포스트의 그림 및 코드는 Medium에서 가져왔습니다. https://.. 더보기
다중공선성은 모델에 어떤 영향을 미치는가? 다중공선성 (Multicolinearity) 데이터를 다루다 보면 특징에 대해서 서로 관계성이 있는 경우가 많이 있습니다. 회귀분석의 4가지 가정(선형, 독립, 등분산, 정규) 중에서 Feature들 간에 독립성을 만족시켜야 하는데, 실제 데이터는 그렇지 못한 경우가 많습니다. 머신러닝 모델을 만들면서 이러한 다중공선성이 모델에 어떤 영향을 미치는지 파악하는 것은 특징(Feature)를 전처리하고 다루는데 중요하기에 포스트에서 이에 대해서 다루고자 합니다. Def. 다중공선성 통계학의 회귀분석에서 독립변수들 간에 강한 상관관계가 나타나는 문제 Def. 완전공선성 독립변수들간에 정확한 선형관계가 존재하는 현상 이러한 공선성은 회귀분석의 가정을 위반하기 떄문에, 회귀분석을 위해서는 다중공선성이 있는 변수에 .. 더보기
Biased Estimation, Unbiased Estimation Biased 실수의 값의 $\theta$를 변수로 하는 통계적 모델이 있다고 가정했을 때, 주어진 데이터에 대한 probability distribution은 다음과 같이 나타낼 수 있습니다. 여기서 세타는 고정된 상수값이지만 알려지진 않았습니다. 따라서 데이터를 가지고 세타를 추정하는 $\hat\theta$을 찾게됩니다. 추정을 하면서 발생하는 차이가 바로 bias 입니다. $Bais_\theta[\hat\theta] = E_{x|\theta}[\hat\theta] - \theta = E_{x|\theta}[\hat\theta - \theta]$ 이 때, 만일 모든 값의 $\theta$에 대해서 bias 값이 0이라면 estimator가 unbiased 라고 합니다. Sample Mean: unbias.. 더보기
Frequentist vs Bayesian Inference 데이터에 대한 관찰로 사후에 일어날 일을 예측을 할 수 있습니다. 사건에 대해서 예측을 위해서는 발생확률을 알아야 합니다. Frequentist와 Bayesian의 Posting에서는 데이터가 아닌, 모델에 대한 추론을 이야기하려 합니다. 두 관점은 접근법이 다르기 때문에 바탕이 되는 철학이 다릅니다. 맨날 싸운다는 소문이... 예를 들어서 1부터 6이 적힌 울퉁불퉁한 주사위를 굴려서 1이 나오는 사건을 생각해봅시다. 1이 나오는 확률에 대해서 알지 못하기 때문에, 몇 번의 관찰 이후에 1이 나올 확률을 예측해야 합니다. Frequentist Frequentist는 모델에 대한 참값이 있으며, 임의로 발생하는 것은 데이터라고 생각합니다. 모델의 파라미터에 대한 참값이 있으며, 데이터가 .. 더보기
Spark 기본 설명 Spark Spark는 UC Buckly에서 만든 분산처리를 위한 프로그램입니다. 기존에는 하둡이 많이 쓰였었는데, Spark가 개발되고 하둡보다 빠른 속도를 장점으로 많은 기업에서 사용하고 있습니다. 하둡과 대표적인 차이라면 In-Memory Computing 입니다. 하둡이 하드디스크에 보관하면서 처리했던 것과 다르게 Spark에서는 Memory에서 처리하기 때문에 10~100배 정도의 성능 향상이 있습니다. 실제로 이런 장점을 바탕으로 넷플릭스, 우버, 핀터레스트에서 사용하는 중 입니다. 위 기업보다 스케일이 더 큰 구글과 링크드인은 자기들이 직접 만들어서 사용한다고 합니다. 4 가지 기술 스택 Spark Core 위에 4가지 기술 스택이 있어서 사용자에게 편리성을 제공해줍니다. 대표적인 4가지 라.. 더보기
[Warehouse] Pandas Skills 판다스에 대한 자주 사용되는 기술들을 모아두었습니다. 0. 라이브러리 import 및 DataFrame 생성 목차 / 중요도 1. Query ⭐⭐⭐ 2. insert new column ⭐⭐ 3. Cumsum ⭐⭐⭐ 4. Sampling ⭐ 5. Where ⭐⭐ 6. isin ⭐⭐⭐ 7. pct_change & rank ⭐ 8. Melt ⭐ 9. nunique ⭐⭐ 10. object type & memory usage ⭐ 11. Replace ⭐⭐ 12. Coloring ⭐ 13. tqdm 0. 라이브러리 import 및 DataFrame 생성 먼저 필요한 라이브러리를 임포트하고 데이터 프레임을 만들어줍니다. import numpy as np import pandas as pd values_1 = np.. 더보기
[Word Cloud] Mask를 이용한 Word Cloud + Python 1. 필요 라이브러리 import 및 mask 이미지 불러오기 from urllib import request from wordcloud import WordCloud, ImageColorGenerator import matplotlib.pyplot as plt from PIL import Image # 마스크 이미지를 url에서 불러오기 url = "https://encrypted-tbn0.gstatic.com/images?q=tbn%3AANd9GcQ9aACep8NBAyAioqO412qTTgDh5p2Ovz-VyA&usqp=CAU" res = request.urlopen(url).read() img = Image.open(BytesIO(res)) img = img.resize((600,1000)) mas.. 더보기