본문 바로가기

데이터 분석

log를 이용한 정규분포 변환(python)

import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

df = pd.DataFrame(np.array([1, 2, 3, 4, 7, 11, 12, 103, 104, 1005, 1006, 1007]),columns=['col'])
# 또는 CSV 임포트
#df = pd.read_csv('test.csv')

# 원본값의 distplot그래프
sns.distplot(df["col"],label="col")
plt.title('col')
#각 선에 라벨링 표기
plt.legend()
plt.show()

#log를 이용해 변환
df["Log_col"] = np.log1p(df["col"])

# log값의 distplot그래프
sns.distplot(df["Log_col"],label="Log_col")
plt.title('Log_col')
#각 선에 라벨링 표기
plt.legend()
plt.show()

원본값은 정규분포를 따르지 않음
log변환 후 정규분포로 변환

'데이터 분석' 카테고리의 다른 글

정밀도와 재현율  (0) 2021.05.07
ROC AUC  (0) 2021.05.07
스피어만 상관계수(python)  (0) 2020.07.23
distplot를 이용한 정규분포 확인(python)  (0) 2020.07.23
지수와 로그  (0) 2020.05.26