log를 이용한 정규분포 변환(python)
import pandas as pd import seaborn as sns import matplotlib.pyplot as plt df = pd.DataFrame(np.array([1, 2, 3, 4, 7, 11, 12, 103, 104, 1005, 1006, 1007]),columns=['col']) # 또는 CSV 임포트 #df = pd.read_csv('test.csv') # 원본값의 distplot그래프 sns.distplot(df["col"],label="col") plt.title('col') #각 선에 라벨링 표기 plt.legend() plt.show() #log를 이용해 변환 df["Log_col"] = np.log1p(df["col"]) # log값의 distplot그래프 sns.di..
스피어만 상관계수(python)
조건 : 변수가 모두 연속형 변수이고 정규성을 따르지 않는 경우에 사용 import pandas as pd import scipy.stats as stats df = pd.DataFrame(np.array([[1, 2], [3, 3], [4, 4], [5, 6]]),columns=['col1','col2']) # 또는 CSV 임포트 #df = pd.read_csv('test.csv') # 스피어만 상관계수 검정 corr = stats.spearmanr(df.col1, df.col2) corr pvalue 필수적이지는 않지만, 일반적으로 0.05이상은 귀무가설, 0.05미만은 대립가설을 채택 일반적으로 해석되는 경향 귀무가설 : 차이가 없다. 효과가 없다. 변수간 영향이 없다. 대립가설 : 차이가 있다. ..