log를 이용한 정규분포 변환(python)
import pandas as pd import seaborn as sns import matplotlib.pyplot as plt df = pd.DataFrame(np.array([1, 2, 3, 4, 7, 11, 12, 103, 104, 1005, 1006, 1007]),columns=['col']) # 또는 CSV 임포트 #df = pd.read_csv('test.csv') # 원본값의 distplot그래프 sns.distplot(df["col"],label="col") plt.title('col') #각 선에 라벨링 표기 plt.legend() plt.show() #log를 이용해 변환 df["Log_col"] = np.log1p(df["col"]) # log값의 distplot그래프 sns.di..
스피어만 상관계수(python)
조건 : 변수가 모두 연속형 변수이고 정규성을 따르지 않는 경우에 사용 import pandas as pd import scipy.stats as stats df = pd.DataFrame(np.array([[1, 2], [3, 3], [4, 4], [5, 6]]),columns=['col1','col2']) # 또는 CSV 임포트 #df = pd.read_csv('test.csv') # 스피어만 상관계수 검정 corr = stats.spearmanr(df.col1, df.col2) corr pvalue 필수적이지는 않지만, 일반적으로 0.05이상은 귀무가설, 0.05미만은 대립가설을 채택 일반적으로 해석되는 경향 귀무가설 : 차이가 없다. 효과가 없다. 변수간 영향이 없다. 대립가설 : 차이가 있다. ..
python에서 axis(축)
배열과 axis(축) 1차원 배열 X축만 존재 axis = 0만 존재. 각 값을 의미 대괄호가 1개로 시작 ex) [1,2,3,4,5] import numpy as np x = np.array([1,2,3,4,5]) x.shape # (5,) 5개의 요소 2차원 배열 X축과 Y축이 존재 axis = 0, 1이 존재 0은 X축인 행, 1은 Y축인 열을 의미 depth는 1 대괄호가 2개로 시작 ex) [[ 1, 2 ] ,[ 3, 4 ] ,[ 5, 6 ]] import numpy as np x = np.array([[ 1, 2 ] ,[ 3, 4 ] ,[ 5, 6 ]]) ''' [ [ 1, 2 ] ,[ 3, 4 ] ,[ 5, 6 ] ] ''' x.shape #(3, 2) 1차원인 2개의 요소를 3개의 배열로 ..