본문 바로가기

데이터 분석

(7)
정밀도와 재현율 혼동행렬(Confusion Matrix) 정밀도(precision) TP / (FP + TP) True로 예측한 값 중 예측을 맞춘 비율 재현율(recall) TP / (FN + TP) 실제 True 중 예측을 맞춘 비율 정밀도와 재현율의 관계 트레이드 오픈 관계 A가 높아지면 반대로 B는 감소하는 관계 Score를 높이는 경우( = 예측 정확도를 높게 설정하는 경우) 혼동행렬의 Prediction 중 FALSE는 증가하고, TRUE는 감소 높은 확률에서만 TRUE로 보기 때문에 TRUE는 감소 FP가 감소하게 되어 precision의 분모가 적어져서 결국 precision의 값은 증가 Score를 낮추는 경우( = 예측 정확도를 낮게 설정하는 경우) 혼동행렬의 Prediction 중 FALSE는 감소하..
ROC AUC 정의 ROC 분류 문제에서 성능 평가에서 사용 0.5 ~ 1 사이의 값을 갖음 FPR을 x축, TPR을 y축으로 놓은 그래프 FPR(False Positive Rate) (1을 맞추는 문제) 실제는 0중 1로 예측한 비율 1 - 특이도 특이도 (1을 맞추는 문제) 실제 0중 0으로 예측한 비율 TN / N TPR(True Positive Rate) (1을 맞추는 문제) 실제 1중 1로 예측한 비율 TP / P recall과 동일한 의미 민감도라고 부름 AUC 임의의 커브에 대한 면적을 의미 ROC AUC => ROC 그래프의 아래 면적을 의미 ROC AUC의 성능 비교 면적이 더 큰 것이 좋은 성능 아래 그림의 경우 B가 더 좋은 성능
log를 이용한 정규분포 변환(python) import pandas as pd import seaborn as sns import matplotlib.pyplot as plt df = pd.DataFrame(np.array([1, 2, 3, 4, 7, 11, 12, 103, 104, 1005, 1006, 1007]),columns=['col']) # 또는 CSV 임포트 #df = pd.read_csv('test.csv') # 원본값의 distplot그래프 sns.distplot(df["col"],label="col") plt.title('col') #각 선에 라벨링 표기 plt.legend() plt.show() #log를 이용해 변환 df["Log_col"] = np.log1p(df["col"]) # log값의 distplot그래프 sns.di..
스피어만 상관계수(python) 조건 : 변수가 모두 연속형 변수이고 정규성을 따르지 않는 경우에 사용 import pandas as pd import scipy.stats as stats df = pd.DataFrame(np.array([[1, 2], [3, 3], [4, 4], [5, 6]]),columns=['col1','col2']) # 또는 CSV 임포트 #df = pd.read_csv('test.csv') # 스피어만 상관계수 검정 corr = stats.spearmanr(df.col1, df.col2) corr pvalue 필수적이지는 않지만, 일반적으로 0.05이상은 귀무가설, 0.05미만은 대립가설을 채택 일반적으로 해석되는 경향 귀무가설 : 차이가 없다. 효과가 없다. 변수간 영향이 없다. 대립가설 : 차이가 있다. ..
distplot를 이용한 정규분포 확인(python) import pandas as pd import seaborn as sns df = pd.DataFrame(np.array([1, 2, 3, 3, 4, 4, 5, 6]),columns=['col']) # 또는 CSV 임포트 #df = pd.read_csv('test.csv') sns.distplot(df["col"]) plt.title('col') plt.show()
지수와 로그 지수 지수간의 곱셈 밑이 같은 경우 지수간의 합으로 표현 가능 지수간의 나눗셈 밑이 같은 경우 지수간의 차로 표현 가능 지수가 0인 경우 분자와 분모의 지수가 같은 경우로 볼 수 있으므로 1과 같음 지수가 -인 경우 분자의 지수가 0인 것과 같은 경우로 볼 수 있으므로, 1을 밑의 거듭제곱으로 나눈것과 같음 1을 지수가 -인 것으로 나누는 경우 위 공식에 의해 분모의 밑에 -를 +로 변환한 지수와 같음 로그 로그는 지수함수의 역함수로 밑의 숫자를 몇 제곱해야 결과가 나오는지를 구하기 위함 로그 옆의 아래 첨자는 밑, 옆의 큰 숫자는 진수라고 표현 로그의 조건 밑조건 : 밑은 1이 아닌 양수 진수조건 : 양수 상용로그 밑이 10인 로그 이진로그 밑이 2인 로그 로그법칙 상용로그에서 진수가 양수이며 1,10..
상관관계 설명 두 변수간에 어떤 선형적 또는 비선형적 관계를 갖고 있는 지를 분석하는 방법이다. 상관 계수는 두 변수간의 연관된 정도를 나타낼 뿐 인과관계를 설명하는 것은 아니다. 다음 조건에 만족할 수록 상관 분석의 신뢰도가 높아진다. 조건 1. 선형성 선형성 : 직선처럼 똑바른 도형, 또는 그와 비슷한 성질을 갖는 대상 선형성이 없다면 두 변수의 관계여부와 상관 없이 매우 낮은 상관이나 0의 상관을 갖게 된다.조건1. 두 변인 X와 Y가 선형성을 갖는 경우 조건 2. 등분산성 등분산성: 두 변수를 대표하는 직선을 그었을 때, 독립변수의 값에 상관없이 종속변수의 흩어진 정도가 같은 경우 등분산성을 충족하지 않으면 매우 낮은 상관을 갖게됨 반대의 개념은 이분산성 이분산성 : 독립변수의 값이 변화됨에 따라, 종속변..