설명
- 두 변수간에 어떤 선형적 또는 비선형적 관계를 갖고 있는 지를 분석하는 방법이다.
- 상관 계수는 두 변수간의 연관된 정도를 나타낼 뿐 인과관계를 설명하는 것은 아니다.
- 다음 조건에 만족할 수록 상관 분석의 신뢰도가 높아진다.
- 조건 1. 선형성
- 선형성 : 직선처럼 똑바른 도형, 또는 그와 비슷한 성질을 갖는 대상
- 선형성이 없다면 두 변수의 관계여부와 상관 없이 매우 낮은 상관이나 0의 상관을 갖게 된다.조건1. 두 변인 X와 Y가 선형성을 갖는 경우
- 조건 2. 등분산성
- 등분산성: 두 변수를 대표하는 직선을 그었을 때, 독립변수의 값에 상관없이 종속변수의 흩어진 정도가 같은 경우
- 등분산성을 충족하지 않으면 매우 낮은 상관을 갖게됨
- 반대의 개념은 이분산성
- 이분산성 : 독립변수의 값이 변화됨에 따라, 종속변수가 흩어지거나 좁아지는 경향
- 조건 3. 두 변수는 정규분포성을 갖아야 한다.
- 정규분포성에 위배되는 경우 상관계수의 신뢰도가 낮음
- 조건 4. 무선독립표본
- 모집단에서 표본 추출시 표본대상이 확률적으로 선정
- 조건 1. 선형성
자료의 형태
- 수치형 자료
- 연속형 자료: 값이 연속으로 이어지는 데이터
- ex) 키,몸무게
- 이산형 자료: 정수로 나누어지는 데이터
- ex) 시장을 방문한 횟수
- 연속형 자료: 값이 연속으로 이어지는 데이터
- 범주형 자료
- 명목형 자료: 순서나 양적인 의미가 없는 데이터
- ex) 혈액형
- 순서형 자료: 순서적 의미가 있는 데이터
- ex) 시험 성적의 개선 - 나쁨, 보통, 좋음
- 명목형 자료: 순서나 양적인 의미가 없는 데이터
상관분석 방법
- 연속형 변수, 연속형 변수인 경우
- 조건: 두 변수가 모두 정규성을 따르는 경우
- 피어슨 상관계수(Pearson correlation coefficient)
- 조건: 두 변수가 모두 정규성을 따르는 경우
- 연속형 변수, 연속형 변수(or 순서형 변수)인 경우
- 조건: 두 변수가 정규성을 따르지 않는 경우
- 스피어만 순위 상관계수(Spearman rank correlation coefficient)
- 켄달의 타우(Kenddall's Tau)
- 조건: 두 변수가 정규성을 따르지 않는 경우
- 명목형 변수, 연속형 변수인 경우
- 조건: 명목형 변수가 이분형인 경우
- 점이연 상관계수(Point biserial correlation coefficient)
- 명목형 이분변수를 0과 1로 코딩해야 함
- 점이연 상관계수(Point biserial correlation coefficient)
- 조건: 명목형 변수가 이분형인 경우
- 순서형 변수, 연속형 변수인 경우
- 조건: 순서형 변수가 이분형인 경우
- 이연 상관계수(Biserial correlation coefficient)
- ex) 연속형인 나이 변수를 50대 이상/ 50대 미만으로 나눈 경우
- 이연 상관계수(Biserial correlation coefficient)
- 조건: 순서형 변수가 이분형인 경우
- 명목형 변수, 명복형 변수인 경우
- 조건: 명목형 변수가 이분형인 경우
- 파이 계수(Phi coefficient)
- 크래머 V(Cramer V)
- 조건: 명목형 변수가 이분형인 경우
'데이터 분석' 카테고리의 다른 글
ROC AUC (0) | 2021.05.07 |
---|---|
log를 이용한 정규분포 변환(python) (0) | 2020.07.23 |
스피어만 상관계수(python) (0) | 2020.07.23 |
distplot를 이용한 정규분포 확인(python) (0) | 2020.07.23 |
지수와 로그 (0) | 2020.05.26 |