본문 바로가기

데이터 분석

상관관계

설명

  • 두 변수간에 어떤 선형적 또는 비선형적 관계를 갖고 있는 지를 분석하는 방법이다.
  • 상관 계수는 두 변수간의 연관된 정도를 나타낼 뿐 인과관계를 설명하는 것은 아니다.
  • 다음 조건에 만족할 수록 상관 분석의 신뢰도가 높아진다.
    •  조건 1. 선형성
        • 선형성 : 직선처럼 똑바른 도형, 또는 그와 비슷한 성질을 갖는 대상
        • 선형성이 없다면 두 변수의 관계여부와 상관 없이 매우 낮은 상관이나 0의 상관을 갖게 된다.조건1. 두 변인 X와 Y가 선형성을 갖는 경우
          선형 그래프
          비선형 그래프
    • 조건 2. 등분산성
        • 등분산성: 두 변수를 대표하는 직선을 그었을 때, 독립변수의 값에 상관없이 종속변수의 흩어진 정도가 같은 경우
        • 등분산성을 충족하지 않으면 매우 낮은 상관을 갖게됨
        • 반대의 개념은 이분산성
        • 이분산성 : 독립변수의 값이 변화됨에 따라, 종속변수가 흩어지거나 좁아지는 경향
      등분산성 그래프
      이분산성 그래프
    • 조건 3. 두 변수는 정규분포성을 갖아야 한다.
      • 정규분포성에 위배되는 경우 상관계수의 신뢰도가 낮음
    • 조건 4. 무선독립표본
      • 모집단에서 표본 추출시 표본대상이 확률적으로 선정

자료의 형태

  • 수치형 자료
    • 연속형 자료: 값이 연속으로 이어지는 데이터
      • ex) 키,몸무게 
    • 이산형 자료: 정수로 나누어지는 데이터
      • ex) 시장을 방문한 횟수
  • 범주형 자료
    • 명목형 자료: 순서나 양적인 의미가 없는 데이터
      • ex) 혈액형
    • 순서형 자료: 순서적 의미가 있는 데이터
      • ex) 시험 성적의 개선 - 나쁨, 보통, 좋음


상관분석 방법

  • 연속형 변수, 연속형 변수인 경우
    • 조건: 두 변수가 모두 정규성을 따르는 경우
      • 피어슨 상관계수(Pearson correlation coefficient)
  • 연속형 변수, 연속형 변수(or 순서형 변수)인 경우
    • 조건: 두 변수가 정규성을 따르지 않는 경우
      • 스피어만 순위 상관계수(Spearman rank correlation coefficient)
      • 켄달의 타우(Kenddall's Tau)
  • 명목형 변수, 연속형 변수인 경우
    • 조건: 명목형 변수가 이분형인 경우
      • 점이연 상관계수(Point biserial correlation coefficient)
        • 명목형 이분변수를 0과 1로 코딩해야 함
  • 순서형 변수, 연속형 변수인 경우
    • 조건: 순서형 변수가 이분형인 경우 
      • 이연 상관계수(Biserial correlation coefficient)
        • ex) 연속형인 나이 변수를 50대 이상/ 50대 미만으로 나눈 경우
  • 명목형 변수, 명복형 변수인 경우
    • 조건: 명목형 변수가 이분형인 경우
      • 파이 계수(Phi coefficient)
      • 크래머 V(Cramer V)

'데이터 분석' 카테고리의 다른 글

ROC AUC  (0) 2021.05.07
log를 이용한 정규분포 변환(python)  (0) 2020.07.23
스피어만 상관계수(python)  (0) 2020.07.23
distplot를 이용한 정규분포 확인(python)  (0) 2020.07.23
지수와 로그  (0) 2020.05.26