Medical AI & Article Review

상관분석(Correlation)

Kimhj 2023. 12. 11. 11:01
  • Correlation은 2개의 Continuous Variables 간의 선형적 관계를 분석하는 것으로, 선형적 관계는 비례식이 성립되는 관계임.(A 변수가 증가할 때, B 변수가 같이 증가하면 양의 상관관계에 있음을 의미함.)
  • 상관계수는 아래와 같은 방법을 사용함. (일반적으로 Pearson 상관계수 사용)
    • Pearson Correlation Coefficient : 모수적 방법으로, 값은 -1.0 ~ +1.0 범위에 존재함. 1은 완벽한 양의 상관관계, -1은 완벽한 음의 상관관계, 0은 선형관계가 없음을 의미함.
    • Spearman Correlation Coefficient : 변수간 단조관계를 측정하는 비모수적 방법. 즉, 선형이 아닌 모든 종류의 관계를 감지함. 계산식이 복잡하지만, 각 변수의 순위를 사용하여 계산됨.
    • Kendall Correlation Coefficient : 순위를 사용하여 두 변수간 관계를 측정하는 비모수적 방법. 스피어만 상관계수와 유사하지만, 계산방법이 다른 차이점이 있음.
  • 두 변수간의 연관성은 Scatter Plot을 그려보면 시각적으로도 확인할 수 있음.
  • 상관분석의 목적은 아래 같다.
    • 두 변수가 선형적인 관계를 가지는지 확인
    • 두 변수가 선형적인 관계를 가진다면, 양의 방향인지 음의 방향인지를 확인
    • 선형적인 정도와 관계를 수치화 하면 어느정도 되는지 확인
  • 상관계수는 공분산을 각 변수의 표준편차로 나누어 정규화한 값으로, 두 변수간의 관계의 강도와 방향을 나타냄. 따라서, 공분산은 상관계수와 직접적인 연관성이 있음. 
  • 공분산
    • 공분산은 두 변수간의 관계를 정량적으로 나타내는 통계적 수치로, 두 변수가 어떻게 함께 변하는지를 측정함.
    • 양수인 경우, 한 변수가 증가하면 다른 변수도 증가하고 음수인 경우, 한 변수가 증가하면 다른 변수는 감소함.
    • 단위에 의존적이기때문에, 상대적인 크기 비교가 어렵다는 단점이 있음.
    • 분산과 헷갈릴 수 있으나, 분산은 한개의 변수에 대한 측도이며, 값들이 평균으로부터 얼마나 흩어져있는지를 나타내고, 공분산은 2개의 변수에 대한 동시 변화정도를 의미함.
  • 위에서 언급한 공분산의 단점은, 단위에 의존적이므로 상대적인 크기 비교가 어렵다는 것임.
  • 따라서, 이러한 한계점을 극복하기 위해 공분산을 각 변수의 표준편차로 나누어 정규화한 것이 상관계수임. (-1.0 ~ +1.0 범위 사이에 값이 존재함.)
  • 상관계수의 값의 범위에 따라 상관관계 정도를 파악할 수 있는데, 아래 예시를 참고할 수 있음. (예시들마다 범위와 값이 다르므로, 참고용으로만 활용할 것)
    • 0.9 이상 : 두 변수간 상관관계가 아주 높음.
    • 0.7~0.9 : 두 변수간 상관관계가 높음.
    • 0.4~0.7 : 두 변수간 상관관계가 어느정도 있음.
    • 0.2~0.4 : 두 변수간 상관관계가 있으나 낮음.
    • 0.2 미만 : 두 변수간 상관관계가 거의 없음.
    • 0.0 : 두 변수간 상관관계가 아예 없음.