- Correlation은 2개의 Continuous Variables 간의 선형적 관계를 분석하는 것으로, 선형적 관계는 비례식이 성립되는 관계임.(A 변수가 증가할 때, B 변수가 같이 증가하면 양의 상관관계에 있음을 의미함.)
- 상관계수는 아래와 같은 방법을 사용함. (일반적으로 Pearson 상관계수 사용)
- Pearson Correlation Coefficient : 모수적 방법으로, 값은 -1.0 ~ +1.0 범위에 존재함. 1은 완벽한 양의 상관관계, -1은 완벽한 음의 상관관계, 0은 선형관계가 없음을 의미함.
- Spearman Correlation Coefficient : 변수간 단조관계를 측정하는 비모수적 방법. 즉, 선형이 아닌 모든 종류의 관계를 감지함. 계산식이 복잡하지만, 각 변수의 순위를 사용하여 계산됨.
- Kendall Correlation Coefficient : 순위를 사용하여 두 변수간 관계를 측정하는 비모수적 방법. 스피어만 상관계수와 유사하지만, 계산방법이 다른 차이점이 있음.
- 두 변수간의 연관성은 Scatter Plot을 그려보면 시각적으로도 확인할 수 있음.
- 상관분석의 목적은 아래 같다.
- 두 변수가 선형적인 관계를 가지는지 확인
- 두 변수가 선형적인 관계를 가진다면, 양의 방향인지 음의 방향인지를 확인
- 선형적인 정도와 관계를 수치화 하면 어느정도 되는지 확인
- 상관계수는 공분산을 각 변수의 표준편차로 나누어 정규화한 값으로, 두 변수간의 관계의 강도와 방향을 나타냄. 따라서, 공분산은 상관계수와 직접적인 연관성이 있음.
- 공분산
- 공분산은 두 변수간의 관계를 정량적으로 나타내는 통계적 수치로, 두 변수가 어떻게 함께 변하는지를 측정함.
- 양수인 경우, 한 변수가 증가하면 다른 변수도 증가하고 음수인 경우, 한 변수가 증가하면 다른 변수는 감소함.
- 단위에 의존적이기때문에, 상대적인 크기 비교가 어렵다는 단점이 있음.
- 분산과 헷갈릴 수 있으나, 분산은 한개의 변수에 대한 측도이며, 값들이 평균으로부터 얼마나 흩어져있는지를 나타내고, 공분산은 2개의 변수에 대한 동시 변화정도를 의미함.
- 위에서 언급한 공분산의 단점은, 단위에 의존적이므로 상대적인 크기 비교가 어렵다는 것임.
- 따라서, 이러한 한계점을 극복하기 위해 공분산을 각 변수의 표준편차로 나누어 정규화한 것이 상관계수임. (-1.0 ~ +1.0 범위 사이에 값이 존재함.)
- 상관계수의 값의 범위에 따라 상관관계 정도를 파악할 수 있는데, 아래 예시를 참고할 수 있음. (예시들마다 범위와 값이 다르므로, 참고용으로만 활용할 것)
- 0.9 이상 : 두 변수간 상관관계가 아주 높음.
- 0.7~0.9 : 두 변수간 상관관계가 높음.
- 0.4~0.7 : 두 변수간 상관관계가 어느정도 있음.
- 0.2~0.4 : 두 변수간 상관관계가 있으나 낮음.
- 0.2 미만 : 두 변수간 상관관계가 거의 없음.
- 0.0 : 두 변수간 상관관계가 아예 없음.
'Medical AI & Article Review' 카테고리의 다른 글
masking 종류 및 설명 (0) | 2023.12.18 |
---|---|
Image artifact generate 설명 (0) | 2023.12.18 |
PlexusNet: A neural network architectural concept for medical image classification (0) | 2023.12.01 |
BI tool (0) | 2023.10.11 |
Ad-hoc 데이터 분석 (0) | 2023.10.11 |