CSE/Data Science
[데이터과학] The Lie Factor
minkylee
2024. 4. 24. 22:07
Lie Factor는 데이터 시각화에서 사용되는 개념으로 시각적으로 표현된 데이터가 얼마나 실제 데이터의 비율을 왜곡하고 있는지를 나타내는 척도이다. 간단히 말해서, 시각화된 정보가 실제 데이터를 얼마나 정확하게 또는 부정확하게 나타내는지를 측정하는 방법
- Effect Size in Graphic 은 시각화된 변화의 비율 (예를 들어, 그래프에서의 길이, 면적, 각도의 변화 등)
- Effect Size in Data는 실제 데이터에서의 변화 비율
Lie Factor의 의미
- Lie Factor = 1 : 시각화가 데이터를 정확하게 표현하고 있음을 의미한다.
- Lie Factor > 1 : 시각화가 데이터보다 큰 효과를 주는 것처럼 표현되고 있어, 데이터를 과장하고 있음을 의미한다.
- Lie Factor < 1 : 시각화가 데이터의 효과를 축소하여 표현하고 있어, 데이터의 중요성을 축소하고 있음을 의미한다.
Lie Factor의 중요성
Lie Factor는 시각화가 데이터의 진실을 얼마나 충실히 반영하고 있는지 평가하는데 중요한 도구이다. 데이터 시각화의 목표는 정보를 정확하고 효과적으로 전달하는 것이므로, 높은 Lie Factor는 오해의 소지가 있거나 잘못된 정보를 전달할 위험이 있음을 경고한다.
데이터 시각화를 설계할 때는 가능한 한 Lie Factor를 1에 가깝게 유지하여, 시각화가 데이터를 정확하게 반영하도록 해야 한다.
차원성과 관련된 왜곡
- 단일 매개변수로 2차원 표현, 3차원 표현을 하는 것은 거짓을 초래한다. 왜냐하면 면적 또는 부피의 증가가 길이에 비례하지 않기 때문이다.
- 이는 시각적으로 비례성을 잘못 전달하여 데이터의 실제 변화보다 더 크거나 작게 보이게 만들 수 있다.
- 예를 들어 막대 그래프에서 막대 높이만 두 배 증가시키면 시각적으로는 그 차이가 훨씬 더 커보일 수 있다. 이는 데이터의 실제 차이와 시각적 차이 사이에 불일치를 초래한다.
막대 그래프를 제작할 때 따라야 할 몇 가지 중요한 지침
- 막대 그래프는 항상 0에서 시작해야 한다.
- 축은 항상 적절하게 라벨을 붙인다.
- 연속적인 척도를 사용해야 한다.