2019년 8월 5일 월요일

통계 기본 용어 (표준 편차, 분산, 표준 점수, ...)


  • 표준 편차(standard deviation) : 자료의 산포도를 나타내는 수치로, 분산을 제곱근한 것. 표준편차가 작을수록 평균값에서 변량들의 거리가 가깝다. 모집단의 표준편차는 시그마로, 표본의 표준편차는 S로 나타낸다. 제곱해서 값이 부풀려진 분산을 제곱근해서 다시 원래 크기로 만들어 준다.
  • 68-95-99.7 규칙 : 통계학에서 정규 분포를 나타내는 규칙으로 3시그마 규칙이라고도 한다. 경험적인 값으로 평균에서 양쪽으로 3표준편차의 범위에 거의 모든 값(99.7%)이 들어가는 것을 나타낸다. 평균에서 양쪽으로 1표준편차 범위 내에 약 68% 값이, 2표준편차 범위 내에 약 95% 값이, 3표준편차 범위 내에 약 99.7% 내에 존재한다.
  • 정규 분포(normal distribution) : 수집된 자료의 분포를 근사하는데 쓰인다. 정규 분포는 평균과 표준편차를 기준으로 모양이 결정되는데 평균이 0이고 표준편차가 1인 정규분포를 표준 정규 분포라고 한다. 정규분포곡선은 좌우가 대칭이며 하나의 꼭지를 갖는다.
  • 편차(deviation) : 관측값에서 평균 또는 중앙값을 뺀 것.
  • 분산(variance) : 관측값에서 평균을 뺀 값을 제곱하고, 그것을 모두 더한 후 전체 개수로 나눠 구한 값. 차이값의 제곱의 평균이다. 편차를 모두 더하면 0이 나오기 때문에 제곱해서 더한다.
  • 표준 점수(standard score, z-value, z score) : 데이터가 표준편차 상에 어떤 위치(평균으로부터 얼마나 떨어져 있는지)를 차지하는지를 나타내는 수치. z score가 0이면 정확히 평균에 해당한다. (number - average) / standard_deviation)
[출처: 위키백과]

댓글 없음:

댓글 쓰기