엑셀 분산 수식 - egsel bunsan susig

분산과 표준편차, 정말 많이 들어보지 않으셨나요? 하지만 누군가에게 설명을 해준다면 말문이 막힐 것 같아요. 중고등학교 수학 시간에 배웠던 개념을 다시 떠올리려니 기억이 가물가물.. (저는 문돌이에요..) 학생 때는 시그마와 루트를 활용하여 수식을 작성했다면 엑셀에서는 간단한 함수로 표현할 수 있답니다. 그러므로 이번 포스팅에서는 분산과 표준편차의 개념을 알아보고, 엑셀 분산, 표준편차를 활용하는 방법에 대하여 알아보도록 하겠습니다!

민주는 이번 중간고사에서 국어 30점, 영어 45점, 수학 77점, 사회 88점, 과학 60점을 받았습니다. 민주의 중간고사 평균은 얼마일까요? 바로 60입니다. 반면, 민혁이는 국어 40점, 영어 50점, 수학 60점, 사회 70점, 과학 80점을 받았습니다. 민혁이의 평균 또한 60점입니다. AVERAGE 함수를 사용하면 쉽게 구할 수 있습니다! 평균값이 같다면, 각 과목 별 점수가 평균값으로부터 흩어진 정도가 같을까요? 아마도 아닐 것입니다. 즉, 평균값은 데이터들이 얼마나 흩어져 있는지를 답해줄 수 있는 개념이 아닌 것입니다.

그래서 생겨난 개념이 분산입니다. 분산은 각 데이터에서 편차(데이터-평균)을 제곱하여 더한 다음, 그 값들의 평균을 구한 값입니다. 각 데이터들과 평균과의 차이(편차)들을 합친 것을 다시 한번 평균을 낸 것이지요. 평균과의 차이를 다시 한번 평균을 내버렸으니 전체 데이터가 얼마나 평균과 차이가 나는지 숫자로 확실하게 보여줄 수 있습니다. 즉 분산을 활용하면 데이터가 얼마나 흩어져있는지 수치로 표현할 수 있다는 의미입니다.

분산이 크면 클수록 데이터가 많이 흩어져 있다는 의미이며, 작으면 작을수록 평균과 비슷하게 데이터들이 분포되어 있다는 의미입니다. 그렇다면 이제 이것을 엑셀로 표현해 보도록 하겠습니다. 엑셀 분산 함수는 VAR입니다. 분산을 의미하는 Variance의 줄임말이지요. 엑셀 분산 함수의 수식은 다음과 같습니다.

=VAR(Number1,Number2...)

수식을 풀어보면 특정 데이터(Number1,Number2...)집단의 분산(VAR)을 구한다는 의미지요. 예제를 통해 좀 더 자세하게 알아보도록 하겠습니다. 평균값에서 사용했던 민주와 민혁이의 데이터입니다. 앞서 말씀드렸듯이. 과목별 각기 다른 점수이지만 평균값은 같습니다. 그렇다면 이 데이터들의 분산값은 어떻게 나올까요? 지금부터 VAR 함수를 사용하여 분산을 구해보겠습니다.

분산값을 표시할 D9 셀을 선택한 뒤 =VAR(C4:G4)를 입력합니다. 표준 편찻값이 엑셀에 표시됩니다. 같은 평균값을 가지고 있지만 분산값은 다른 것을 확인할 수 있습니다. 분산값으로 미루어보아 둘 중에 민주가 민혁이의 점수보다 더 흩어져 있다고 판단할 수 있을 것입니다.

표준편차는 분산에 루트를 씌운 것입니다. 즉 '분산의 음이 아닌 제곱근' 이 표준편차라고 할 수 있습니다. 표준편차라는 단어를 해석해보면 ‘편차들의 표준값’이라는 의미가 되며, 이는 ‘평균 값에서 표준 편차를 더하거나 뺀 만큼 정도에 데이터가 모여있다!’라고 다시 한번 풀어서 이해할 수 있습니다.

표준 편차가 작다면 평균 근처에 데이터가 주로 모여있다는 뜻이고, 표준 편차가 크다면 대부분의 데이터가 평균과 거리가 멀게 분포되어 있다는 뜻이 됩니다. 즉 표준 편차가 작으면 위의 그래프에서 평균을 의미하는 0 근처의 영역에 데이터가 밀집되어 있을 것이고 표준 편차가 크다면 그렇지 않게 되겠지요. 표준편차가 작으면 데이터의 분포를 연결한 위의 그래프가 종 모양을 이루게 되며, 이를 정규 분포라고 한답니다. 경우의 수가 많으면 많을수록 표준편차가 작아지며 평균에 수렴한다는 의미인데요, 이는 엑셀 정보가 아닌 수학적 지식에 가까우므로 이런 개념이 있다 정도로 이해하시면 될 것 같습니다.

=STDEV(Number1,Number2...)

이제 엑셀 표준 편차를 수식으로 표현해 보겠습니다. 분산에 루트를 씌운 값이므로 지난 포스팅에서 다뤘던 SQRT 함수를 사용해야 할까요? 그렇지 않습니다. 표준편차를 구하는 함수는 따로 있습니다. 바로 STDEV함수입니다. 이는 Standard Deviation이라는 단어의 줄임말입니다. Standard는 널리 알려진 바와 같이 ‘표준’을 의미하고, DEViation은 ‘편차’라는 뜻을 가지고 있습니다. 정말 심플하게 표준+편차의 영어 단어 앞 글자를 딴 함수이지요. STDEV 함수의 수식은 위와 같습니다.

수식을 자세히 살펴보면, Number1,Number2...에 해당하는 데이터 집단의 표준편차(STDEV)를 구하라는 의미가 됩니다. 분산에서 사용했던 예시를 표준 편차에 적용해 보겠습니다. 민주의 표준편차를 구하는 E9 셀을 선택한 뒤 =STDEV(C4:G4)를 입력합니다. 표준편차 값인 23.4414가 나타납니다.

이번에는 분산에 루트 함수인 SQRT를 적용하여 검증해보도록 하겠습니다. 표준편차는 분산의 제곱근이기 때문에 분산에 루트를 씌우면 표준편차 값이 나와야 합니다. 루트 함수를 나타낼 F9 셀을 클릭한 뒤 =SQRT(D9)를 입력합니다. 표준 편찻값과 동일한 값이 표시됩니다.

반대로 제곱 함수인 POWER를 이용하여 표준편차의 제곱인 분산값을 구해보도록 하겠습니다. POWER 함수를 적용할 G9 셀을 클릭한 뒤 =POWER(E9,2)를 입력합니다. 역시 분산값과 동일한 값이 표시됩니다.

엑셀 분산과 엑셀 표준편차 함수에 대하여 알아보았습니다. 이 함수들은 자주 쓰이는 함수는 아니지만, 앎과 모름의 차이가 극명하게 갈리는 함수기도 하지요. 특히 데이터를 자주 다루는 분들의 경우 위 함수는 필수적으로 알아야 할 것입니다. 데이터의 분산과 표준편차에 기초하여 어떻게 문제를 해결할지 방향을 잡아나갈 수 있기 때문이지요. 이번 포스팅에서 사용했던 예제 파일 역시 함께 첨부하여 드리도록 하겠습니다. 예제를 통하여 엑셀 분산과 표준편차 함수뿐만 아니라 제곱과 루트 함수까지 함께 익혀보시기 바랍니다!