표준편차 시그마 쓰는법 - pyojunpyeoncha sigeuma sseuneunbeob

What is?

6시그마법의 시그마와 표준편차의 관계 및 Cpk, Ppk

2017. 8. 28. 1:00

[질문]
통계학에서 정밀도를 나타낼때 6시그마법을 쓰는 것으로 알고있습니다 여기서 질문드리고 싶은것이
1. 6시그마의 6개로 나눈 각각의 시그마 값과 표준편차 시그마와 무슨 관계인지
2. 6시그마법의 가우시안 커브는 수식이 어떻게 되고 어디서 나온건지
3. 3시그마를 주로 쓰는 이유?
4. Cp는 산포 Cpk는 산포+정확도로 알고 있는데 각각의 수식이 어떻게 되는지 엑셀 함수도 좀 알려주세요
5. Pp, Ppk는 무엇이고 수식이 어떻게 되는지 궁금합니다.

감사합니다.

답변 바로가기
http://www.kosen21.org/knowledgeK/whatIs/whatIsDetailView.do?parentSeq=WHAT_000000000002482

정규분포 vs 6시그마

세상의 모든 현상이 정규분포형태를 가지지는 않는다.

하지만 우리 일상의 많은 일들( 키나 지능지수나 주사위 확율, 제품의 불량율, 여론조사,etc)이 정규분포를 따른다.

우연이 지배하는 이 세상에서

시행횟수가 엄청 많아지면 발생확율이 대부분 아래 그래프처름 종모양의 그래프에 수렴된다.

정규분포라는 것은 지극히 정상정인 분포라는 의미처름 세상의 대부분의 사건들을 이것으로 표현이 가능하며

어떤 현상이 이 분포곡선을 벗어나면 다시한번 따져보아야 할 만큼 중요성이 있다.

사건이나 시료의 시행횟수가 많아지면

평균값(뮤)을 중심으로 어떤 편차(시그마)를 보이면서 점들이 분포하게 되는데

정규분포라 함은 일정범위에 흩어진 점들의 집합을 곡선으로 표현한 것이다.

즉, 분포는 일정한 범위에 흩어져 있는 점을 나타나며, 범위는 최소값과 최대값사이 이며, 곡선은 점들의 집합을 나타낸다.

정규분포곡선이란,

한 집합의 최소값과 최대값 사이에 흩어져 있는 사건의 값들을 점으로 표현한 것이라 말할수 있다.

여기서 정규라는 말이 좀 거슬리는데, 정규(normal)란 지극히 정상적인 분포(distribution)라는 것~`

이것은 다른 말로 가우시안 분포, 가우스분포, 오차분포라고도 한다.

편차(시그마)는 한 집합의 평균값과 요소의 값차이를 말한다.

예를 들어 집합 A에 0, 1 2 3 4 5 6 7 8 9 라는 숫자가 있다면, 이 집합의 평균은 4.5 이며,

각 편차는 4.5, 3.5, 2.5, 1.5, 0.5, 0.5, 1.5, 2.5, 3.5, 4.5 이고, 이 편차 집합의 평균은 15 이다.

표준편차는 편차의 평균을 말하는 것으로 평균절대편차라고도 한다.

표준편차가 크면 집합의 중심치에서 많이 벗어 나것이기에 개별적 활동이 활발한 집단으로 통제가 안되는 집합으로 해석 가능하다.

이런 정규분포곡선은 종모양이 높지못하고 나지막하게 넓게 퍼진 산모양을 이룬다.

정규분포보다 큰 분포가 이항분포로

정규분포가 연속변량인 데 대하여 이항분포는 이산변량이다
분포에서 평균값 m은 m=np, 분산 σ2은 σ2=npq(q=1-p)이다.

그리고 p가 0이나 1에 가깝지 않고 n이 충분히 크면 이항분포는 정규분포(가우스분포)에 가까워지며,

p가 1/2에 가까워짐에 따라 그래프는 좌우대칭인 산 모양 곡선이 된다.

참조 : http://blog.naver.com/artquery/45164700

참조 : http://www.youtube.com/watch?v=XAuMfxWg6eI&NR=1

6시그마는

제품을 생산하는 공장에서 불량품을 줄이기 위한 운동으로 많이 사용된다.

물론 제품의 불량품외에 다양하게 적용이 가능한 기법이다

시그마(σ)는 편차를 나타내는 것으로 제품의 산포를 관리하겠다는 것으로 해석된다.

위 좌측그래프에서 평균(뮤)에서 좌우측으로 +1,-1 의 시그마(편차)를 가진 영역을 1시그마(σ)라고 한다.

이것의 영역은 전체에서 약 68%를 차지하며 불량율로 따지면 100%-68%=32%만큼의 불량이 쏱아진다.

계속 2,3,4,5,6로 시그마를 넓히면

1시그마 경우 100%- 68% = 불량율(32%)

2시그마 경우 100%- 95% = 불량율(5%)

3시그마 경우 100%- 99.7% = 불량율(0.3%)

4시그마 경우 100%- 99.99% = 불량율(0.01%)

5시그마 경우 100%- 99.9999% = 불량율(0.001%)

6시그마 경우 100%- 99.9999999999% = 불량율(0.00000001%)

6시그마는 모토로라가 등록한 상표이다.

시그마(σ)는 원래 정규분포에서 표준편차를 나타내며

6표준편차인 100만 개 중 3.4개의 불량률(DPMO,Defects per million opportunities)을 추구한다는 의미에서 나온 말이다.

1986년 모토로라의 엔지니어인 빌 스미스가 정립하였다.

이전에 많이 쓰이던 불량률 제로 운동, 총체적 품질경영기법 등의 다양한 품질관리 기법에서 많은 영향을 받아 만들어졌다.

6시그마는 1995년 잭 웰치가 제너럴 일렉트릭에 도입하면서 한층 더 알려지고 발전하였다.

6시그마에는 두가지 주요한 방법론이 있는데 DMAIC과 DMADV이다.

이 두가지는 원래 W. 에드워드 데밍의 계획-실행-점검-행동 싸이클 이론에서 영향을 받은 것이다.

DMAIC은 주로 기존의 프로세스를 향상시키기 위해 쓰이고 DMADV는 새로운 제품을 만들거나 예측가능하고

결함이 없는 성능을 내는 디자인을 만들기 위한 목적으로 쓰인다.

이런 활동은 제품의 불량율과 신뢰성이 많이 향상된다.

실험결과의 신뢰도표현의 예
LHC의 실험결과 신뢰도가 2.8시그마인데 비해

테바트론의 연구 결과는 1시그마로 통계학적 유의미성이 훨씬 떨어지는 것으로 평가되고 있다.
어떤 새로운 발견의 공식적인 신뢰도는 0~5 시그마로 평가되는데

3시그마는 연구 결과가 자료의 통계학적 오류로 인해 일어났을 가능성이 1천분의 1임을, 5시그마는 100만분의 1임을 의미한다.

추정하기::

어떤 사건이 정규분포를 따르면 일정한 관측을 하여

전체사건이 어떻게 될것인가(평균과 표준편차를 예측 및 추정)를 추측하는 것이 어느정도 가능하다.

많은 데이타에서 평균과 표준편차를 구해서 자료를 해석하는 일반적인 방법을 거꾸로 하여,

몇개의 표본에서 자료를 뽑고 표본에서 구한 평균과 표준편차를 전체로 확대 해석하는 것이다.

이때는 항상 오차로 인한 에러가 있을수 있으므로 신뢰도와 유의수준(잘못될 가능성에 대한 유의해야 할 정도)을 단서로 잡는다.

앞의 시그마관리경우 1시그마 경우 100%- 68% = 불량율(32%) 라 했는데

추정에서는 확률 68%경우 68%의 신뢰도라고 하고, 100%- 68% = 32%를 32%의 유의수준이라고 말하며

정해진 신뢰도영역(68%,95%,99%,99.99%...등)을 신뢰구간이라고 한다.

신뢰구간 95%에서 유의수준 5%를 가지고 ... 이런 표현을 TV에서 많이 보았는데~~ 흠..

By 수수깡

http://blog.naver.com/ama1088/90048946081 ==> 여기에 휼륭한 동영상 강의가 있다..

http://tong.nate.com/jinkwan5/49693374
http://blog.naver.com/badasaja99/60047234505
http://blog.naver.com/at3650?Redirect=Log&logNo=40066177242
http://blog.naver.com/oo0620/70048298054
http://ozahir.com/tag/excel
http://blog.naver.com/noijws?Redirect=Log&logNo=130035107783
http://ikpil.com/1137
http://cafe.naver.com/6sigmaacademy.cafe?iframe_url=/ArticleRead.nhn%3Farticleid=2508

참조::

1) 정규분포

정규분포는 좌우 대칭인 종모양의 분포로 연속확률분포 중에서 가장 중요한 분포이다.

우리가 주로 사용하는 통계분석방법은 모집단이 대부분 정규분포 형태를 가지고 있다고 가정한다.

즉 표본을 이용한 통계적 추정이나 가설검정의 기본이 되는 분포이다.

(1)정규분포는 평균을 중심으로 종모양의 좌우대칭을 이룬다.

(2)정규분포의 모양과 위치는 분포의 평균과 표준편차에 의해 결정된다.

(3)정규분포의 평균은 분포의 위치를 나타내며 표준편차는 분포의 모양을 나타낸다.

(4)정규분포곡선 아래의 전체면적 크기는 1이다.

http://blog.naver.com/y2mqaz/100064693372

2)표준정규분포

표준정규분포는 평균이 0이고 표준편차가 1인 정규분포이다.

정규분포는 평균과 표준편차에 따라 다양한 모양을 가진다.

이로 인해 서로 다른 모양을 가지는 분포는 상호 비교하거나 면적의 크기를 계산하여 확률을 구하기 어렵기 때문에

평균=0, 표준편차 =1로 표준화 한 것이 표준정규분포이다.

http://blog.naver.com/y2mqaz/100064693372

3) 중심극한 정리

중심극한정리란 표본크기 n이 증가함에 따라 평균의 표본분포는 모집단의 분포모양에 관계없이 정규분포 모양을 가지게 된다.

정규분포의 가정을 충족시키기 위해서는 표본크기가 최소한 30개 이상은 되어야 한다.

4) 표본분포

표본분포란 모집단에서 일정한 크기의 표본을 k개 추출하였을 때 각 확률표본의 분포를 말한다.

즉 통계량의 확률분포이다. 이에는 평균의 표본분포와 비율릐 표본분포가 있다.

5) 평균의 표본분포

평균의 표본분포는 모집단에서 일정한 크기로 표본 k 개 추출하였을 때 각 표본들의 평균 확률분포를 의미한다.

세상의 수많은 현상들은 대부분 정규분포를 따른다고 한다.

정규분포를 따르지 않는 예를 잠시 살펴보면.. 아래의 항공망이나 인터넷망같은 멱함수를 보이는 경우가 많다고 한다.

하지만 대부분은 정규분포를 따른다.

그런데 정규분포를 나타내는 식을 보면 너무나 복잡하게 생겨서, 어떻게 저런 식이 나왔는지도 알 수가 없고,

세상의 수많은 일이 정규분포로 설명된다는 것도 납득이 잘 안 된다.

정규분포라는 것은 도대체 어떻게 생각하게 되었을까?

윷짝을 보자 - 확률분포

이 세상 수많은 일들 가운데 우연의 지배를 받는 것이 많다. 주사위를 던져 나오는 점의 개수를 생각해 보면, 어떤 개수이든 같은 정도의 확률로 일어나게 된다. 동전을 던져 앞면이 나오는지 뒷면이 나오는지를 따져 보아도 마찬가지이다. 반면, 어떤 현상의 경우 일어나는 확률이 모두 같지는 않을 수도 있다. 예를 들어 윷놀이에서 모나 윷이 나올 확률은 도, 개, 걸이 나올 확률보다 훨씬 낮다. 이때 각각의 경우가 일어날 확률이 어떤지를 나타내는 것이 확률분포이다. 주사위나 동전의 경우 모든 경우의 확률이 같으므로 균등분포(uniform distribution)라 부른다.

윷의 경우, 각각의 윷짝이 엎어질 확률이 p, 뒤집어질 확률이 q(=1-p)라 하고, 도, 개, 걸, 윷, 모가 나올 확률을 구하여 보자. 윷이나 모가 나올 확률은 간단하다. 모든 윷짝이 똑 같은 모양이 되어야 하므로, 모가 나올 확률은 p4, 윷이 나올 확률은 q4이다. 도가 나오려면, 네 개의 윷짝 가운데 하나만이 뒤집어지고 나머지는 엎어져야 하므로, 어느 것이 뒤집어지느냐에 따라 네 가지 가능성이 있다. 즉, 도가 나올 확률은 4p3q가 된다. 개가 나오려면, 네 개의 윷짝 가운데 어느 두 개가 엎어지느냐에 따라 다음과 같이 모두 6 가지 경우가 나온다. 따라서 확률은 6p2q2.

윷놀이에서 개가 나오는 경우

걸의 경우, 도와 마찬가지로 네 가지 가능성이 있으므로, 확률은 4pq3이 된다. 일일이 세어보고 계산하는 것은 매우 번거롭지만, 다행스럽게도 이 계산은 (p+q)4을 전개하여 구할 수도 있다. 각 항은 차례대로 윷, 걸, 개, 도, 모가 나올 확률이 된다. 전개의 결과는 아래와 같다.

이 식을 조합(nCr)을 이용해서 표현하면 아래와 같이 된다.

위 식은 p와 q의 두 항으로 이루어진 식의 거듭제곱을 전개한 것으로 일반적으로 “이항정리(binomial theorem)”로 불린다. 이런 점에서 윷을 던지는 경우와 같은 확률분포를 이항분포(binomial distribution)라 한다.

윷짝이 많아지면? - 정규분포

우연의 지배를 받는 세상의 수많은 현상들은 그 원리를 들여다 보면 이항분포에 따라 발생확률이 결정되는 경우가 많다. 미시적인 관점에서 보면 생명체가 성장하는 것도 마찬가지이다. 하나의 세포가 분열하여 늘어나는 것은 대체로 세포마다 비슷한 확률을 보이지만, 이것이 모이고 모이면 생명체의 크기가 다양하면서도 어떤 추세 같은 것이 나타나게 된다. 사람의 키가 제각각이지만 같은 연령의 사람 키는 대체로 평균에 가까운 사람이 압도적으로 많은 것처럼 말이다. 따라서 원리적으로는 이항분포를 이용하여 확률을 계산하면 세상의 수많은 현상들을 잘 설명할 수 있게 된다. 다만, 여기에 한 가지 사소한(?) 문제가 있으니, 바로 직접 확률을 계산하기에는 계산량이 너무 많다는 점이다.

예를 들어, 엎어지거나 뒤집어질 확률이 1/2인 윷짝 100개를 던진다면, 대체로 절반 정도는 엎어지고 절반 정도는 뒤집어지는 경우가 많을 것이다. 그 확률은 얼마나 될까? 정확히 50개씩 엎어지고 뒤집어진다고 하면 그 확률은 다음과 같다.

이 값 자체는 열심히 계산해서 구할 수도 있지만, “대체로 절반 정도”라는 표현에 부합하도록 엎어진 윷짝과 뒤집어진 윷짝의 개수 차이가 10개를 넘지 않는 경우의 확률을 계산하려면 다음 식을 계산해야 한다.

컴퓨터의 위력을 빌면 어찌어찌 해결할 수 있겠지만, 윷짝이 1000개를 넘는다면 도저히 일일이 계산하는 방식으로는 문제를 해결할 길이 없다. 수학자 드무아브르(A. de Moivere, 1667-1754)가 고심하였던 문제가 바로 이것이었다. 물론 그가 윷놀이를 연구하였다는 뜻은 아니다.

중심극한정리(central limit theorem)

드무아브르는 시행횟수 N이 아주 큰 경우 이항분포가 어떤 식에 가까워질지를 연구하였다. 마침내 1733년에 발표한 논문에서 드무아브르는 문제의 식이 다음과 같이 표현됨을 증명하는 데 성공하였다.

이 근사식은 시행횟수 N이 충분히 클 때 유도되는 식이지만, 실제로는 N이 그리 크지 않아도 비교적 잘 성립한다. 드무아브르는 “내가 시험해서 확인한 것인데, N이 100을 넘을 정도로 상당히 큰 값이 아니더라도 내 방법을 쓰면 꽤 괜찮은 결과를 얻을 수 있다”라고 기록하였다. 아마도 그는 몇 가지 경우에 대해 일일이 정확한 값을 구해 보았던 것 갈다. 이항분포는 이산적인(discrete) 확률분포이지만, 시행횟수 N이 충분히 크다면, 연속적인 양처럼 다룰 수 있다.

아브라함 드무아브르(Abraham de Moivre, 1667~1754)

위의 오른쪽 식에서 k의 값을 바꾸어 가며 점을 찍은 다음 매끈하게 연결하면 다음 그림과 같은 종모양의 곡선이 된다. 이 곡선을 보면, 양쪽 끝으로 갈수록 확률이 급격하게 작아지는 것을 알 수 있다.

연속적인 곡선으로 생각하면, 유한 개의 확률을 하나하나 계산하여 더하는 대신, 일정 구간에서 위의 함수를 적분하여 확률을 계산할 수 있다. 앞서 구해 보았던 “대체로 절반 정도의 윷짝이 엎어지는 확률”을 이 끔찍해 보이는 식을 이용하여 계산해 보면, 더 끔찍해 보이는 다음의 식이 된다.

적분하면 확률이 나온다는 점에서 이런 함수를 “확률 밀도 함수”라 한다. 이 확률 밀도 함수를 이용하여 나타내어지는 확률 분포를 정규분포(normal distribution)라 한다. 이후 라플라스(P.-S. Laplace, 1749-1827)는 이항분포가 아닌 확률분포에 대해서도 시행횟수가 크면 시행에 따른 평균값이 정규분포를 따름을 보였다. 이것은 중심극한정리(central limit theorem)라 하며, 통계학의 핵심적인 이론 가운데 하나이다.

가우스의 통찰력

르장드르(Adrien-Marie Legendre)의 초상화
19세기, 작자미상.

정규분포는 19세기의 가장 위대한 수학자인 가우스(C. F. Gauss, 1777-1855)에 의해 새롭게 해석된다. 가우스는 관측에 따른 오차의 정도가 대체로 평균값 주변에서 발생한다는 점에 착안하여 정규분포에 따른 확률 밀도 함수와 똑 같은 식을 얻을 수 있었다. 이것은 관측 오차 역시 정규분포를 따른다는 것으로, 이후 실험으로 구한 관측값에서 참값을 추정해내는 근본적인 원리로 자리잡게 된다. 이런 점에서 위의 종모양 곡선을 오차곡선(error curve)라고도 부른다.

사실 가우스가 이런 착상을 통하여 최소제곱법이라 부르는 원리를 유도한 과정은 다소 억지스럽고 순환논법적인 면이 있었다. 또, 최소제곱법 자체는 르장드르(Adrie n-Marie Legendre, 1752-1833)가 이미 발견한 것이어서 새로운 발견이라 하기도 어려웠다. 그러나 가우스의 착상은 여러 수학자에게 큰 충격을 주었다. 특히 라플라스는 가우스의 논문을 보고서, 자신이 증명한 중심 극한 정리를 이용하여 최소제곱법의 수학적 기초를 다지는 데 성공할 수 있었다. 이 과정에서 르장드르와 가우스 가운데 누가 먼저 최소제곱법을 발견하였는지를 놓고 격렬한 논쟁이 벌어지기도 하였다. 두 대가가 서로를 비난하는 글을 보면 키보드워리어들의 논쟁쯤은 비교도 안 되어 보인다.

정규분포 - 어떻게 계산할까?

이 세상 많은 일들이 정규분포를 따른다. 따라서 많은 자료들 평균 주변에 대부분 몰려있게 되고, 정규분포의 평균과 분산을 안다면 그 ‘몰려있는 정도’를 계산하여 구할 수 있다. 예를 들어, 평균이 m, 표준편차가 σ인 정규분포를 따르는 자료가 m-σ와 m+σ 사이에 나타날 확률은 약 68% 정도이다. 반대로 이 구간을 벗어날 확률은 약 32% 정도가 된다. 평균을 중심으로 한 구간이 크면 클수록 자료가 이 구간에 나타날 확률은 더욱 커진다. 반대로 이 구간을 벗어날 확률은 급격히 작아진다.

여기서 잠깐 정규분포에 따른 확률을 어떻게 계산하는지 알아보자. 예를 들어 m-σ와 m+σ 사이의 확률을 계산하려면 다음 적분의 값을 구하면 된다.

적당히 변수를 변환하면, 이 적분은

에 대한 것으로 고칠 수 있다. 이 함수의 부정적분을 구할 수만 있다면 일은 간단한데, 수많은 수학자들이 연구를 거듭하여도 도무지 그 부정적분을 x에 대한 사칙연산, 삼각함수, 지수함수, 로그함수, 역삼각함수 등등 잘 아는 함수들로는 - 이런 함수를 초등함수라 한다 - 나타낼 수가 없었다. 이 난제는 프랑스 수학자 리우빌(J. Liouville)이 1835년에 이 부정적분이 초등함수로는 표현되지 않음을 증명하여 비로소 해결(?)되었다.

결국 정규분포처럼 부정적분이 간단히 표현되지 않는 함수의 적분을 계산하려면, 적분하려는 함수가 그리는 곡선 아래 부분의 넓이에 대한 근삿값을 직접 구하는 방법밖에 없다. 고등학교 수학 교과서 제일 뒤에 실려 있는 정규분포에 대한 표가 바로 이 근삿값들을 일정 구간마다 일일이 구해서 만들어놓은 것이다.

정규분포표의 값은 위 그림과 같이 근삿값을 계산하여 만든 것이다.
직사각형의 폭을 좁힐수록 직사각형들의 넓이는 곡선 아래 부분의 넓이에 가까워진다.

세상을 설명하는 정규분포

중심 극한 정리에 따르면 정규분포는 어떤 확률분포에 대해서도 적용되는 대단히 좋은 확률분포인 데다, 또한 관측 오차를 설명하는 확률분포이기도 하므로, 세상 모든 일이 정규분포를 따른다고 생각하는 것은 어쩌면 당연한 결론이라 하겠다. 정규분포라는 이름 또한 그런 뜻에서 지어진 것이었다. 지극히 정상정인 분포라는 뜻이다. 어떤 현상을 관찰한 결과가 정규분포를 따르지 않는다면, 그것은 자료가 부족한 것으로 생각될 정도였다.

이런 믿음은 이후 정규분포와는 다른 확률분포들이 발견되면서 차츰 사라지게 되지만, 세상의 많은 일들이 정규분포를 따르고 있다는 것은 여전히 사실이다. 그러니 세상 모든 일은 아니라도 세상의 많은 일들이 정규분포를 이용하여 설명된다는 것은 어찌 보면 당연한 일이기도 하다.