What is? 6시그마법의 시그마와 표준편차의 관계 및 Cpk, Ppk
2017. 8. 28. 1:00 [질문] 감사합니다. 답변 바로가기 정규분포 vs 6시그마 세상의 모든 현상이 정규분포형태를 가지지는 않는다. 하지만 우리 일상의 많은 일들( 키나 지능지수나 주사위 확율, 제품의 불량율, 여론조사,etc)이 정규분포를 따른다. 우연이 지배하는 이 세상에서 시행횟수가 엄청 많아지면 발생확율이 대부분 아래 그래프처름 종모양의 그래프에 수렴된다. 정규분포라는 것은 지극히 정상정인 분포라는 의미처름 세상의 대부분의 사건들을 이것으로 표현이 가능하며 어떤 현상이 이 분포곡선을 벗어나면 다시한번 따져보아야 할 만큼 중요성이 있다. 사건이나 시료의 시행횟수가 많아지면 평균값(뮤)을 중심으로 어떤 편차(시그마)를 보이면서 점들이 분포하게 되는데 정규분포라 함은 일정범위에 흩어진 점들의 집합을 곡선으로 표현한 것이다. 즉, 분포는 일정한 범위에 흩어져 있는 점을 나타나며, 범위는 최소값과 최대값사이 이며, 곡선은 점들의 집합을 나타낸다. 정규분포곡선이란, 한 집합의 최소값과 최대값 사이에 흩어져 있는 사건의 값들을 점으로 표현한 것이라 말할수 있다. 여기서 정규라는 말이 좀 거슬리는데, 정규(normal)란 지극히 정상적인 분포(distribution)라는 것~` 이것은 다른 말로 가우시안 분포, 가우스분포, 오차분포라고도 한다. 편차(시그마)는 한 집합의 평균값과 요소의 값차이를 말한다. 예를 들어 집합 A에 0, 1 2 3 4 5 6 7 8 9 라는 숫자가 있다면, 이 집합의 평균은 4.5 이며, 각 편차는 4.5, 3.5, 2.5, 1.5, 0.5, 0.5, 1.5, 2.5, 3.5, 4.5 이고, 이 편차 집합의 평균은 15 이다. 표준편차는 편차의 평균을 말하는 것으로 평균절대편차라고도 한다. 표준편차가 크면 집합의 중심치에서 많이 벗어 나것이기에 개별적 활동이 활발한 집단으로 통제가 안되는 집합으로 해석 가능하다. 이런 정규분포곡선은 종모양이 높지못하고 나지막하게 넓게 퍼진 산모양을 이룬다. 정규분포보다 큰 분포가 이항분포로 정규분포가 연속변량인 데 대하여 이항분포는 이산변량이다 그리고 p가 0이나 1에 가깝지 않고 n이 충분히 크면 이항분포는 정규분포(가우스분포)에 가까워지며, p가 1/2에 가까워짐에 따라 그래프는 좌우대칭인 산 모양 곡선이 된다. 참조 : http://blog.naver.com/artquery/45164700 참조 : http://www.youtube.com/watch?v=XAuMfxWg6eI&NR=1 6시그마는 제품을 생산하는 공장에서 불량품을 줄이기 위한 운동으로 많이 사용된다. 물론 제품의 불량품외에 다양하게 적용이 가능한 기법이다 시그마(σ)는 편차를 나타내는 것으로 제품의 산포를 관리하겠다는 것으로 해석된다. 위 좌측그래프에서 평균(뮤)에서 좌우측으로 +1,-1 의 시그마(편차)를 가진 영역을 1시그마(σ)라고 한다. 이것의 영역은 전체에서 약 68%를 차지하며 불량율로 따지면 100%-68%=32%만큼의 불량이 쏱아진다. 계속 2,3,4,5,6로 시그마를 넓히면 1시그마 경우 100%- 68% = 불량율(32%) 2시그마 경우 100%- 95% = 불량율(5%) 3시그마 경우 100%- 99.7% = 불량율(0.3%) 4시그마 경우 100%- 99.99% = 불량율(0.01%) 5시그마 경우 100%- 99.9999% = 불량율(0.001%) 6시그마 경우 100%- 99.9999999999% = 불량율(0.00000001%) 6시그마는 모토로라가 등록한 상표이다. 시그마(σ)는 원래 정규분포에서 표준편차를 나타내며 6표준편차인 100만 개 중 3.4개의 불량률(DPMO,Defects per million opportunities)을 추구한다는 의미에서 나온 말이다. 1986년 모토로라의 엔지니어인 빌 스미스가 정립하였다. 이전에 많이 쓰이던 불량률 제로 운동, 총체적 품질경영기법 등의 다양한 품질관리 기법에서 많은 영향을 받아 만들어졌다. 6시그마는 1995년 잭 웰치가 제너럴 일렉트릭에 도입하면서 한층 더 알려지고 발전하였다. 6시그마에는 두가지 주요한 방법론이 있는데 DMAIC과 DMADV이다. 이 두가지는 원래 W. 에드워드 데밍의 계획-실행-점검-행동 싸이클 이론에서 영향을 받은 것이다. DMAIC은 주로 기존의 프로세스를 향상시키기 위해 쓰이고 DMADV는 새로운 제품을 만들거나 예측가능하고 결함이 없는 성능을 내는 디자인을 만들기 위한 목적으로 쓰인다. 이런 활동은 제품의 불량율과 신뢰성이 많이 향상된다.
테바트론의 연구 결과는 1시그마로 통계학적 유의미성이 훨씬 떨어지는 것으로 평가되고 있다. 3시그마는 연구 결과가 자료의 통계학적 오류로 인해 일어났을 가능성이 1천분의 1임을, 5시그마는 100만분의 1임을 의미한다. 추정하기:: 어떤 사건이 정규분포를 따르면 일정한 관측을 하여 전체사건이 어떻게 될것인가(평균과 표준편차를 예측 및 추정)를 추측하는 것이 어느정도 가능하다. 많은 데이타에서 평균과 표준편차를 구해서 자료를 해석하는 일반적인 방법을 거꾸로 하여, 몇개의 표본에서 자료를 뽑고 표본에서 구한 평균과 표준편차를 전체로 확대 해석하는 것이다. 이때는 항상 오차로 인한 에러가 있을수 있으므로 신뢰도와 유의수준(잘못될 가능성에 대한 유의해야 할 정도)을 단서로 잡는다. 앞의 시그마관리경우 1시그마 경우 100%- 68% = 불량율(32%) 라 했는데 추정에서는 확률 68%경우 68%의 신뢰도라고 하고, 100%- 68% = 32%를 32%의 유의수준이라고 말하며 정해진 신뢰도영역(68%,95%,99%,99.99%...등)을 신뢰구간이라고 한다. 신뢰구간 95%에서 유의수준 5%를 가지고 ... 이런 표현을 TV에서 많이 보았는데~~ 흠.. By 수수깡 http://blog.naver.com/ama1088/90048946081 ==> 여기에 휼륭한 동영상 강의가 있다.. http://tong.nate.com/jinkwan5/49693374 참조:: 1) 정규분포 정규분포는 좌우 대칭인 종모양의 분포로 연속확률분포 중에서 가장 중요한 분포이다. 우리가 주로 사용하는 통계분석방법은 모집단이 대부분 정규분포 형태를 가지고 있다고 가정한다. 즉 표본을 이용한 통계적 추정이나 가설검정의 기본이 되는 분포이다. (1)정규분포는 평균을 중심으로 종모양의 좌우대칭을 이룬다. (2)정규분포의 모양과 위치는 분포의 평균과 표준편차에 의해 결정된다. (3)정규분포의 평균은 분포의 위치를 나타내며 표준편차는 분포의 모양을 나타낸다. (4)정규분포곡선 아래의 전체면적 크기는 1이다. http://blog.naver.com/y2mqaz/100064693372 2)표준정규분포 표준정규분포는 평균이 0이고 표준편차가 1인 정규분포이다. 정규분포는 평균과 표준편차에 따라 다양한 모양을 가진다. 이로 인해 서로 다른 모양을 가지는 분포는 상호 비교하거나 면적의 크기를 계산하여 확률을 구하기 어렵기 때문에 평균=0, 표준편차 =1로 표준화 한 것이 표준정규분포이다. http://blog.naver.com/y2mqaz/100064693372 3) 중심극한 정리 중심극한정리란 표본크기 n이 증가함에 따라 평균의 표본분포는 모집단의 분포모양에 관계없이 정규분포 모양을 가지게 된다. 정규분포의 가정을 충족시키기 위해서는 표본크기가 최소한 30개 이상은 되어야 한다. 4) 표본분포 표본분포란 모집단에서 일정한 크기의 표본을 k개 추출하였을 때 각 확률표본의 분포를 말한다. 즉 통계량의 확률분포이다. 이에는 평균의 표본분포와 비율릐 표본분포가 있다. 평균의 표본분포는 모집단에서 일정한 크기로 표본 k 개 추출하였을 때 각 표본들의 평균 확률분포를 의미한다. 세상의 수많은 현상들은 대부분 정규분포를 따른다고 한다. 정규분포를 따르지 않는 예를 잠시 살펴보면.. 아래의 항공망이나 인터넷망같은 멱함수를 보이는 경우가 많다고 한다. 하지만 대부분은 정규분포를 따른다. 그런데 정규분포를 나타내는 식을 보면 너무나 복잡하게 생겨서, 어떻게 저런 식이 나왔는지도 알 수가 없고, 세상의 수많은 일이 정규분포로 설명된다는 것도 납득이 잘 안 된다. 정규분포라는 것은 도대체 어떻게 생각하게 되었을까? 윷짝을 보자 - 확률분포 이 세상 수많은 일들 가운데 우연의 지배를 받는 것이 많다. 주사위를 던져 나오는 점의 개수를 생각해 보면, 어떤 개수이든 같은 정도의 확률로 일어나게 된다. 동전을 던져 앞면이 나오는지 뒷면이 나오는지를 따져 보아도 마찬가지이다. 반면, 어떤 현상의 경우 일어나는 확률이 모두 같지는 않을 수도 있다. 예를 들어 윷놀이에서 모나 윷이 나올 확률은 도, 개, 걸이 나올 확률보다 훨씬 낮다. 이때 각각의 경우가 일어날 확률이 어떤지를 나타내는 것이 확률분포이다. 주사위나 동전의 경우 모든 경우의 확률이 같으므로 균등분포(uniform distribution)라 부른다. 윷의 경우, 각각의 윷짝이 엎어질 확률이 p, 뒤집어질 확률이 q(=1-p)라 하고, 도, 개, 걸, 윷, 모가 나올 확률을 구하여 보자. 윷이나 모가 나올 확률은 간단하다. 모든 윷짝이 똑 같은 모양이 되어야 하므로, 모가 나올 확률은 p4, 윷이 나올 확률은 q4이다. 도가 나오려면, 네 개의 윷짝 가운데 하나만이 뒤집어지고 나머지는 엎어져야 하므로, 어느 것이 뒤집어지느냐에 따라 네 가지 가능성이 있다. 즉, 도가 나올 확률은 4p3q가 된다. 개가 나오려면, 네 개의 윷짝 가운데 어느 두 개가 엎어지느냐에 따라 다음과 같이 모두 6 가지 경우가 나온다. 따라서 확률은 6p2q2. 윷놀이에서 개가 나오는 경우 걸의 경우, 도와 마찬가지로 네 가지 가능성이 있으므로, 확률은 4pq3이 된다. 일일이 세어보고 계산하는 것은 매우 번거롭지만, 다행스럽게도 이 계산은 (p+q)4을 전개하여 구할 수도 있다. 각 항은 차례대로 윷, 걸, 개, 도, 모가 나올 확률이 된다. 전개의 결과는 아래와 같다. 이 식을 조합(nCr)을 이용해서 표현하면 아래와 같이 된다. 위 식은 p와 q의 두 항으로 이루어진 식의 거듭제곱을 전개한 것으로 일반적으로 “이항정리(binomial theorem)”로 불린다. 이런 점에서 윷을 던지는 경우와 같은 확률분포를 이항분포(binomial distribution)라 한다. 윷짝이 많아지면? - 정규분포 우연의 지배를 받는 세상의 수많은 현상들은 그 원리를 들여다 보면 이항분포에 따라 발생확률이 결정되는 경우가 많다. 미시적인 관점에서 보면 생명체가 성장하는 것도 마찬가지이다. 하나의 세포가 분열하여 늘어나는 것은 대체로 세포마다 비슷한 확률을 보이지만, 이것이 모이고 모이면 생명체의 크기가 다양하면서도 어떤 추세 같은 것이 나타나게 된다. 사람의 키가 제각각이지만 같은 연령의 사람 키는 대체로 평균에 가까운 사람이 압도적으로 많은 것처럼 말이다. 따라서 원리적으로는 이항분포를 이용하여 확률을 계산하면 세상의 수많은 현상들을 잘 설명할 수 있게 된다. 다만, 여기에 한 가지 사소한(?) 문제가 있으니, 바로 직접 확률을 계산하기에는 계산량이 너무 많다는 점이다. 예를 들어, 엎어지거나 뒤집어질 확률이 1/2인 윷짝 100개를 던진다면, 대체로 절반 정도는 엎어지고 절반 정도는 뒤집어지는 경우가 많을 것이다. 그 확률은 얼마나 될까? 정확히 50개씩 엎어지고 뒤집어진다고 하면 그 확률은 다음과 같다. 이 값 자체는 열심히 계산해서 구할 수도 있지만, “대체로 절반 정도”라는 표현에 부합하도록 엎어진 윷짝과 뒤집어진 윷짝의 개수 차이가 10개를 넘지 않는 경우의 확률을 계산하려면 다음 식을 계산해야 한다. 컴퓨터의 위력을 빌면 어찌어찌 해결할 수 있겠지만, 윷짝이 1000개를 넘는다면 도저히 일일이 계산하는 방식으로는 문제를 해결할 길이 없다. 수학자 드무아브르(A. de Moivere, 1667-1754)가 고심하였던 문제가 바로 이것이었다. 물론 그가 윷놀이를 연구하였다는 뜻은 아니다. 중심극한정리(central limit
theorem)
위의 오른쪽 식에서 k의 값을 바꾸어 가며 점을 찍은 다음 매끈하게 연결하면 다음 그림과 같은 종모양의 곡선이 된다. 이 곡선을 보면, 양쪽 끝으로 갈수록 확률이 급격하게 작아지는 것을 알 수 있다. 연속적인 곡선으로 생각하면, 유한 개의 확률을 하나하나 계산하여 더하는 대신, 일정 구간에서 위의 함수를 적분하여 확률을 계산할 수 있다. 앞서 구해 보았던 “대체로 절반 정도의 윷짝이 엎어지는 확률”을 이 끔찍해 보이는 식을 이용하여 계산해 보면, 더 끔찍해 보이는 다음의 식이 된다. 적분하면 확률이 나온다는 점에서 이런 함수를 “확률 밀도 함수”라 한다. 이 확률 밀도 함수를 이용하여 나타내어지는 확률 분포를 정규분포(normal distribution)라 한다. 이후 라플라스(P.-S. Laplace, 1749-1827)는 이항분포가 아닌 확률분포에 대해서도 시행횟수가 크면 시행에 따른 평균값이 정규분포를 따름을 보였다. 이것은 중심극한정리(central limit theorem)라 하며, 통계학의 핵심적인 이론 가운데 하나이다. 가우스의
통찰력
정규분포 - 어떻게 계산할까? 이 세상 많은 일들이 정규분포를 따른다. 따라서 많은 자료들 평균 주변에 대부분 몰려있게 되고, 정규분포의 평균과 분산을 안다면 그 ‘몰려있는 정도’를 계산하여 구할 수 있다. 예를 들어, 평균이 m, 표준편차가 σ인 정규분포를 따르는 자료가 m-σ와 m+σ 사이에 나타날 확률은 약 68% 정도이다. 반대로 이 구간을 벗어날 확률은 약 32% 정도가 된다. 평균을 중심으로 한 구간이 크면 클수록 자료가 이 구간에 나타날 확률은 더욱 커진다. 반대로 이 구간을 벗어날 확률은 급격히 작아진다. 여기서 잠깐 정규분포에 따른 확률을 어떻게 계산하는지 알아보자. 예를 들어 m-σ와 m+σ 사이의 확률을 계산하려면 다음 적분의 값을 구하면 된다. 적당히 변수를 변환하면, 이 적분은 에 대한 것으로 고칠 수 있다. 이 함수의 부정적분을 구할 수만 있다면 일은 간단한데, 수많은 수학자들이 연구를 거듭하여도 도무지 그 부정적분을 x에 대한 사칙연산, 삼각함수, 지수함수, 로그함수, 역삼각함수 등등 잘 아는 함수들로는 - 이런 함수를 초등함수라 한다 - 나타낼 수가 없었다. 이 난제는 프랑스 수학자 리우빌(J. Liouville)이 1835년에 이 부정적분이 초등함수로는 표현되지 않음을 증명하여 비로소 해결(?)되었다.
정규분포표의 값은 위 그림과 같이 근삿값을 계산하여 만든 것이다. 세상을 설명하는 정규분포 중심 극한 정리에 따르면 정규분포는 어떤 확률분포에 대해서도 적용되는 대단히 좋은 확률분포인 데다, 또한 관측 오차를 설명하는 확률분포이기도 하므로, 세상 모든 일이 정규분포를 따른다고 생각하는 것은 어쩌면 당연한 결론이라 하겠다. 정규분포라는 이름 또한 그런 뜻에서 지어진 것이었다. 지극히 정상정인 분포라는 뜻이다. 어떤 현상을 관찰한 결과가 정규분포를 따르지 않는다면, 그것은 자료가 부족한 것으로 생각될 정도였다. 이런 믿음은 이후 정규분포와는 다른 확률분포들이 발견되면서 차츰 사라지게 되지만, 세상의 많은 일들이 정규분포를 따르고 있다는 것은 여전히 사실이다. 그러니 세상 모든 일은 아니라도 세상의 많은 일들이 정규분포를 이용하여 설명된다는 것은 어찌 보면 당연한 일이기도 하다. |