블로그 이미지
민이청멍

카테고리

분류 전체보기 (67)
일상 (12)
교육 (2)
수학 (6)
수능수학 (4)
영상 (5)
음악 (11)
(10)
경제 (0)
언어 (2)
장소 (0)
(3)
뉴스 (11)
말,글 (1)
Total
Today
Yesterday

아직 다 못썼지만 아까워서 포스팅합니다.


※ 앞서서 하고 싶은 말은, 이 글에 적힌 내용과 용어의 뜻은 고등학교 수준에 맞춰 작성된 것이며, 필자의 수준도 관련된 학부 강의를 몇개 보고 몇몇 자료를 찾아본 수준에 지나지 않다는 것입니다. 그러니 혹시 이해가 잘 가지 않거나 틀린 부분이 있다면 지적을 해주실 경우 추가적인 답변과 수정을 할 것입니다. 이런 지적이 '잘 모르겠어요.'수준에 머무르지는 않기를 바랍니다. 적극적으로 다른 정보들을 찾아본 뒤에 지적을 해준다면 저로서도 좋을 것 같고, 그대들에게도 큰 도움이 될 것입니다. Watson & Mason에 따르면 '학습이라는 것은 주의가 구조적으로 변화하는 것을 경험하는 과정'이라고 합니다. 충분한 호기심과 의문을 갖고 그대들의 주의를 구조적으로 바꾸시길 바라봅니다.


※ 특별히 이번 포스팅은 좀 깁니다. 읽는데 아마 시간이 꽤나 걸리실겁니다. 하지만 조금 시간을 들여 찬찬히 읽으신다면, 특별히 종이와 펜을 이용하여 고민해보며 읽으신다면, 읽으신 시간의 몇 배의 보상이 있을 것입니다. 다시는 통계부분 관련하여 인터넷에 검색할 일이 없을 것이라고 확신합니다.


언제나 그렇듯이 논의의 출발은 관련된 용어를 명확히 하는 것이다. 먼저 확률변수란, '확률이 정해져있는 변수'를 가리킨다. 물론 변수라는 것이 언제나 수만을 가리키는 것은 아니지만, 특별히 여기서는 수(number)를 가리키는 것이라는 것을 유념한다. 곧, 우리는 이 값도 될 수 있고 저 값도 될 수 있는 문자를 다루되, 그 '될 수 있는 확률'이 정해져있는 경우에 주목하고자 한다.(예컨대, 임의의 실수를 나타내고자 사용되는 변수 x는 확률과는 관계가 없다. 그냥 이 값도 될 수 있고 저 값도 될 수 있다는 가능성이 있을 뿐이다.) 특별히 확률변수를 나타낼 때는 일반적인 변수를 나타내기 위해 소문자 엑스(x)를 사용하는 것에 비교하여 대문자 엑스(X)를 사용하여 나타낸다. 여기서 확률이 정해져 있다는 것을 협의로 생각한다면, X=1일 확률이 정해져있다, 곧, P(X=1)가 정해져있다는 말로만 이해할 가능성이 크다. 그러나 이것은 X가 이산확률변수인 경우에만 해당하는 것이며, 연속확률변수의 경우에는 X=1일 '밀도'가 정해져있다는 차원에서 확률이 정해져 있다는 것이다.(밀도가 쌓이면, 곧, 적분되면, 질량이 될 것이다. 이제 '확률밀도함수'와 '확률질량함수'가 갖는 의미의 차이가 좀 더 와닿을 것이다.)


먼저 정규분포에 대하여 이야기해보도록 하자.

(출처 : http://www.seehint.com/hint.asp?no=12352)

정규분포는 연속확률분포로, 자연과 사회의 많은 확률분포가 정규분포를 따른다는 것이 알려져 있다. 또한, 이항분포의 경우도 n이 충분히 크다면 정규분포에 근사하는 등, 많은 분포가 정규분포와 뗄레야 뗄 수 없는 성질을 갖는다. 그렇다면 무엇이 이 정규분포를 이해하는 데에 핵심일까?

(출처 : http://secom.hanbat.ac.kr/xe/)

혹시 여러분은 정규분포에 관련된 단원을 담은 책의 맨 뒤를 펴본 적이 있는가? 그리고 펴봤다면 혹시 이런 표를 본 적이 있는가? 본 적이 없다면 다음 표는 어떠한가?

흔히 정규분포를 이루는 확률분포 관련 문제의 경우 표준화라는 작업을 통해 이루어진다. 위의 두 표는 표준정규분포를 따르는 확률변수 Z에 대해 여러 확률값들을 주고 있다. 그리고 우리는 어떤 정규분포를 따르는 확률변수 X를 표준화하여 위의 표를 이용하여 확률을 구한다. 우리는 어떻게 표준화라는 작업을 통해 확률을 구할 수 있는 것인가?

혹시 이 그래프를 유심히 본 사람이라면 x축에 적혀있는 문자가 신기하게 보였을지도 모르겠다. μ의 경우 그리스 문자로 '뮤'라고 읽으며 m, 즉, 평균을 가리킨다. 위 그래프가 말하고 있는 것은, 정규분포는 평균으로부터 표준편차의 몇 배 만큼 떨어져 있느냐가 확률을 모두 결정한다는 것이다.(그냥 정규분포의 정의가 그렇다는 것으로 받아들이자. 치환적분을 이용하면 증명할 수 있다는 것만 말하도록 하겠다.) 즉, 임의의 정규분포 N(m,σ^2)를 따르는 확률변수 X에 대하여 다음과 같은 식이 성립한다. 볼 때 꼭 위의 그래프를 유념하면서 보도록 하여라! 제발!


이렇게 정규분포의 경우 평균으로부터 표준편차의 몇 배 만큼 떨어져있느냐에 따라서'만' 확률이 결정된다. 그러므로 어떤 정규분포가 주어지더라도 확률을 다 계산할 수 있는 것이다. 미리 구해놓은 표를 이용하여! 문제를 하나 풀면서 더 설명하도록 하겠다.


풀이 : 과자 1봉지의 무게를 확률변수 X를 통해 표현하도록 하자. 그러면 X는 N(75,4)를 따른다. 이제 76과 78이 75로부터 표준편차의 몇 배 만큼 떨어져 있는지 생각해보자. 76은 75보다 1 크다. 이때, 표준편차가 2 이므로 표준편차의 절반이 된다. 78은 75보다 3 크다. 이때, 표준편차가 2 이므로 표준편차의 1.5배가 된다. 그러므로 구하고자 하는 확률은

가 된다. 이제 오른쪽 표준정규분포표를 보자. 표준정규분포는 평균이 0이고 표준편차가 1인 정규분포이다. 그러므로, 표준정규분포의 입장에서 는 이다. 그리고 위에서 말했듯이, 어느 정규분포든지 확률은 오직 평균으로부터 표준편차의 몇 배 만큼 떨어져있느냐에 의해 결정된다. 즉, 가 성립한다.(이것이 우리가 흔히 하고 있는 표준화의 의미이다.)


이렇듯 어떤 평균과 표준편차를 가졌든지 간에 우리가 미리 표준정규분포에 대하여 조사해놓는다면, 어떤 경우에서도 쉽게 확률을 구할 수 있다. 그래서 교과서 뒤에 표준정규분포표가 있는 것이다. 더 잘 설명하고 싶은데, 글로 설명하는 것은 한계가 있다. 필요하다면 전화던 동영상이던 설명을 해주고 싶다! 잘 모르겠으면 제발 댓글을 달아주길 바란다.



이제 특정한 '수치'에 집중하여 자료 수집을 시작했다고 생각해보자. 하나 상상해보면, '대한민국 사람 전체의 발 사이즈'를 조사하는 경우를 살펴볼 수 있겠다.(이때, 발 사이즈는 5mm단위로 측정한다고 하자. 그러면 충분히 분명하게 수치화된 정보를 얻을 수 있다.) 이 경우 나의 발 사이즈는 260mm이고, 지금 이 글을 보고 있는 당신의 발 사이즈도 일정한 값, 편의상 250mm라고 하자,이고, 하승진의 발 사이즈는 350mm이다. 이걸 쭉 모아 정리해보면 '아무나 한 명 뽑았을 때' 그 사람의 발 사이즈가 몇인지 말할 수 있을 것이다. 내가 뽑힌다면 260mm라고 말할 수 있을 것이고, 당신이 뽑힌다면 250mm라고 할 것이고. 그럼 이제 사람들을 발 사이즈로 분류했다고 생각해보자. 편의상 100만명이 260mm라고 해보자.(대한민국 전체는 5000만명이라고 가정하고.) 이때, 전체 자료에서 누군가의 자료를 뽑으면, 항상 그 사람에 대응하는 발 사이즈를 하나 찾을 수 있다. 예컨대, 내가 뽑힌다면 260mm를 대응시킬 수 있을 것이다. 그러면 우리가 진실로 '아무나' 뽑는다면, 어떤 사람을 뽑았더니 발 사이즈가 260mm일 확률은 100만/5000만, 즉, 1/5일 것이다. 아무나 뽑는다는 임의성은 누가 뽑힐 가능성이 더 높거나 낮지 않다는 것을 의미하고, 따라서 모두 똑같이 뽑힐 확률이 1/5000만일 것이기 때문이다. 그러면 이제 대한민국 사람 전체의 발 사이즈를 확률변수 X를 이용하여 표현할 수 있다. X라고 적힌 속에는 사실 5000만개의 수치가(물룐 겹치는 것도 있다.) 담겨져 있고, 단지 각 수치마다의 확률이 결정되어 있을 뿐이다. 아까 말한 것을 식으로 표현하면 P(X=260)=1/5라고 표현할 수 있을 것이다. 이렇게 특정 조사(혹은 측정)의 대상이 되는 결과(수치)를 모두 모은 집합(혹은 집단)을 모집단이라고 부른다. 다시 말하지만 '특정 조사에서 얻은 수치를 모두 모은 것'을 모집단이라고 한다. 그러므로 모집단은 고정적인 개념이 아니며 모여있는 것은 수치라는 것에 유의한다.


지금까지는 모집단의 값 하나하나만을 생각했다면 이번에는 여러 값을 임의로 동시에 뽑는다고 생각해보자. 편의상 10명의 값을 뽑는다고 해보자.(10대신 임의의 자연수 n을 선택하여도 같은 결론에 도달할 수 있다. 그리고 글을 읽는 여러분은 결국 그 단계까지 나아갈 수 있어야 한다.) 위에서 말한 것과 마찬가지로 다양한 값들이 나올 수 있다. 아까처럼 260mm가 나올 수도 있고, 270mm도 나올 수 있고 어쩌면 300mm가 나올 수도 있다. 중요한 것은 뽑힌 10개의 값이 각자의 확률을 갖는다는 것이다. 예컨대, 260mm가 나올 확률은 1/5였을 것이다. 그럼 10개의 값들이 모두 260mm일 확률은 얼마일까? 이는 확률이 1/5이고 시행횟수가 10번인 이항분포에서 1/5에 해당하는 사건만 10번 일어나는 것과 같다.(왜?) 따라서 확률은 이 된다. 이와 같이 10개의 값이 무엇이 나올지도 확률이 정해져있다. 여기서 주목하고 싶은 것은 특별히 뽑은 10개의 값의 평균이다. 왜 여기서 평균에 주목하는지는 후술하도록 하겠다. 각설하고, 260mm만 10개가 나오던지 250mm 1개, 270mm 1개, 260mm 8개가 나오던지간에 평균은 260mm로 같다는 것에 주목하라. 이렇게 가능한 10개의 조합을 모두 생각해본다면, 결국 10개의 평균은 260mm가 나올 수도, 270mm가 나올 수도 있고, 그 외에 다양한 값들이 나올 수 있다는 것을 알 수 있다. 더 나아가 각 조합의 확률이 정해져 있으므로 평균이 어떤 값이 나올 확률도 마찬가지로 정해져 있다는 것을 알 수 있다. 즉, 10개만 임의로 뽑아본 결과의 평균도 마찬가지로 확률변수다. 우리가 모집단의 임의의 값을 나타내기 위해 X를 사용했기 때문에 이렇게 10개만 뽑아본 결과의 평균은 확률변수지만 헷갈리지 않게 하기 위하여 위에 작대기를 그어 라고 나타낸다. 이제 P(X=260)과 P(=260)이라는 식이 가리키는 의미의 차이를 보다 분명히 알 수 있을 것이다. 이렇게 모집단이 정해져 있을 때, 해당 모집단에서 몇 개의 값을 뽑아 이들의 평균의 가능한 '조합'을 모두 모아 놓은 집단을 표본집단이라고 부르고, 몇 개의 값을 뽑았는지를 표본집단의 크기라고 부른다. 그리고 각각의 조합에서 평균을 생각하여 새롭게 얻어낸 '확률변수'를 '표본평균'이라고 부른다. 예컨대, 위의 사례라면 10이 바로 해당 표본집단의 크기가 되고, 10명의 발 사이즈를 모은 집합, 예컨대, {260mm, 260mm, ..., 260mm}가 표본집단, 이렇게 가능한 모든 표본집단에서 평균을 계산하여 새롭게 얻어낸 확률변수를 표본평균이라고 부른다는 것이다.

(표본집단에 대한 설명을 보충하도록 하겠다. 예컨대 주사위를 던졌을때 나오는 값을 처음 조사한다고 해보자. 그럴 경우 모집단은 {1,2,3,4,5,6}이 된다. 이때, 모집단에서 임의로 두 개의 원소를 뽑는다고 생각해보자. 그러면 가능한 경우는 {1,1}, {1,2}, {1,3}, ... , {6,6} 의 36가지 경우가 있다. 이때 각 경우의 평균을 구해보면 1, 1.5, 2, 2.5, 3, 3.5, 1.5, 2, ..., 5.5, 6 이런 식으로 구할 수 있을 것이다. 그러면, 표본평균이 1일 확률은, 표본집단에서 {1,1}을 뽑을 확률과 같으므로 1/36이 되고, 표본평균이 1.5일 확률은 {1,2}, {2,1}을 확률과 같으므로 2/36이 되고,... 와 같이 생각할 수 있다.)


놀라운 사실은 표본평균의 분포가 아주 신비한 성질을 갖는다는 것이다.

1. 만약 모집단이 N(m,σ^2)을 따르고 있었다면, 크기가 n이 되게끔 표본집단을 생각한다고 할 때, 표본평균은 '항상' N(m,σ^2/n)을 따른다.

2. 만약 모집단이 정규분포가 아니더라도, 평균이 m이고 분산이 σ^2이고, 표본의 크기 n이 충분히 크다면 표본평균은 N(m,σ^2/n)에 가까워진다.

이것이 바로 이른바 '중심극한정리'인데, 그 증명이 몹시 어려워 고등학교 교과서에서는 증명을 다루지 않는다. 그리고 부끄럽게도, 필자도 완전한 증명을 배우지는 못하였다. 하지만 분명한 것은 수학적으로 증명이 되어 있다는 것이다. 그러니 여러분의 정신건강을 위해서도 그냥 '받아들이기' 바란다.(참고로 2의 증명이 훨씬 어렵다. 조건으로 '표본의 크기 n이 충분히 크다면'이 붙어있다는 것에 주목하라. 애초에 1번과 2번이 왜 나뉘어 있는지 모른다면 반성하기 바란다. 그리고 다시 2번 명제를 보면 놀라움을 금할 수 없다. 모집단이 정규분포를 따르지 않더라도 표본평균의 분포는 정규분포에 근사한다는 것이다! 저기서 n이 충분히 크다는 것은 n이 15이상 혹은 n이 20이상 혹은 nm이 얼마 이상 등 다양한 기준이 있는데, 사실상 교과서나 문제들에서 다루어지는 정도라면 충분히 크다는 것은 받아들이도록 하자. 왜냐하면, 이것은 주관적으로 정해지는 것이기 때문이다. n이 점점 커질 수록 정규분포와 가까워 지는 것은 맞는데, 어느정도면 '충분히' 가까운지를 판단하는 것은 주관적일 수 밖에 없다.)



기회가 된다면 마무리짓도록 하겠습니다. 이정도만으로도 충분히 도움이 되리라 생각합니다.

Posted by 민이청멍
, |

최근에 달린 댓글

최근에 받은 트랙백

글 보관함