[응용 통계학] 개념 정리

카테고리 없음

[응용 통계학] 개념 정리

프로틴형님 2022. 10. 24. 23:03

모수

모집단의 특성을 나타내는 수치로서, 올바른 의사결정을 위해 특별히 관심을 갖는 모수만이 연구의 대상이 된다. 또한 모집단 분포의 특성을 규정짓는 척도이다. 모 평균, 모 분산, 모 비율, 모 표준편차 등을 일컫는 말이다. 일반적으로 모수는 알려져 있지 않은 미지의 상수로써 취급되며 통계적 추론을 통해 모수를 추론할 수 있다.

표본공간 : 실험이나 관찰에서 생길 수 있는 모든 사상의 모임을 가르켜서 표본공간이라고 한다. 표본공간은 원소로 구성되어 있고 이산형 표본공간과 연속형 표본공간으로 나뉠 수 있다. 표본공간의 원소를 셀 수 있으면 이산형 표본공간, 표본공간의 원소를 셀 수 없으면 연속형 표본공간이 된다.

사상 : 표본공간을 구성하고 있는 원소 중에서 관심의 대상이 되는 원소들의 집합. 표본공간의 부분집합이다. 곱사상, 합사상, 여사상, 교사상 등이 있다.

모집단의 특성을 파악하기 위해 모집단으로부터 일정한 규칙에 의해 추출한 모집단의 부분집합이다. 우리는 모집단을 완전하게 파악할 수 없다. 물론 전수조사를 할 수 있지만 경제적으로 그리고 공간적으로, 시간적으로도 전수조사는 거의 불가능하고 비효율적이다. 그래서 표본을 측정 또는 관찰하여 연구자가 알고 싶어하는 모집단을 추정하게 된다.

연속표본공간의 정의와 특징 : 표본공간의 원소를 셀 수 없는 표본공간의 경우 연속 표본 공간이라 한다. 예를 들어 S = { 0 < x < 130} 과 같이 표본공간을 범위값으로 구성하거나 S= {(x,y) | x^2 + y^2 = 4} 와 같이 정의역의 범위가 셀수 없다.

연속표본공간과 관련된 누적분포함수의 특징 : 확률변수 X의 누적분포함수 F(x)는 X가 x보다 작거나 같을 확률이다. 연속확률변수의 누적분포함수는 다음과 같은 성질이 있다. P(a<X<b) = F(b) - F(a)이다.

표본

데이터 척도의 유헝

명목척도(nominal) : 순서, 크기 등의 의미 없음 (교과코드, 차번호, 성별)
순서척도(ordinal) : 순서의 의미는 있으나, 간격의 의미는 없음 (직급, 계급, 우선순위)
구간척도(interval) : 순서와 간격의 의미는 있으나, 비율(혹은 절대 0)의 의미는 없음 (대기표번호, 화씨온도, 지능지수)
비율척도(ratio) : 순서, 간격, 비율 등의 의미가 모두 있음 (농도, 무게, 길이)

'R'의 package

R에서 패키지는 함수, 데이터, 코드, 문서 등을 묶은 것을 의미함. R이 설치되면 stats, graphics, grDevices, utils, data, methods, base의 패키지가 설치됨. 통계와 그래프 등에 대한 기본 기능 제공. 자동으로 설치된 패키지가 제공하지 못하는 추가 기능들은 새로운 패키지를 설치해서 사용해야 함. "install.packages("패키지명")"함수를 사용해 패키지를 설치한다. 패키지를 구동할 때는 "library(패키지명)" 함수를 사용한다. R은 다양하고 많은 사용자가 강력한 패키지 생태계를 이루고 있어서 검증된 패키지를 빠르게 찾아 적용할 수 있다. 대표적인 예로 'Rstat' 패키지가 있다. 새로운 패키지를 설치하기 위해서는 기본적으로 인터넷이 연결되어 있어야 R의 패키지를 제공하는 서버와 통신이 되기 때문에 인터넷 연결이 되어 있어야 한다.

3 5 13 7/30

도수분포표

통계자료를 정리할 때 자료의 전체적인 윤곽을 파악하기 위해, 관찰치들을 적절한 계급으로 묶어 정리한 표를 말한다. 이 때 모든 자료는 빠짐없이 도수분포표에 포함되어야 하며, 극단적 수치를 나타내는 양 끝의 계급을 제외하고 계급의 구간은 모두 같아야 한다.

체크시트

어떠한 목적을 이루기 위해 필요한 작업이나 물품에 빠짐이 없는지 확인할 때 사용되는 문서이다. 그 종류로 계수표와 분할표가 있다.

히스토그램

측정값이 존재하는 범위를 몇 개의 구간으로 나눈 경우, 각 구간을 밑변으로 하고 그 구간에 속하는 측정값의 출현 도수에 비례하는 면적을 갖는 기둥으로 배열한 그림이다. 표본 데이터로부터 모집단 분포의 형태, 중심위치, 산포를 추측한다. 히스토그램의 불안정 프로세스에는 낙도형, 쌍봉우리형, 이빠진형, 절벽형이 있다.

줄기-잎 그림

변수의 값을 자리수에 의거하여 나누어서 옆자리는 줄기로 하고, 뒷자리는 잎이라 하여 이를 그림으로 제시한 도수분포이다. 예를 들어, 어떤 변수의 값이 {12, 17, 22, 23, 25,27, 31,35, 38}이라면 10자리는 줄기이고 1자리는 잎으로서 다음과 같이 제시된다.

1: 2 7
2: 2 3 5 7
3: 1 5 8

상자 그림

최댓값, 최솟값, 중앙값, 사분편차를 사용하여 자료의 측정값들이 어떤 모양으로 분포되어 있으며, 극단값들은 어떠한지 등을 쉽게 알 수 있도록 하는 그림이다. 자료들이 비대칭으로 분포되어 있을 경우에는 상자그림을 그려 극단값의 개수, 비대칭 여부 등을 파악할 수 있으므로 측정값들의 중심 위치와 산포도의 척도로 사용할 수 있다.

산점도

두 개 이상의 변수의 동시분포에서 각 개체를 점으로 표시한 그림이다. 예를 들어, 표본집단에 속한 학생들의 키와 몸무게를 잰 후에, X축은 키의 값을, Y축은 몸무게의 값을 나타내는 변수로 하여 좌표평면상에 모든 학생들의 두 변수의 값을 점으로 표시하면 산점도가 된다.

중심위치의 척도

중심위치의 대표 값을 선정하는 기준

명목척도로 측정된 데이터는 최빈값 사용
분포가 대칭이고 이상점이 존재하지 않으면 표본평균 사용
비대칭이거나 이상치가 존재하면 중앙값 사용, 표본평균 참고 값으로 비교
순위 척도로 측정된 데이터는 중앙값 사용

평균 : 모든 값을 더한 후 자료의 개수로 나눈 것을 산술평균이라고 한다. 평균은 자료의 중심 성향을 나타내는 수이다. 자료의 성격에 따라 다양한 평균을 정의할 수 있는데 산술평균, 가중산술평균, 조화평균, 기하평균 등이 많이 쓰인다.

중앙값 : 유한 개의 자료의 경우 자료의 값을 작은 것부터 순서대로 나열할 대 가운데에 위차하는 것을 그 자료의 중앙값이라고 한다. 자료, 모집단, 확률분포에서 중심을 나타내는 측도의 하나이다.

최빈값 : 주어진 자료 중 가장 많은 빈도로 나타나는 변량 또는 자료이다.

산포의 척도

표본분산 : 모집단에서 크기가 n인 표본을 추출하여 표본집단을 조사하고자 할 때 표본집단에 있는 자료의 값들끼리 얼마만큼 떨어져 있는지를 나타내는 값이 표본분산이다.

표본표준편차 : 표본집단의 표준편차로, 자료값들이 서로 얼마나 떨어져 분포되어 있는지를 나타내는 값이다. 표본분산 값에 루트를 씌워 구한다.

데이터의 범위 : 표본에서 가장 큰 값에서 가장 작은 값을 빼준 값이 데이터의 범위이다.

사분위수 범위 : 확률분포 또는 자료값의 산포도를 나타내는 측도의 하나이다. 크기 순으로 나열했을 때 확률분포 또는 자료값을 사등분하는 수를 사분위수라 하고 크기 순서로 Q1, Q2, Q3로 나타낼 때 Q3에서 Q1을 뺀 값을 사분위수 범위로 정의한다.

변동계수 : 표준편차의 크기를 평균치 X에 대한 백분율로 나타낸 것을 변동계수 도는 변화계수라 일컬으며 CV로 나타낸다.

표본공간과 사상

원소 : 표본공간을 구성하고 있는 요소. 확률실험에서 나올 수 있는 각각의 결과

사상 : 표본공간을 구성하고 있는 원소 중에서 관심의 대상이 되는 원소들의 집합. 표본공간의 부분집합이다.

여사상 : 표본공간의 사상 A에 속하지 않는 표본공간의 모든 원소들의 집합

교사상 : 두 사상 A와 B가 동시에 일어나는 사상

합사상 : 두 사상 A와 B에 대하여 A또는 B 중 적어도 한 쪽은 일어나는 사상.

확률의 정의

고전적 확률 : 표본공간의 각 원소의 발생가능성이 동일한 확률을 의미한다.

상대도수 확률 : 고전적 확률과는 달리 실제 경험이나 실험을 토대로 결과를 도출하는 확률을 의미한다.

대수의 법칙 : 확률 실험을 무수히 반복하면, 상대도수 확률이 고전적 확률과 점차 가까워진다.

확률 : 어떤 사상에서 발생할 수 있는 가능성을 수치로 나타낸 것이다. 표본공간의 모든 원소가 동일한 발생확률을 갖는다면, 사상 A의 확률은 전체 원소의 개수에 대한 사상 A에 속한 원소의 비율이다.

확률변수 : 일정한 확률을 가지고 발생하는 사상에 수치가 부여되는 변수를 말하며, 일반적으로 X로 표시된다. 확률변수가 취할 수 있는 값의 개수가 유한적이면 이산확률변수, 취할 수 있는 값이 무한적이면 연속확률변수가 된다.

확률함수 : 확률 P를 가진 어떤 사상이 n회의 관찰 또는 시행중에서 x회 나타날 학률을 논의할 경우에, x는 여러 값을 대표하는 변수가 된다. 이와 같이 확률 변수 X와 이에 대응되는 논리적 도수 P(X)와의 대응 관계를 확률 변수 X의 확률 함수라고 한다.

어떤 시행의 표본공간 S에서 실수 전체의 집합 R로 가는 함수 X: S->R 가 주어지면 함수 X에 대하여 동일한 함숫값 x를 가지는 표본공간의 원소들로 이루어진 사건 A가 결정되고, 이 사건의 일어날 확률을 P(A)로 계산할 수 있다. 이와 같이 확률이 정해지는 값을 취할 수 있다는 의미로 표본공간에서 정의된 함수 X를 확률변수라고 하고, X의 함숫값 x가 되는 사건 A에 대한 확률 P(A)를 P(X=x)와 같이 나타낸다. 즉 확률변수는 표본공간(정의역)으로 하는 실수(치역)함수(확률변수)이다.

확률질량함수 : 이산확률변수 X에 대하여 X가 임의의 실수 x를 취할 확률에 대응하는 다음 함수를 이산확률변수 X의 확률질량함수라고 한다.

확률밀도함수 : 연속확률변수 X에 대하여 a < X < b일 확률을 적분을 표현할 때, 확률변수 X는 연속확률분포를 따른다. 이때 연속함수 f(x)를 확률변수 X의 확률밀도함수라고 한다.

이산확률분포 : 이산표본공간의 확률변수로부터 생성된 확률분포. 즉, 이산확률변수의 확률분포.

누적분포함수 : 이산확률변수 X의 분포함수는 임의의 실수 x에 대하여 이산확률변수 X가 x보다 작거나 같은 값을 취하는 확률로 정의하므로, 분포함수 F(x)를 누적분포함수라고 한다.

확률질량함수와 확률밀도함수에 대하여 설명하세요.
=> 표본공간 -> 확률변수 -> 확률함수 순으로 설명

결합확률분포 : 2개 이상의 확률변수에 대한 확률분포.

이산형 결합확률분포 : 두 확률변수 X와 Y가 동시에 각각 x와 y의 값을 가질 확률

연속형 결합확률분포 : 두 확률변수 X와 Y의 확률을 계산하기 위한 밀도함수
결합확률질량함수

현재글[응용 통계학] 개념 정리

철학, Python, pandas, 멋쟁이사자처럼 X 넥슨 MOD Suppoters Hackathon, 크롤링, BST, matplotlib, 철학의 물음들, MOD, 철학의물음들, 안드로이드 스튜디오, 모바일 프로그래밍, KMU SUMMER AI, kubernetes, 응용 통계학, spring boot, 코틀린, nginx, numpy, eda,

Today :
Yesterday :

이혁규의 개발비책