티스토리 뷰
통계학
- 불확실하고 잘 알려지지 않은 사실과 대상에 관련된 자료를 수집 및 요약정리하고, 이를 바탕으로 해석 및 분석하는 데 필요한 이론과 방법을 과학적으로 제시하는 학문
- 통계는 데이터를 다루는 목적에 따라 2가지 구분 가능
1. 기술통계분석(Descriptive Statistics)
- 기초적인 분석 방법, 데이터에 분석하기 앞서 데이터에 대한 통계적 수치를 탐색
- 사분위값, 평균, 최솟값, 최댓값 등의 통계결과 반환
- 자료의 형태? 질적척도(명목척도, 서열척도) / 양적척도(등간척도, 비율척도)
1.1 표본 추출
- 모집단의부분만 선택해 조사, 분석하여 전체 집단의 특성을 추정하는 통꼐조사방법
- 모수? 관심을 갖고 있는 모집단 관측치의 대푯값 , 모비율, 모평균, 모총계..
- 통계량? 표본을 조사하여 얻은 데이터를 가지고 모수를 추정하기 위해 만든 공식
1.2 표본 추출 방법
- 확률 표본 추출 : 단순 무작위 표본추출, 체계 표본 추출, 층화 표본추출, 군집표본추출
- 비확률 표본 추출 : 편의표본추출, 판단 표본 추출, 누적표본 추출, 할당 표본 추출
1.3 확률 분포(Probability Distribution )
- 확률? 어떤 일이 일어날 가능성의 측도 -> 무작위 실험을 했을 때 나올 수 있는 모든 경우의 수 중 어떤 특정한 조건을 만족하는 사건이 일어날 비율
- 확률 분포
1.4 표본 분포(Sampling Distribution)
- 표본분포란? 모집단으로부터 일정한 크기의 표본을 무작위로 추출하면 추출된 표본의 특성을 나타내는 통계량이 존재
T-test
두 집단 간의 평균을 비교하는 모수적 통계 방법
집단이 두개이며, 표본이 독립성, 정규성, 등분산성을 만족할 때 사용
단일표본 t-test, 대응표본 t-test, 독립표본 t-test
카이제곱 점검(Chi square test)
변수가 범주형일 때 사용가능한 통계 방법
(1) 독립성 검정
- 변수가 두개일 때 이 두 변수 사이에 연관성이 있는지 없는지 검정
(2) 동질성(동일성) 검정
- 변수가 하나이고 이 변수가 2개 이상의 범주로 구분 될 때 그룹간의 차이가 있는지 검정하는 것
분산분석(ANOVA)
- 세개 이상의 집단간 평균을 비교할 떄 사용하는 통계 방법
독립변수-> 범주형 데이터, 종속변수 -> 연속형
집단이 3개이상일 때 t-test를 1종 오류를 범할 확률이 높아짐
F-Value = (집단간 분산 / 집단 내 분산)
평균을 비교하는데 분산 사용 이유? 집단간 평균의 분산이 클수록 각 집단의 평균은 멀리 떨어짐
분산분석 유형
1. 일원 분산 분석
2. 이원 분산 분석
3. 다원변량분산분석
2. 추리통계(Inferential Statistics)
- 수집한 데이터를 바탕으로 추론 예측하는 통계기법 -> 모집단에서 샘플링한 표본을 가지고 모집단의 특성을 추론하고 그 결과가 신뢰성이 있는지 검정
- 귀무가설(Null Hypothesis)? 실험, 연구를 통해 기각하고자 하는 어떠한 가설, $H_0$로 표시, 대립가설과 상반되며, 귀무가설의 기각을 통해 입증하고자 하는 주장을 관철
- 대립가설(Alternative Hypothesis)? 실험, 연구를 통해 증명하고자 하는 새로운 아이디어 혹은 가설에 해당 $H_1$ 혹은 $H_a$로 표시, 귀무가설을 기각함으로써 대립가설을 채택할 수 있음
- 검정통계량(Test Static)? 가설의 검정에 사용되는 표본 통계량으로 결론을 내릴 때 사용하는 판단 기준
- 유의수준(significant level, $alpha$)? 귀무가설이 참인데도 이를 잘못 기각하는 오류를 범할 확률의 최대 허용한계 , 주로 1%와 5% 를 사용
0
<출처>
2.
'인공지능 > 머신러닝' 카테고리의 다른 글
[ML Algorithm] 변수선택과 차원축소(Dimension Reduction) (0) | 2020.12.13 |
---|---|
[ML Algorithm] 클래스 불균형 Imbalanced Data (0) | 2020.12.13 |
[ML Algorithm] SoftMax Function(소프트맥스 함수) (0) | 2020.10.10 |
[ML Algorithm] Neural Oblivious Decision Ensembles(NODE) (0) | 2020.10.05 |
[Math] 데이터 분석에 있어서의 확률 분포와 모수 추정 (0) | 2020.06.13 |