## 작성일: 2017.09.30
## 작성자: 춤추는 초코칩
## 참고문헌: R 실습으로 배우는 통계적 방법(2016, 박진표)
## 4장 범주형 데이터 분석
## 4.5 동질성검정
동질성검정은 모집단이 여러 개의 부모집단으로 분할되어 있고, 각 부모집단이 몇 개의 버주로 나뉘어져 있을 때, 각 범주들이 부모집단에 의해서 동일한 비율로 나눠어져 있는가를 검정
# 성별에 따라 신용정도가 다른지 검정
sex_credit <- matrix(c(26,23,101,28,72,70), nrow=2, byrow=TRUE)
rownames(sex_credit) <- c("F","M")
colnames(sex_credit) <- c("bad","excellent","fair")
sex_credit
p <- prop.table(sex_credit)
p
barplot(p, beside=TRUE, legend=TRUE, ylim=c(0,0.35))
chi_sex_credit <- chisq.test(sex_credit)
chi_sex_credit
# p.value가 0.000(<=0.01)이므로 유의수준 1%로 귀무가설을 기각
# 즉, 유의수준 1%로 성별에 따라 신용정도에 차이가 있음을 강하게 나타낸다.
# 결함의 원인이 생산라인에 따라 차이가 있는 조사
factory_default <- matrix(c(62,40,37,61,35,72,37,76,28,71,57,24), nrow=3, byrow=TRUE)
rownames(factory_default) <- c("I","II","III")
colnames(factory_default) <- c("A","B","C","D")
factory_default
addmargins(factory_default)
factory_default_prop <- prop.table(factory_default, margin=2)
factory_default_prop
barplot(factory_default_prop, legend=TRUE)
chi_factory <- chisq.test(factory_default)
chi_factory
# p.value가 0.000(<=0.01)이므로 유의수준 1%로 귀무가설을 기각
# 즉, 유의수준 1%로 생산라인에서 발생하는 결함의 유형은 생산라인에 따라 차이가 있다.
# 카이제곱검정 VS 피셔의 정확검정
# 카이제곱검정은 표본의 크기가 작거나 기대도수가 5이하인 셍이 전체의 20%를 초과하면 부정확하다.
# 카이제곱검정(2X2)
defective_product <- matrix(c(1,14,4,11), nrow=2, byrow=TRUE)
chisq_test <- chisq.test(defective_product)
chisq_test$expected
# 피셔의 정확검정(2X2)
defective_product <- matrix(c(1,14,4,11), nrow=2, byrow=TRUE)
fisher_test <- fisher.test(defective_product, conf.int=FALSE)
# 2X2는 odds ratio로 가설을 정의
fisher_test
# 카이제곱검정
trc_m <- matrix(c(11000,40,9400,30,700,5,130,1,30,1), nrow=5, byrow=TRUE)
chisq.test(trc_m)
# 피셔의 정확검정
fisher.test(trc_m)
# 카이제곱검정은 관련성이 있는 것으로 나타났고, 반면에 정확검정에서는 관련서이 없는 것으로 나타났다.
'기초통계' 카테고리의 다른 글
[기초] 13. [R] 모평균에 대한 추론:콜모고로프-스미르노프 검정 (0) | 2017.10.06 |
---|---|
[기초] 12. [R] 점추정과 구간추정 (0) | 2017.10.01 |
[기초] 10. [R] 독립성검정 (0) | 2017.09.29 |
[기초] 9. [R] 적합도검정 (0) | 2017.09.28 |
[기초] 8. [R] 막대그래프, 원그래프와 모자이크 그래프 (0) | 2017.09.27 |