본문 바로가기

기초통계

[기초] 11. [R] 동질성검정

반응형

## 작성일: 2017.09.30

## 작성자: 춤추는 초코칩

## 참고문헌: R 실습으로 배우는 통계적 방법(2016, 박진표)

## 4장 범주형 데이터 분석

## 4.5 동질성검정


 동질성검정은 모집단이 여러 개의 부모집단으로 분할되어 있고, 각 부모집단이 몇 개의 버주로 나뉘어져 있을 때, 각 범주들이 부모집단에 의해서 동일한 비율로 나눠어져 있는가를 검정


# 성별에 따라 신용정도가 다른지 검정

sex_credit <- matrix(c(26,23,101,28,72,70), nrow=2, byrow=TRUE)

rownames(sex_credit) <- c("F","M")

colnames(sex_credit) <- c("bad","excellent","fair")

sex_credit

p <- prop.table(sex_credit)

p

barplot(p, beside=TRUE, legend=TRUE, ylim=c(0,0.35))

chi_sex_credit <- chisq.test(sex_credit)

chi_sex_credit

# p.value가 0.000(<=0.01)이므로 유의수준 1%로 귀무가설을 기각

# 즉, 유의수준 1%로 성별에 따라 신용정도에 차이가 있음을 강하게 나타낸다.


# 결함의 원인이 생산라인에 따라 차이가 있는 조사

factory_default <- matrix(c(62,40,37,61,35,72,37,76,28,71,57,24), nrow=3, byrow=TRUE)

rownames(factory_default) <- c("I","II","III")

colnames(factory_default) <- c("A","B","C","D")

factory_default

addmargins(factory_default)

factory_default_prop <- prop.table(factory_default, margin=2)

factory_default_prop

barplot(factory_default_prop, legend=TRUE)

chi_factory <- chisq.test(factory_default)

chi_factory

# p.value가 0.000(<=0.01)이므로 유의수준 1%로 귀무가설을 기각

# 즉, 유의수준 1%로 생산라인에서 발생하는 결함의 유형은 생산라인에 따라 차이가 있다.



# 카이제곱검정 VS 피셔의 정확검정

# 카이제곱검정은 표본의 크기가 작거나 기대도수가 5이하인 셍이 전체의 20%를 초과하면 부정확하다.

# 카이제곱검정(2X2)

defective_product <- matrix(c(1,14,4,11), nrow=2, byrow=TRUE)

chisq_test <- chisq.test(defective_product)

chisq_test$expected

# 피셔의 정확검정(2X2)

defective_product <- matrix(c(1,14,4,11), nrow=2, byrow=TRUE)

fisher_test <- fisher.test(defective_product, conf.int=FALSE)

# 2X2는 odds ratio로 가설을 정의

fisher_test


# 카이제곱검정

trc_m <- matrix(c(11000,40,9400,30,700,5,130,1,30,1), nrow=5, byrow=TRUE)

chisq.test(trc_m)

# 피셔의 정확검정

fisher.test(trc_m)

# 카이제곱검정은 관련성이 있는 것으로 나타났고, 반면에 정확검정에서는 관련서이 없는 것으로 나타났다.


반응형