## 작성일: 2017.10.31
## 작성자: 춤추는 초코칩
## 참고문헌: R 실습으로 배우는 통계적 방법(2016, 박진표)
## 9장 회귀분석
## 9.1 단순선형회귀분석
대학졸업자의 근무연수와 연봉의 관계를 조사하여 어떤 함수관계가 있는지 찾아보자.
자료는 2개의 변수 20개의 관측치를 가지고 있으며, 결측치는 없다.
평균근무연수는 15.8년이며, 최장근무연수는 30년이다.
평균연봉은 930.5이며, 최고연봉은 1713.0이다.
상자그림과 히스토그램을 통해 이상치는 존재하지 않으며, 분포는 대칭인 것을 볼 수 있다.
정규성검정과 정규 Q-Q 그림을 통해 정규성이 만족됨을 알 수 있다.
산점도와 상관계수(0.9775856)를 통해서 근무연수와 연봉은 선형관계가 있다고 볼 수 있다.
따라서, 근무연수와 연봉이 단순선형회귀모형을 따른다고 가정하고 회귀분석을 실시한다.
추정된 회귀계수로 적합된 회귀직선은 다음과 같다.
회귀모형의 유의성검정 결과 F값이 388.1이고, p-value가 1.25e-13로 유의수준 0.001에서 귀무가설을 기각한다.
추정된 회귀직성은 유의한 모형이라고 할 수 있는 근거가 아주 강하다.
회귀계수의 유의성검정 결과, 각 회귀계수의 p-value가 5.59e-06, 1.25e-13으로 유의수준 0.001에서 귀무가설을 기각한다.
각 회귀계수가 0이 아니라는 근거가 아주 강하다.
Adjusted R-squared값이 0.9532로 총변동 중 회귀직선에 의해 설명될 수 있는 부분이 95.57%이다.
잔차그림에서 점들이 별 다른 패턴을 가지지 않고 0을 중심으로 랜덤하게 퍼져 있다.
정규 Q-Q그림에서도 점들이 직선에 맞게 분포된 것을 파악할 수 있다.
정규성 검정에서 p-value가 0.1534로 유의수준 0.05보다 작으므로 잔차들이 정규분포를 따른다고 할 수 있다.
독립성을 검정하기 위해 사용된 Durbin-Watson 검정 결과 p-value가 0.5291로 유의수준 0.05보다 크므로 독립성이 만족된다.
잔차분석결과 회귀모형은 타당하고, 모든 가정을 만족하고 있다고 볼 수 있다.
다만, 잔차그림에서 7번째 관측값과 13번째 관측값이 다른 관측값에 비해 잔차값이 크다.
잔차에 대한 상자그림을 작성해 본 결과 7번째 관측값이 이상치로 판명되었다.
## 데이터
year <- c(26,16,20,7,22,15,29,28,17,3,1,16,19,13,27,4,30,8,3,12)
annual_salary <- c(1267,887,1022,511,1193,795,1713,1477,991,455,324,944,1232,808,1296,486,1516,565,299,830)
Data <- data.frame(year,annual_salary)
summary(Data)
## Box Plot
par(mfrow=c(1,2))
boxplot(Data$annual_salary, xlab="annual_salary")
boxplot(Data$year, xlab="year")
## Histogram
par(mfrow=c(1,1))
hist(annual_salary, 6, freq=FALSE, main="Histogram of annual_salary", xlab="annual_salary")
lines(density(Data$annual_salary))
## 정규성 검정
qqnorm(annual_salary)
qqline(annual_salary)
shapiro.test(annual_salary)
## 상관계수
plot(year,annual_salary)
cor(year,annual_salary)
## 회귀분석
LSE <- lm(annual_salary ~ year, data=Data)
summary(LSE)
plot(year,annual_salary)
abline(LSE)
anova(LSE)
## 잔차분석
par(mfrow=c(2,2))
plot(LSE, which=c(1,2,3))
shapiro.test(LSE$residuals)
library(lmtest)
dwtest(LSE)
par(mfrow=c(1,1))
boxplot(LSE$residuals)
boxplot.stats(LSE$residuals)$out
'회귀분석' 카테고리의 다른 글
[회귀분석] 3. [R] 추정된 회귀직선의 신뢰구간, 예측구간 (0) | 2017.11.28 |
---|---|
[회귀분석] 2. [R] 회귀계수의 추론 (0) | 2017.11.26 |