본문 바로가기

기초통계

[기초] 1. [R]대푯값, 퍼짐, 분포의 형태

반응형

평균이 10이고, 분산이 1인 정규분포에서 1만개를 샘플링하여 대푯값, 퍼짐, 분포의 형태를 구하는 방법에 대해 알아보자.

조화평균, 기하평균, 왜도, 첨도 계산을 위해 "psych" 패키지가 필요

# install.packages("psych")

## psych: 기하평균,조화평균,왜도,첨도

library(psych)

x <- rnorm(10000,10,1)


1. 대푯값

- 산술평균(arithmetic mean), 일반적으로 평균을 말할 때 사용됨

- 기하평균(geometric mean)

- 조화평균(harmonic mean)

* 산술평균 >= 기하평균 >= 조화평균

- 중앙값(median), 중위수

- 최빈값(mode), 내장함수가 없어 사용자 함수정의 후 사용하기

- 절사평균(trimmed mean)

##대표값

#산술평균, 일반적인 평균은 산술평균을 의미

mean(x)

#기하평균{psych}

geometric.mean(x)

#조화평균{psych}

harmonic.mean(x)

#중앙값, 중위수

median(x)

#최빈값, 사용자 함수정의 후 사용하기

getmode <- function(v) {

   uniqv <- unique(v)

   uniqv[which.max(tabulate(match(v, uniqv)))]

getmode(x)

#절사평균

mean(x, trim=0.1)

#기하평균, 패키지를 사용하지 않고 구하는 법

exp(mean(log(x)))


2. 퍼짐

- 범위(range)

- IQR(interquartile range): Q3 - Q1

- 분산(variance)

- 표준편차(standard deviation)

- 변동계수(cv: coefficient of variation), 상대표준편차(relative standard deviation): 측정단위가 다른 자료를 비교할 사용

##퍼짐

# 범위

range(x)

# IQR

IQR(x)

# 분산

var(x)

# 표준편차

sd(x)

# 변동계수, 상대표준편차

sd(x)/mean(x)*100

 

3. 분포

- 왜도(skewness): 0보다 크면 오른쪽꼬리가 긴 분포, 0보다 작으면 왼쪽꼬리가 긴 분포

- 첨도(kurtosis): 0보다 크면 폭이 좁고, 0보다 작으면 폭이 넓음

## 분포의 형태

# 왜도{psych}

skew(x)

# 첨도{psych}

kurtosi(x)


4. 요약통계

- summary(): 최소, 최대, 4분위수, 평균

- describe(): 평균, 중앙값, 분산, 표준편차, 자료수

## 요약통계

# 최소, 최대, 4분위수, 평균

summary(x)

# 평균, 중앙값, 분산, 표준편차, 자료수

describe(x)


반응형