如何用R对连续数据做描述统计

发布时间：2022-01-06 09:14:00 作者：柒染
来源：亿速云阅读：299

# 如何用R对连续数据做描述统计

描述统计是数据分析的基础步骤，它能帮助我们快速理解数据的分布特征、集中趋势和离散程度。R语言作为强大的统计分析工具，提供了多种函数和包来实现高效的描述统计分析。本文将详细介绍如何使用R对连续型数据进行描述统计。

## 一、数据准备与查看

### 1.1 数据导入
首先需要将数据导入R环境中。假设我们有一个名为`data.csv`的数据文件：

```r
# 读取CSV文件
data <- read.csv("data.csv")

# 查看数据结构
str(data)

# 显示前6行
head(data)

1.2 数据清洗

检查缺失值并处理：

# 检查缺失值
sum(is.na(data$variable))

# 删除缺失值
clean_data <- na.omit(data$variable)

二、基础描述统计量

R内置函数summary()可快速获取主要统计量：

summary(clean_data)

输出包含： - 最小值（Min） - 第一四分位数（1st Qu） - 中位数（Median） - 均值（Mean） - 第三四分位数（3rd Qu） - 最大值（Max）

三、详细统计量计算

3.1 集中趋势度量

mean_val <- mean(clean_data)    # 均值
median_val <- median(clean_data) # 中位数
mode <- function(x) {           # 众数自定义函数
  ux <- unique(x)
  ux[which.max(tabulate(match(x, ux)))]
}
mode_val <- mode(clean_data)

3.2 离散程度度量

sd_val <- sd(clean_data)        # 标准差
var_val <- var(clean_data)      # 方差
range_val <- range(clean_data)  # 极值
IQR_val <- IQR(clean_data)      # 四分位距

3.3 分布形态度量

library(moments)
skewness(clean_data)  # 偏度
kurtosis(clean_data)  # 峰度

四、分组描述统计

4.1 使用tapply函数

按分组变量计算统计量：

tapply(data$continuous_var, data$group_var, mean)

4.2 使用dplyr包

library(dplyr)
data %>%
  group_by(group_var) %>%
  summarise(
    Mean = mean(continuous_var, na.rm = TRUE),
    SD = sd(continuous_var, na.rm = TRUE),
    N = n()
  )

五、高级描述统计工具

5.1 psych包

library(psych)
describe(clean_data)  # 返回包括偏度、峰度在内的16个统计量
describeBy(data$continuous_var, group = data$group_var)

5.2 skimr包

library(skimr)
skim(data)  # 生成美观的汇总统计表

六、可视化描述统计

6.1 直方图

hist(clean_data, breaks = 30, col = "skyblue",
     main = "数据分布直方图", xlab = "数值")

6.2 箱线图

boxplot(clean_data, horizontal = TRUE, col = "lightgreen",
        main = "数据箱线图")

6.3 密度曲线

plot(density(clean_data), main = "密度曲线")

七、结果输出与报告

7.1 控制台输出格式化

cat("均值:", round(mean_val, 2), 
    "\n标准差:", round(sd_val, 2),
    "\n样本量:", length(clean_data))

7.2 使用stargazer包生成表格

library(stargazer)
stargazer(as.data.frame(clean_data), type = "text")

八、完整示例代码

# 完整工作流程示例
library(psych)
library(dplyr)

data <- read.csv("data.csv")
clean_data <- na.omit(data$continuous_var)

# 基础统计
summary_stats <- summary(clean_data)
desc_stats <- describe(clean_data)

# 分组统计
group_stats <- data %>%
  group_by(category) %>%
  summarise(
    Mean = mean(value),
    SD = sd(value),
    N = n()
  )

# 可视化
par(mfrow = c(1,2))
hist(clean_data)
boxplot(clean_data)

结语

通过R语言进行描述统计分析，研究人员可以快速掌握数据的基本特征。本文介绍的方法从基础统计量到高级可视化工具，涵盖了实际分析中的常见需求。建议读者根据具体数据特点选择合适的统计指标和可视化方法，并始终结合领域知识进行结果解读。

注意：实际分析时应考虑数据是否符合正态分布等假设条件，必要时进行数据转换或使用稳健统计量。 “`