gtsummary包,完美的基线特征统计描述R包

1. 安装和加载R包

install.packages("gtsummary")
library(gtsummary)

2.加载数据

data(colon, package="survival")
colon
gtsummary包,完美的基线特征统计描述R包

这个数据集收集了B/C 期结肠癌患者辅助化疗后的生存时间数据。

gtsummary包,完美的基线特征统计描述R包

3、查看数据集

str(colon)
gtsummary包,完美的基线特征统计描述R包

有些数字型变量其实是分类变量,需要先转换数据类型。转换后构建新的数据集。

library(tidyverse)
mycolon <- colon %>% # 创建新数据集新变量
  transmute(time,
            status,
            Age = age,
            Sex = factor(sex, levels = c(0, 1),
                         labels = c("Female", "Male")),
            Obstruct = factor(colon$obstruct),
            Differ = factor(colon$differ))
str(mycolon) # 查看数据集结构
gtsummary包,完美的基线特征统计描述R包

4、 简单统计描述

可以使用tbl_summary()汇总信息。

mycolon %>% tbl_summary()
gtsummary包,完美的基线特征统计描述R包

5、添加分组变量

基线信息表常见是需要添加分组变量,比较两个组别的基线信息差异,并且输出P值。在这个mycolon数据集中,我们将分组变量设置为status,比较存活组和死亡组的统计差异,并输出P值。可以使用by参数来指定分组变量,使用add_p()来输出统计P值。

mycolon %>% tbl_summary(by = status) %>% add_p()
gtsummary包,完美的基线特征统计描述R包

6、自定义参数调整输出结果

#调整输出小数位数
mycolon %>% 
  tbl_summary(by = status,
              digits = list(Age ~ 2)) %>% 
  add_p()

#使用all_continuous()参数设置所有连续变量的小数位数

mycolon %>% 
  tbl_summary(by = status,
              digits = list(all_continuous() ~ 2)) %>% 
  add_p()


#调整输出的变量名称
mycolon %>% 
  tbl_summary(by = status,
              label = list(Age ~ "Patient Age",
                           time ~ "Time"),
              digits = list(all_continuous() ~ 2)) %>% 
  add_p()


#指定统计描述结果输出方式

mycolon %>% 
  tbl_summary(by = status,
              label = list(Age ~ "Patient Age",
                           time ~ "Time"),
              statistic = list(Age ~ "{mean} ({sd})"),
              digits = list(all_continuous() ~ 2)) %>% 
  add_p()

#同样的将list里的Age替换成all_continuous()即可指定所有的连续变量使用均数±标准差表示
mycolon %>% 
  tbl_summary(by = status,
              label = list(Age ~ "Patient Age",
                           time ~ "Time"),
              statistic = list(all_continuous() ~ "{mean} ({sd})"),
              digits = list(all_continuous() ~ 2)) %>% 
  add_p()


#可以添加总队列描述结果,可以添加使用add_overall()函数来输出总队列人群的统计描述结果。

mycolon %>% 
  tbl_summary(by = status,
              label = list(Age ~ "Patient Age",
                           time ~ "Time"),
              statistic = list(all_continuous() ~ "{mean} ({sd})"),
              digits = list(all_continuous() ~ 2)) %>% 
  add_p() %>% 
  add_overall()

#变量名称后添加统计标签,可以使用add_stat_label()参数在变量名称后添加统计标签。
mycolon %>% 
  tbl_summary(by = status,
              label = list(Age ~ "Patient Age",
                           time ~ "Time"),
              statistic = list(all_continuous() ~ "{mean} ({sd})"),
              digits = list(all_continuous() ~ 2)) %>% 
  add_p() %>% 
  add_overall() %>% 
  add_stat_label()
gtsummary包,完美的基线特征统计描述R包

这个函数的其他细化参数还有很多,可以自行查阅帮助文件,这个R包是很强大的一个R包,汇总数据相当于输出基线特征表,包中还有其他函数可以用于统计建模结果的输出,后续简单介绍用法。

    特别申明:本文为转载文章,转载自R语言统计与绘图,不代表贪吃的夜猫子立场,如若转载,请注明出处:https://mp.weixin.qq.com/s/obHNLM1BEZXI62ZcOGbrxQ

    (1)
    打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
    xujunzju管理者
    上一篇 2023年6月9日 00:46
    下一篇 2023年6月9日 05:43

    相关推荐

    发表回复

    登录后才能评论
    联系我们
    邮箱:
    xujunzju@gmail.com
    公众号:
    xujunzju6174
    捐赠本站
    捐赠本站
    分享本页
    返回顶部