R中的内置数据集

作者： Adrian Tam 于 2023 年 8 月 27 日发布在 R 数据科学 0

R 中的生态系统不仅包含帮助您执行统计分析的函数库，还包含数据库，您可以在其中找到一些著名的数据集来测试您的程序。R 中有许多内置数据集。在本文中，您将

学习一些内置数据集
了解如何使用这些数据集

让我们开始吧。

R中的内置数据集
图片由 Alina Grubnyak 拍摄。部分权利保留。

概述

这篇文章分为两部分：

R中的内置数据集
在 R 中加载和检查数据集

R中的内置数据集

R 提供了许多内置数据集供您学习和练习数据分析。以下是 R 中一些最受欢迎的内置数据集：

airquality：此数据集包含 1973 年纽约市的空气质量测量数据。它有 154 个观测值和 6 个变量。
co2：1996 年发布的关于草的耐寒性实验结果。它有 84 行和 5 个变量。
iris：这是由 Sir Ronald Fisher 提供的著名数据集。该数据集包含 3 种鸢尾花（即setosa、versicolor 和 virginica）的萼片和花瓣长度和宽度的测量值。它有 150 个观测值和 4 个变量。
mtcars：此数据集包含 32 辆汽车的信息，包括它们的马力、重量和燃油效率。它有 32 个观测值和 11 个变量。这些数据收集自 1974 年的《Motor Trend》杂志，适用于 1973-1974 年款车型。
quakes：此数据集包含 1000 次地震的信息，包括它们的地点、震级和深度。它有 1000 个观测值和 5 个变量。
USArrests：此数据集包含 1974 年美国各州的犯罪率。它有 50 个观测值和 4 个变量。

这些只是 R 中众多内置数据集中的一部分。您可以使用 data() 函数找到内置数据集的完整列表。

使用 data() 在 RStudio 中显示 R 中的内置数据集

要了解特定数据集的更多信息，您可以使用 ? 运算符。例如，要了解 airquality 数据集的更多信息，您可以使用以下代码：

?airquality

1	?airquality

这将打开 airquality 数据集的 R 文档。该文档将为您提供有关数据集的更多信息，例如其变量、数据类型和来源。

在 R 中加载和检查数据集

从 data() 的输出中可以看到，名称是 R 中的变量名。它们是数据框。因此，您可以使用以下命令打印整个数据集：

print(mtcars)

1	print(mtcars)

但如果您找不到 mtcars 变量，可以手动从 datasets 包中导入：

mtcars <- datasets::mtcars

1	mtcars <- datasets::mtcars

一旦您有了数据框，就可以轻松获取一些基本信息。例如，如果数据框有很多行，您可以使用以下命令获取一个摘要：

head(mtcars)

1	head(mtcars)

head() 函数返回数据框的前几行。您可以使用 head(mtcars, 10) 来指定要提取的行数（此处为 10）。同样，您可以使用 tail() 来提取数据框的最后几行。

数据框是一个数据面板，其中包含列和行。要获取数据框的列名，您可以使用：

colnames(mtcars)
names(mtcars)

1 2	colnames(mtcars) names(mtcars)

两者都返回一个字符串向量。正如您所料，获取行名是：

rownames(mtcars)

1	rownames(mtcars)

在这个数据框中，行是汽车的品牌和型号。但是，并非所有数据框都会命名它们的行。在那些情况下，您可能会看到行仅仅是数字。例如，iris 数据集就是一个例子：

rownames(iris)

1	rownames(iris)

当您第一次遇到数据框时，您可能想了解数据。当然，您可以使用 R 函数来了解数据。例如，您可以使用以下代码找到 iris 数据集中特定列的最小值：

min(iris$Sepal.Length)

1	min(iris$Sepal.Length)

但是，对于有许多列的数据框，如果您想了解每一列的最小值、中位数和最大值，有一个更简单的方法：

> summary(iris)
  Sepal.Length    Sepal.Width     Petal.Length    Petal.Width
 Min.   :4.300   Min.   :2.000   Min.   :1.000   Min.   :0.100
 1st Qu.:5.100   1st Qu.:2.800   1st Qu.:1.600   1st Qu.:0.300
 Median :5.800   Median :3.000   Median :4.350   Median :1.300
 Mean   :5.843   Mean   :3.057   Mean   :3.758   Mean   :1.199
 3rd Qu.:6.400   3rd Qu.:3.300   3rd Qu.:5.100   3rd Qu.:1.800
 Max.   :7.900   Max.   :4.400   Max.   :6.900   Max.   :2.500
       Species
 setosa    :50
 versicolor:50
 virginica :50

> summary(iris)

Sepal.Length Sepal.Width Petal.Length Petal.Width

Min. :4.300 Min. :2.000 Min. :1.000 Min. :0.100

1st Qu.:5.100 1st Qu.:2.800 1st Qu.:1.600 1st Qu.:0.300

Median :5.800 Median :3.000 Median :4.350 Median :1.300

Mean :5.843 Mean :3.057 Mean :3.758 Mean :1.199

3rd Qu.:6.400 3rd Qu.:3.300 3rd Qu.:5.100 3rd Qu.:1.800

Max. :7.900 Max. :4.400 Max. :6.900 Max. :2.500

Species

setosa :50

versicolor:50

virginica :50

summary() 函数可帮助您一次性获取所有这些数据。请注意，iris$Species 列不是数值型的。因此，summary() 只能为您提供每个标签的计数。当您遇到新数据集时，summary() 的结果可以帮助识别是否有任何列的范围很大，例如。这些信息可以帮助您决定在应用数据科学模型之前是否需要进行标准化。