我决定看看大学记分卡的数据, 但是要关注那些买球平台第一代大学生的信息. 作为第一代有色人种学生, 我注意到很多其他的第一代学生会休假,有时甚至不再回到买球平台. 这一观察启发我去观察不同类型院校的第一代学生的完成率. 我选择了只颁发学士学位的学院和大学. 我看四年制的院校来缩小数据范围,剔除职业院校和颁发副学士学位的院校. 考虑到很多学生在四年内都无法毕业, 我观察第一代学生在六年内毕业的可能性.
第一代学生在过渡到大学时必须克服许多障碍. 因为许多第一代学生往往来自不利的背景, 在四年内完成大学学业通常是困难的. 对于低收入家庭的第一代学生来说,进入大学可能是一种相当大的文化冲击. 在大学里,家庭的需求和经济上的限制往往很难平衡. 这些额外的压力会让第一代学生感到苦恼, 感觉自己不属于这里, 并鼓励他们一起放弃学业. 大多数学生的压力来自经济拮据,因此一些研究预测,让大学变得更容易负担,有助于提高第一代学生的留校率和毕业率. 尽管有这样的建议, 第一代大学生继续面临阻碍他们完成大学学业的不利因素.
\1. 下面的代码正在加载我将在笔记本中使用的不同包. 这对于我的视觉效果和合并College Scorecard数据与States数据尤其重要.
library(ggplot2)
library(maps)
library(RColorBrewer)
library(ggplot2)
library(rgdal)
library(sp)
library(rgeos)
library(maptools)
\2. 下面的代码创建了一个名为states的向量,它使用地图数据,然后向我们显示了一个包含地图数据中前六行的表.
states <- map_data("state")
head(states)
\3. 我创建了一个名为csc的逻辑向量,它正在加载我创建的包含以下列变量的新excel电子表格:
INSTNM = Institution Name
Region =州名缩写
CONTROL =公立学校1分,私立非营利学校2分,私立营利性学校3分
LATITUDE
LONGITUDE
UGDS_HISP =西班牙裔本科学位在读学生的总比例
FIRSTGEN_COMP_ORIG_YR6_RT =第一代学生在原院校6年内完成学业的百分比
FIRST_GEN =第一代学生的份额/百分比
HIGHDEG 证书学位= 1, 副学士2分, 学士学位3分, 研究生学位4分
REGION2 = 1 新英格兰(CT, ME, MA, NH, RI, VT), 2 中东(DE, DC, MD, NJ, NY, PA), 3 五大湖(IL, IN, MI, OH, WI), 4 平原(IA, KS, MN, MO, NE, ND, SD), 5 东南(AL, AR, FL, GA, KY, LA, MS, NC, SC, TN, VA, WV), 6 西南(AZ, NM, OK, TX), 7 落基山脉(CO, ID, MT, UT, WY), 8 远西部(AK, CA, HI, NV, OR, WA), 9 外围地区(AS、FM、GU、MH、MP、PR、PW、VI)
csc <- read.csv("College_Data_FirstGen.csv", header = TRUE, stringsAsFactors = FALSE)
\4. 下面的代码将“region”列中的缩写州名转换为小写的州名,以便与地图数据中的“region”列匹配.
#'x'是数据的列.保存2位状态码的帧
stateFromLower <-function(x) {
读取52个州的代码到本地变量[包括DC(华盛顿特区)].C. and PR (Puerto Rico)]
st.codes<-data.frame(
state=as.factor(c("AK", "AL", "AR", "AZ", "CA", "CO", "CT", "DC", "DE", "FL", "GA",
"HI", "IA", "ID", "IL", "IN", "KS", "KY", "LA", "MA", "MD", "ME",
"MI", "MN", "MO", "MS", "MT", "NC", "ND", "NE", "NH", "NJ", "NM",
"NV", "NY", "OH", "OK", "OR", "PA", "PR", "RI", "SC", "SD", "TN",
"TX", "UT", "VA", "VT", "WA", "WI", "WV", "WY")),
full=as.factor(c("alaska","alabama","arkansas","arizona","california","colorado",
"connecticut","district of columbia","delaware","florida","georgia",
"hawaii","iowa","idaho","illinois","indiana","kansas","kentucky",
"louisiana","massachusetts","maryland","maine","michigan","minnesota",
"missouri","mississippi","montana","north carolina","north dakota",
"nebraska","new hampshire","new jersey","new mexico","nevada",
"new york","ohio","oklahoma","oregon","pennsylvania","puerto rico",
"rhode island","south carolina","south dakota","tennessee","texas",
"utah","virginia","vermont","washington","wisconsin",
"west virginia","wyoming"))
)
#create an nx1 data.来自源列的状态代码框架
st.x<-data.frame(state=x)
#匹配源代码与代码从'st.代码的局部变量和用于返回完整的状态名称
refac.x<-st.codes$full[match(st.x$state,st.codes$state)]
返回完整的州名,其顺序与在原始源中出现的顺序相同
return(refac.x)
}
\5. 我在csc数据中创建了一个名为“region”的新列,它使用各州的小写名称. 然后打印出csc数据中区域列的前十个州名.
csc$region <- stateFromLower(csc$STABBR)
csc$region[1:10]
\6. 我在下面创建了一个名为csc_df的新向量,它合并了csc和states数据,以便它们的区域列是 same. 然后打印出新的csc_df向量表中的前六行.
csc_df <- merge(csc, states, by = "region")
head(csc_df)
\7. 下面的代码创建了一个名为csc2的新向量,它通过只包括只颁发学士学位的大学来子集csc数据. head函数打印出csc子集的前六行.
csc2 <- csc[csc$HIGHDEG == 3,]
head(csc2)
\8. 在这里,我创建了一个tx向量,它只查看csc2中位于德克萨斯州的大学. s向量仅通过查看下面列出的列来子集tx数据. 前六行显示在下表中.
tx <- csc2$region == "texas"
tx2 <- csc2[csc2$CONTROL == 2,]
s <- csc2[tx,c("UGDS_HISP", "FIRST_GEN", “FIRSTGEN_COMP_ORIG_YR6_RT”, "INSTNM", "CONTROL")]
head(s)
\9. 我创建了一个名为complete的矢量,它去掉了UGDS_HISP中的na和非数值, FIRST_GEN, 和FIRSTGEN_COMP_IRIG_YR6_RT列. 我使用名为complete的向量编辑s向量,然后打印前六列,以检查是否去掉了数据中的非数字值.
complete <- complete.cases(cbind(as.numeric(s[,1]),as.numeric(s[,2]), as.numeric(s[,3], as.numeric(s[,4]))))
complete[1:5]
s <- s[complete, c("UGDS_HISP", "FIRST_GEN", “FIRSTGEN_COMP_ORIG_YR6_RT”, "INSTNM", "CONTROL")]
head(s)
\10. 在这里,我创建了一个名为cexvals的向量,它重复csc2数据和I子集中每行绘制值的大小,以查看德克萨斯州的学校. pchVals向量创建了德克萨斯州学校标绘值的加号形状. colVals向量为csc2数据中的所有行创建了德克萨斯州学校的浅灰色图.
cexVals <- rep(0.5, nrow(csc2))
cexVals[csc2$region == "texas"] = 1
pchVals <- rep(3, nrow(csc2))
pchVals[csc2$region == "texas"] = 19
colVals <- rep(grey(0.5), nrow(csc2))
colVals[csc2$region == "texas"] <- grey(0.1)
\11. 下面我创建了两个向量来创建s向量的子集,其中包含德克萨斯大学的数据. Sub代表德州公立大学,sub2代表德州私立营利性大学.
sub <- s[s$CONTROL == 1, c("UGDS_HISP", "FIRST_GEN", “FIRSTGEN_COMP_ORIG_YR6_RT”, "INSTNM", "CONTROL")]
head(sub)
sub2 <- s[s$CONTROL == 3, c("UGDS_HISP", "FIRST_GEN", “FIRSTGEN_COMP_ORIG_YR6_RT”, "INSTNM", "CONTROL")]
head(sub2)
\12. 使用plot函数, 我制作了一个散点图,对比德州一所私立非营利性大学的第一代学生和第一代学生在六年内完成学士学位的比例. I use the size, shape, 和颜色建立在上面的代码, 我相应地标记了x轴和y轴, 根据德州学校的名字来标记, 然后画出斜率为1的直线. 积分功能为德克萨斯州的公共机构创造了红点,为私营营利性机构创造了蓝点.
plot(tx2$FIRST_GEN, tx2$FIRSTGEN_COMP_ORIG_YR6_RT, col=colVals, pch=pchVals, xlab="PercFirstGen", ylab="FirstGenComp6yr", main=“德克萨斯州私立非营利性大学的第一代学生”)
text(as.numeric(s[,1]), as.numeric(s[,2]), as.numeric(s[,3])+0.001, labels = s$INSTNM, pos = 1, cex = 0.5)
abline(0,1)
points(sub$FIRST_GEN, sub$FIRSTGEN_COMP_ORIG_YR6_RT, col="red")
points(sub2$FIRST_GEN, sub2$FIRSTGEN_COMP_ORIG_YR6_RT, col="blue")
上面的散点图显示,德州公立大学的第一代学生比例最高,分别为55%和63%, 但完成率低于20%. 私立营利性德州大学的第一代学生比例也很高, 但对于第一代学生来说,它们的完成率相对较高,在20%-70%之间.
\13. 下面的代码创建了一个名为logic的向量,它为非数字的值创建NA. 百分比向量使用不包含NAs的tapply函数.
#pg46
logic <- is.na(csc2$FIRSTGEN_COMP_ORIG_YR6_RT)
perc <- tapply(as.numeric(csc2$FIRSTGEN_COMP_ORIG_YR6_RT[!logic]), INDEX=csc2$region, FUN=mean, na.rm=TRUE)
perc
\14. 我在上面的代码中使用perc向量创建了一个名为df_perc的新数据帧. 然后,我在新的数据框架中创建了一个名为region的列,其中包含df_perc的行名,然后我创建了一个df_perc的表,以查看数据框架的外观.
df_perc <- as.data.frame(perc)
df_perc$region <- rownames(df_perc)
df_perc
\15. 下面的logic2向量去掉了df_perc中perc列中的NAs. 设置logic2向量的百分比列子将NA值更改为0.
logic2 <- is.na(df_perc$perc)
df_perc$perc[logic2] <- 0
df_perc
\16. 我查看了6年内完成大学学业的第一代学生的百分比. hist函数创建一个直方图,其中包含20个断点,x轴标记并创建标题.
summary(as.numeric(csc2$FIRSTGEN_COMP_ORIG_YR6_RT))
hist(as.numeric(csc2$FIRSTGEN_COMP_ORIG_YR6_RT), breaks=20, xlab= “第一代学生的百分比”, main=“六年内第一代毕业率”)
\17. 上面的直方图显示了第一代大学生在6年内获得学士学位的百分比分布. 扩散看起来相对正常. 以下是对每个地区的州的描述
1 新英格兰(CT, ME, MA, NH, RI, VT)
2 中东(DE, DC, MD, NJ, NY, PA)
3 五大湖(IL, IN, MI, OH, WI)
4 平原(IA, KS, MN, MO, NE, ND, SD)
5 东南(AL, AR, FL, GA, KY, LA, MS, NC, SC, TN, VA, WV)
6 西南(AZ, NM, OK, TX)
7 落基山脉(CO, ID, MT, UT, WY)
8 远西部(AK, CA, HI, NV, OR, WA)
9 外围地区(AS、FM、GU、MH、MP、PR、PW、VI)
ggplot(csc2, aes(x=factor(REGION2), y=as.numeric(FIRSTGEN_COMP_ORIG_YR6_RT), fill = factor(REGION2))) + geom_bar(stat='identity') +
labs(x="Region") +
labs(y="Count") +
labs(title=“在美国完成大学学业的第一代学生总数.S.")
/18. 上面的直方图显示,5区在6年内完成大学学业的第一代学生最多, 而第九区6年内完成大学学业的第一代学生数量最少. 考虑到区域5包含AL,这是一个有趣的观察结果, AR, FL, GA, KY, LA, MS, NC, SC, TN, VA, and WV.
\19. 下面的代码试图通过设置小于0的百分比等于0来消除任何负值. 间隔向量的创建将百分比列切割成四个间隔,并在下面打印它们.
df_perc$perc[df_perc$perc<0] = 0
interval <- unique(cut(df_perc$perc, 4))
interval
\20. 下一组代码根据上面创建的间隔使用以下标签从df_perc$perc创建断点.
df_perc$breaks = cut(df_perc$perc, 4, labels = c("0-.132", ".132-.264", ".264-.396", ".396-.529"))
head(df_perc)
\21. 创建Chor_df是为了根据地区合并状态数据和df_perc数据,然后打印数据的前六行.
choro_df <- merge(states, df_perc, by = "region")
head(choro_df)
\22. 接下来,对choro进行排序,并打印前六行.
choro <- choro_df[order(choro_df$order), ]
head(choro)
\23. 清理完数据后,我们就可以在地图上绘制数据了. 我使用了一个qplot,它使用坐标数据的经度和纬度,并根据前面创建的断点填充状态. 我使用main创建了一个标题, 我把每个州都围起来,这样更容易找到州, 我用光谱调色板给不同颜色的状态上色.
qplot(long, lat, data = choro, group = group, fill = breaks, geom = "polygon",
main = “第一代学生的大学毕业率”) + borders("state", size = 0.5) +
scale_fill_brewer(name = "College Completion", palette = "Spectral")
Red = Delaware
Orange =华盛顿、南达科他州和密西西比州
Green = Montana, Idaho, Wyoming, North Dakota, Nevada, Utah, Colorado, New Mexico, Texas, Oklahoma, Kansas, Nebraska, Michigan, Maine, New York, Massachusetts, New Jersey, Maryland, Virgina, West Virginia, North Carolina, Tennessee, South Carolina, Georgia, Alabama, and Florida
Blue = Oregon, California, Arizona, Minnesota, Iowa, Missouri, Wisconsin, Illinois, Indiana, Kentucky, Ohio, Pennsylvania, Connecticut, Rhode Island, Vermont, and New Hampshire
我决定把我的时间集中在分析红色和橙色州,并研究为什么这些州的税率在0到26%之间. 第一代学生往往是少数族裔, 和/或来自低收入家庭, 而且通常是单亲家庭. 这些特点使得第一代学生更难完成大学学业. 由于家庭经济问题,许多第一代学生感到辍学的压力, stress and anxiety, 没有归属感, 以及校外就业. 第一代学生毕业率如此之高的根本原因就更容易理解了, 但是很难理解为什么低利率在某些州特别低.
仔细看了我的数据后,特拉华州没有一所大学颁发学士学位. 这可能是该州第一代大学生毕业率最低的主要原因. 至于橘子州,完成率在13%到26%之间, 四年制院校的大学记分卡数据中有足够的数据. 华盛顿的罗伯特米勒学院(Robert B Miller College)的平均毕业率达到了53%,而西雅图中央学院(Seattle Central College)的毕业率不到1%, 但第一代学生占学生总数的43%. In South Dakota, Presentation学院有30%的第一代大学生从大学毕业. In Mississippi, 三分之一的大学没有公布第一代学生完成大学学业的比例, 拉斯特学院的第一代学生完成大学学业的比例最低,只有15%. 我的数据只局限于四年制大学, 但我认为每个州的平均百分比准确地表达了每个州.
Boyd, Vivian S. Linda, K. Gast, Patricia F. 亨特,爱丽丝·米切尔和温迪·威尔逊. “为什么有些学生在最后一年就离开了大学." 大学生发展杂志 53.5 (2012): 737-42. Web.
Riggs, Liz. 《第一代大学生:毫无准备和落后." The Atlantic, 31 Dec. 2014, http://www.theatlantic.com/education/archive/2014/12/the-added-pressure-faced-by-first-generation-students/384139/. Accessed 7 May 2017.
Wilbur, T. G., and V. J. Roscigno. “第一代劣势与大学入学/毕业”." 社会学:动态世界的社会学研究.0 (2016): 1-11. Web.
Wolfman-Arent, Avi. “第一年,第一代:被要求淹没,被鼓励鼓舞." newsworks, 28 Jun. 2016, http://www.newsworks.org/index.php/local/education/94947-first-year-first-generation-seans-spot. Accessed 7 May 2017.
Zinshteyn, Mikhail. 《如何帮助第一代学生成功." The Atlantic, 13 Mar. 2016, http://www.theatlantic.com/education/archive/2016/03/how-to-help-first-generation-students-succeed/473502/. Accessed on 7 May 2017.