大家好,又见面了,我是你们的朋友全栈
(有需要完整代码和的可以评论留下你的邮箱,我会尽快发送给你!)
大家早上好,本人姓吴,如果觉得文章写得还行的话也可以叫我吴老师。欢迎大家跟我一起走进数据分析的世界,一起学习! 感兴趣的朋友可以关注我或者我的,里面有许多优质的文章跟大家分享哦。
提问:大家觉得成绩的高低都和哪些因素有关呢?男女生之间在科目上是否有明显的差异呢?
又到了每周末知识分享环节。这次给大家分享的是kaggle上的一个非常有意思的项目,我们希望从中发现学生的测验表现与标签之间的关系。
总之,本次项目干货满满,除了通过绘图等常规手段之外,也用到了t检验等假设检验的方法来力求让结论更具说服力。
下面开始项目的正式介绍。
目录
本文数据集来自竞赛平台Kaggle,共拥有1000条数据,并已经过脱敏处理。数据集共包含9个标签,我们希望从中发现学生的测验表现与标签之间的关系。
以下标签解释:
本数据集共包含1000条数据,无数据缺失,数据类型包括整数,浮点数与对象类型
对于部分标签,存在多个变量, 我们需要对其进一步观察
对于分数标签,我们增加一列平均分(average score)
在此基础上,我们对average_score进行分箱,以0-59,60-69,70-79,80-89,90-100为分隔,将分数分为对应的F, D, C, B, A。
本数据集男女比例为:48.2%比51.8%。我们认为其基本符合男女比例在美国的分布,为了进一步进行验证,我们可以引入卡方拟合度检验:
据此,我们可以认为,如果从男女比例出发,这份数据为随机抽取。
至此,数据整理结束,我们再次查看此时的数据情况。
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-zWSG3rHk-1639906825714)(output_26_0.png)]
整体来看,各学科成绩与平均成绩都符合正态分布,我们以样本均值加减两个标准差,可以得到约95%的学生成绩分区间:
即约有95%的学生成绩分布在0.39分至0.96分之间。
我们数据集中共拥有三门学科,分别为读写与数学。我们可以分别将其看做**“文科”与“理科”**,并分别查看不同学科成绩之间的关联度。
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-kWpxCHDy-1639906825715)(output_33_0.png)]
从上面的表与图中,我们可以看出,“文科”学科成绩之间的相关程度,要高于“文科”与“理科”学科成绩之间的相关程度。而且考虑到本数据集中“文科”的科目要多于“理科”的科目,“文科”成绩与平均成绩的相关程度更高。
一般意义而言,社会认为上男生更擅长理科,而女生更擅长文科。我们将使用统计学验证这一看法是否适用于本数据集。
我们引入卡方独立性检验,判断性别与学科掌握程度方面是否是独立不相关的。
**原假设不成立,即学生的数学成绩与性别并不独立。**在此基础上,我们进一步查看不同性别下,学生在数学科目的表现。
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-qV7fOTYc-1639906825716)(output_41_0.png)]
在数学科目的平均分以及中位数两大统计指标上,我们可以看出,男性在该科目的确占有一定优势。两者的数学成绩分布大致都符合正态分布,但男性在样本方差明显更小,且在高分部分,男性出现的概率更大——男性在数学上的整体表现,要优于女性。
下面我们继续观察男女性在文科科目上的表现,在这里,我们选取writing score percentage标签,做为研究对象。
从所估计的概率密度图上看,女生在writing score percentage的高分领域,女性出现的概率要远高于男生,而在低分领域则正好相反。综合来看男生,男生的确更擅长理科,而女生则相反。
3.3.1 父母学历
下面我们分析高分(均分高于90分)考生的画像,首先我们探究高分与父母受教育程度间的关系。
从上图所示,我们发现,高分考生父母的教育程度,要高于整体考生父母的教育程度,其中高分考生父母拥有副学士、学士、硕士的比例,相较于整体考生,分别从22.9%, 11.8%, 5.9%上升至31.5%, 24.1%, 11.1%。
整体来看,高分学生的父母,约有90%都曾接受过大学教育。
不仅仅是高分学生父母的所受教育程序较高,实际上,在本数据集中,所有学生的平均分,皆与父母的教育程度正相关。下表给出了不同教育程度的父母,以及对应考生群体平均分。其中,其中学历为硕士与高中的父母,子女的平均分分别为73分及63分。
上述气泡图抽取各个教育水平的父母各30名,并观察其子女成绩表现。不难看出,学生的成绩表现与父母受教育程度成正相关关系,即父母受教育程度越高,子女的学业表现越好。
为了进一步在统计学上证明这一点,我们引入卡方独立性检验:
结论:对于高分段的学生,其父母所受的教育程度要更高。
3.3.2 学生性别
从上图表格中,我们发现高分学生当中,女性的数量要明显多于男性数量。但考虑到在三门科目当中,写作与阅读都偏向于女生所擅长的文科类科目,这对于擅长数学的男生而言,显然是不利的,我们考虑选取一门文科与一门理科,取其均值,查看在这一情况下,高分学生在男女中的分布。
此时,女生仍然相较于男生,仍然拥有更大的优势!
从我们得到的结果来看,无论是哪种情况,女生高分情况都要远胜于男生,基于此,我们做出一个假设:尽管女生在数学方面整体不如男性,但在高分段,男女生在数学的表现基本一致。
上表所示为男生与女生在高分段的数学平均成绩。
上表所示为男生与女生在高分段的数学样本方差。
从数学高分段的均值及方差来看,两者都十分接近。为了进一步验证我们的观点,我们引入t 检验,判断两者的均值是否相同。
从P值所反馈结果来看,女生尽管整体在数学方面不如男生,但在高分段,女生与男生的表,并无明显区别。
结论:高分段,女生比男生要更占优势,而男生的优势科目在高分段,优势并不明显。
看完这篇,还有更多知识点分享给你哦,自己慢慢找哈,就在下面链接。
推荐关注的专栏
以上就是本篇文章【【Python】数据分析优秀案例&项目经历-用数据分析能力构建高分学生人群画像】的全部内容了,欢迎阅览 ! 文章地址:http://www.tpjde.com/news/19.html 资讯 企业新闻 行情 企业黄页 同类资讯 首页 网站地图 返回首页 推平第移动站 http://mip.tpjde.com/ , 查看更多