推广 热搜:   中国  未来  政策  设备  系统  行业  快速  基金  教师 

【Python】数据分析优秀案例&项目经历-用数据分析能力构建高分学生人群画像

   日期:2024-10-31     作者:caijiyuan    caijiyuan   评论:0    移动:http://mip.tpjde.com/news/19.html
核心提示:大家好,又见面了,我是你们的朋友全栈(有需要完整代码和的可以评论留下你的邮箱,我会尽快发送给你!) 大家早上好,本人姓吴

大家好,又见面了,我是你们的朋友全栈

【Python】数据分析优秀案例&项目经历-用数据分析能力构建高分学生人群画像

(有需要完整代码和的可以评论留下你的邮箱,我会尽快发送给你!)

大家早上好,本人姓吴,如果觉得文章写得还行的话也可以叫我吴老师。欢迎大家跟我一起走进数据分析的世界,一起学习! 感兴趣的朋友可以关注我或者我的,里面有许多优质的文章跟大家分享哦。

提问:大家觉得成绩的高低都和哪些因素有关呢?男女生之间在科目上是否有明显的差异呢?

又到了每周末知识分享环节。这次给大家分享的是kaggle上的一个非常有意思的项目,我们希望从中发现学生的测验表现与标签之间的关系。

总之,本次项目干货满满,除了通过绘图等常规手段之外,也用到了t检验等假设检验的方法来力求让结论更具说服力。

下面开始项目的正式介绍。

目录

本文数据集来自竞赛平台Kaggle,共拥有1000条数据,并已经过脱敏处理。数据集共包含9个标签,我们希望从中发现学生的测验表现与标签之间的关系。

以下标签解释:

本数据集共包含1000条数据,无数据缺失,数据类型包括整数,浮点数与对象类型

对于部分标签,存在多个变量, 我们需要对其进一步观察

对于分数标签,我们增加一列平均分(average score)

在此基础上,我们对average_score进行分箱,以0-59,60-69,70-79,80-89,90-100为分隔,将分数分为对应的F, D, C, B, A。

本数据集男女比例为:48.2%比51.8%。我们认为其基本符合男女比例在美国的分布,为了进一步进行验证,我们可以引入卡方拟合度检验:

据此,我们可以认为,如果从男女比例出发,这份数据为随机抽取。

至此,数据整理结束,我们再次查看此时的数据情况。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-zWSG3rHk-1639906825714)(output_26_0.png)]

整体来看,各学科成绩与平均成绩都符合正态分布,我们以样本均值加减两个标准差,可以得到约95%的学生成绩分区间:

即约有95%的学生成绩分布在0.39分至0.96分之间。

我们数据集中共拥有三门学科,分别为读写与数学。我们可以分别将其看做**“文科”“理科”**,并分别查看不同学科成绩之间的关联度。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-kWpxCHDy-1639906825715)(output_33_0.png)]

从上面的表与图中,我们可以看出,“文科”学科成绩之间的相关程度,要高于“文科”与“理科”学科成绩之间的相关程度。而且考虑到本数据集中“文科”的科目要多于“理科”的科目,“文科”成绩与平均成绩的相关程度更高。

一般意义而言,社会认为上男生更擅长理科,而女生更擅长文科。我们将使用统计学验证这一看法是否适用于本数据集。

我们引入卡方独立性检验,判断性别与学科掌握程度方面是否是独立不相关的。

**原假设不成立,即学生的数学成绩与性别并不独立。**在此基础上,我们进一步查看不同性别下,学生在数学科目的表现。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-qV7fOTYc-1639906825716)(output_41_0.png)]

在数学科目的平均分以及中位数两大统计指标上,我们可以看出,男性在该科目的确占有一定优势。两者的数学成绩分布大致都符合正态分布,但男性在样本方差明显更小,且在高分部分,男性出现的概率更大——男性在数学上的整体表现,要优于女性。

下面我们继续观察男女性在文科科目上的表现,在这里,我们选取writing score percentage标签,做为研究对象。

从所估计的概率密度图上看,女生在writing score percentage的高分领域,女性出现的概率要远高于男生,而在低分领域则正好相反。综合来看男生,男生的确更擅长理科,而女生则相反。

3.3.1 父母学历

下面我们分析高分(均分高于90分)考生的画像,首先我们探究高分与父母受教育程度间的关系。

从上图所示,我们发现,高分考生父母的教育程度,要高于整体考生父母的教育程度,其中高分考生父母拥有副学士、学士、硕士的比例,相较于整体考生,分别从22.9%, 11.8%, 5.9%上升至31.5%, 24.1%, 11.1%。

整体来看,高分学生的父母,约有90%都曾接受过大学教育。

不仅仅是高分学生父母的所受教育程序较高,实际上,在本数据集中,所有学生的平均分,皆与父母的教育程度正相关。下表给出了不同教育程度的父母,以及对应考生群体平均分。其中,其中学历为硕士与高中的父母,子女的平均分分别为73分及63分。

上述气泡图抽取各个教育水平的父母各30名,并观察其子女成绩表现。不难看出,学生的成绩表现与父母受教育程度成正相关关系,即父母受教育程度越高,子女的学业表现越好。

为了进一步在统计学上证明这一点,我们引入卡方独立性检验:

结论:对于高分段的学生,其父母所受的教育程度要更高。

3.3.2 学生性别

从上图表格中,我们发现高分学生当中,女性的数量要明显多于男性数量。但考虑到在三门科目当中,写作与阅读都偏向于女生所擅长的文科类科目,这对于擅长数学的男生而言,显然是不利的,我们考虑选取一门文科与一门理科,取其均值,查看在这一情况下,高分学生在男女中的分布。

此时,女生仍然相较于男生,仍然拥有更大的优势!

从我们得到的结果来看,无论是哪种情况,女生高分情况都要远胜于男生,基于此,我们做出一个假设:尽管女生在数学方面整体不如男性,但在高分段,男女生在数学的表现基本一致。

上表所示为男生与女生在高分段的数学平均成绩。

上表所示为男生与女生在高分段的数学样本方差。

从数学高分段的均值及方差来看,两者都十分接近。为了进一步验证我们的观点,我们引入t 检验,判断两者的均值是否相同。

从P值所反馈结果来看,女生尽管整体在数学方面不如男生,但在高分段,女生与男生的表,并无明显区别。

结论:高分段,女生比男生要更占优势,而男生的优势科目在高分段,优势并不明显。

看完这篇,还有更多知识点分享给你哦,自己慢慢找哈,就在下面链接。

推荐关注的专栏

本文地址:http://www.tpjde.com/news/19.html    推平第 http://www.tpjde.com/ , 查看更多
 
 
更多>同类行业资讯
0相关评论

新闻列表
企业新闻
推荐企业新闻
推荐图文
推荐行业资讯
点击排行
网站首页  |  关于我们  |  联系方式  |  使用协议  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  鄂ICP备2023001713号