提示:原网页已由神马搜索转码, 内容由bbs.fanruan.com提供.

首页服务平台文档学院问答更多导航↓论坛认证招聘任务市场

泰坦尼克号桑基图

FineBI发表于 2024-5-13 14:51

关注主题

楼主

zmdvich Lv5 关注ta

我是社区第139487位番薯，欢迎点我头像关注我哦~

1、项目简介

泰坦尼克号的沉没是世界上最严重的海难事故之一。1912年4月15日，在她的处女航中，被广泛认为“永不沉没”的皇家邮轮泰坦尼克号在与冰山相撞后沉没。不幸的是，船上没有足够的救生艇，导致2224名乘客和船员中的1502人死亡。

泰坦尼克号数据集为1912年泰坦尼克号沉船事件中相关人员的个人信息以及存活状况。包含了2224名乘客和船员的姓名、性别、年龄、船票等级、船票价格、船舱号、登船港口、生存情况等信息。这些历史数据已经被分为训练集和测试集，我们可以根据训练集训练出合适的模型并预测测试集中的存活状况。

2、数据集

数据集来源：https://www.kaggle.com/c/titanic

这里使用泰坦尼克号数据集的训练集（titanic_train.csv）进行数据分析。

泰坦尼克号数据集的训练集有891个样本，12个特征和标签

数据集的属性信息如下：

特征/标签

说明

PassengerId

乘客编号

Survived

是否幸存，1是，0否

Pclass

船舱等级，1（一等）、2（二等）、3（三等）

Name

乘客姓名

Sex

乘客性别

Age

乘客年龄

SibSp

与乘客同行的兄弟姐妹及配偶人数

Parch

与乘客同行的父母及子女人数

Ticket

船票编号

Fare

船票价格

Cabin

乘客座位号

Embarked

乘客登船码头，C（Cherbourg瑟堡）、Q（Queenstown昆士敦）、S（Southampton南安普顿）

3、数据处理

3.1 导入数据

选择PassengerId 、Survived、Pclass 、Sex、Age 、Embarked 等6个特征，并把PassengerId 、Survived、Pclass设置为“文本型”。

3.2 过滤

过滤掉Age 、Embarked为空的记录，剩余712条记录。

3.3新增赋值列

新增“是否生存”、“船舱等级”、“性别”、“登船码头”等赋值列。

新增“年龄”赋值列，对age分段赋值。

选取新生成的字段。

3.4 分组汇总

按“登船码头”、“船舱等级”分组，PassengerId去重计数

修改字段名分别为”起点“、”终点“、”人数“，另存为“港口-客舱等级”。

同样方法，分别对“客舱等级”、“性别”汇总，另存为“客舱等级-性别”

对“性别”、“年龄”汇总，另存为“性别-年龄”

对“年龄”、“是否生存”汇总，另存为“年龄-生存”

3.5 上下合并

对“港口-客舱等级”、“客舱等级-性别”、“性别-年龄”、“年龄-生存”进行上下合并，得到新表。

4 桑基图组件

新建“桑基图”组件，在图形属性中设置“起点”、“终点”、“大小”和“颜色”。

在仪表板上添加组件即可。

1 0

参与人数 +1

F币 +20

理由

苏瑞

+ 20

【2024原创内容激励奖励】给你32个赞！

查看全部评分

沙发

luojian0323 Lv7 关注ta

发表于 2024-5-13 21:10:06

图片全没了。转发的吧？

板凳

放大镜管理员 关注ta

发表于 2024-5-16 16:08:27

您好，您可以点击帖子下方“编辑”功能，并在编辑器最左侧点击您需要标题类型，即可修改正文字体字号段落格式。

地板

放大镜管理员 关注ta

发表于 2024-5-21 10:56:50

您好，感谢您对本次 [原创内容激励计划] 的积极参与。此次您的原创帖子主要介绍桑基图的制作，针对一个数据集清洗过滤、分组汇总、制图。主要介绍数据处理过程，内容较为单一，流程较为简单，而且整个格式流程有些杂乱。您可以调整一下帖子正文内容格式，并适当标出侧重点，同时可以在原创图文中标注一下各项内容，便于查看。再次诚挚地感谢您的发帖，热切期待您在本计划中的下一次精彩发文~