泰坦尼克号桑基图
1、项目简介
泰坦尼克号的沉没是世界上最严重的海难事故之一。1912年4月15日,在她的处女航中,被广泛认为“永不沉没”的皇家邮轮泰坦尼克号在与冰山相撞后沉没。不幸的是,船上没有足够的救生艇,导致2224名乘客和船员中的1502人死亡。
泰坦尼克号数据集为1912年泰坦尼克号沉船事件中相关人员的个人信息以及存活状况。包含了2224名乘客和船员的姓名、性别、年龄、船票等级、船票价格、船舱号、登船港口、生存情况等信息。这些历史数据已经被分为训练集和测试集,我们可以根据训练集训练出合适的模型并预测测试集中的存活状况。
2、数据集
这里使用泰坦尼克号数据集的训练集(titanic_train.csv)进行数据分析。
泰坦尼克号数据集的训练集有891个样本,12个特征和标签
数据集的属性信息如下:
特征/标签
说明
PassengerId
乘客编号
Survived
是否幸存,1是,0否
Pclass
船舱等级,1(一等)、2(二等)、3(三等)
Name
乘客姓名
Sex
乘客性别
Age
乘客年龄
SibSp
与乘客同行的兄弟姐妹及配偶人数
Parch
与乘客同行的父母及子女人数
Ticket
船票编号
Fare
船票价格
Cabin
乘客座位号
Embarked
乘客登船码头,C(Cherbourg瑟堡)、Q(Queenstown昆士敦)、S(Southampton南安普顿)
3、数据处理
3.1 导入数据
选择PassengerId 、Survived、Pclass 、Sex、Age 、Embarked 等6个特征,并把PassengerId 、Survived、Pclass设置为“文本型”。
3.2 过滤
过滤掉Age 、Embarked为空的记录,剩余712条记录。
3.3新增赋值列
新增“是否生存”、“船舱等级”、“性别”、“登船码头”等赋值列。
新增“年龄”赋值列,对age分段赋值。
选取新生成的字段。
3.4 分组汇总
按“登船码头”、“船舱等级”分组,PassengerId去重计数
修改字段名分别为”起点“、”终点“、”人数“,另存为“港口-客舱等级”。
同样方法,分别对“客舱等级”、“性别”汇总,另存为“客舱等级-性别”
对“性别”、“年龄”汇总,另存为“性别-年龄”
对“年龄”、“是否生存”汇总,另存为“年龄-生存”
3.5 上下合并
对“港口-客舱等级”、“客舱等级-性别”、“性别-年龄”、“年龄-生存”进行上下合并,得到新表。
4 桑基图组件
新建“桑基图”组件,在图形属性中设置“起点”、“终点”、“大小”和“颜色”。
在仪表板上添加组件即可。
4回帖数
|
1关注人数
|
1361浏览人数
|
最后回复于:2024-5-29 12:16
|
- 数字输入不上怎么办浏览数:76
- 【FineBI学习打卡】DAY27 计算近三个月平均值浏览数:87
- 【FineBI学习打卡】DAY26 计算近三个月累计值浏览数:57
- 【FineBI学习打卡】DAY25 漏斗图浏览数:80
- 学习班-结业总结浏览数:122
- 【FineBI学习打卡】DAY24 EARLIER函数浏览数:121
- 【FineBI学习打卡】DAY23 DEF_SUB函数浏览数:121
- 【FineBI学习打卡】DAY22 DEF_ADD函数浏览数:100
- 【FineBI学习打卡】DAY21 DEF函数浏览数:118
- 我一口气想了三个妙招,彻底搞定数据重复浏览数:181