paint-brush
Khả năng một người sống sót trên tàu Titanic như thế nào?từ tác giả@dotslashbit
3,498 lượt đọc
3,498 lượt đọc

Khả năng một người sống sót trên tàu Titanic như thế nào?

từ tác giả Sahil12m2023/08/09
Read on Terminal Reader

dài quá đọc không nổi

Có phải sự phân biệt giai cấp đóng một vai trò trong việc xác định số phận của những người trên tàu, tạo ra sự phân chia giữa đặc quyền và nguy hiểm? Tuổi tác và giới tính đã ảnh hưởng như thế nào đến những người sống sót và những người không chịu khuất phục trước biển cả không ngừng? Giữa bộn bề, liệu sự có mặt của người thân trong gia đình có phải là niềm an ủi, động viên, động viên hành khách cùng nhau vượt qua sóng gió? Và cảng lên tàu có ảnh hưởng đến số phận của những người lên tàu từ các địa điểm khác nhau không? Rất may, chúng tôi có thể trả lời những câu hỏi này bằng bộ dữ liệu Titanic có sẵn tại Kaggle. Hơn một trăm năm sau khi nó bị chìm, chúng ta có thể sử dụng dữ liệu để hiểu giá vé có thể ảnh hưởng đến sự sống còn như thế nào và liệu một số vị trí cabin nhất định có cung cấp nơi trú ẩn trong các sự kiện bi thảm hay không. Bản phân tích dữ liệu khám phá (EDA) này sẽ tiết lộ những hiểu biết sâu sắc về trải nghiệm của hành khách, làm sáng tỏ câu chuyện về lòng dũng cảm và sự mất mát của họ trong đêm định mệnh đó.
featured image - Khả năng một người sống sót trên tàu Titanic như thế nào?
Sahil HackerNoon profile picture
0-item
1-item

Vụ chìm tàu RMS Titanic năm 1912 vẫn là một trong những thảm họa hàng hải nguy hiểm nhất trong lịch sử. Hơn 1.500 người thiệt mạng khi con tàu đâm phải một tảng băng trôi và chìm ở Bắc Đại Tây Dương. Trong những năm sau đó, nghiên cứu sâu rộng đã được tiến hành để tìm hiểu các yếu tố góp phần gây ra số người chết cao.


Chỉ 38% hành khách sống sót sau sự kiện tàn khốc này, khiến tôi tự hỏi về những cá nhân đã ở trên con tàu Titanic vào đêm định mệnh đó.


Có phải sự phân biệt giai cấp đóng một vai trò trong việc xác định số phận của những người trên tàu, tạo ra sự phân chia giữa đặc quyền và nguy hiểm? Tuổi tác và giới tính đã ảnh hưởng như thế nào đến những người sống sót và những người không chịu khuất phục trước biển cả không ngừng? Giữa bộn bề, liệu sự có mặt của người thân trong gia đình có phải là niềm an ủi, động viên, động viên hành khách cùng nhau vượt qua sóng gió? Và cảng lên tàu có ảnh hưởng đến số phận của những người lên tàu từ các địa điểm khác nhau không?


Rất may, chúng tôi có thể trả lời những câu hỏi này bằng bộ dữ liệu Titanic có sẵn tại Kaggle. Hơn một trăm năm sau khi nó chìm, chúng ta có thể sử dụng dữ liệu để hiểu giá vé có thể ảnh hưởng đến sự sống còn như thế nào và liệu một số vị trí cabin có cung cấp nơi trú ẩn trong các sự kiện bi thảm hay không. Bản phân tích dữ liệu khám phá (EDA) này sẽ tiết lộ những hiểu biết sâu sắc về trải nghiệm của hành khách, làm sáng tỏ câu chuyện về lòng dũng cảm và sự mất mát của họ trong đêm định mệnh đó.

Câu hỏi/Thông tin chi tiết

Dưới đây là một số hiểu biết sâu sắc mà chúng ta sẽ khám phá trong quá trình phân tích:


  1. Tỷ lệ sống sót chung của hành khách trên tàu Titanic là bao nhiêu?
  2. Làm thế nào để tỷ lệ sống khác nhau theo giới tính? Là phụ nữ có nhiều khả năng sống sót hơn nam giới?
  3. Sự phân bố độ tuổi của hành khách trên tàu Titanic là gì? Có bất kỳ mô hình đáng chú ý?
  4. Hành khách ở các hạng hành khách khác nhau (hạng 1, 2, 3) có tỷ lệ sống sót khác nhau không?
  5. Tỷ lệ sống sót giữa các nhóm tuổi khác nhau (ví dụ: trẻ em, người lớn, người già) là bao nhiêu?
  6. Cảng lên tàu có ảnh hưởng đến cơ hội sống sót không?
  7. Làm thế nào để gia đình hiện diện ảnh hưởng đến tỷ lệ sống sót?
  8. Hành khách có giá vé cao hơn có cơ hội sống sót cao hơn không?
  9. Sự phân bố của các vị trí cabin hành khách là gì? Có phải hành khách trong một số cabin nhất định có tỷ lệ sống sót cao hơn?

Dữ liệu

Bộ dữ liệu Titanic là tập hợp dữ liệu về hành khách và thủy thủ đoàn của tàu RMS Titanic bị chìm năm 1912. Bộ dữ liệu chứa thông tin về tên, tuổi, giới tính, hạng vé của từng hành khách và liệu họ có sống sót sau vụ chìm tàu hay không. Tập dữ liệu Titanic là tập dữ liệu phổ biến cho các dự án khoa học dữ liệu và máy học. Nó thường được sử dụng để đào tạo các mô hình dự đoán liệu hành khách có sống sót sau vụ chìm tàu hay không dựa trên đặc điểm của họ. Bộ dữ liệu Titanic cũng được sử dụng để nghiên cứu các mạng xã hội và hành vi của con người.


Bộ dữ liệu Titanic được tạo bởi Kaggle, một cộng đồng khoa học dữ liệu. Bộ dữ liệu có sẵn để tải xuống miễn phí trên trang web Kaggle.


Bạn có thể lấy tập dữ liệu tại đây

điều kiện tiên quyết

  • gấu trúc
  • Matplotlib
  • sinh ra biển

Đang tải dữ liệu

Hãy bắt đầu phân tích của chúng tôi bằng cách tải các mô-đun cần thiết và bộ dữ liệu titanic

 import pandas as pd import matplotlib.pyplot as plt import seaborn as sns # Load the Titanic dataset df = pd.read_csv('/kaggle/input/titanic/train.csv') df.head() 

tập dữ liệu titanic 5 hàng đầu tiên

Bạn có thể thấy rằng bộ dữ liệu này chứa tất cả thông tin về từng hành khách mà tôi đã thảo luận trong phần giới thiệu của bài viết này.


Bây giờ, hãy bắt đầu phân tích bằng cách sử dụng gấu trúc và trực quan hóa thông tin chi tiết bằng cách sử dụng matplotlib và seaborn.

Phân tích dữ liệu thăm dò

Tỷ lệ sống sót chung của hành khách trên tàu Titanic là bao nhiêu?

 # Calculate the overall survival rate survival_rate = df['Survived'].mean() * 100 # Create a bar plot to visualize the survival rate sns.set(style='darkgrid') plt.figure(figsize=(6, 4)) sns.countplot(x='Survived', data=df) plt.xlabel('Survived') plt.ylabel('Passenger Count') plt.title('Survival Rate: {:.2f}%'.format(survival_rate)) plt.xticks([0, 1], ['No', 'Yes']) plt.show() 

tỷ lệ hành khách sống sót

Biểu đồ thanh cung cấp một hình ảnh đại diện rõ ràng và súc tích về tỷ lệ sống sót chung của các hành khách trên tàu Titanic. Nó tiết lộ rằng chỉ có 38% hành khách sống sót sau thảm họa.


Chiều cao của các thanh biểu thị số lượng hành khách trong mỗi loại (0 cho người không sống sót và 1 cho người sống sót). Tỷ lệ sống sót, được nêu trong tiêu đề của cốt truyện, làm nổi bật tỷ lệ hành khách sống sót sau sự kiện bi thảm.

Làm thế nào để tỷ lệ sống khác nhau theo giới tính? Là phụ nữ có nhiều khả năng sống sót hơn nam giới?

 # Calculate the survival rate by gender survival_by_gender = df.groupby('Sex')['Survived'].mean() * 100 # Create a bar plot to visualize the survival rate by gender sns.set(style='darkgrid') plt.figure(figsize=(6, 4)) sns.barplot(x=survival_by_gender.index, y=survival_by_gender.values) plt.xlabel('Gender') plt.ylabel('Survival Rate') plt.title('Survival Rate by Gender') plt.show() 

tỷ lệ hành khách sống sót theo giới tính

Bạn có thể thấy rằng trong số tất cả các hành khách sống sót, hơn 70% trong số họ là nữ. Tỷ lệ sống sót cao hơn đáng kể của phụ nữ so với nam giới là một quan sát nổi bật.


Sự khác biệt này cho thấy giới tính đóng một vai trò quan trọng trong việc xác định cơ hội sống sót trong thảm kịch Titanic.

Sự phân bố độ tuổi của hành khách trên tàu Titanic là gì? Có bất kỳ mô hình đáng chú ý?

 # Plot the distribution of passenger ages sns.set(style='darkgrid') plt.figure(figsize=(8, 6)) sns.histplot(data=df, x='Age', bins=20, kde=True) plt.xlabel('Age') plt.ylabel('Count') plt.title('Distribution of Passenger Ages') plt.show() 

phân bố độ tuổi hành khách

Biểu đồ với biểu đồ KDE minh họa sự phân bố độ tuổi của hành khách trên tàu Titanic. Dữ liệu cho thấy phân phối lệch trái, cho thấy có nhiều người trẻ tuổi hơn, đặc biệt là trong độ tuổi từ 18 đến 35, so với người lớn tuổi hoặc trẻ em trong số các hành khách.


Để phân tích sự phân bổ độ tuổi của hành khách, chúng tôi đã sử dụng biểu đồ với biểu đồ KDE (Ước tính mật độ hạt nhân). Trục x biểu thị các khoảng tuổi khác nhau (thùng), trong khi trục y hiển thị số lượng hành khách rơi vào từng nhóm tuổi. Bằng cách trực quan hóa dữ liệu theo cách này, chúng tôi có thể nhận ra bản chất sai lệch của sự phân bổ độ tuổi trên tàu Titanic, làm nổi bật tỷ lệ hành khách là thanh niên.


Hành khách ở các hạng hành khách khác nhau (hạng 1, 2, 3) có tỷ lệ sống sót khác nhau không?

 # Calculate the survival rates by passenger class survival_by_class = df.groupby('Pclass')['Survived'].mean() * 100 # Create a bar plot to visualize the survival rates by passenger class sns.set(style='darkgrid') plt.figure(figsize=(6, 4)) sns.barplot(x=survival_by_class.index, y=survival_by_class.values) plt.xlabel('Passenger Class') plt.ylabel('Survival Rate') plt.title('Survival Rate by Passenger Class') plt.show() 

tỷ lệ sống sót theo hạng hành khách

Biểu đồ thanh hiển thị tỷ lệ sống sót dựa trên hạng hành khách cho các hành khách trong bộ dữ liệu Titanic. Có thể thấy rõ từ cốt truyện rằng hạng hành khách càng cao thì tỷ lệ sống sót càng cao. Quan sát này phù hợp với hiểu biết lịch sử rằng hành khách ở hạng cao hơn (hạng nhất) có khả năng tiếp cận tốt hơn với xuồng cứu sinh và các biện pháp an toàn, điều này có thể góp phần mang lại cơ hội sống sót cao hơn cho họ. Ngược lại, hành khách ở hạng thấp hơn (hạng 3) phải đối mặt với nhiều thách thức hơn trong quá trình sơ tán, có khả năng dẫn đến tỷ lệ sống sót thấp hơn cho nhóm đó.


Để phân tích tỷ lệ sống sót dựa trên hạng hành khách, chúng tôi đã tạo một biểu đồ thanh. Mỗi thanh biểu thị tỷ lệ phần trăm hành khách sống sót cho từng loại hạng (hạng 1, hạng 2 hoặc hạng 3). Bằng cách kiểm tra trực quan cốt truyện, chúng tôi có thể xác định bất kỳ sự chênh lệch nào về tỷ lệ sống sót giữa các hạng hành khách khác nhau. Chiều cao của các thanh biểu thị tỷ lệ sống sót, với các thanh cao hơn biểu thị tỷ lệ phần trăm người sống sót cao hơn đối với các hạng hành khách cụ thể.

Tỷ lệ sống sót giữa các nhóm tuổi khác nhau (ví dụ: trẻ em, người lớn, người già) là bao nhiêu?

 # Create age groups age_bins = [0, 12, 18, 30, 50, 100] # Define the age group boundaries age_labels = ['Child', 'Teenager', 'Young Adult', 'Adult', 'Elderly'] # Define the age group labels df['AgeGroup'] = pd.cut(df['Age'], bins=age_bins, labels=age_labels, right=False) # Calculate the survival rates by age group survival_by_age_group = df.groupby('AgeGroup')['Survived'].mean() * 100 # Create a bar plot to visualize the survival rates by age group sns.set(style='darkgrid') plt.figure(figsize=(8, 6)) sns.barplot(x=survival_by_age_group.index, y=survival_by_age_group.values) plt.xlabel('Age Group') plt.ylabel('Survival Rate') plt.title('Survival Rate by Age Group') plt.show() 

tỷ lệ sống theo nhóm tuổi

Biểu đồ thanh minh họa tỷ lệ sống sót cho các nhóm tuổi khác nhau giữa các hành khách trong bộ dữ liệu Titanic. Nó tiết lộ rằng các nhóm tuổi nhất định, chẳng hạn như trẻ em, người lớn và người già, có cơ hội sống sót cao hơn trong thảm họa. Quan sát này chỉ ra rằng ưu tiên được dành cho các nhóm tuổi dễ bị tổn thương này trong quá trình sơ tán, dẫn đến tỷ lệ sống sót cao hơn cho họ.


Để phân tích tỷ lệ sống sót dựa trên các nhóm tuổi, chúng tôi đã tạo một biểu đồ thanh. Mỗi thanh đại diện cho tỷ lệ phần trăm người sống sót trong một nhóm tuổi cụ thể. Bằng cách kiểm tra cốt truyện, chúng tôi có thể quan sát sự khác biệt về tỷ lệ sống sót giữa các nhóm tuổi khác nhau. Điều này cho phép chúng tôi suy luận rằng các nhóm tuổi nhất định, chẳng hạn như trẻ em, người lớn và người già, được ưu tiên hơn và có cơ hội sống sót cao hơn trong sự kiện bi thảm. Phương pháp được sử dụng ở đây đã cung cấp những hiểu biết có giá trị về tác động của tuổi tác đối với kết quả sống sót, phản ánh những nỗ lực nhân đạo nhằm bảo vệ những hành khách dễ bị tổn thương nhất trong thảm họa.

Cảng lên tàu có ảnh hưởng đến cơ hội sống sót không?

 # Calculate the survival rates by port of embarkation survival_by_embarkation = df.groupby('Embarked')['Survived'].mean() * 100 # Create a bar plot to visualize the survival rates by port of embarkation sns.set(style='darkgrid') plt.figure(figsize=(6, 4)) sns.barplot(x=survival_by_embarkation.index, y=survival_by_embarkation.values) plt.xlabel('Port of Embarkation') plt.ylabel('Survival Rate') plt.title('Survival Rate by Port of Embarkation') plt.show() 

tỷ lệ sống sót theo cảng lên tàu

Biểu đồ thanh hiển thị tỷ lệ sống sót dựa trên cảng lên tàu của các hành khách trong bộ dữ liệu Titanic. Bằng cách phân tích cốt truyện, chúng ta có thể quan sát rõ ràng rằng tỷ lệ sống sót cao nhất có liên quan đến những hành khách khởi hành từ Cherbourg, trong khi tỷ lệ sống sót thấp nhất có liên quan đến những hành khách khởi hành từ Southampton.


Hình ảnh trực quan này cung cấp thông tin chi tiết có giá trị về sự thay đổi tỷ lệ sống sót dựa trên cảng lên tàu, gợi ý các yếu tố tiềm năng có thể ảnh hưởng đến cơ hội sống sót của hành khách.


Để phân tích tỷ lệ sống sót dựa trên cảng lên tàu, chúng tôi đã tạo một biểu đồ thanh. Mỗi thanh biểu thị tỷ lệ phần trăm người sống sót cho từng loại cảng lên tàu (Cherbourg, Queenstown, Southampton). Bằng cách kiểm tra trực quan cốt truyện, chúng tôi có thể xác định sự khác biệt đáng kể về tỷ lệ sống sót giữa các điểm lên tàu khác nhau.

Hành khách có giá vé cao hơn có cơ hội sống sót cao hơn không?

 # Create fare groups fare_bins = [0, 50, 100, 150, 200, 300, 1000] # Define the fare group boundaries fare_labels = ['0-50', '50-100', '100-150', '150-200', '200-300', '300+'] # Define the fare group labels df['FareGroup'] = pd.cut(df['Fare'], bins=fare_bins, labels=fare_labels, right=False) # Calculate the survival rates by fare group survival_by_fare_group = df.groupby('FareGroup')['Survived'].mean() * 100 # Create a bar plot to visualize the survival rates by fare group sns.set(style='darkgrid') plt.figure(figsize=(8, 6)) sns.barplot(x=survival_by_fare_group.index, y=survival_by_fare_group.values) plt.xlabel('Fare Group') plt.ylabel('Survival Rate') plt.title('Survival Rate by Fare Group') plt.show() 

tỷ lệ sống theo giá vé

Biểu đồ minh họa rằng tỷ lệ sống sót cao nhất đối với hành khách trong nhóm giá vé cao nhất (300+), tiếp theo là nhóm giá vé cao thứ hai (200-300). Ngược lại, tỷ lệ sống sót giảm khi nhóm giá vé giảm, với tỷ lệ sống sót thấp nhất đối với hành khách ở nhóm giá vé thấp nhất (0-50).


Phân tích này cho thấy rằng giá vé đã trả đóng một vai trò quan trọng trong việc xác định cơ hội sống sót trên tàu Titanic. Những hành khách trả giá vé cao hơn có nhiều khả năng ở khoang hạng nhất, hạng này có tỷ lệ sống sót cao hơn.


Ngoài ra, những hành khách có khả năng chi trả cao hơn này có thể đã được ưu tiên trong các nỗ lực cứu hộ, góp phần giúp họ có tỷ lệ sống sót cao hơn. Để phân tích mối quan hệ giữa các nhóm giá vé và tỷ lệ sống sót, chúng tôi đã tạo một biểu đồ thanh thể hiện tỷ lệ phần trăm sống sót cho mỗi nhóm giá vé. Biểu đồ cho phép chúng tôi quan sát xu hướng của tỷ lệ sống sót dựa trên các nhóm giá vé, cho thấy giá vé cao hơn có liên quan đến tỷ lệ sống sót cao hơn.

Sự phân bố của các vị trí cabin hành khách là gì? Có phải hành khách trong một số cabin nhất định có tỷ lệ sống sót cao hơn?

 # Extract the cabin deck from the Cabin column df['CabinDeck'] = df['Cabin'].str.extract(r'([A-Za-z])') # Plot the distribution of passenger cabin locations sns.set(style='darkgrid') plt.figure(figsize=(10, 6)) sns.countplot(data=df, x='CabinDeck', order=sorted(df['CabinDeck'].dropna().unique())) plt.xlabel('Cabin Deck') plt.ylabel('Count') plt.title('Distribution of Passenger Cabin Locations') plt.show() # Calculate the survival rates by cabin deck survival_by_cabin_deck = df.groupby('CabinDeck')['Survived'].mean() * 100 # Create a bar plot to visualize the survival rates by cabin deck sns.set(style='darkgrid') plt.figure(figsize=(8, 6)) sns.barplot(x=survival_by_cabin_deck.index, y=survival_by_cabin_deck.values) plt.xlabel('Cabin Deck') plt.ylabel('Survival Rate') plt.title('Survival Rate by Cabin Deck') plt.show() 

phân bổ vị trí khoang hành khách

tỷ lệ sống sót theo boong cabin

Biểu đồ thể hiện rõ ràng xu hướng giảm tỷ lệ sống sót khi tầng cabin giảm xuống, với tỷ lệ sống sót thấp nhất được quan sát thấy đối với hành khách trên boong A.


Phân tích này cho thấy rằng vị trí cabin của hành khách thực sự là một yếu tố quan trọng đối với cơ hội sống sót của họ trên tàu Titanic. Hành khách trên các boong cao hơn có khả năng tiếp cận tốt hơn với xuồng cứu sinh và được giải cứu dễ dàng hơn.


Ngoài ra, họ có thể đã được ưu tiên trong các hoạt động cứu hộ, góp phần giúp họ có tỷ lệ sống sót cao hơn. Để phân tích mối quan hệ giữa các tầng cabin và tỷ lệ sống sót, chúng tôi đã tạo một biểu đồ thanh hiển thị tỷ lệ phần trăm sống sót cho mỗi boong. Bằng cách kiểm tra biểu đồ, chúng tôi có thể xác định các xu hướng về tỷ lệ sống sót dựa trên các tầng cabin.

Tỷ lệ sống sót theo nhóm tuổi và giới tính

 # Create age groups age_bins = [0, 12, 18, 30, 50, 100] # Define the age group boundaries age_labels = ['Child', 'Teenager', 'Young Adult', 'Adult', 'Elderly'] # Define the age group labels df['AgeGroup'] = pd.cut(df['Age'], bins=age_bins, labels=age_labels, right=False) # Calculate the survival rates by age group and gender survival_by_age_gender = df.groupby(['AgeGroup', 'Sex'])['Survived'].mean() * 100 # Convert the survival rates into a pivot table for easier visualization survival_pivot = survival_by_age_gender.unstack() # Create a heatmap to visualize the survival rates by age group and gender sns.set(style='darkgrid') plt.figure(figsize=(8, 6)) sns.heatmap(data=survival_pivot, annot=True, cmap='coolwarm', fmt=".2f", cbar=True) plt.xlabel('Gender') plt.ylabel('Age Group') plt.title('Survival Rate by Age Group and Gender') plt.show() 

tỷ lệ sống thêm theo nhóm tuổi và giới tính

Bản đồ nhiệt cung cấp biểu diễn trực quan về tỷ lệ sống sót cho các nhóm tuổi và giới tính khác nhau giữa các hành khách trong bộ dữ liệu Titanic. Bằng cách phân tích bản đồ nhiệt, chúng tôi có thể quan sát các mô hình và xu hướng về tỷ lệ sống sót dựa trên độ tuổi và giới tính, cho phép chúng tôi xác định nhóm tuổi và giới tính nào có cơ hội sống sót cao hơn hoặc thấp hơn trong thảm họa. Cường độ màu trong bản đồ nhiệt đóng vai trò là một chỉ báo rõ ràng, với màu tối hơn biểu thị tỷ lệ sống sót cao hơn và màu nhạt hơn biểu thị tỷ lệ sống sót thấp hơn.


Từ bản đồ nhiệt, chúng ta có thể rút ra một số hiểu biết sâu sắc. Hành khách nữ lớn tuổi có cơ hội sống sót cao nhất, trong khi hành khách nam lớn tuổi có cơ hội sống sót thấp nhất. Ngoài ra, bản đồ nhiệt tiết lộ rằng, nhìn chung, phụ nữ có nhiều khả năng sống sót hơn ở mọi nhóm tuổi. Những quan sát này làm sáng tỏ ảnh hưởng đáng kể của tuổi tác và giới tính trong việc xác định kết quả sống sót của hành khách trong thảm kịch lịch sử này.


Để hình dung tỷ lệ sống sót dựa trên các nhóm tuổi và giới tính, chúng tôi đã sử dụng bản đồ nhiệt. Mỗi ô trong bản đồ nhiệt biểu thị tỷ lệ sống sót (tỷ lệ phần trăm) cho một nhóm tuổi và giới tính cụ thể. Bằng cách kiểm tra cường độ màu trong bản đồ nhiệt, chúng tôi có thể nhận ra sự khác biệt về tỷ lệ sống sót giữa các nhóm tuổi và giới tính khác nhau.

Tỷ lệ sống theo quy mô gia đình

 # Calculate the total number of family members for each passenger df['FamilySize'] = df['SibSp'] + df['Parch'] + 1 # Calculate the survival rates by family size survival_by_family_size = df.groupby('FamilySize')['Survived'].mean() * 100 # Create a bar plot to visualize the survival rates by family size sns.set(style='darkgrid') plt.figure(figsize=(10, 6)) sns.barplot(x=survival_by_family_size.index, y=survival_by_family_size.values) plt.xlabel('Family Size') plt.ylabel('Survival Rate') plt.title('Survival Rate by Family Size') plt.show() 

tỷ lệ sống theo quy mô gia đình

Biểu đồ minh họa rằng những hành khách có quy mô gia đình lớn hơn có nhiều khả năng sống sót sau vụ chìm tàu Titanic. Tỷ lệ sống sót của hành khách có quy mô gia đình từ 1 đến 4 người tăng lên khi số lượng thành viên gia đình tăng lên.


Thông tin chi tiết này rất có ý nghĩa vì nó nhấn mạnh quy mô gia đình là một trong những yếu tố dự đoán mạnh mẽ nhất về khả năng sống sót trên tàu Titanic. Những hành khách thuộc thành viên gia đình lớn hơn có khả năng đi cùng nhau, khiến họ trở thành ưu tiên hàng đầu trong nỗ lực cứu hộ.


Ngoài ra, việc có nhiều thành viên trong gia đình hơn có thể đã tạo điều kiện hỗ trợ lẫn nhau, chẳng hạn như chia sẻ các nguồn lực như thức ăn và nước uống, điều này có thể góp phần mang lại cơ hội sống sót cao hơn cho họ.


Để phân tích mối quan hệ giữa quy mô gia đình và tỷ lệ sống sót, chúng tôi đã tạo một biểu đồ thanh hiển thị tỷ lệ phần trăm sống sót cho từng loại quy mô gia đình. Bằng cách kiểm tra trực quan biểu đồ, chúng tôi có thể xác định quy mô gia đình ảnh hưởng như thế nào đến kết quả sống sót của hành khách.

Tỷ lệ sống sót sau khi lên tàu và hạng hành khách

 # Calculate the survival rates by port of embarkation and passenger class survival_by_embark_class = df.groupby(['Embarked', 'Pclass'])['Survived'].mean() * 100 # Convert the survival rates into a pivot table for easier visualization survival_pivot = survival_by_embark_class.unstack() # Create a heatmap to visualize the survival rates sns.set(style='darkgrid') plt.figure(figsize=(8, 6)) sns.heatmap(data=survival_pivot, annot=True, cmap='coolwarm', fmt=".2f", cbar=True) plt.xlabel('Passenger Class') plt.ylabel('Port of Embarkation') plt.title('Survival Rate by Port of Embarkation and Passenger Class') plt.show() 

tỷ lệ sống sót theo cảng và lên tàu

Biểu đồ cho thấy một số mô hình quan trọng liên quan đến tỷ lệ sống sót dựa trên cảng lên tàu và hạng hành khách. Hành khách khởi hành từ Cherbourg có tỷ lệ sống sót cao hơn so với hành khách từ Queenstown hoặc Southampton.


Điều này có thể là do Cherbourg là bến cảng đầu tiên và khả năng sẽ có nhiều hành khách hạng nhất lên tàu ở đó. Ngoài ra, với tư cách là một cảng của Pháp, có thể đã có sự thiên vị trong việc cứu hành khách Pháp.


Hơn nữa, biểu đồ chỉ ra rằng hành khách ở khoang hạng nhất có tỷ lệ sống sót cao hơn so với hành khách ở khoang hạng hai hoặc hạng ba. Điều này có thể là do hành khách hạng nhất được coi là ưu tiên cứu hộ và có khả năng tiếp cận xuồng cứu sinh tốt hơn do địa vị xã hội cao hơn và khả năng chi trả cho các biện pháp cứu sinh.


Cuối cùng, một xu hướng đáng chú ý trên tất cả các cảng là tỷ lệ sống sót giảm khi hạng hành khách giảm. Điều này cho thấy hạng hành khách là yếu tố quyết định quan trọng đến sự sống sót trên tàu Titanic, trong đó hành khách hạng nhất có cơ hội sống sót cao nhất. Để phân tích mối quan hệ giữa cảng lên tàu, hạng hành khách và tỷ lệ sống sót, chúng tôi đã tạo một bản đồ nhiệt. Bản đồ nhiệt biểu thị tỷ lệ phần trăm tỷ lệ sống sót cho các kết hợp khác nhau giữa cảng lên tàu và hạng hành khách. Bằng cách kiểm tra bản đồ nhiệt, chúng tôi có thể xác định các kiểu và xu hướng về tỷ lệ sống sót dựa trên hai yếu tố này.