编程技术网

关注微信公众号,定时推送前沿、专业、深度的编程技术资料。

 找回密码
 立即注册

QQ登录

只需一步,快速开始

极客时间

分析美国人口普查数据的收入水平

D10001 数据库/缓存 2022-1-19 10:35 153人围观

腾讯云服务器

This article was published as a part of the Data Science Blogathon.

概述

In this article, we will be predicting the income of US people based on the US census data and later we will be concluding whether that individual American have earned more or less than 50000 dollars a year. If you want to know more about the dataset visit this link.

Image source: NC state university

外带

  1. Exploratory data analysis: Learn Exploratory data analysis on the complex dataset.
  2. Data Insights: Visualizing the data and getting the business-related insights using data visualization.
  3. Visualization Library: Learn about the powerful visualization library i.e.Plotly and Dexplot.

500: Internal Server Error500: Internal Server Error

导入所有库

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px 
import plotly.graph_objs as go
from plotly.offline import iplot

从CSV文件中读取数据

df = pd.read_csv(r"D:Data Science projectsUS census income predictionPredicting the Income Level- US census dataadult.csv")
df.head()

输出:

让我们检查这个数据集的列有哪些列

df.columns

输出:

Index(['39', ' State-gov', ' 77516', ' Bachelors', ' 13', ' Never-married',
       ' Adm-clerical', ' Not-in-family', ' White', ' Male', ' 2174', ' 0',
       ' 40', ' United-States', ' <=50K'],
      dtype='object')

探索性数据分析(EDA)

在这里,我们从数据集中删除了2174,0和40列,该数据集与数据集无关紧要。

df.drop([' 2174', ' 0', ' 40'], axis = 'columns', inplace = True)
df.head()

输出:

由于使用给定的名称,我们无法判断来自美国人口普查数据的数据表明所以,让我们重命名列名称以更轻松地了解数据集。

df.columns = ['Age', 'Type_of_Owner', 'id', 'Education', 'No_of_Projects_Done',
              'Marital_Status', 'Job_Designation', 'Family_Relation', 'Race', 'Gender',
              'Country', 'Salary']

我们现在看看我们的数据集

df.head()

输出:

推论:现在数据似乎是非常可读的,所以让我们现在前进。

找到数据的形状

df.shape

输出:

(32560, 12)

推论:数据集中有32560行和12列。

让'看看我们可以从我们的数据集中绘制什么信息。

df.info()

输出:

描述数据

df.describe()

输出:

我们查看我们的数据集中有多少空值

df.isnull().sum()

输出:

推论:宾果!我们的数据集中没有缺少值。

数据可视化

可视化我们人口普查数据的类型

labels = df['Type_of_Owner'].value_counts().index
values = df['Type_of_Owner'].value_counts().values

colors = df['Type_of_Owner']

fig = go.Figure(data = [go.Pie()])

fig.show()

输出:

推论:从上面的数据集中,我们可以看到大多数美国人口普查数据都说,工作位于私营部门,它大约为70%。

可视化美国人口普查数据中的年龄数据集

labels = df['Age'].value_counts()[:10].index
values = df['Age'].value_counts()[:10].values

colors = df['Age']

fig = go.Figure(data = [go.Pie()])

fig.show()

输出:

推论:从上面的 Graph 中,我们可以看到大多数求职者落在30-40岁的年龄。

可视化最高的教育程度

labels = df['Education'].value_counts().index
values = df['Education'].value_counts().values

colors = df['Education']

fig = go.Figure(data = [go.Pie()])

fig.show()

输出:

推论:大多数 workers 阶层的人有高中毕业学位,然后是一些大学学位和学士学位。

可视化no_of_projects_done.

labels = df['No_of_Projects_Done'].value_counts().index
values = df['No_of_Projects_Done'].value_counts().values

colors = df['No_of_Projects_Done']

fig = go.Figure(data = [go.Pie()])

fig.show()

输出:

推论:在这里,我们可以得出结论,大多数人有9或10个项目。

可视化 workers 阶级人的婚姻状况

labels = df['Marital_Status'].value_counts().index
values = df['Marital_Status'].value_counts().values

colors = df['Marital_Status']

fig = go.Figure(data = [go.Pie()])

fig.show()

输出:

推论:从产出中,我们可以看到46%的人已婚,32.8%的人从未结婚。

可视化 workers 阶级人的职位描述

labels = df['Job_Designation'].value_counts().index
values = df['Job_Designation'].value_counts().values

colors = df['Job_Designation']

fig = go.Figure(data = [go.Pie()])

fig.show()

输出:

推论:大约50%的人参与专业专业,工艺维修,exec-Managerial和Adm-Clerical。

可视化 workers 阶级人民的家庭关系

labels = df['Family_Relation'].value_counts().index
values = df['Family_Relation'].value_counts().values

colors = df['Family_Relation']

fig = go.Figure(data = [go.Pie()])

fig.show()

输出:

推论:大多数 workers 级的人都是某人的丈夫。

试着看看 workers 阶级的不同类型

df['Race'].unique()

输出:

array([' White', ' Black', ' Asian-Pac-Islander', ' Amer-Indian-Eskimo',
       ' Other'], dtype=object)

推论:人民工作班有4场不同的比赛。

可视化 workers 阶级人的比赛

labels = df['Race'].value_counts().index
values = df['Race'].value_counts().values

colors = ['#98adbf',
 '#1d4466',
 '#2678bf',
 '#2c6699']

fig = go.Figure(data = [go.Pie()])

fig.show()

输出:

推论:从上面的情节中,白人在黑色上有至高无上的剧情,同时获得工作和黑人仍然面临色彩歧视。

可视化 workers 阶级人民的性别

labels = df['Gender'].value_counts().index
values = df['Gender'].value_counts().values

colors = ['#98adbf',
 '#2c6699']

fig = go.Figure(data = [go.Pie()])

fig.show()

输出:

可视化 workers 阶级人的工资

labels = df['Salary'].value_counts().index
values = df['Salary'].value_counts().values

colors = ['#98adbf',
 '#2c6699']

fig = go.Figure(data = [go.Pie()])

fig.show()

输出:

推论:只有大约24%的人获得24%以上的薪水,约76%的人获得50k或少于50k。

导入dexplot.

import dexplot as dxp

dxp.count(
    val="Age",
    data = df,
    split="Type_of_Owner",
    stacked = True,
    figsize=(12,12))

输出:

推论:从上面的 Graph 中,我们可以看出不同年龄的人们的工作类型如何变化,尽管大多数人参与所有年龄组的 private 工作类型, private 工作主要由年龄组的人民占据17-60岁的人。

dxp.count(
    val="Age",
    data = df,
    split="Marital_Status",
    stacked = True,
    figsize=(12,12))

输出:

推论:从上述数据中,清楚地区落在17-30岁年龄组的人是未婚的,人们落在30-65岁的年龄组主要是年龄段的大部分人群 - 第30 - 55年离婚。

dxp.count(
    val="Age",
    data = df,
    split="Job_Designation",
    stacked = True,
    figsize=(12,12))

输出:

推论:从上面的 Graph 中,我们可以看到人们的年龄和工作档案如何变化。

dxp.count(
    val="Age",
    data = df,
    split="Race",
    stacked = True,
    figsize=(12,12))

输出:

推论:从上面的 Graph 中,任何年龄组中的大多数人都是白色的。

dxp.count(
    val="Age",
    data = df,
    split="Gender",
    stacked = True,
    figsize=(12,12))

输出:

推论:从上面的 Graph 中可以清楚地看出,大多数工作女性在17-55岁的年龄组下降,实际上他们已经开始在早期工作,而大多数雄性在23岁的时候。

dxp.count(
    val="Age",
    data = df,
    split="Salary",
    stacked = True,
    figsize=(12,12))

输出:

推论:从 Graph 中显而易见的是,随着年龄的传递往往得到更多的工资一般增加。

结论

我们为此数据集进行了整个EDA进程,从查看数据集的 header ,以获得每个 Feature 的洞察,无论是单变量分析还是双方分析,以及从数字上获取数据的洞察力我们也使用了两个最互动的可视化库之一,即绘图和dexplot。

终点

Here’s the repo link to this article.

注意:文章中使用的所有 Image /屏幕截图都是作者的。如果源未提及。

About Me

Greeting to everyone, I’m currently working in TCS and previously, I worked as a Data Science Analyst in Zorba Consulting India. Along with full-time work, I’ve got an immense interest in the same field, i.e. Data Science, along with its other subsets of Artificial Intelligence such as Computer Vision, Machine learning, and Deep learning; feel free to collaborate with me on any project on the domains mentioned above (LinkedIn).

Here you can access my other articles, which are published on Analytics Vidhya as a part of the Blogathon (link).

本文中 showing 的媒体不受分析vidhya所拥有的,并在提交人的自由裁量权使用。

有关的

转自:https://www.analyticsvidhya.com/blog/2022/01/analyzing-the-income-level-of-us-census-data/
原作者: Aman Preet Gulati
腾讯云服务器 阿里云服务器


关注微信
^