数据分析案例-2024 年全电动汽车数据集可视化分析

news/2024/7/23 11:33:40 标签: 数据分析, 算法, 人工智能, python, 信息可视化

 

🤵‍♂️ 个人主页:@艾派森的个人主页

✍🏻作者简介:Python学习者
🐋 希望大家多多支持,我们一起进步!😄
如果文章对你有帮助的话,
欢迎评论 💬点赞👍🏻 收藏 📂加关注+


目录

1.项目背景

2.数据集介绍

3.技术工具

4.导入数据

5.数据可视化

源代码


1.项目背景

随着全球对气候变化和环境污染问题的日益关注,电动汽车作为一种清洁能源交通工具,受到了越来越多的关注和青睐。因此,对全电动汽车数据集进行可视化分析的实验具有重要的研究背景和意义。

  1. 环境保护意识提升:随着全球气候变化问题日益严峻,各国政府和国际社会纷纷加强环保政策,提倡低碳出行。电动汽车作为零排放交通工具,具有减少尾气排放、改善空气质量的显著优势,因此成为了政府和企业推动环保交通发展的重要手段。

  2. 技术发展和市场竞争:随着电池技术的不断进步和成本的逐渐下降,全电动汽车的性能不断提升,续航里程逐渐增加,充电设施也得到了普及。在这种背景下,全球电动汽车市场呈现出蓬勃发展的态势,各大汽车制造商和科技公司纷纷投入到电动汽车的研发和生产中,形成了激烈的市场竞争。

  3. 消费者需求和行为变化:随着人们生活水平的提高和对环保意识的增强,越来越多的消费者开始关注并选择购买电动汽车。他们更倾向于选择环保、智能、高性能的交通工具,因此电动汽车在市场上的需求持续增长。

  4. 政策支持和激励措施:各国政府纷纷出台了一系列政策支持和激励措施,如补贴、减税、购车优惠等,以促进电动汽车的推广和普及。这些政策举措对于电动汽车市场的快速发展起到了重要的推动作用。

在这样的背景下,对全电动汽车数据集进行可视化分析,可以帮助我们更深入地了解电动汽车市场的发展趋势、消费者偏好、技术创新等方面的情况,为政府制定政策、企业制定营销策略以及消费者做出购车决策提供科学依据和参考。

2.数据集介绍

本数据集来源于Kaggle,原始数据集共有177866条数据,17个变量。该数据集显示了目前通过华盛顿州许可部 (DOL) 注册的电池电动汽车 (BEV) 和插电式混合动力电动汽车 (PHEV)。

电池电动汽车 (BEV) 是一种全电动汽车,使用一个或多个电池来存储电能,为电机提供动力,并通过将车辆插入电源进行充电。插电式混合动力汽车 (PHEV) 是一种使用一个或多个电池为电动机提供动力的车辆;使用另一种燃料,例如汽油或柴油,为内燃机或其他推进源提供动力;并通过将车辆插入电源来充电。

清洁替代燃料汽车 (CAFV) 资格基于 RCW 82.08.809 和 RCW 82.12.809 中概述的燃料要求和纯电动续航里程要求,才有资格获得替代燃料汽车零售和华盛顿州使用税豁免。这些车辆的销售或租赁必须在 2019 年 8 月 1 日或之后进行,并满足购买价格要求,才有资格获得替代燃料汽车零售和华盛顿州使用税豁免。

3.技术工具

Python版本:3.9

代码编辑器:jupyter notebook

4.导入数据

首先导入数据分析用到的第三方库并加载数据集

查看数据大小

查看数据基本信息

查看数值型变量的描述性统计

查看非数值型变量的描述性统计

统计数据缺失值情况

可以发现,County和Postal Code有5个缺失值,倒数第五列变量有389个缺失值。

删除缺失值

统计重复值情况

数据集并不存在重复数据

5.数据可视化

可视化1:按电动汽车数量排名的十大电动汽车制造商

可视化显示,特斯拉是电动汽车市场的领头羊,其次是日产,雪佛兰表明特斯拉是最受欢迎的品牌。

可视化2:随着时间的推移电动汽车的采用

“随着时间的推移,电动汽车的采用”可视化显示了电动汽车注册量的显著增长,从2010年代初开始增长,并在2020年代进一步加速增长。近年来,电动汽车的采用呈指数级增长,这意味着它正变得越来越受欢迎。

可视化3:电动汽车数量排名前10的县

可视化显示,金县是电动汽车采用的领先地区,其次是斯诺霍米什县和皮尔斯县。

可视化4:纯电动汽车和插电式混合动力汽车多年流行度的比较

多年来,纯电动汽车(bev)和插电式混合动力汽车(phev)之间的比较凸显了一个明显的趋势,即纯电动汽车越来越受欢迎,尤其是在2023年。

可视化5:多年来汽车电动续航里程的改善

随回归线的散点图显示了历年电动里程的显著改善,电动里程有明显的上升趋势。

可视化6:电动汽车价格历年分布

可视化显示了近年来电动汽车中位数价格的增长。2008年到2011年的价格与现在相比非常高。

可视化7:Top10厂商的电动汽车价格分布

箱线图显示了前10名电动汽车制造商的基本建议零售价的显着变化,保时捷非常受欢迎,价格范围在80000到180000之间。菲斯克的价格第二高。

可视化8:按电动汽车数量排名的十大电力公司

柱状图按车辆数量显示了电力公用事业。普吉特海湾能源公司拥有最多的电动汽车。

可视化图9:按立法区划分的电动汽车

可视化显示了各立法区在电动汽车(EV)采用方面的差异,41区、45区和48区遥遥领先。

源代码

python">import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
warnings.filterwarnings('ignore')

df=pd.read_csv('Electric_Vehicle_Population_Data.csv')
df.head()
df.shape
df.info()
df.describe()
df.describe(include='O')
df.isnull().sum()
df.duplicated().sum()
df.dropna(inplace=True)
可视化1:按电动汽车数量排名的十大电动汽车制造商。
# 按电动汽车数量排名的十大电动汽车制造商
ev_counts_by_make = df['Make'].value_counts().nlargest(10)
sns.set_style("whitegrid")
plt.figure(figsize=(10, 6))
sns.barplot(x=ev_counts_by_make.values, y=ev_counts_by_make.index, palette="viridis")
plt.title('Top 10 Electric Vehicle Makes by Number of Electric Vehicles', fontsize=15)
plt.xlabel('Number of Vehicles', fontsize=12)
plt.ylabel('Make', fontsize=12)
plt.show()
可视化显示,特斯拉是电动汽车市场的领头羊,其次是日产,雪佛兰表明特斯拉是最受欢迎的品牌。
# 可视化2:随着时间的推移电动汽车的采用
sns.set_style("whitegrid")
ev_adoption_over_time = df['Model Year'].value_counts().sort_index()
plt.figure(figsize=(14, 7))
sns.lineplot(x=ev_adoption_over_time.index, y=ev_adoption_over_time.values, marker='o', color='royalblue')
plt.title('EV Adoption Over Time', fontsize=20)
plt.xlabel('Model Year', fontsize=14)
plt.ylabel('Number of EV Registrations', fontsize=14)
plt.xticks(rotation=45)
plt.tight_layout()
plt.show()
“随着时间的推移,电动汽车的采用”可视化显示了电动汽车注册量的显著增长,从2010年代初开始增长,并在2020年代进一步加速增长。近年来,电动汽车的采用呈指数级增长,这意味着它正变得越来越受欢迎。
# 可视化3:电动汽车数量排名前10的县
ev_count_distribution = df.groupby('County')['VIN (1-10)'].count().reset_index().sort_values(by='VIN (1-10)', ascending=False)
top_ev_counties = ev_count_distribution.head(10)
plt.figure(figsize=(10, 8))
sns.barplot(x='VIN (1-10)', y='County', data=top_ev_counties, palette='viridis')
plt.title('Top 10 Counties by Electric Vehicle Counts')
plt.xlabel('Number of Electric Vehicles')
plt.ylabel('County')
plt.tight_layout()
plt.show()
可视化显示,金县是电动汽车采用的领先地区,其次是斯诺霍米什县和皮尔斯县。
# 可视化4:纯电动汽车和插电式混合动力汽车多年流行度的比较
# 过滤数据集,只包括bev和PHEV
ev_types_df = df[df['Electric Vehicle Type'].isin(['Battery Electric Vehicle (BEV)', 'Plug-in Hybrid Electric Vehicle (PHEV)'])]
# 将数据按型号、年份和数量分组
yearly_ev_counts = ev_types_df.groupby(['Model Year', 'Electric Vehicle Type']).size().unstack(fill_value=0).reset_index()

sns.set_style("whitegrid")
plt.figure(figsize=(14, 8))
yearly_ev_counts.plot(kind='bar', stacked=True, x='Model Year', figsize=(14, 8), width=0.8)
plt.title('Comparison of BEVs and PHEVs Popularity Over Years', fontsize=16)
plt.xlabel('Model Year', fontsize=14)
plt.ylabel('Number of Vehicles', fontsize=14)
plt.xticks(rotation=45)
plt.legend(title='Electric Vehicle Type', fontsize=12)
plt.tight_layout()
plt.show()
多年来,纯电动汽车(bev)和插电式混合动力汽车(phev)之间的比较凸显了一个明显的趋势,即纯电动汽车越来越受欢迎,尤其是在2023年。
# 可视化5:多年来汽车电动续航里程的改善
plt.figure(figsize=(10, 6))
sns.scatterplot(data=df, x='Model Year', y='Electric Range', alpha=0.6)
plt.title('Improvement in Electric Range of Vehicles Over the Years')
plt.xlabel('Model Year')
plt.ylabel('Electric Range (miles)')
sns.regplot(data=df, x='Model Year', y='Electric Range', scatter=False, color='red')
plt.show()
随回归线的散点图显示了历年电动里程的显著改善,电动里程有明显的上升趋势。
# 可视化6:电动汽车价格历年分布
#过滤掉基本MSRP为零或高的行
filtered_df = df[(df['Base MSRP'] > 0) & (df['Base MSRP'] < 200000)]
sns.set_style("whitegrid")
plt.figure(figsize=(14, 8))
sns.boxplot(data=filtered_df, x='Model Year', y='Base MSRP', palette="viridis")
plt.title('Distribution of Electric Vehicle Prices Over the Years', fontsize=16)
plt.xlabel('Model Year', fontsize=14)
plt.ylabel('Base MSRP ($)', fontsize=14)
plt.xticks(rotation=45)
plt.tight_layout()
plt.show()
可视化显示了近年来电动汽车中位数价格的增长。2008年到2011年的价格与现在相比非常高。
# 可视化7:Top10厂商的电动汽车价格分布
top_makes = filtered_df['Make'].value_counts().nlargest(10).index
filtered_top_makes_df = filtered_df[filtered_df['Make'].isin(top_makes)]
plt.figure(figsize=(16, 10))
sns.boxplot(data=filtered_top_makes_df, x='Make', y='Base MSRP', palette="coolwarm")
plt.title('Distribution of Electric Vehicle Prices by Make (Top 10 Makes)', fontsize=16)
plt.xlabel('Make', fontsize=14)
plt.ylabel('Base MSRP ($)', fontsize=14)
plt.xticks(rotation=45)
plt.tight_layout()
plt.show()
箱线图显示了前10名电动汽车制造商的基本建议零售价的显着变化,保时捷非常受欢迎,价格范围在80000到180000之间。菲斯克的价格第二高。
# 可视化8:按电动汽车数量排名的十大电力公司
utility_counts = df.groupby('Electric Utility')['DOL Vehicle ID'].count().reset_index()
utility_counts_sorted = utility_counts.sort_values(by='DOL Vehicle ID', ascending=False).head(10)
plt.figure(figsize=(10, 6))
sns.barplot(data=utility_counts_sorted, x='DOL Vehicle ID', y='Electric Utility', palette='viridis', order=utility_counts_sorted['Electric Utility'])
plt.title('Top 10 Electric Utilities by Number of Electric Vehicles')
plt.xlabel('Number of Electric Vehicles')
plt.ylabel('Electric Utility')
plt.tight_layout()
plt.show()
柱状图按车辆数量显示了电力公用事业。普吉特海湾能源公司拥有最多的电动汽车。
# 可视化图9:按立法区划分的电动汽车
# 按地区分组,按车牌号统计
district_counts = df.groupby('Legislative District')['DOL Vehicle ID'].count().reset_index()
district_counts_sorted = district_counts.sort_values(by='DOL Vehicle ID', ascending=False)
plt.figure(figsize=(14, 8))
sns.barplot(x='Legislative District', y='DOL Vehicle ID', data=district_counts_sorted,
            palette='coolwarm')
plt.title('Electric Vehicles by Legislative District')
plt.xlabel('Legislative District')
plt.ylabel('Number of Electric Vehicles')
plt.xticks(rotation=45)
plt.tight_layout()
plt.show()
可视化显示了各立法区在电动汽车(EV)采用方面的差异,41区、45区和48区遥遥领先。

资料获取,更多粉丝福利,关注下方公众号获取

在这里插入图片描述


http://www.niftyadmin.cn/n/5546405.html

相关文章

“爆炸性更新!JDK 17携全新语法特性强势来袭,开发者必看的升级亮点“(1)

找往期文章包括但不限于本期文章中不懂的知识点&#xff1a; 个人主页&#xff1a;我要学编程(ಥ_ಥ)-CSDN博客 所属专栏&#xff1a;Java进化论 目录 背景 yield关键字 var关键字 空指针异常 密封类 接口中的私有方法 instanceof关键字 背景 Java 8 虽然曾经是使用…

java springboot监听事件和处理事件

在Spring Boot中&#xff0c;监听和处理事件是一种常用的模式&#xff0c;用于在应用程序的不同部分之间传递信息。Spring 的事件发布/订阅模型允许我们创建自定义事件&#xff0c;并在这些事件发生时由注册的监听器进行处理。这里&#xff0c;我将提供一个简单的Spring Boot应…

如何解决群晖Docker注册表查询失败/无法拉取镜像等问题

文章目录 📖 介绍 📖🏡 演示环境 🏡📒 问题概述 📒📒 解决方案 📒🔖 方法一🔖 方法二🔖 方法三⚓️ 相关链接 🚓️📖 介绍 📖 在群晖(Synology)NAS设备上使用Docker时,我们可能会遇到查询Docker注册表失败,无法拉取Docker镜像的问题。这种情况…

【Dell R730 折腾记录】风扇调速--在 Ubuntu 系统上开机自启动并每隔30分钟执行一次风扇定速脚本

前段时间升级了一下机柜里的服务器&#xff0c;替换掉了一台旧的 Dell 服务器&#xff0c;换上了这台 R730。但是无奈于噪音的袭扰&#xff0c;搁置了一段时间。我在这台机器上目前安装了一块 Intel Xeon E5-2630v3 芯片以及一张改过散热的 NVIDIA Tesla P4 计算卡。结果就是散…

Michael.W基于Foundry精读Openzeppelin第63期——Initializable.sol

Michael.W基于Foundry精读Openzeppelin第63期——Initializable.sol 0. 版本0.1 Initializable.sol 1. 目标合约2. 代码精读2.1 _getInitializedVersion() internal && _isInitializing() internal2.2 modifier initializer()2.3 modifier reinitializer(uint8 version…

C++-时间复杂度

前言 OJ测试中最烦人的结果莫过于TLE(Time Limit Exceed 超时)和MLE(Mempry Limit Exceed超内存&#xff09;了&#xff0c;在递归和搜索题里面看见这两货就烦。 目录 前言 时间复杂度 时间复杂度概念 时间复杂度的表示法 时间复杂度OJ测试要求 时间复杂度例举 剪枝 1.可行…

uniapp本地打包到Android Studio生成APK文件

&#xff08;1&#xff09;安装 Android Studio 软件&#xff1b; 下载地址&#xff1a;官方下载地址&#xff0c;英文环境 安装&#xff1a;如下之外&#xff0c;其他一键 next &#xff08;2&#xff09;配置java环境&#xff1b; 下载&#xff1a;j…

deepstream段错误

&#x1f610; 错误&#xff1a; 探针中由于使用了pyds.get_nvds_buf_surface(hash(gst_buffer), frame_meta.batch_id)导致的段错误&#xff08;segmentation fault&#xff09;。 解决方式&#xff1a;