《PySpark大数据分析实战》-15.云服务模式Databricks介绍创建集群

news/2024/7/23 10:49:17 标签: 数据分析, 数据挖掘, 大数据, 数据科学, PySpark

📋 博主简介

  • 💖 作者简介:大家好,我是wux_labs。😜
    热衷于各种主流技术,热爱数据科学、机器学习、云计算、人工智能。
    通过了TiDB数据库专员(PCTA)、TiDB数据库专家(PCTP)、TiDB数据库认证SQL开发专家(PCSD)认证。
    通过了微软Azure开发人员、Azure数据工程师、Azure解决方案架构师专家认证。
    大数据技术栈Hadoop、Hive、Spark、Kafka等有深入研究,对Databricks的使用有丰富的经验。
  • 📝 个人主页:wux_labs,如果您对我还算满意,请关注一下吧~🔥
  • 📝 个人社区:数据科学社区,如果您是数据科学爱好者,一起来交流吧~🔥
  • 🎉 请支持我:欢迎大家 点赞👍+收藏⭐️+吐槽📝,您的支持是我持续创作的动力~🔥

PySpark数据分析实战》-15.云服务模式Databricks介绍创建集群

  • PySpark数据分析实战》-15.云服务模式Databricks介绍创建集群
    • 前言
    • 创建集群
    • 数据集成
    • 结束语

PySpark15Databricks_12">《PySpark数据分析实战》-15.云服务模式Databricks介绍创建集群

前言

大家好!今天为大家分享的是《PySpark数据分析实战》第2章第5节的内容:云服务模式Databricks介绍创建集群。

图书在:当当、京东、机械工业出版社以及各大书店有售!

创建集群

使用Databricks进行数据集成、数据分析、机器学习前,必须创建集群。通过Compute菜单打开Compute列表界面,如图所示。

Databricks支持两种类型的Compute,All-purpose compute是通用的计算资源,可用于交互式数据集成、数据分析等;Job compute是用于执行定时作业的计算资源。在All-purpose compute页面点击Create compute按钮,打开集群创建界面,如图所示。

Databricks的集群支持两种模式,Single node是单节点模式,类似于Spark的单机模式;Muti node是多节点模式,类似于Spark的独立集群模式,包含1个Master节点和多个可弹性扩缩容的Worker节点。选择Multi node选项,在Databricks runtime version下面选择Spark版本。Databricks支持两种类型的runtime版本,Standard是标准类型版本,通常用于数据工程、数据科学;ML版本包含更多的机器学习的库,适用于学习,支持GPU运算。在ML版本下选择不支持GPU运算的Spark 3.4.0版本的集群环境,如图所示。

在Worker type下面选择Worker节点的类型,主要是选择CPU核数和内存大小,以及Worker节点个数,Worker节点支持弹性伸缩,根据需要进行设置,如图所示。

在Driver type下面选择Master节点的类型,选择与Worker节点一样,如图所示。

所有配置设置完成,点击Create Cluster按钮创建集群。集群创建完成后,在Compute列表可以看到创建的集群,如图所示。

数据集成

在Databircks中可以通过URL访问HDFS上的文件,但是Databricks是部署在云端的,这种数据访问会带来网络数据传输的开销。为了能够快速访问数据,可以将文件存储在DBFS上。通过左侧菜单栏的New菜单,选择Data菜单,如图所示。

在数据集成界面列出了可以集成到Databricks的数据源,Databricks支持很多数据源的集成,如图所示。

选择DBFS,在Upload File页面下,选择words.txt上传到DBFS的/FileStore/tables/路径下,如图所示。

结束语

好了,感谢大家的关注,今天就分享到这里了,更多详细内容,请阅读原书或持续关注专栏。


http://www.niftyadmin.cn/n/5276057.html

相关文章

JS逆向实战——开发者工具检测

说明:仅供学习使用,请勿用于非法用途,若有侵权,请联系博主删除 作者:zhu6201976 一、背景 在JS逆向领域,Chrome开发者工具是核心,抓包、调试、看调用栈等都离不开它。可以说,逆向人…

MATLAB 平面拟合并旋转到水平面 (43)

MATLAB 平面拟合并旋转到水平面 (43) 一、算法介绍二、算法实现1.代码2.结果一、算法介绍 点云拟合平面并置平的算法是指对给定的点云数据进行平面拟合,并将拟合得到的平面调整至水平位置的过程。这个算法通常用于处理三维空间中的点云数据,例如在计算机视觉、三维重建和机…

关于“Python”的核心知识点整理大全31

目录 12.4.2 在屏幕上绘制飞船 alien_invasion.py ​编辑12.5 重构:模块 game_functions 12.5.1 函数 check_events() game_functions.py alien_invasion.py 12.5.2 函数 update_screen() game_functions.py alien_invasion.py 12.6 驾驶飞船 12.6.1 响应…

数组深入学习感悟

注:本文学习借鉴于《代码随想录》 一.介绍数组 数组是储存在连续内存空间中的相同类型数据的集合 数组名的理解: 数组名就是数组⾸元素(第⼀个元素)的地址是对的,但是有两个例外: sizeof(数组名),sizeof中单独放数…

SpringBoot知识点回顾01

Spring是为了解决企业级应用开发的复杂性而创建的,简化开发。 Spring是如何简化Java开发的 为了降低Java开发的复杂性,Spring采用了以下4种关键策略: 1、基于POJO的轻量级和最小侵入性编程,所有东西都是bean; 2、通…

控制理论simulink+matlab

这里写目录标题 根轨迹二级目录三级目录 根轨迹 z [-1]; %开环传递函数的零点 p [0 -2 -3 -4]; %开环传递函数的系统极点 k 1; %开环传递函数的系数,反映在比例上 g zpk(z,p,k); %生成开环传递函数%生成的传递函数如下 % (s1) % -------------…

LeetCode刷题--- 全排列 II

个人主页:元清加油_【C】,【C语言】,【数据结构与算法】-CSDN博客 个人专栏 力扣递归算法题 http://t.csdnimg.cn/yUl2I 【C】 http://t.csdnimg.cn/6AbpV 数据结构与算法 http://t.csdnimg.cn/hKh2l 前言:这个专栏主要讲述递归递归、搜…

java jdbc连接池

什么是连接池: Java JDBC连接池是一个管理和分配数据库连接的工具。在Java应用程序中,连接到数据库是一个耗时且资源密集的操作,而连接池可以通过创建一组预先初始化的数据库连接,然后将其保持在连接池中,并按需分配给…