pyspark数据分析pyspark数据可视化

pyspark 数据分析 pyspark数据可视化

PySpark是一个用于大规模数据处理的Python库,它提供了一种简单、高效的方式来处理和分析数据。要使用PySpark进行数据分析,首先需要安装PySpark,然后导入所需的库并创建一个SparkSession对象。

以下是一个简单的PySpark数据分析示例:

安装PySpark:
pip install pyspark
导入所需库:
from pyspark.sql import SparkSessionfrom pyspark.sql.functions import col, when, litfrom pyspark.sql.window import Window
创建SparkSession对象:
spark = SparkSession.builder 
    .appName("PySpark 数据分析") 
    .getOrCreate()
读取数据:
data = [("张三", 18), ("李四", 20), ("王五", 19)]columns = ["姓名", "年龄"]df = spark.createDataFrame(data, columns)
计算年龄总和:
age_sum = df.select(col("年龄")).agg({"年龄": "sum"}).collect()[0][0]print("年龄总和:", age_sum)
计算年龄平均值:
age_avg = df.select(col("年龄")).agg({"年龄": "avg"}).collect()[0][0]print("年龄平均值:", age_avg)
计算年龄最大值:
max_age = df.select(col("年龄")).agg({"年龄": "max"}).collect()[0][0]print("年龄最大值:", max_age)
计算年龄最小值:
min_age = df.select(col("年龄")).agg({"年龄": "min"}).collect()[0][0]print("年龄最小值:", min_age)
计算年龄范围:
range_ages = df.select(col("年龄"), lit("-").alias("开始年龄"), lit("+").alias("结束年龄")) 
    .filter((col("年龄") >= lit(min_age)) & (col("年龄") <= lit(max_age))) 
    .select("年龄", "开始年龄", "结束年龄") 
    .distinct() 
    .show()
显示结果:
spark.stop()

这个示例展示了如何使用PySpark进行简单的数据分析,包括计算年龄总和、平均值、最大值、最小值以及年龄范围。你可以根据实际需求修改代码以实现更复杂的数据分析任务。

na.png

本网站文章未经允许禁止转载,合作/权益/投稿 请联系平台管理员 Email:epebiz@outlook.com