pyspark数据分析pyspark数据可视化

货源人·学电商2个月前 (07-17)跨境平台

pyspark 数据分析 pyspark数据可视化

PySpark是一个用于大规模数据处理的Python库，它提供了一种简单、高效的方式来处理和分析数据。要使用PySpark进行数据分析，首先需要安装PySpark，然后导入所需的库并创建一个SparkSession对象。

以下是一个简单的PySpark数据分析示例：

安装PySpark：

pip install pyspark

导入所需库：

from pyspark.sql import SparkSessionfrom pyspark.sql.functions import col, when, litfrom pyspark.sql.window import Window

创建SparkSession对象：

spark = SparkSession.builder 
    .appName("PySpark 数据分析") 
    .getOrCreate()

读取数据：

data = [("张三", 18), ("李四", 20), ("王五", 19)]columns = ["姓名", "年龄"]df = spark.createDataFrame(data, columns)

计算年龄总和：

age_sum = df.select(col("年龄")).agg({"年龄": "sum"}).collect()[0][0]print("年龄总和:", age_sum)

计算年龄平均值：

age_avg = df.select(col("年龄")).agg({"年龄": "avg"}).collect()[0][0]print("年龄平均值:", age_avg)

计算年龄最大值：

max_age = df.select(col("年龄")).agg({"年龄": "max"}).collect()[0][0]print("年龄最大值:", max_age)

计算年龄最小值：

min_age = df.select(col("年龄")).agg({"年龄": "min"}).collect()[0][0]print("年龄最小值:", min_age)

计算年龄范围：

range_ages = df.select(col("年龄"), lit("-").alias("开始年龄"), lit("+").alias("结束年龄")) 
    .filter((col("年龄") >= lit(min_age)) & (col("年龄") <= lit(max_age))) 
    .select("年龄", "开始年龄", "结束年龄") 
    .distinct() 
    .show()

显示结果：