pyspark数据分析pyspark数据可视化
pyspark 数据分析 pyspark数据可视化

PySpark是一个用于大规模数据处理的Python库,它提供了一种简单、高效的方式来处理和分析数据。要使用PySpark进行数据分析,首先需要安装PySpark,然后导入所需的库并创建一个SparkSession对象。
以下是一个简单的PySpark数据分析示例:
安装PySpark:pip install pyspark导入所需库:from pyspark.sql import SparkSessionfrom pyspark.sql.functions import col, when, litfrom pyspark.sql.window import Window创建SparkSession对象:spark = SparkSession.builder
.appName("PySpark 数据分析")
.getOrCreate()读取数据:data = [("张三", 18), ("李四", 20), ("王五", 19)]columns = ["姓名", "年龄"]df = spark.createDataFrame(data, columns)计算年龄总和:age_sum = df.select(col("年龄")).agg({"年龄": "sum"}).collect()[0][0]print("年龄总和:", age_sum)计算年龄平均值:age_avg = df.select(col("年龄")).agg({"年龄": "avg"}).collect()[0][0]print("年龄平均值:", age_avg)计算年龄最大值:max_age = df.select(col("年龄")).agg({"年龄": "max"}).collect()[0][0]print("年龄最大值:", max_age)计算年龄最小值:min_age = df.select(col("年龄")).agg({"年龄": "min"}).collect()[0][0]print("年龄最小值:", min_age)计算年龄范围:range_ages = df.select(col("年龄"), lit("-").alias("开始年龄"), lit("+").alias("结束年龄"))
.filter((col("年龄") >= lit(min_age)) & (col("年龄") <= lit(max_age)))
.select("年龄", "开始年龄", "结束年龄")
.distinct()
.show()显示结果:spark.stop()这个示例展示了如何使用PySpark进行简单的数据分析,包括计算年龄总和、平均值、最大值、最小值以及年龄范围。你可以根据实际需求修改代码以实现更复杂的数据分析任务。
本网站文章未经允许禁止转载,合作/权益/投稿 请联系平台管理员 Email:epebiz@outlook.com



