Chinh Phục Big Data Với PySpark: Từ Kubernetes Hùng Tráng Đến Docker Desktop Cực Chill!

Lê Lân

15/06/2025

Hướng Dẫn Triển Khai PySpark Trên Kubernetes và Docker Desktop Kết Hợp Với Jupyter Notebook

Mở Đầu

PySpark, Kubernetes và Jupyter Notebook là những công cụ mạnh mẽ giúp bạn xây dựng hệ thống phân tán cho xử lý dữ liệu lớn một cách hiệu quả và tương tác.

Trong kỷ nguyên dữ liệu hiện nay, việc sử dụng các công nghệ như PySpark để xử lý phân tán, Kubernetes để quản lý cụm máy chủ và Jupyter Notebook để phát triển tương tác trở nên phổ biến và thiết yếu. Bài viết này sẽ giúp bạn hiểu rõ cách cài đặt và triển khai PySpark trên Kubernetes sử dụng Helm, đồng thời kết hợp với Jupyter Notebook để phát triển và thực thi các ứng dụng xử lý dữ liệu một cách thuận tiện. Ngoài ra, còn hướng dẫn chạy môi trường tương tự trên Docker Desktop, giúp bạn linh hoạt trong việc lựa chọn hạ tầng triển khai.

Tổng Quan Về Các Công Nghệ

PySpark Là Gì?

PySpark là giao diện Python cho Apache Spark, cho phép bạn viết ứng dụng phân tán sử dụng API Python. Ngoài ra, PySpark còn cung cấp shell tương tác để phân tích dữ liệu trên môi trường phân tán.

Jupyter Notebook Là Gì?

Jupyter Notebook là môi trường tạo tài liệu tương tác, chứa mã nguồn, phương trình, biểu đồ và kết quả tính toán. Nó rất phổ biến với lập trình viên, nhà khoa học dữ liệu và sinh viên để minh họa và thử nghiệm mã.

Kubernetes Là Gì?

Kubernetes là hệ thống mã nguồn mở để tự động hóa việc triển khai, mở rộng và quản lý container. Được Google thiết kế ban đầu, Kubernetes giúp đơn giản hóa việc quản lý cụm máy chủ và các ứng dụng phân tán.

Triển Khai Spark Trên Kubernetes

Kiến Trúc Cụm Kubernetes

Cụm Kubernetes cơ bản gồm:

Control-plane node (máy điều khiển): Địa chỉ IP ví dụ 192.168.56.115

Worker nodes (máy chủ thực thi): Địa chỉ IP ví dụ 192.168.56.116 , 192.168.56.117

Cài Đặt Helm

Helm là công cụ quản lý gói cho Kubernetes. Bạn có thể cài đặt Helm tại trang chính thức: Helm install

Cài Đặt Apache Spark Bằng Helm Chart

Để triển khai Spark trên Kubernetes qua Helm, bạn cần:

Thêm repo Helm của Bitnami:

helm repo add bitnami https://charts.bitnami.com/bitnami

Tìm kiếm phiên bản Spark phù hợp:

helm search repo bitnami/spark

Cài đặt Helm Chart:

helm install kayvan-release bitnami/spark --version 8.7.2

Đảm bảo phiên bản Spark của Helm Chart trùng khớp với phiên bản PySpark bạn sử dụng trên Jupyter.

Triển Khai Jupyter Notebook (Workloads) Trên Kubernetes

Bạn có thể tạo file jupyter.yaml để khai báo Deployment và Service cho Jupyter:

apiVersion: apps/v1
kind: Deployment
metadata:
  name: jupiter-spark
  namespace: default
spec:
  replicas: 1
  selector:
    matchLabels:
      app: spark
  template:
    metadata:
      labels:
        app: spark
    spec:
      containers:
        - name: jupiter-spark-container
          image: docker.arvancloud.ir/jupyter/all-spark-notebook
          imagePullPolicy: IfNotPresent
          ports:
            - containerPort: 8888
          env:
            - name: JUPYTER_ENABLE_LAB
              value: "yes"
---
apiVersion: v1
kind: Service
metadata:
  name: jupiter-spark-svc
  namespace: default
spec:
  type: NodePort
  selector:
    app: spark
  ports:
    - port: 8888
      targetPort: 8888
      nodePort: 30001
---
apiVersion: v1
kind: Service
metadata:
  name: jupiter-spark-driver-headless
spec:
  clusterIP: None
  selector:
    app: spark

Sử dụng lệnh để áp dụng:

kubectl apply -f jupyter.yaml

Thiết Lập Kết Nối Giữa Jupyter Và Spark Cluster

Ví dụ khai báo một SparkSession trong Jupyter:

from pyspark.sql import SparkSession
import socket

spark = SparkSession.builder.master(
    "spark://kayvan-release-spark-master-0.kayvan-release-spark-headless.default.svc.cluster.local:7077"
).appName("Mahla").config(
    'spark.driver.host',
    socket.gethostbyname(socket.gethostname())
).getOrCreate()

Hàm socket.gethostbyname(socket.gethostname()) trả về địa chỉ IP của Jupyter pod, phục vụ cho cấu hình driver host trong Spark.

Bạn có thể viết code sử dụng PySpark trên notebook và gửi công việc phân tán đến cluster Kubernetes một cách dễ dàng.

Chạy PySpark Trên Docker Desktop Với Docker Compose

Cấu Hình docker-compose.yml

Dưới đây là ví dụ cấu hình chạy Spark master, worker và Jupyter bản Notebook Spark trong Docker Compose:

version: '3.6'
services:
  spark-master:
    container_name: spark
    image: docker.arvancloud.ir/bitnami/spark:3.5.0
    environment:
      - SPARK_MODE=master
      - SPARK_RPC_AUTHENTICATION_ENABLED=no
      - SPARK_RPC_ENCRYPTION_ENABLED=no
      - SPARK_LOCAL_STORAGE_ENCRYPTION_ENABLED=no
      - SPARK_SSL_ENABLED=no
      - SPARK_USER=root
      - PYSPARK_PYTHON=/opt/bitnami/python/bin/python3
    ports:
      - 127.0.0.1:8081:8080
      - 127.0.0.1:7077:7077
    networks:
      - spark-network

  spark-worker:
    image: docker.arvancloud.ir/bitnami/spark:3.5.0
    environment:
      - SPARK_MODE=worker
      - SPARK_MASTER_URL=spark://spark:7077
      - SPARK_WORKER_MEMORY=2G
      - SPARK_WORKER_CORES=2
      - SPARK_RPC_AUTHENTICATION_ENABLED=no
      - SPARK_RPC_ENCRYPTION_ENABLED=no
      - SPARK_LOCAL_STORAGE_ENCRYPTION_ENABLED=no
      - SPARK_SSL_ENABLED=no
      - SPARK_USER=root
      - PYSPARK_PYTHON=/opt/bitnami/python/bin/python3
    networks:
      - spark-network

  jupyter:
    image: docker.arvancloud.ir/jupyter/all-spark-notebook:latest
    container_name: jupyter
    ports:
      - "8888:8888"
    environment:
      - JUPYTER_ENABLE_LAB=yes
    networks:
      - spark-network
    depends_on:
      - spark-master

networks:
  spark-network:

Chạy cụm:

docker-compose up --scale spark-worker=2

Cách Thực Hành Với PySpark Trên Jupyter Và Cluster Spark

Sao Chép File CSV Vào Container Spark Worker

Ví dụ copy file dữ liệu để Spark worker đọc:

docker cp file.csv spark-worker-1:/opt/file
docker cp file.csv spark-worker-2:/opt/file

Kết Nối SparkSession Trên Jupyter Với Spark Master

from pyspark.sql import SparkSession

spark = SparkSession.builder.appName("YourAppName") \
    .master("spark://8fa1bd982ade:7077").getOrCreate()

data = spark.read.csv("/opt/file/file.csv", header=True)
data.limit(3).show()

spark.stop()

Làm Việc Với PySpark Đơn Node Trên Jupyter

Bạn cũng có thể làm việc với PySpark trên một node đơn khi chạy trong Jupyter trước khi đẩy ứng dụng lên cluster:

docker cp file.csv jupyter:/opt/file

Code tương tự:

from pyspark.sql import SparkSession

spark = SparkSession.builder.appName("YourAppName").getOrCreate()
data = spark.read.csv("/opt/file/file.csv", header=True)
data.limit(3).show()
spark.stop()

Kết Luận

Bằng cách kết hợp việc sử dụng PySpark trên Jupyter với môi trường triển khai phân tán của Kubernetes hoặc Docker Desktop, bạn có thể tạo ra môi trường phát triển linh hoạt và hiệu quả cho các ứng dụng xử lý dữ liệu lớn.

Bạn nên bắt đầu thử nghiệm với PySpark trên một node đơn trong Jupyter để phát triển nhanh, sau đó chuyển sang triển khai trên cụm Kubernetes hoặc Docker để tận dụng sức mạnh phân tán.

Hãy triển khai theo các bước hướng dẫn, tự tin thử nghiệm và tối ưu mô hình phân tán cho bài toán của bạn!

Tham Khảo

Helm Official Documentation - https://helm.sh/docs/intro/install/

Bitnami Helm Charts for Spark - https://artifacthub.io/packages/helm/bitnami/spark/

Apache Spark Official - https://spark.apache.org/

Kubernetes Official Documentation - https://kubernetes.io/docs/home/

Jupyter Notebook Project - https://jupyter.org/