Hóa phép dữ liệu khổng lồ: Chạy PySpark trên Kubernetes và Docker!

Lê Lân

17/06/2025

Hướng Dẫn Triển Khai và Sử Dụng PySpark với Jupyter Notebook trên Kubernetes và Docker Desktop

Mở Đầu

PySpark kết hợp sức mạnh của Apache Spark với ngôn ngữ Python, cho phép xử lý dữ liệu số lượng lớn trong môi trường phân tán một cách hiệu quả và dễ dàng.

Trong thời đại dữ liệu bùng nổ, việc khai thác và phân tích dữ liệu lớn đang trở thành nhu cầu thiết yếu của nhiều doanh nghiệp và tổ chức. PySpark mở ra cánh cửa để các nhà phát triển và nhà khoa học dữ liệu tận dụng khả năng tính toán phân tán của Spark bằng ngôn ngữ Python quen thuộc. Đồng thời, Jupyter Notebook trở thành công cụ lý tưởng giúp tương tác, thử nghiệm và ghi lại các bước phân tích dữ liệu.

Bài viết này sẽ trình bày chi tiết cách triển khai môi trường PySpark tích hợp Jupyter Notebook trên nền Kubernetes cũng như Docker Desktop. Quy trình được hướng dẫn từ cài đặt helm chart Spark, thiết lập cluster, đến sử dụng các notebook cho phân tích dữ liệu thực tế, giúp bạn nhanh chóng ứng dụng công nghệ này vào công việc.

1. Tổng Quan về PySpark, Jupyter Notebook và Kubernetes

1.1 PySpark là gì?

PySpark là giao diện lập trình Python dành cho Apache Spark — một nền tảng xử lý dữ liệu phân tán mạnh mẽ. Nó không chỉ hỗ trợ viết ứng dụng Spark bằng API Python mà còn cung cấp shell tương tác giúp phân tích dữ liệu hiệu quả trong môi trường cluster.

1.2 Jupyter Notebook

Jupyter Notebook là nền tảng tạo tài liệu lập trình tương tác – chứa mã nguồn trực tiếp, phương trình toán học, biểu đồ, âm thanh và các kết quả tính toán. Đây là công cụ ưa dùng của nhiều lập trình viên, nhà khoa học dữ liệu và sinh viên để ghi chép và thử nghiệm code một cách trực quan.

1.3 Kubernetes

Kubernetes là hệ thống mã nguồn mở cho việc điều phối, tự động hóa triển khai, mở rộng và quản lý container. Ban đầu được thiết kế bởi Google, Kubernetes đã trở thành chuẩn mực cho các giải pháp cloud-native, giúp chạy ứng dụng phân tán như Spark cluster một cách linh hoạt.

Địa chỉ IP Kubernetes Control-plane & Worker Nodes:

192.168.56.115

192.168.56.116

192.168.56.117

2. Triển Khai Spark trên Kubernetes với Helm

2.1 Cài đặt Helm

Helm là công cụ quản lý package cho Kubernetes, giúp cài đặt nhanh các ứng dụng phức tạp như Spark.

Tải và cài đặt Helm: Hướng dẫn chính thức Helm

2.2 Thêm repo và cài đặt Spark helm chart của Bitnami

Bitnami cung cấp chart Spark dễ dùng và ổn định.

helm repo add bitnami https://charts.bitnami.com/bitnami
helm search repo bitnami
helm install kayvan-release bitnami/spark --version 8.7.2

Lưu ý: Phiên bản Spark của helm chart phải trùng khớp với phiên bản PySpark sử dụng trong Jupyter Notebook.

2.3 Mô hình Kubernetes

3. Triển Khai Jupyter Notebook Workloads trên Kubernetes

3.1 File cấu hình `jupyter.yaml`

apiVersion: apps/v1
kind: Deployment
metadata:
  name: jupiter-spark
  namespace: default
spec:
  replicas: 1
  selector:
    matchLabels:
      app: spark
  template:
    metadata:
      labels:
        app: spark
    spec:
      containers:
      - name: jupiter-spark-container
        image: docker.arvancloud.ir/jupyter/all-spark-notebook
        imagePullPolicy: IfNotPresent
        ports:
        - containerPort: 8888
        env:
        - name: JUPYTER_ENABLE_LAB
          value: "yes"
---
apiVersion: v1
kind: Service
metadata:
  name: jupiter-spark-svc
  namespace: default
spec:
  type: NodePort
  selector:
    app: spark
  ports:
  - port: 8888
    targetPort: 8888
    nodePort: 30001
---
apiVersion: v1
kind: Service
metadata:
  name: jupiter-spark-driver-headless
spec:
  clusterIP: None
  selector:
    app: spark

3.2 Triển khai trên Kubernetes

kubectl apply -f jupyter.yaml

3.3 Kiểm tra Pods và Services

3.4 Thông tin quan trọng

Spark Master URL: spark://kayvan-release-spark-master-0.kayvan-release-spark-headless.default.svc.cluster.local:7077

4. Sử Dụng PySpark trong Jupyter Notebook trên Kubernetes

4.1 Kết nối SparkSession tới Spark Cluster

import socket
from pyspark.sql import SparkSession

spark = SparkSession.builder \
    .master("spark://kayvan-release-spark-master-0.kayvan-release-spark-headless.default.svc.cluster.local:7077") \
    .appName("Mahla") \
    .config('spark.driver.host', socket.gethostbyname(socket.gethostname())) \
    .getOrCreate()

Giải thích: Hàm socket.gethostbyname(socket.gethostname()) trả về địa chỉ IP của pod Jupyter, giúp Spark driver giao tiếp hiệu quả với cluster.

4.2 Thực thi mã PySpark

Bạn có thể viết các đoạn mã Python sử dụng PySpark và chạy trên cluster phân tán, ví dụ:

df = spark.read.csv("/path/to/your/data.csv", header=True)
df.show(5)

Bạn cũng có thể phát triển trên PySpark chạy trên một node đơn trong Jupyter, sau đó khi đã kiểm thử, đẩy lên cluster Kubernetes để chạy phân tán.

5. Triển Khai Spark và Jupyter trên Docker Desktop với Docker Compose

5.1 File `docker-compose.yml`

version: '3.6'
services:
  spark-master:
    container_name: spark
    image: docker.arvancloud.ir/bitnami/spark:3.5.0
    environment:
      - SPARK_MODE=master
      - SPARK_RPC_AUTHENTICATION_ENABLED=no
      - SPARK_RPC_ENCRYPTION_ENABLED=no
      - SPARK_LOCAL_STORAGE_ENCRYPTION_ENABLED=no
      - SPARK_SSL_ENABLED=no
      - SPARK_USER=root
      - PYSPARK_PYTHON=/opt/bitnami/python/bin/python3
    ports:
      - 127.0.0.1:8081:8080
      - 127.0.0.1:7077:7077
    networks:
      - spark-network

  spark-worker:
    image: docker.arvancloud.ir/bitnami/spark:3.5.0
    environment:
      - SPARK_MODE=worker
      - SPARK_MASTER_URL=spark://spark:7077
      - SPARK_WORKER_MEMORY=2G
      - SPARK_WORKER_CORES=2
      - SPARK_RPC_AUTHENTICATION_ENABLED=no
      - SPARK_RPC_ENCRYPTION_ENABLED=no
      - SPARK_LOCAL_STORAGE_ENCRYPTION_ENABLED=no
      - SPARK_SSL_ENABLED=no
      - SPARK_USER=root
      - PYSPARK_PYTHON=/opt/bitnami/python/bin/python3
    networks:
      - spark-network

  jupyter:
    image: docker.arvancloud.ir/jupyter/all-spark-notebook:latest
    container_name: jupyter
    ports:
      - "8888:8888"
    environment:
      - JUPYTER_ENABLE_LAB=yes
    networks:
      - spark-network
    depends_on:
      - spark-master

networks:
  spark-network:

5.2 Khởi chạy môi trường

Chạy lệnh sau để tạo cluster Spark gồm 1 master và 2 worker cùng Jupyter Notebook:

docker-compose up --scale spark-worker=2

5.3 Sao chép file CSV vào Spark worker

docker cp file.csv spark-worker-1:/opt/file
docker cp file.csv spark-worker-2:/opt/file

5.4 Sử dụng PySpark trong Jupyter Notebook

from pyspark.sql import SparkSession

spark = SparkSession.builder.appName("YourAppName") \
    .master("spark://8fa1bd982ade:7077").getOrCreate()

data = spark.read.csv("/opt/file/file.csv", header=True)
data.show(3)

spark.stop()

5.5 Sử dụng PySpark đơn node trên Jupyter Container

Bạn có thể copy dữ liệu vào Jupyter container và thử nghiệm mã PySpark chạy đơn node, sau đó mới triển khai lên cluster:

docker cp file.csv jupyter:/opt/file

from pyspark.sql import SparkSession
spark = SparkSession.builder.appName("YourAppName").getOrCreate()
data = spark.read.csv("/opt/file/file.csv", header=True)
data.show(3)
spark.stop()

Kết Luận

Qua bài viết, bạn đã được giới thiệu chi tiết cách triển khai môi trường phân tích dữ liệu lớn với PySpark sử dụng ngôn ngữ Python, kết hợp với Jupyter Notebook để phát triển và tương tác trực quan. Việc vận hành Spark trên nền Kubernetes hoặc Docker Desktop giúp mở rộng khả năng xử lý phân tán một cách linh hoạt và hiệu quả.

Đừng ngần ngại thử nghiệm, phát triển mã của bạn trên môi trường đơn node trước khi triển khai lên cluster phân tán để đảm bảo tính ổn định và tối ưu hiệu suất.

Hãy bắt đầu ngay hôm nay để tận dụng sức mạnh của Big Data và phân tích dữ liệu hiện đại trong dự án của bạn!

Tham Khảo

Apache Spark Official Documentation: https://spark.apache.org/docs/latest/

PySpark API Reference: https://spark.apache.org/docs/latest/api/python/

Kubernetes Official Site: https://kubernetes.io/

Helm Charts Repository (Bitnami Spark): https://artifacthub.io/packages/helm/bitnami/spark

Jupyter Project Documentation: https://jupyter.org/documentation