PySpark, Jupyter & Kubernetes: Sức Mạnh Bùng Nổ Cho Phân Tích Big Data

Lê Lân

11/07/2025

Hướng Dẫn Triển Khai PySpark và Jupyter Notebook Trên Kubernetes và Docker Desktop

Mở Đầu

Việc kết hợp PySpark, Jupyter Notebook, và Kubernetes đang tạo nên một hệ sinh thái mạnh mẽ hỗ trợ xử lý dữ liệu phân tán, tương tác và trực quan hóa kết quả một cách hiệu quả. Đây là xu hướng phát triển nổi bật trong ngành công nghiệp dữ liệu và phân tích hiện nay.

Trong bài viết này, chúng ta sẽ tìm hiểu cách cài đặt và triển khai môi trường làm việc sử dụng PySpark trên Kubernetes thông qua Helm Chart, cách kết nối Jupyter Notebook với cluster Spark, cũng như mô hình triển khai tương tự trên Docker Desktop. Nội dung hướng dẫn chi tiết từng bước giúp bạn dễ dàng xây dựng hệ thống phân tích dữ liệu quy mô lớn mà vẫn giữ được tính tương tác linh hoạt.

Giới Thiệu Các Thành Phần Chính

PySpark – Giao Diện Python Cho Apache Spark

PySpark là thư viện cung cấp API Python để viết ứng dụng Spark, giúp xử lý dữ liệu lớn phân tán hiệu quả. Ngoài ra, PySpark shell còn cho phép phân tích dữ liệu tương tác trong môi trường phân tán.

Jupyter Notebook – Môi Trường Lập Trình Tương Tác

Jupyter Notebook cho phép tạo tài liệu kết hợp giữa mã lệnh, biểu đồ, phương trình và các nội dung phong phú khác. Đây là công cụ ưa thích của lập trình viên, khoa học dữ liệu để thử nghiệm và trình bày quy trình làm việc.

Kubernetes – Hệ Thống Quản Lý Container Mạnh Mẽ

Kubernetes là công cụ mã nguồn mở để tự động hoá việc triển khai, mở rộng, quản lý container. Nó giúp vận hành các ứng dụng phân tán trên cluster gồm nhiều node.

Triển Khai Spark Trên Kubernetes

Địa Chỉ Các Node Kubernetes

Kubernetes cluster bao gồm:

Control-plane & worker node:

192.168.56.115

192.168.56.116

192.168.56.117

Cài Đặt Helm

Bạn có thể cài đặt Helm – công cụ quản lý package cho Kubernetes – theo hướng dẫn chính thức tại: Hướng dẫn cài đặt Helm

Cài Đặt Spark Qua Bitnami Helm Chart

Lưu ý quan trọng: Phiên bản Spark trên Helm Chart phải trùng khớp với phiên bản PySpark được sử dụng trong Jupyter.

Các bước cài đặt:

helm repo add bitnami https://charts.bitnami.com/bitnami
helm search repo bitnami
helm install kayvan-release bitnami/spark --version 8.7.2

Triển Khai Jupyter Workloads Trên Kubernetes

File jupyter.yaml để triển khai:

apiVersion: apps/v1
kind: Deployment
metadata:
  name: jupiter-spark
  namespace: default
spec:
  replicas: 1
  selector:
    matchLabels:
      app: spark
  template:
    metadata:
      labels:
        app: spark
    spec:
      containers:
      - name: jupiter-spark-container
        image: docker.arvancloud.ir/jupyter/all-spark-notebook
        imagePullPolicy: IfNotPresent
        ports:
        - containerPort: 8888
        env:
        - name: JUPYTER_ENABLE_LAB
          value: "yes"
---
apiVersion: v1
kind: Service
metadata:
  name: jupiter-spark-svc
  namespace: default
spec:
  type: NodePort
  selector:
    app: spark
  ports:
  - port: 8888
    targetPort: 8888
    nodePort: 30001
---
apiVersion: v1
kind: Service
metadata:
  name: jupiter-spark-driver-headless
spec:
  clusterIP: None
  selector:
    app: spark

Áp dụng triển khai với lệnh:

kubectl apply -f jupyter.yaml

Kết Nối Jupyter Với Spark Cluster

Thông tin spark master URL:

spark://kayvan-release-spark-master-0.kayvan-release-spark-headless.default.svc.cluster.local:7077

Ví dụ khởi tạo SparkSession trong Jupyter Notebook:

import socket
from pyspark.sql import SparkSession

spark = SparkSession.builder \
    .master("spark://kayvan-release-spark-master-0.kayvan-release-spark-headless.default.svc.cluster.local:7077") \
    .appName("Mahla") \
    .config('spark.driver.host', socket.gethostbyname(socket.gethostname())) \
    .getOrCreate()

socket.gethostbyname(socket.gethostname()) trả về địa chỉ IP của pod Jupyter, đảm bảo kết nối chính xác trong môi trường Kubernetes.

Triển Khai Trên Docker Desktop Với Docker Compose

Nội Dung File `docker-compose.yml`

version: '3.6'
services:
  spark-master:
    container_name: spark
    image: docker.arvancloud.ir/bitnami/spark:3.5.0
    environment:
      - SPARK_MODE=master
      - SPARK_RPC_AUTHENTICATION_ENABLED=no
      - SPARK_RPC_ENCRYPTION_ENABLED=no
      - SPARK_LOCAL_STORAGE_ENCRYPTION_ENABLED=no
      - SPARK_SSL_ENABLED=no
      - SPARK_USER=root
      - PYSPARK_PYTHON=/opt/bitnami/python/bin/python3
    ports:
      - 127.0.0.1:8081:8080
      - 127.0.0.1:7077:7077
    networks:
      - spark-network

  spark-worker:
    image: docker.arvancloud.ir/bitnami/spark:3.5.0
    environment:
      - SPARK_MODE=worker
      - SPARK_MASTER_URL=spark://spark:7077
      - SPARK_WORKER_MEMORY=2G
      - SPARK_WORKER_CORES=2
      - SPARK_RPC_AUTHENTICATION_ENABLED=no
      - SPARK_RPC_ENCRYPTION_ENABLED=no
      - SPARK_LOCAL_STORAGE_ENCRYPTION_ENABLED=no
      - SPARK_SSL_ENABLED=no
      - SPARK_USER=root
      - PYSPARK_PYTHON=/opt/bitnami/python/bin/python3
    networks:
      - spark-network

  jupyter:
    image: docker.arvancloud.ir/jupyter/all-spark-notebook:latest
    container_name: jupyter
    ports:
      - "8888:8888"
    environment:
      - JUPYTER_ENABLE_LAB=yes
    networks:
      - spark-network
    depends_on:
      - spark-master

networks:
  spark-network:

Khởi Động Cluster Spark

docker-compose up --scale spark-worker=2

Sao Chép File CSV Vào Worker Container

docker cp file.csv spark-worker-1:/opt/file
docker cp file.csv spark-worker-2:/opt/file

Ví dụ Kết Nối Spark Cluster Trong Jupyter Notebook

from pyspark.sql import SparkSession

spark = SparkSession.builder \
    .appName("YourAppName") \
    .master("spark://8fa1bd982ade:7077") \
    .getOrCreate()

data = spark.read.csv("/opt/file/file.csv", header=True)
data.limit(3).show()

spark.stop()

Sử Dụng PySpark Chạy Đơn Node Trên Jupyter

Bạn hoàn toàn có thể cài đặt PySpark single-node bên trong container Jupyter và làm việc mà không cần cluster để phát triển và thử nghiệm trước khi triển khai trên cluster thực tế.

Sao Chép File CSV Vào Container Jupyter

docker cp file.csv jupyter:/opt/file

Mã Ví Dụ Chạy PySpark Đơn Node Trong Jupyter

from pyspark.sql import SparkSession

spark = SparkSession.builder.appName("YourAppName").getOrCreate()
data = spark.read.csv("/opt/file/file.csv", header=True)
data.limit(3).show()
spark.stop()

Kết Luận

Việc kết hợp giữa PySpark, Jupyter Notebook, và Kubernetes hoặc Docker Desktop giúp xây dựng một nền tảng xử lý dữ liệu phân tán vừa mạnh mẽ vừa tương tác. Với Kubectl và Helm Chart, bạn có thể dễ dàng triển khai Spark cluster, trong khi Docker Compose giúp khởi tạo môi trường phát triển nhanh chóng tại máy cá nhân.

Điều quan trọng là đồng bộ phiên bản Spark giữa các thành phần để tránh lỗi khi kết nối. Đồng thời, bạn có thể sử dụng Jupyter Notebook để thử nghiệm mã Python với PySpark trước khi triển khai lên cluster, giúp tiết kiệm thời gian và nguồn lực.

Khám phá và thực hành theo hướng dẫn sẽ giúp bạn nâng cao kiến thức về hệ sinh thái Big Data hiện đại và tự tin triển khai trên các môi trường sản xuất thực tế.