Hành Trình Kỹ Thuật Dữ Liệu: Phân Tích Thị Trường Bất Động Sản Ba Lan - Phần 2 (Streamlit & dbt)
Lê Lân
0
Phân Tích Dự Án Kỹ Thuật Dữ Liệu Thị Trường Bất Động Sản Ba Lan: Phần 2
Mở Đầu
Dự án kỹ thuật dữ liệu về thị trường bất động sản tại Ba Lan đang dần hình thành một cái nhìn tổng quan sâu sắc về các xu hướng thuê và mua bán nhà đất tại các thành phố lớn. Trong phần trước, chúng ta đã khám phá quy trình thu thập dữ liệu theo lô và thiết lập hệ thống trên nền tảng đám mây. Phần này sẽ đi sâu vào việc triển khai dashboard bằng Streamlit, quá trình chuyển đổi dữ liệu với dbt và những hiểu biết quan trọng rút ra từ dự án.
Dưới tác động của xu hướng số hóa, các analytics về bất động sản ngày càng trở nên thiết yếu nhằm giúp các nhà đầu tư và người mua dễ dàng tiếp cận thông tin chính xác. Bài viết này sẽ phân tích chi tiết hệ thống dashboard hiện tại, các bước xử lý dữ liệu, đồng thời đề xuất những cải tiến tương lai nhằm nâng cao hiệu quả và tính tương tác của dự án.
Triển Khai Dashboard: Streamlit Làm Trung Tâm
Tổng Quan Về Streamlit
Streamlit đã được sử dụng để xây dựng một bảng điều khiển tĩnh hiển thị các xu hướng và thông tin chi tiết về thị trường bất động sản Ba Lan. Dashboard cung cấp cái nhìn tổng quan về thị trường thuê và bán qua nhiều thành phố khác nhau, với các đặc điểm nổi bật như:
Trực quan hóa các xu hướng thị trường: giá trung vị, giá ở phân vị thứ 95, hoạt động theo thành phố, phân bố giá cả.
Tích hợp dữ liệu tĩnh: sử dụng các tệp CSV đã được xử lý sẵn làm nguồn dữ liệu.
Kế Hoạch Nâng Cấp Thành Dashboard Tương Tác
Hiện tại dashboard vẫn giữ tính tĩnh, tuy nhiên kế hoạch tương lai sẽ lần lượt bổ sung các tính năng tương tác động, cho phép người dùng:
Lọc dữ liệu theo thành phố, mức giá, và loại giao dịch (thuê hoặc bán).
Tương tác trực tiếp với các biểu đồ để khám phá các xu hướng một cách sâu sắc và thời gian thực.
Việc chuyển đổi này sẽ làm tăng trải nghiệm người dùng và hiệu quả khai thác dữ liệu thị trường.
Chuyển Đổi Dữ Liệu Với dbt
Biến Dữ Liệu Thô Thành Thông Tin Hiểu Quả
Dự án sử dụng dbt Cloud để chuyển đổi dữ liệu thô thành các bảng phân tích sẵn sàng sử dụng. Các bước chuyển đổi điển hình bao gồm:
Làm sạch và chuẩn hóa dữ liệu CSV thô.
Tổng hợp dữ liệu theo thành phố, loại giao dịch và khoảng thời gian.
Tính toán các chỉ số như giá trung vị, phân vị, và tổng số tin đăng.
Ví Dụ Mô Hình SQL Trong dbt
WITH city_prices AS (
SELECT
city,
transaction_type,
price,
COUNT(*) AS total_listings
FROM {{ ref('raw_data') }}
WHERE transaction_type ='rent'
GROUPBY city, transaction_type, price
)
SELECT
city,
AVG(price) AS avg_price,
PERCENTILE_CONT(0.5) WITHINGROUP (ORDERBY price) AS median_price,
PERCENTILE_CONT(0.95) WITHINGROUP (ORDERBY price) AS percentile_95_price,
SUM(total_listings) AS total_rental_listings
FROM city_prices
GROUPBY city
Mô hình này đảm bảo dữ liệu dùng trong dashboard được cấu trúc một cách nhất quán và dễ dàng truy vấn.
Sử dụng dbt giúp cho quy trình xử lý dữ liệu trở nên tiêu chuẩn hóa và dễ bảo trì hơn.
Những Hiểu Biết Chính Từ Dữ Liệu
1. Xu Hướng Thuê Và Bán
Các thành phố như Warsaw và Kraków giữ vai trò đầu tàu với mức độ hoạt động thuê và bán cao hơn so với các thành phố nhỏ hơn như Bydgoszcz và Szczecin.
Giá trung vị thấp hơn đáng kể ở các thành phố nhỏ, trong khi phân vị thứ 95 phản ánh thị trường cao cấp tập trung tại các đô thị lớn.
2. Xu Hướng Dựa Trên Phân Vị
Biểu đồ đường so sánh giá trung vị và giá ở phân vị thứ 95 của từng thành phố, nêu bật sự khác biệt về hoạt động thị trường ở các mức giá khác nhau. Thuê nhà đạt đỉnh mạnh mẽ ở phân vị thứ 95 cho thấy sự cạnh tranh cao ở phân khúc cao cấp.
3. So Sánh Tổng Tin Đăng Và Giá Trung Bình
Các biểu đồ minh họa số lượng tin đăng cao đi cùng với giá trung bình ở các thành phố lớn. Giá thuê tuy có biến động nhẹ hơn so với số lượng tin đăng, cho thấy tính ổn định trên thị trường giá cả.
Các Cải Tiến Trong Tương Lai
1. Chuyển Đổi Sang Dashboard Tương Tác
Tích hợp chức năng lọc theo thời gian thực, thành phố và loại giao dịch để người dùng có thể tự mình khám phá dữ liệu.
2. Cập Nhật Dữ Liệu Động
Thiết lập pipeline dữ liệu streaming giúp cập nhật liên tục dữ liệu mới nhất, hỗ trợ phân tích nhanh và chính xác.
3. Lọc Nâng Cao
Thêm các bộ lọc nâng cao như loại bất động sản, số phòng ngủ, diện tích... giúp đáp ứng đa dạng nhu cầu người dùng.
4. Phân Tích Dự Báo
Áp dụng các mô hình dự báo chuỗi thời gian để dự đoán xu hướng giá cả tương lai, nâng cao giá trị dự báo cho người dùng.
5. Tối Ưu Truy Vấn Trong BigQuery
Sử dụng cấu trúc phân vùng và clustering trên các bảng BigQuery giúp tăng tốc truy vấn dữ liệu quy mô lớn.
Các bước cải tiến này sẽ tạo ra một hệ thống dữ liệu bất động sản toàn diện, cực kỳ hữu ích cho các nhà đầu tư và chuyên gia phân tích.
Kết Luận
Bài viết đã cung cấp cái nhìn toàn diện về dự án kỹ thuật dữ liệu phân tích thị trường bất động sản Ba Lan qua ứng dụng Streamlit và dbt. Dashboard tĩnh mặc dù trực quan nhưng còn nhiều dư địa phát triển thành dashboard tương tác và cập nhật thời gian thực. Việc bổ sung các tính năng như dự báo và lọc nâng cao hứa hẹn sẽ đưa dự án lên một tầm cao mới, tăng cường khả năng khai thác dữ liệu sâu sắc cho người dùng cuối.
Hãy theo dõi và ủng hộ các bước tiếp theo trong dự án để cùng đồng hành trong cuộc cách mạng dữ liệu thị trường bất động sản hiện đại!