Xây Dựng Ứng Dụng Xử Lý Âm Thanh Thông Minh với AWS: Từ Ghi Âm Đến Tóm Tắt & Phân Tích Cảm Xúc!

Lê Lân

19/06/2025

Xây Dựng Ứng Dụng Xử Lý Tệp Âm Thanh Tự Động với AWS: Phiên Âm, Tóm Tắt và Phân Tích Cảm Xúc

Mở Đầu

Xử lý âm thanh tự động đang trở thành một phần không thể thiếu trong cuộc sống số hóa ngày nay. Từ ghi âm cuộc họp, podcast cho tới những đoạn ghi âm giọng nói thông thường, việc chuyển đổi âm thanh thành văn bản, rút trích ý chính và phân tích cảm xúc sẽ giúp tiết kiệm thời gian đồng thời tăng trải nghiệm người dùng.

Bài viết này sẽ hướng dẫn bạn từng bước xây dựng một ứng dụng xử lý tệp âm thanh upload, tự động chuyển âm thanh thành văn bản, tóm tắt ý chính, phân tích cảm xúc và chủ đề. Toàn bộ quy trình được thực hiện bằng cách kết hợp các dịch vụ của Amazon Web Services (AWS) như AWS Lambda, Amazon S3, Amazon Transcribe, Amazon Comprehend và Amazon Bedrock. Bạn sẽ hiểu được cách triển khai một hệ thống serverless hiệu quả với mã nguồn mẫu chi tiết giúp mở rộng ứng dụng trong nhiều lĩnh vực thực tế.

💡 Tech Stack (AWS Services)

Để xây dựng hệ thống, chúng ta sử dụng các dịch vụ sau của AWS:

Amazon S3

Là nơi lưu trữ các tệp âm thanh định dạng .mp3 hoặc .wav .

Đóng vai trò là nguồn đầu vào và đầu ra cho các dịch vụ xử lý.

AWS Lambda

Xử lý sự kiện khi có file âm thanh được tải lên S3.

Thực thi các bước phiên âm, tóm tắt và phân tích bằng cách gọi các dịch vụ AWS.

Giúp xây dựng hệ thống serverless, không cần quản lý máy chủ.

Amazon Transcribe

Dịch vụ chuyển đổi giọng nói thành văn bản tự động.

Hỗ trợ nhiều ngôn ngữ và định dạng tệp.

Tạo ra bản phiên âm lưu trữ trong S3.

Amazon Bedrock (với mô hình Claude)

Tích hợp mô hình AI tạo ngôn ngữ (large language model) của Anthropic là Claude.

Dùng để tóm tắt nội dung phiên âm, rút ra các ý chính, hành động cần làm.

Amazon Comprehend

Phân tích cảm xúc (sentiment analysis) và trích xuất chủ đề từ văn bản.

Giúp hiểu sâu sắc về nội dung và ý nghĩa ẩn chứa trong cuộc nói chuyện.

Việc kết hợp linh hoạt các dịch vụ AWS mang lại một nền tảng vận hành ổn định, bảo mật cao và khả năng mở rộng tự động thông qua serverless architecture.

🎯 Phần Kỹ Thuật (Code)

Dưới đây là cách triển khai chi tiết chức năng xử lý âm thanh.

1. Khởi tạo Client AWS

import boto3
import json
import time
from urllib.parse import urlparse, unquote_plus

transcribe = boto3.client('transcribe')
comprehend = boto3.client('comprehend')
bedrock = boto3.client('bedrock-runtime')
s3 = boto3.client('s3')

2. Lambda Handler Xử Lý Sự Kiện Upload

def lambda_handler(event, context):
    print("Event:", json.dumps(event))
    
    bucket = event['Records'][0]['s3']['bucket']['name']
    audio_key = unquote_plus(event['Records'][0]['s3']['object']['key'])
    job_name = f"transcription-{int(time.time())}"
    file_uri = f"s3://{bucket}/{audio_key}"

    # Bắt đầu phiên âm
    transcribe.start_transcription_job(
        TranscriptionJobName=job_name,
        Media={'MediaFileUri': file_uri},
        MediaFormat=audio_key.split('.')[-1],
        LanguageCode='en-US',
        OutputBucketName=bucket
    )

    # Đợi phiên âm hoàn tất
    while True:
        status = transcribe.get_transcription_job(TranscriptionJobName=job_name)
        if status['TranscriptionJob']['TranscriptionJobStatus'] in ['COMPLETED', 'FAILED']:
            break
        time.sleep(5)

    if status['TranscriptionJob']['TranscriptionJobStatus'] == 'FAILED':
        raise Exception("Transcription failed")

    transcript_uri = status['TranscriptionJob']['Transcript']['TranscriptFileUri']
    parsed = urlparse(transcript_uri)
    transcript_bucket = parsed.path.split('/')[1]
    transcript_key = '/'.join(parsed.path.split('/')[2:])
    
    # Lấy file phiên âm
    obj = s3.get_object(Bucket=transcript_bucket, Key=transcript_key)
    transcript_data = json.loads(obj['Body'].read())
    transcript_text = transcript_data['results']['transcripts'][0]['transcript']

    print("--> Transcribed Text:\n", transcript_text)

    # Phân tích cảm xúc với Comprehend
    sentiment = comprehend.detect_sentiment(Text=transcript_text[:5000], LanguageCode='en')

    # Tóm tắt bản ghi với Claude (Bedrock)
    summary = summarize_with_claude(transcript_text)

    return {
        "statusCode": 200,
        "body": {
            "summary": summary,
            "sentiment": sentiment,
            "transcription": transcript_text[:500],
        }
    }

3. Hàm Tóm Tắt Với Claude (AWS Bedrock)

BEDROCK_MODEL_ID = "eu.anthropic.claude-3-7-sonnet-20250219-v1:0"

def summarize_with_claude(text):
    body = {
        "anthropic_version": "bedrock-2023-05-31",
        "max_tokens": 200,
        "top_k": 250,
        "stop_sequences": [],
        "temperature": 1,
        "top_p": 0.999,
        "messages": [
            {
                "role": "user",
                "content": [
                    {
                        "type": "text",
                        "text": (
                            "Summarize this meeting or speech in clear bullet points, "
                            "highlight any action items or topics discussed:\n\n" + text[:4000]
                        )
                    }
                ]
            }
        ]
    }

    response = bedrock.invoke_model(
        modelId=BEDROCK_MODEL_ID,
        body=json.dumps(body),
        contentType="application/json",
        accept="application/json",
    )
    response_body = json.loads(response["body"].read())
    return response_body.get("content", "No summary generated.")

Bảng Tổng Quan Các Quy Trình

Bước	Dịch vụ AWS	Mục đích
1	Amazon S3	Lưu trữ file âm thanh đầu vào `.mp3` hoặc `.wav`
2	AWS Lambda	Tự động kích hoạt quy trình phiên âm và xử lý
3	Amazon Transcribe	Chuyển đổi âm thanh thành văn bản
4	Amazon Comprehend	Phân tích cảm xúc và khai thác chủ đề từ văn bản
5	Amazon Bedrock (Claude)	Tóm tắt nội dung, chỉ ra các điểm chính quan trọng
6	AWS Lambda	Trả về kết quả dưới dạng JSON qua API

Các Yêu Cầu Quyền Hạn Cho Lambda

Để Lambda hoạt động trơn tru, cần cấp các quyền sau trong IAM:

{
  "Version": "2012-10-17",
  "Statement": [
    {
      "Effect": "Allow",
      "Action": [
        "s3:GetObject",
        "s3:PutObject",
        "transcribe:StartTranscriptionJob",
        "transcribe:GetTranscriptionJob",
        "comprehend:DetectSentiment",
        "bedrock:InvokeModel"
      ],
      "Resource": "*"
    }
  ]
}

Lưu ý quan trọng: Tăng thời gian timeout cho Lambda (ví dụ 5-10 phút) vì phiên âm và gọi API có thể mất thời gian xử lý.

Hình Ảnh Minh Họa

📝 Kết Luận

Việc kết hợp nhiều dịch vụ AWS như Lambda, S3, Transcribe, Comprehend và Bedrock mang đến một giải pháp mạnh mẽ cho các ứng dụng xử lý âm thanh tự động với các tính năng phiên âm, tóm tắt và phân tích nâng cao. Các dịch vụ serverless giúp tối ưu chi phí, dễ dàng mở rộng và triển khai nhanh chóng.

Ứng dụng này có thể phát triển để áp dụng rộng rãi trong các ngành như truyền thông, giáo dục, phân tích dữ liệu cuộc họp… Hy vọng bài viết giúp bạn có góc nhìn toàn diện và nguồn tham khảo hữu ích để bắt đầu thực hiện dự án của riêng mình.

Happy coding 👨🏻‍💻! Đừng quên kết nối và trao đổi thêm trên LinkedIn của tác giả .

Tham Khảo

AWS Lambda Documentation

Amazon Transcribe Developer Guide

Amazon Comprehend Documentation

Amazon Bedrock – Introduce Large Language Model as a Service

Anthropic Claude Model - Anthropic Official

June 1, 2024