AI Developer
Photographer

Hello, Mình là Sơn

Khám phá thế giới qua lăng kính của

Lập trình viên AI tự học từ Việt Nam. Nơi những dòng code Python xử lý dữ liệu gặp gỡ những khoảnh khắc bình minh trên đỉnh núi.

100GB+

Dữ liệu xử lý

39k+

Dòng Data chuẩn

RTX3060

Local Inference

15ProMax

Lensing Gear

NN Son
Self-taught Engineer

Về tôi

Từ xử lý dữ liệu
đến những góc máy HDR

Hành trình của mình thường bắt đầu trên chiếc laptop mỏng nhẹ để làm sạch và chuẩn bị dữ liệu cấu trúc (Parquet, CSV). Khi dữ liệu đã sẵn sàng, mình chuyển sang đánh thức sức mạnh của chiếc card RTX 3060 để huấn luyện và chạy các mô hình AI.

Và khi không ngồi cấu hình pipeline hay code Python, bạn sẽ thấy mình cầm iPhone đi săn những góc ảnh phong cảnh. Mình đặc biệt thích độ tương phản cao (silhouette) và những khoảnh khắc mặt trời mọc trên các đỉnh núi hùng vĩ.

AI Tại chỗ

Chạy LLM & GenAI không cần Cloud

Đuổi Bình minh

Săn ánh sáng trên đỉnh núi

Công cụ & Kỹ năng

Python / OOP Data Engineering Local LLMs (100MB-1B) ComfyUI / SwarmUI Landscape Photography Parquet / JSONL

Journey

Hành trình tự học

Không bằng cấp, chỉ có đam mê và sự kiên trì.

2022

Khởi đầu với Python

Bắt đầu tự học Python và tư duy lập trình hướng đối tượng (OOP). Viết những dòng code đầu tiên để tự động hóa các công việc nhàm chán.

2023

Data Engineering & Local AI

Đi sâu vào xử lý dữ liệu lớn, xây dựng Pipeline quy mô cá nhân. Mua thêm con RTX 3060 và bắt đầu hành trình chạy các mô hình LLM ngay trên máy cá nhân.

2024

GenAI Setup & nhiếp ảnh

Cài đặt thành công hệ sinh thái ComfyUI, SwarmUI chạy FLUX. Kết hợp đam mê công nghệ với nghệ thuật, dùng iPhone 15 Pro Max lưu giữ những khoảnh khắc hùng vĩ của thiên nhiên.

Projects

Dự án & Thực hành

Data Engineering Pipeline

Dự án xử lý và làm sạch dữ liệu lớn. Gộp thành công các định dạng CSV, JSONL thành một file Parquet duy nhất với hơn 39.000 dòng dữ liệu chất lượng cao.

# Pipeline xử lý dữ liệu
def process_dataset(files):
    df = load_and_merge(files)
    return df.to_parquet("clean_data.parquet")

Custom Small LLM

Nghiên cứu và xây dựng cấu trúc mô hình ngôn ngữ nhỏ (100MB - 1B parameters) chạy mượt mà trên phần cứng cá nhân. Xây dựng data từ 100GB text thô.

Python Model Architecture RTX 3060

Local AI Image Generation Setup

Cấu hình môi trường sinh ảnh AI cục bộ chuyên nghiệp sử dụng SwarmUI và ComfyUI. Khai thác tối đa VRAM của RTX 3060 để chạy các mô hình lớn như FLUX.1 hay Florence-2 phục vụ công việc sáng tạo.

ComfyUI Nodes

FLUX.1 Model

Florence-2 Vision

Cách mình làm việc

Một quy trình lặp đi lặp lại giữa tư duy logic và sự sáng tạo.

AI Pipeline

  • 1

    Thu thập & Làm sạch

    Xử lý CSV, JSONL thô thành Parquet.

  • 2

    Huấn luyện / Fine-tune

    Chạy mô hình trên RTX 3060 tối ưu VRAM.

  • 3

    Inference cục bộ

    Sử dụng Ollama, vLLM cho tốc độ tốt nhất.

Photography Workflow

  • 1

    Scouting

    Tìm tọa độ, dự báo thời tiết & mây.

  • 2

    Chụp bằng iPhone

    Bật RAW, đuổi ánh sáng bình minh/hoàng hôn.

  • 3

    Post-processing

    Độ tương phản, kéo HDR, chỉnh silhouette.

Insights

Góc chia sẻ

GPU
AI 5 phút đọc

Tối ưu VRAM cho RTX 3060 chạy LLM

Cách cấu hình swap, quantization (GGUF) và batch size để chạy mô hình 1B parameters mượt mà trên 12GB VRAM.

Camera
Photo 3 phút đọc

Nghệ thuật chụp Silhouette bằng iPhone

Kỹ thuật khóa phơi sáng (AE/AF Lock) và kéo điểm sáng để tạo ảnh bóng ngược trời lửa trên di động.

Code
Data 4 phút đọc

Tại sao Parquet thay thế CSV?

So sánh hiệu năng lưu trữ và tốc độ đọc giữa định dạng text và columnar format trong Data Engineering.

Câu hỏi thường gặp

Nếu chạy mô hình nguyên bản (full precision) thì chắc chắn sẽ quá VRAM. Nhưng với kỹ thuật Quantization (nén mô hình xuống 4-bit hoặc 2-bit bằng GGUF/GPTQ), mô hình 1-3B params chạy cực kỳ mượt và cho tốc độ generation khoảng 15-30 tokens/giây.
Máy ảnh chuyên nghiệp cồng kềnh và tốn kém, trong khi mình phải mang theo laptop để làm việc AI. iPhone 15 Pro Max có dải nhạy sáng cực rộng (Smart HDR 5) và chụp RAW ProRes, đủ sức tạo ra các bức ảnh phong cảnh độ phân giải cao mà không cần hậu kỳ nhiều.
Hiện tại mình tập trung vào nghiên cứu và xây dựng dự án cá nhân. Tuy nhiên, mình luôn sẵn sàng chia sẻ kiến thức qua các bài viết trên website hoặc trao đổi trực tiếp qua Facebook nếu bạn có câu hỏi cụ thể.

Có ý tưởng nào muốn hợp tác?

Dù là xây dựng dataset, chạy thử mô hình AI, hay lên kế hoạch đi săn bình minh, mình luôn sẵn sàng lắng nghe.

Nhắn tin cho mình