Bài học từ những điều nhỏ bé: Chuỗi Markov

Trong thời đại của ChatGPT và Transformer, thật thú vị khi nhìn lại những “cỗ máy” rất mộc mạc từng làm nhiệm vụ giống hệt: đoán từ tiếp theo. Bài viết của Elijah Potter gợi nhắc rằng trước khi có kiến trúc sâu và hàng tỉ tham số, người ta đã dùng chuỗi Markov để mô phỏng ngôn ngữ: chỉ cần thống kê xem sau một từ (hoặc một cặp từ) thì những từ nào thường xuất hiện, rồi lần theo những xác suất đó để gợi ý tiếp. Nói cách khác, autocomplete đã từng vận hành bằng… đếm và chuyển tiếp.

Điều làm cách tiếp cận này hấp dẫn là tính tối giản. Bạn gom một kho văn bản nhỏ, đếm các “lượt chuyển” từ từ A sang từ B, bình thường hóa chúng thành những xác suất, và thế là có thể đề xuất “từ kế”. Với vài chục dòng mã, bạn đã dựng được một bộ gợi ý hoạt động khá ổn trong các mẫu câu lặp lại. Potter còn minh họa bằng những ví dụ đời thường và cả một bản demo mini, để thấy rằng sức mạnh đôi khi đến từ sự giản dị — “ngày xưa chúng ta dùng toán để làm autocomplete”.

Tất nhiên, sự giản dị cũng mang theo giới hạn. Vì chỉ nhìn bối cảnh rất ngắn, chuỗi Markov dễ “cụt hơi” khi câu kéo dài, chủ đề đổi chỗ, hay khi ngôn ngữ đòi hỏi logic xuyên suốt nhiều mệnh đề. Nếu cứ tham lam chọn lựa chọn “có vẻ đúng nhất” ở mỗi bước, mô hình còn có xu hướng lặp lại và “hội tụ” vào những chuỗi nhàm chán. Đó là lý do các hệ thống sinh văn bản hiện đại phải đi xa hơn: học biểu diễn ngữ nghĩa dài hạn, giữ mạch văn bản và tri thức nền. Nhưng chính vì những giới hạn đó, chuỗi Markov lại là điểm khởi đầu tuyệt vời để hiểu vì sao các mô hình lớn cần tồn tại.

Sức gợi của bài viết nằm ở tinh thần “làm được ngay hôm nay”. Bạn có thể tự tay xây một bộ gợi ý nhỏ cho lớp học hay blog cá nhân: lấy kho văn bản của chính mình, đếm chuyển tiếp, và thử sinh vài câu “tếu táo”. Nó sẽ không thay thế LLM, nhưng là một thí nghiệm đủ sống động để cảm được nhịp tim của mô hình ngôn ngữ: dự đoán, lấy mẫu, rồi nối tiếp dự đoán. Và khi đã cảm được nền tảng đó, bạn sẽ nhìn các mô hình hiện đại với đôi mắt khác — như những bản mở rộng khổng lồ của một ý tưởng cực kỳ giản dị.

Cuối cùng, bài học lớn hơn vượt khỏi kỹ thuật: hãy ưu tiên những bản demo nhỏ, sờ nắm được, vì chúng giúp kiến thức trở nên cụ thể và truyền cảm hứng. Một dự án “bé xíu” như chuỗi Markov cho autocomplete có thể là cánh cửa để người học bước vào thế giới mô hình ngôn ngữ rộng lớn — nhẹ nhàng, thú vị, và đủ sâu để bắt đầu.