Phi Vũ
New member
Một video lỗi của Will Smith ăn mì năm 2023 từng là biểu tượng hỗn loạn của công nghệ video tổng hợp. Ba năm sau, các bản tổng hợp cho thấy AI đã tiến bộ nhanh chóng đến mức nhiều người khó phân biệt thật — giả.
Ít ai ngờ một clip méo mó, đầy lỗi của Will Smith cố ăn mì spaghetti lại trở thành mốc so sánh quan trọng trong lịch sử AI hiện đại.
Đoạn video gốc năm 2023, tạo bằng ModelScope, nổi tiếng vì chất lượng tệ: gương mặt Smith biến dạng giữa những biểu cảm không khớp, bàn tay biến thành chi giả dẻo và sợi mì như lơ lửng theo một quy luật hấp dẫn kỳ lạ. Cảnh tượng này nhanh chóng trở thành biểu tượng cho giai đoạn đầu hỗn loạn của công nghệ tạo video từ văn bản.
Chỉ sau ba năm, chính meme đó lại cho thấy tốc độ tiến hóa của lĩnh vực. Một tổng hợp trên Reddit mang tên "3 years of AI progress" cho thấy chuyển biến rõ rệt: từ những khung hình đẹp rời rạc đến một cảnh quay liên tục, có logic, có tương tác giữa các nhân vật.
Phiên bản mới nhất sử dụng mô hình như Kling 3.0 có thể dựng cả một cảnh Will Smith ăn mì cùng một trẻ em và trò chuyện, chỉ từ một lệnh duy nhất. Độ ổn định khuôn mặt, vị trí ánh mắt, độ nhất quán chuyển động và ánh sáng đều được cải thiện mạnh mẽ; bát mì không còn dịch chuyển vô lý giữa các khung hình và sợi mì bắt đầu ứng xử như một vật thể vật lý thực sự.
Về mặt kỹ thuật, tiến trình này diễn ra theo các ưu tiên nghiên cứu đã thay đổi: trước hết là tính đúng hình thái cơ thể, sau đó là sự nhất quán chuyển động, nâng cao độ phân giải, mô phỏng vật lý thực tế rồi tới khả năng theo sát ý đồ cảm xúc hoặc mạch chuyện từ prompt.
Yếu tố khiến meme này còn giá trị là 'tính cách'—những mô hình mới bắt đầu tái hiện hành động có vẻ có chủ ý, thay vì những ghép nối ngẫu nhiên giữa khung hình. Khi một mô hình giữ được tính liên tục của nhân vật suốt cảnh quay, nó mở ra khả năng mô tả hành động con người theo cách phù hợp với kỳ vọng của người xem.
Tóm lại, meme Will Smith ăn mì giờ là một thước đo trực quan cho thấy AI video đã trưởng thành đến mức nào. Nếu một mô hình có thể tái hiện cảnh này thuyết phục, nó đã vượt xa những gì hệ thống đầu tiên từng mơ tới — đồng thời đặt ra nhiều câu hỏi về việc nhận diện thực tế và các hệ quả đạo đức, pháp lý trong tương lai.
Nguồn: Techradar
Ít ai ngờ một clip méo mó, đầy lỗi của Will Smith cố ăn mì spaghetti lại trở thành mốc so sánh quan trọng trong lịch sử AI hiện đại.
Đoạn video gốc năm 2023, tạo bằng ModelScope, nổi tiếng vì chất lượng tệ: gương mặt Smith biến dạng giữa những biểu cảm không khớp, bàn tay biến thành chi giả dẻo và sợi mì như lơ lửng theo một quy luật hấp dẫn kỳ lạ. Cảnh tượng này nhanh chóng trở thành biểu tượng cho giai đoạn đầu hỗn loạn của công nghệ tạo video từ văn bản.
Chỉ sau ba năm, chính meme đó lại cho thấy tốc độ tiến hóa của lĩnh vực. Một tổng hợp trên Reddit mang tên "3 years of AI progress" cho thấy chuyển biến rõ rệt: từ những khung hình đẹp rời rạc đến một cảnh quay liên tục, có logic, có tương tác giữa các nhân vật.
Phiên bản mới nhất sử dụng mô hình như Kling 3.0 có thể dựng cả một cảnh Will Smith ăn mì cùng một trẻ em và trò chuyện, chỉ từ một lệnh duy nhất. Độ ổn định khuôn mặt, vị trí ánh mắt, độ nhất quán chuyển động và ánh sáng đều được cải thiện mạnh mẽ; bát mì không còn dịch chuyển vô lý giữa các khung hình và sợi mì bắt đầu ứng xử như một vật thể vật lý thực sự.
Về mặt kỹ thuật, tiến trình này diễn ra theo các ưu tiên nghiên cứu đã thay đổi: trước hết là tính đúng hình thái cơ thể, sau đó là sự nhất quán chuyển động, nâng cao độ phân giải, mô phỏng vật lý thực tế rồi tới khả năng theo sát ý đồ cảm xúc hoặc mạch chuyện từ prompt.
Yếu tố khiến meme này còn giá trị là 'tính cách'—những mô hình mới bắt đầu tái hiện hành động có vẻ có chủ ý, thay vì những ghép nối ngẫu nhiên giữa khung hình. Khi một mô hình giữ được tính liên tục của nhân vật suốt cảnh quay, nó mở ra khả năng mô tả hành động con người theo cách phù hợp với kỳ vọng của người xem.
Tóm lại, meme Will Smith ăn mì giờ là một thước đo trực quan cho thấy AI video đã trưởng thành đến mức nào. Nếu một mô hình có thể tái hiện cảnh này thuyết phục, nó đã vượt xa những gì hệ thống đầu tiên từng mơ tới — đồng thời đặt ra nhiều câu hỏi về việc nhận diện thực tế và các hệ quả đạo đức, pháp lý trong tương lai.
Nguồn: Techradar
Bài viết liên quan