Love AI
New member
Dữ liệu không sạch làm tốn kém cả tiền và năng lượng khi doanh nghiệp triển khai AI. Trước khi đầu tư vào chip hay hạ tầng, việc dọn dẹp và quản trị dữ liệu mới là cách tiết kiệm hiệu quả nhất.
Khi nói về AI, nhiều người chú ý đến hạ tầng, chip và lượng điện năng khổng lồ cần thiết cho huấn luyện và suy luận mô hình. Tuy nhiên, một phần thầm lặng nhưng quan trọng hơn thường bị bỏ qua: trạng thái của chính dữ liệu mà hệ thống AI đang sử dụng.
Cơ quan Năng lượng Quốc tế (IEA) dự báo điện năng dùng cho trung tâm dữ liệu sẽ tăng mạnh, từ 460 TWh năm 2024 lên hơn 1.000 TWh vào năm 2030 và khoảng 1.300 TWh vào năm 2035 trong kịch bản cơ sở. Ở Mỹ, Bộ Năng lượng ước tính trung tâm dữ liệu chiếm khoảng 4,4% tổng điện năng năm 2023 và có thể lên 6,7–12% vào năm 2028.
Những con số này quan trọng, nhưng dễ khiến vấn đề trở nên xa vời—như thể chỉ có các “hyperscaler” mới cần lo. Thực tế, một phần lớn chi phí và lãng phí phát sinh ngay từ trong doanh nghiệp: trong CRM, nền tảng PSA, hệ thống kế toán, file bảng tính cá nhân và các bản ghi trùng lặp chưa được dọn sạch.
AI không xuất hiện trong một môi trường lý tưởng với dữ liệu hoàn hảo. Nó kế thừa chính xác những gì doanh nghiệp đang có. Nếu hồ sơ khách hàng tồn tại ở năm chỗ khác nhau, doanh thu được định nghĩa khác nhau giữa sales và tài chính, dữ liệu dự án bị thiếu, hoặc đội ngũ vẫn phải dùng thủ thuật thủ công để đối chiếu, thì AI sẽ hoạt động trong thực tế đó.
Hệ thống công nghệ sẽ không tự sửa các điểm yếu này. Thường thì AI chỉ làm cho chúng lộ rõ hơn và tốn kém hơn: mỗi workflow thừa, mỗi truy vấn dư, mỗi vòng kiểm tra thủ công và mỗi chu kỳ xử lý thêm đều tiêu tốn thêm dung lượng lưu trữ, sức mạnh xử lý và thời gian nhân sự.
Dữ liệu “khỏe” không chỉ là dữ liệu sạch trong một thời điểm. Đó là dữ liệu được hiểu rõ, có quản trị, được duy trì và đồng bộ trên toàn tổ chức để mọi người có thể tin tưởng và sử dụng hiệu quả.
Nghiên cứu gần đây của IBM cho thấy 43% giám đốc vận hành coi chất lượng dữ liệu là vấn đề hàng đầu, và hơn một phần tư tổ chức ước tính họ mất trên 5 triệu USD mỗi năm vì dữ liệu kém chất lượng. Khi những vấn đề dữ liệu này được đưa vào môi trường AI vốn đã tiêu tốn nhiều tài nguyên, chi phí và lãng phí sẽ cộng dồn nhanh hơn.
Một quy trình hỏng trước đây chỉ gây phiền toái cho một nhóm, giờ có thể tạo gánh nặng lặp lại qua nhiều hệ thống và mô hình, đồng thời làm giảm độ tin cậy vào kết quả mà AI trả về. Vì vậy cuộc trò chuyện về tính bền vững của AI cần thiết thực hơn: không chỉ là mua năng lượng xanh hay tối ưu hạ tầng, mà còn là quản trị dữ liệu hàng ngày.
Nếu doanh nghiệp chạy công cụ AI trên nền tảng hồ sơ manh mún, luồng công việc rời rạc và báo cáo thiếu tin cậy, phần trách nhiệm về tác động môi trường của AI là do chính tổ chức tự gây ra. Họ sẽ tiêu tốn nhiều tài nguyên tính toán hơn để thu được những câu trả lời lẽ ra có thể đạt được dễ dàng hơn.
Bên cạnh đó còn là vấn đề quản trị: nhiều tổ chức thiếu chủ sở hữu dữ liệu rõ ràng, chuẩn định nghĩa khác nhau giữa phòng ban và thiếu cơ chế giám sát, dẫn đến rủi ro tuân thủ, sai lệch kết quả và chi phí nhân sự để kiểm tra lại.
Hành động cần làm:
Làm sạch và quản trị dữ liệu không phải là chi tiết phụ cho dự án AI — đó là bước thiết yếu để giảm chi phí, tăng độ tin cậy và hạn chế tác động môi trường khi ứng dụng trí tuệ nhân tạo trong doanh nghiệp.
Nguồn: Techradar
Khi nói về AI, nhiều người chú ý đến hạ tầng, chip và lượng điện năng khổng lồ cần thiết cho huấn luyện và suy luận mô hình. Tuy nhiên, một phần thầm lặng nhưng quan trọng hơn thường bị bỏ qua: trạng thái của chính dữ liệu mà hệ thống AI đang sử dụng.
Cơ quan Năng lượng Quốc tế (IEA) dự báo điện năng dùng cho trung tâm dữ liệu sẽ tăng mạnh, từ 460 TWh năm 2024 lên hơn 1.000 TWh vào năm 2030 và khoảng 1.300 TWh vào năm 2035 trong kịch bản cơ sở. Ở Mỹ, Bộ Năng lượng ước tính trung tâm dữ liệu chiếm khoảng 4,4% tổng điện năng năm 2023 và có thể lên 6,7–12% vào năm 2028.
Những con số này quan trọng, nhưng dễ khiến vấn đề trở nên xa vời—như thể chỉ có các “hyperscaler” mới cần lo. Thực tế, một phần lớn chi phí và lãng phí phát sinh ngay từ trong doanh nghiệp: trong CRM, nền tảng PSA, hệ thống kế toán, file bảng tính cá nhân và các bản ghi trùng lặp chưa được dọn sạch.
AI không xuất hiện trong một môi trường lý tưởng với dữ liệu hoàn hảo. Nó kế thừa chính xác những gì doanh nghiệp đang có. Nếu hồ sơ khách hàng tồn tại ở năm chỗ khác nhau, doanh thu được định nghĩa khác nhau giữa sales và tài chính, dữ liệu dự án bị thiếu, hoặc đội ngũ vẫn phải dùng thủ thuật thủ công để đối chiếu, thì AI sẽ hoạt động trong thực tế đó.
Hệ thống công nghệ sẽ không tự sửa các điểm yếu này. Thường thì AI chỉ làm cho chúng lộ rõ hơn và tốn kém hơn: mỗi workflow thừa, mỗi truy vấn dư, mỗi vòng kiểm tra thủ công và mỗi chu kỳ xử lý thêm đều tiêu tốn thêm dung lượng lưu trữ, sức mạnh xử lý và thời gian nhân sự.
Dữ liệu “khỏe” không chỉ là dữ liệu sạch trong một thời điểm. Đó là dữ liệu được hiểu rõ, có quản trị, được duy trì và đồng bộ trên toàn tổ chức để mọi người có thể tin tưởng và sử dụng hiệu quả.
Nghiên cứu gần đây của IBM cho thấy 43% giám đốc vận hành coi chất lượng dữ liệu là vấn đề hàng đầu, và hơn một phần tư tổ chức ước tính họ mất trên 5 triệu USD mỗi năm vì dữ liệu kém chất lượng. Khi những vấn đề dữ liệu này được đưa vào môi trường AI vốn đã tiêu tốn nhiều tài nguyên, chi phí và lãng phí sẽ cộng dồn nhanh hơn.
Một quy trình hỏng trước đây chỉ gây phiền toái cho một nhóm, giờ có thể tạo gánh nặng lặp lại qua nhiều hệ thống và mô hình, đồng thời làm giảm độ tin cậy vào kết quả mà AI trả về. Vì vậy cuộc trò chuyện về tính bền vững của AI cần thiết thực hơn: không chỉ là mua năng lượng xanh hay tối ưu hạ tầng, mà còn là quản trị dữ liệu hàng ngày.
Nếu doanh nghiệp chạy công cụ AI trên nền tảng hồ sơ manh mún, luồng công việc rời rạc và báo cáo thiếu tin cậy, phần trách nhiệm về tác động môi trường của AI là do chính tổ chức tự gây ra. Họ sẽ tiêu tốn nhiều tài nguyên tính toán hơn để thu được những câu trả lời lẽ ra có thể đạt được dễ dàng hơn.
Bên cạnh đó còn là vấn đề quản trị: nhiều tổ chức thiếu chủ sở hữu dữ liệu rõ ràng, chuẩn định nghĩa khác nhau giữa phòng ban và thiếu cơ chế giám sát, dẫn đến rủi ro tuân thủ, sai lệch kết quả và chi phí nhân sự để kiểm tra lại.
Hành động cần làm:
- Thiết lập quản trị dữ liệu rõ ràng: xác định chủ sở hữu, chuẩn dữ liệu và quy trình duy trì.
- Dọn dẹp và hợp nhất hồ sơ: loại bỏ dữ liệu trùng lặp, chuẩn hóa định nghĩa giữa các phòng ban.
- Đầu tư vào công cụ và tự động hóa: catalog dữ liệu, validation và giám sát để phát hiện lỗi sớm.
- Đào tạo và thay đổi quy trình: làm cho việc duy trì dữ liệu trở thành phần của quy trình vận hành hàng ngày, không phải là nhiệm vụ phụ.
- Đo lường hiệu quả: theo dõi giảm truy vấn thừa, giảm thời gian kiểm tra thủ công và tiết kiệm năng lượng/chi phí khi triển khai AI.
Làm sạch và quản trị dữ liệu không phải là chi tiết phụ cho dự án AI — đó là bước thiết yếu để giảm chi phí, tăng độ tin cậy và hạn chế tác động môi trường khi ứng dụng trí tuệ nhân tạo trong doanh nghiệp.
Nguồn: Techradar
Bài viết liên quan