Hệ thống observability dành cho con người, agent AI cần khác

Love AI

New member
Observability truyền thống được thiết kế xoay quanh con người — giao diện, dashboard và quy trình vận hành. Khi các agent AI dần trở thành người tiêu thụ chính của dữ liệu giám sát, cách tiếp cận này không còn phù hợp và đòi hỏi hạ tầng dữ liệu khác biệt.

he-thong-observability-danh-cho-con-nguoi-agent-ai-can-khac-1.jpeg


Từ giao diện người dùng đến nhu cầu của máy​


Trong thập kỷ qua, nhà cung cấp observability cạnh tranh chủ yếu bằng giao diện và trải nghiệm người dùng. Khi việc thu thập dữ liệu trở nên chuẩn hoá qua OpenTelemetry, giá trị thực sự di chuyển lên phần hiển thị — dashboard, trực quan hoá và luồng công việc cho con người.

Tuy nhiên, một chuyển dịch sâu hơn đang diễn ra: thay vì con người là người tiêu thụ chính, các hệ thống agent AI bắt đầu tiêu thụ và phân tích lượng lớn telemetry. Khi máy mới là người dùng cuối, những tối ưu hóa dành cho con người (giao diện mượt, hợp nhất tín hiệu) trở nên ít hữu dụng hơn.

Những ràng buộc của thiết kế dành cho con người​


Các nền tảng observability truyền thống được xây dựa trên giả định rằng kỹ sư là người điều tra sự cố. Do đó, các quyết định thiết kế phổ biến gồm: giữ dữ liệu độ phân giải cao trong thời gian ngắn, lấy mẫu dữ liệu mạnh để giảm khối lượng lưu trữ, và các mô hình định giá tối ưu cho truy vấn thủ công, thỉnh thoảng.

Những lựa chọn này hợp lý với con người nhưng trở thành hạn chế khi máy móc phải làm phân tích liên tục. Thời gian lưu trữ ngắn ngăn AI phát hiện xu hướng dài hạn hoặc tính chu kỳ. Lấy mẫu và rollup loại bỏ các tín hiệu tinh vi mà AI cần để suy luận chính xác. Mô hình tính phí theo truy vấn hoặc gắn quyền theo người dùng khiến phân tích liên tục và song song của agent trở nên rất tốn kém hoặc bị bóp nghẹt.

AI agent cần gì khác​


Agent AI cần dữ liệu toàn vẹn, lưu trữ dài hạn và truy cập không giới hạn theo kiểu máy. Cụ thể:

  • Thời gian lưu trữ dài hơn để phát hiện xu hướng, tính mùa vụ và mối quan hệ xuyên thời gian.
  • Dữ liệu nguyên vẹn (full-fidelity), tránh lấy mẫu gây mất mát tín hiệu quan trọng.
  • Mô hình chi phí phù hợp với truy vấn liên tục, song song và tự động bởi máy, thay vì tính theo truy vấn của người dùng.

Khi agent chạy phân tích liên tục trên nhiều chiều dữ liệu, nền tảng cần hỗ trợ truy vấn đa luồng, truy xuất dữ liệu nguyên mẫu và giữ bối cảnh lịch sử đủ rộng để đưa ra quyết định tự động.

Hạ tầng dữ liệu phải thay đổi​


Thay vì tách logs, traces và metrics vào hệ thống riêng lẻ hoặc lưu với sampling nặng, các hệ quản trị cơ sở dữ liệu mới hướng tới lưu trữ và truy vấn toàn bộ telemetry trong một lớp dữ liệu duy nhất. Điều này cho phép phân tích toàn diện mà không phải làm việc trên các view rút gọn của hành vi hệ thống.

Những DB này thiết kế để chịu được workload observability như một first-class workload: vừa lưu trữ ở quy mô lớn, vừa truy vấn hiệu quả cho cả con người lẫn agent.

Những việc có thể làm ngay hôm nay​


  • Xem lại chính sách retention: giữ thêm dữ liệu độ phân giải cao nếu có thể, vì đây là giới hạn cứng cho khả năng của agent sau này.
  • Hạn chế lấy mẫu quá mức: cân nhắc lưu một bản toàn vẹn của dữ liệu quan trọng hoặc thiết kế chiến lược sampling có thể khôi phục chi tiết khi cần.
  • Đàm phán lại mô hình định giá với nhà cung cấp: tìm cấu trúc phù hợp cho truy vấn máy cao tần thay vì trả phí theo từng truy vấn thủ công.
  • Ưu tiên nền tảng dữ liệu thống nhất: chọn giải pháp lưu trữ và truy vấn telemetry tổng thể thay vì nhiều silo dữ liệu.
  • Thiết kế quyền truy cập cho agent: cho phép truy cập máy tính hóa, không chỉ gắn với người dùng có tên.

Các tổ chức không cần chờ đợi thế hệ observability hoàn toàn tự động mới bắt đầu thay đổi. Những yêu cầu đã rõ ràng và tương thích với các quyết định kiến trúc mà lãnh đạo có thể thực hiện ngay hôm nay để chuẩn bị cho kỷ nguyên AI agent.

Nguồn: Techradar
 
Back
Top