Vào lúc 9:29:55 trong một ngày giao dịch cổ phiếu Mỹ, một nhóm kỹ sư hệ thống phân tán tại các sàn giao dịch lớn và mọi ngân hàng hạng nhất đang nhìn chằm chằm vào các bảng điều khiển mà họ có lẽ đã nhìn qua nhiều năm. Năm giây sau, các thị trường cổ phiếu của đất nước tiếp nhận luồng lệnh đỉnh điểm có thể vượt quá năm trăm nghìn tin nhắn mỗi giây trên toàn bộ băng tổng hợp. Các hệ thống hấp thụ làn sóng đó là một trong những phần mềm được thiết kế nghiêm ngặt nhất đang được sử dụng thương mại ở bất kỳ đâu, và các mô hình mà chúng dựa vào hiện nay cũng đang vận hành phần lớn phần còn lại của tài chính Mỹ.
"Phân tán" thực sự có nghĩa gì trong bối cảnh tài chính Mỹ
Một hệ thống phân tán, theo nghĩa sách giáo khoa, là một tập hợp các tiến trình giao tiếp qua mạng để cung cấp một dịch vụ nhất quán duy nhất. Trong bối cảnh tài chính Mỹ, định nghĩa này hẹp hơn. Nó có nghĩa là một dịch vụ mà trạng thái tồn tại ở nhiều nơi, Độ trễ được đo bằng micro giây, và các chế độ lỗi không phải là lý thuyết vì cơ quan quản lý có thể yêu cầu báo cáo phân tích sự cố trong vòng bốn mươi tám giờ.

Các ví dụ điển hình là một công cụ khớp lệnh sàn giao dịch, một switch thanh toán thời gian thực, một dịch vụ chấm điểm gian lận và một mạng fan-out dữ liệu thị trường. Mỗi loại có các yêu cầu tính nhất quán hơi khác nhau. Công cụ khớp lệnh cần thứ tự nghiêm ngặt. Hệ thống chống gian lận ưu tiên tốc độ hơn sự đầy đủ. Mạng fan-out dữ liệu thị trường cần thông lượng cao. Các lựa chọn kỹ thuật bắt nguồn từ những ràng buộc đó.
Lý do vấn đề này quan trọng hiện nay, vào năm 2026, là các mô hình kiến trúc tương tự đã chuyển từ các bộ phận giao dịch ra phần còn lại của fintech Mỹ. Một ứng dụng thanh toán tiêu dùng, một nền tảng ngân hàng tài trợ BaaS và một sản phẩm lợi suất kho bạc hiện đều chạy trên các thiết kế phân tán mà mười năm trước sẽ bị coi là kỳ lạ.
Các hệ thống tài chính lớn nhất của Mỹ được xây dựng như thế nào ngày nay
Ba mô hình kiến trúc xuất hiện lặp đi lặp lại trong hầu hết mọi hệ thống phân tán tài chính nghiêm túc của Mỹ. Đầu tiên là event sourcing, trong đó mỗi thay đổi trạng thái được ghi trước vào một log chỉ thêm (append-only) và các chế độ xem được vật chất hóa được dẫn xuất từ log đó. Kafka, AWS Kinesis và Confluent Cloud hiện nằm bên dưới hầu hết các back end fintech lớn, với các cửa sổ lưu giữ đủ dài để phát lại nhiều ngày hoặc nhiều tuần hoạt động. Lợi ích kiểm toán và đối soát tích lũy theo thời gian; đối với nhiều cán bộ tuân thủ, log là nguồn sự thật.
Thứ hai là đồng thuận và nhân bản. Hầu hết các cơ sở dữ liệu fintech hiện chạy trên các giao thức bắt nguồn từ Raft hoặc Paxos. CockroachDB, FoundationDB, Spanner và các sổ cái cloud-native lớn đều sử dụng các biến thể. Hiệu quả thực tế là một giao dịch duy nhất tại một fintech Mỹ có thể tồn tại sau khi mất toàn bộ một vùng khả dụng mà không mất dữ liệu và chỉ vài giây ngừng hoạt động, điều này trước đây đòi hỏi nhiều tháng công sức kỹ thuật.
Thứ ba là service mesh và định tuyến nhận biết tốc độ. Envoy, Istio và Linkerd hiện là tiêu chuẩn, và các cấu hình được sử dụng trong tài chính dựa vào ngắt mạch (circuit-breaking), ngân sách thử lại (retry budgets) và các mô hình vách ngăn (bulkhead) được kế thừa từ chiến lược của Netflix. Các đường thanh toán Mỹ mà các fintech sử dụng thường nằm phía sau các mesh này.
Bảng xếp hạng hiệu suất hệ thống phân tán trong tài chính Mỹ
Các con số dưới đây được tổng hợp từ các blog kỹ thuật công khai, báo cáo SOC 2 của nhà cung cấp và lịch sử sự cố được công bố. Chúng phác thảo một đường cơ sở hữu ích về những gì các hệ thống phân tán sản xuất trong tài chính Mỹ thực sự đạt được.
Con số nói lên nhiều nhất là dòng Độ trễ p99. Một thập kỷ trước, p99 dưới mili giây chỉ là con số dành cho giao dịch. Ngày nay, một số fintech Mỹ hướng đến người tiêu dùng công bố Độ trễ p99 chỉ một vài mili giây cho các luồng xác thực cốt lõi và khởi tạo thanh toán. Chi phí để đạt được điều đó là đáng kể, nhưng chi phí vận hành để duy trì điều đó thấp hơn chi phí chạy một hệ thống chậm hơn, vì các sự cố ở Độ trễ tài chính rất tốn kém để điều tra.
Trong khuôn khổ được quản lý của một ngân hàng Mỹ, nhóm hệ thống phân tán thường phải phụng sự hai chủ. Tổ chức nền tảng quan tâm đến thời gian hoạt động, thông lượng và chi phí vận hành. Tổ chức rủi ro và tuân thủ quan tâm đến khả năng kiểm toán, tính bất biến và khả năng chứng minh. Các kiến trúc xuất hiện thường là sự thỏa hiệp: log sự kiện chỉ thêm để thỏa mãn chủ thứ hai, các chế độ xem truy vấn được vật chất hóa và bộ nhớ đệm để thỏa mãn chủ thứ nhất.
Các chế độ lỗi vẫn còn gây khó dễ cho fintech Mỹ trong sản xuất
Ba chế độ lỗi chiếm phần lớn các sự cố sản xuất fintech Mỹ trong hai năm qua, dựa trên các báo cáo sự cố được công bố và tóm tắt phân tích hậu sự cố. Đầu tiên là thử lại theo chuỗi (cascading retries). Một timeout từ downstream kích hoạt cơn bão thử lại tại dịch vụ upstream, làm cạn kiệt connection pool, lan truyền trở lại thành sự cố có thể nhìn thấy được từ phía khách hàng. Ngân sách thử lại và circuit breaker là biện pháp giảm thiểu tiêu chuẩn, nhưng mọi nhóm kỹ thuật đều học bài này theo cách khó khăn ít nhất một lần.
Thứ hai là split-brain đa vùng. Khi một phân vùng mạng cắt đứt vùng chính của fintech khỏi bản sao của nó, mã failover ngây thơ có thể thăng cả hai bên lên vai trò leader. Kết quả là các ghi phân kỳ phải được đối soát thủ công. Các thiết kế dựa trên CRDT và dựa trên đồng thuận là giải pháp chữa trị, nhưng việc áp dụng không đồng đều.
Thứ ba là khoảng trống quan sát (observability gaps). Hầu hết các sự cố ngừng hoạt động của fintech không phải do một thành phần đơn lẻ bị lỗi riêng lẻ; chúng được gây ra bởi một chuỗi các suy giảm nhỏ mà không có bảng điều khiển nào hiển thị. Các nhóm đầu tư nghiêm túc vào distributed tracing, tương quan log và các chỉ số nhận biết cardinality có xu hướng phát hiện và giải quyết sự cố nhanh gấp hai đến ba lần so với các nhóm không làm vậy. Kỷ luật xung quanh hệ thống thanh toán dựa trên ACH thường buộc sự trưởng thành này, vì đối soát không khoan nhượng.
Khía cạnh văn hóa của việc vận hành hệ thống phân tán trong tài chính bị đánh giá thấp. Các nhóm duy trì tỷ lệ sự cố thấp hầu như luôn tổ chức các phân tích hậu sự cố không đổ lỗi, xuất bản các runbook mà kỹ sư thực sự đọc, và luân chuyển ca trực để bảo vệ các kỹ sư cấp cao khỏi tình trạng thiếu ngủ mãn tính. Công cụ đơn thuần không bao giờ bù đắp cho văn hóa trực bảo vệ mong manh; nhiều sự cố ngừng hoạt động nổi tiếng nhất của fintech Mỹ trong ba năm qua bắt nguồn từ vấn đề văn hóa từ rất lâu trước khi cảnh báo kích hoạt.
Điều này có ý nghĩa gì đối với các nhà sáng lập fintech đang xây dựng cơ sở hạ tầng ngày nay
Đối với các nhà sáng lập fintech Mỹ, hàm ý thực tế là chi phí để xây dựng hệ thống phân tán sai chỉ giảm ở giai đoạn rất sớm. Một nguyên mẫu pre-seed trên Postgres được quản lý và một vùng AWS duy nhất là ổn. Ngay khi sản phẩm có tiền thực của khách hàng đang lưu chuyển, tiêu chuẩn kỹ thuật tăng mạnh, và các nhóm trì hoãn cuộc trò chuyện này sẽ mất thời gian hoạt động hoặc khách hàng hoặc cả hai.
Ba câu hỏi mà mọi nhà sáng lập fintech cần có khả năng trả lời về kiến trúc của riêng mình khi đến Vòng tài trợ Series A: điều gì xảy ra nếu cơ sở dữ liệu chính không khả dụng trong mười phút; điều gì xảy ra nếu một đối tác downstream trả về lỗi 500 trong ba mươi giây; và hệ thống được kiểm tra cho các tình huống này như thế nào. Các nhà sáng lập có thể trả lời rõ ràng cả ba câu hỏi có xu hướng mở rộng quy mô qua các điểm uốn làm gãy đổ những người đồng nghiệp của họ.
Khía cạnh tuyển dụng cũng rất cụ thể. Một kỹ sư hệ thống phân tán cấp cao tại một fintech Mỹ vào năm 2026 nhận gói tổng đãi ngộ ở mức cao của thị trường công nghệ Mỹ, thường trên ba trăm năm mươi nghìn đô la đối với người có kinh nghiệm thanh toán hoặc giao dịch. Nguồn cung hạn chế vì bộ kinh nghiệm cần một thập kỷ để xây dựng. Sự đổi mới ngân hàng mở rộng ra toàn cầu hầu như luôn có ít nhất một kỹ sư như vậy trong mười lần tuyển dụng đầu tiên.
Sự tập trung địa lý của điện toán là một rủi ro âm thầm khác. Một số lượng đáng ngạc nhiên các fintech Mỹ chạy khối lượng công việc chính của họ trong một vùng AWS duy nhất (thường là us-east-1), có nghĩa là sự cố Amazon ở miền Bắc Virginia trực tiếp dẫn đến sự cố ngừng hoạt động của fintech Mỹ. Multi-region active-active đòi hỏi kỹ thuật cao và tốn kém, nhưng các nhóm đã đầu tư vào nó có hồ sơ sự cố khác biệt có ý nghĩa.
Bề mặt nhà cung cấp hỗ trợ tất cả những điều này đã được hợp nhất. Các nhà cung cấp đám mây lớn (AWS, Google Cloud và Azure) hiện cung cấp các kiến trúc tham chiếu dành riêng cho dịch vụ tài chính, và các ngân hàng tài trợ khu vực đã bắt đầu xuất bản kiến trúc của riêng họ. Bối cảnh mã nguồn mở (Kafka, Redis, ClickHouse, Postgres, Temporal) đã đủ trưởng thành để một fintech mới có thể triển khai V1 trên một stack mà vào năm 2018 sẽ đòi hỏi phải xây dựng tùy chỉnh.
Phiên mở cửa lúc 9:30 sáng sẽ tiếp tục là bài kiểm tra stress cho phần mềm khắt khe nhất của đất nước. Sự phát triển thú vị là cùng một sự nghiêm ngặt kỹ thuật hiện nay cũng hiển thị bên trong các fintech không bao giờ tiếp cận gần một sàn giao dịch.
Để xem một ví dụ về các giao thức wire được mô tả ở trên, hãy xem thông số kỹ thuật máy khách chung NYSE Pillar.








