Bản cập nhật bị lỗi của CrowdStrike đã đặt ra câu hỏi về giải pháp ngăn chặn một thảm họa công nghệ tương tự.
Vào sáng thứ Sáu,
Và một thảm họa công nghệ toàn cầu đang diễn ra.
Trong những giờ đầu, đã có sự nhầm lẫn về những gì đang diễn ra. Làm thế nào mà nhiều máy Windows đột nhiên hiển thị màn hình lỗi màu xanh? Trên Reddit, các quản trị viên CNTT đã đưa ra cảnh báo trong một chủ đề có tiêu đề “Lỗi BSOD trong bản cập nhật CrowdStrike mới nhất” và kể từ đó đã nhận được hơn 20.000 phản hồi.
Các vấn đề đã dẫn đến việc các hãng hàng không lớn ở Mỹ phải ngừng thực hiện các chuyến bay; các nhân viên ở châu Âu tại các ngân hàng, bệnh viện và các tổ chức lớn khác không thể đăng nhập vào hệ thống của họ. Và mọi chuyện nhanh chóng trở nên rõ ràng rằng tất cả chỉ là do một tập tin nhỏ.
Vào ngày 19 tháng 7, công ty an ninh mạng CrowdStrike đã phát hành bản cập nhật bị lỗi cho phần mềm bảo mật Falcon mà họ cung cấp để giúp các công ty ngăn chặn phần mềm độc hại, ransomware và bất kỳ mối đe dọa mạng nào khác có thể phá hủy máy móc. Phần mềm được các doanh nghiệp sử dụng rộng rãi cho các hệ thống Windows quan trọng, đó là lý do tại sao bản cập nhật lỗi này lại ngay lập tức ảnh hưởng rộng rãi đến vậy.
Bản cập nhật của CrowdStrike được cho là giống với bất kỳ bản cập nhật nào khác, tự động cung cấp các biện pháp bảo vệ mới nhất cho khách hàng trong một tệp nhỏ (chỉ 40KB) được phân phối trên web. CrowdStrike phát hành những bản cập nhật này thường xuyên mà không gặp sự cố và chúng khá phổ biến đối với phần mềm bảo mật. Nhưng lần này thì khác.
Tại sao chuyện này lại xảy ra?
Phần mềm bảo mật Falcon của CrowdStrike hoạt động trong Windows ở cấp độ kernel, phần cốt lõi của hệ điều hành có quyền truy cập không hạn chế vào bộ nhớ và phần cứng hệ thống. Hầu hết các ứng dụng khác chạy ở cấp chế độ người dùng và không cần hoặc không có quyền truy cập đặc biệt vào kernel. Phần mềm Falcon của CrowdStrike sử dụng driver đặc biệt cho phép phần mềm chạy ở mức thấp hơn hầu hết các ứng dụng để có thể phát hiện các mối đe dọa trên hệ thống Windows.
Hoạt động ở cấp độ kernel giúp phần mềm của CrowdStrike có khả năng phòng thủ cao hơn nhiều, nhưng cũng có khả năng gây ra sự cố cao hơn. Ông Patrick Wardle, Giám đốc điều hành kiêm người sáng lập của DoubleYou cho biết: “Khi có một bản cập nhật không được định dạng đúng cách hoặc có một số sai sót, driver có thể sử dụng bản cập nhật đó và tin tưởng nó một cách mù quáng, điều này có thể rất rắc rối.”
Quyền truy cập kernel khiến driver có thể tạo ra sự cố hỏng bộ nhớ, và đó là điều đã xảy ra vào sáng thứ Sáu. Ông Patrick Wardle nói: “Vị trí sự cố xảy ra là ở một hướng dẫn mà nó đang cố truy cập vào một số bộ nhớ không hợp lệ. Nếu đang chạy trong kernel và cố truy cập vào bộ nhớ không hợp lệ, điều đó sẽ gây ra lỗi và khiến hệ thống gặp sự cố.”
CrowdStrike đã nhanh chóng phát hiện ra vấn đề nhưng những thiệt hại đã xảy ra. Công ty đã đưa ra bản sửa lỗi 78 phút sau khi bản cập nhật ban đầu ra mắt. Quản trị viên CNTT đã thử khởi động lại máy nhiều lần và tìm cách kết nối mạng một số máy để lấy được bản cập nhật trước khi driver của CrowdStrike giết chết máy chủ hoặc PC. Tuy nhiên, nhiều nhân viên hỗ trợ khắc phục bằng cách truy cập thủ công các máy bị ảnh hưởng và xóa nội dung bị lỗi cập nhật của CrowdStrike.
Trong khi các cuộc điều tra về vụ việc CrowdStrike vẫn tiếp tục, giả thuyết hàng đầu là có thể có một lỗi trong driver đã không hoạt động được một thời gian. Nó có thể đã không xác thực chính xác dữ liệu mà nó đang đọc từ các tệp cập nhật nội dung, nhưng đó chưa bao giờ là vấn đề cho đến khi sự việc xảy ra vào thứ Sáu.
Ông Wardle nói: “Driver có lẽ nên được cập nhật để thực hiện kiểm tra lỗi bổ sung nhằm đảm bảo rằng ngay cả khi cấu hình có vấn đề thì driver sẽ có các biện pháp bảo vệ để kiểm tra và phát hiện… thay vì hành động mù quáng và gây ra sự cố.”
CrowdStrike đáng lẽ phải phát hiện ra vấn đề này sớm hơn. Việc tung ra các bản cập nhật dần dần cho phép các nhà phát triển kiểm tra mọi vấn đề lớn trước khi bản cập nhật tiếp cận toàn bộ cơ sở người dùng của họ. Nếu CrowdStrike đã kiểm tra đúng cách các bản cập nhật nội dung của mình với một nhóm nhỏ người dùng thì thứ Sáu vừa rồi sẽ là hồi chuông cảnh tỉnh để khắc phục sự cố driver cơ bản chứ không phải là một thảm họa công nghệ lan rộng trên toàn cầu.
Microsoft không gây ra thảm họa nhưng cách vận hành của Windows đã khiến toàn bộ hệ điều hành này sụp đổ.
Làm gì để ngăn chặn sự cố này tiếp diễn?
Mặc dù không liên quan trực tiếp nhưng Microsoft vẫn kiểm soát trải nghiệm Windows và còn rất nhiều điều cần cải thiện trong cách Windows xử lý những vấn đề như thế này.
Đơn giản nhất, Windows có thể vô hiệu hóa các driver có lỗi. Nếu Windows xác định rằng driver đang làm hỏng hệ thống khi khởi động và buộc nó vào chế độ khôi phục, Microsoft có thể xây dựng logic thông minh hơn cho phép hệ thống khởi động mà không có driver bị lỗi sau nhiều lần khởi động thất bại.
Nhưng thay đổi hiệu quả hơn sẽ là khóa quyền truy cập kernel Windows để ngăn driver của bên thứ ba làm hỏng toàn bộ PC. Trớ trêu thay, Microsoft đã cố gắng thực hiện chính xác điều này với Windows Vista nhưng vấp phải sự phản đối từ các nhà cung cấp dịch vụ an ninh mạng và cơ quan quản lý EU.
Microsoft đã cố gắng triển khai một tính năng được biết đến vào thời điểm đó là PatchGuard trong Windows Vista vào năm 2006, hạn chế các bên thứ ba truy cập vào kernel. McAfee và Symantec, hai công ty diệt virus lớn lúc bấy giờ, phản đối những thay đổi của Microsoft. Thậm chí Symantec còn khiếu nại lên Ủy ban châu Âu. Cuối cùng, Microsoft đã lùi bước, cho phép các nhà cung cấp bảo mật truy cập lại vào kernel một lần nữa cho mục đích giám sát bảo mật.
Cuối cùng, Apple đã thực hiện điều đó bằng cách khóa hệ điều hành macOS của mình vào năm 2020 để các nhà phát triển không thể truy cập vào kernel được nữa. Ông Wardle nói: “Đó chắc chắn là một quyết định đúng đắn của Apple khi không dùng các phần mở rộng kernel của bên thứ ba. Nhưng con đường để thực sự đạt được điều đó còn nhiều vấn đề.” Apple có một số lỗi kernel trong đó các công cụ bảo mật chạy ở chế độ người dùng vẫn có thể gây ra sự cố (kernel panic). Ngoài ra, vẫn còn một số lỗi khác có thể cho phép các công cụ bảo mật trên Mac sẽ bị phần mềm độc hại tải xuống.
Phản ứng dữ dội của việc khóa Windows
Microsoft có thể cố gắng đi theo con đường tương tự như Apple, nhưng sự phản kháng từ các nhà cung cấp bảo mật như CrowdStrike sẽ rất mạnh mẽ. Không giống như Apple, Microsoft cũng cạnh tranh với CrowdStrike và các nhà cung cấp bảo mật khác đã kiếm được lợi nhuận từ việc bảo vệ Windows. Microsoft có dịch vụ trả phí Defender for Endpoint của riêng mình, cung cấp các biện pháp bảo vệ tương tự cho máy Windows.
Giám đốc điều hành CrowdStrike, George Kurtz cũng thường xuyên chỉ trích Microsoft và thành tích bảo mật của hãng, đồng thời tự hào về việc thu hút được khách hàng khỏi phần mềm bảo mật của chính Microsoft. Microsoft đã gặp phải một loạt rủi ro về bảo mật trong những năm gần đây, vì vậy, các đối thủ cạnh tranh có thể sử dụng những điều này để bán các sản phẩm thay thế một cách dễ dàng và hiệu quả.
Mỗi khi Microsoft cố gắng khóa Windows với lý do bảo mật, hãng cũng phải đối mặt với phản ứng dữ dội. Một chế độ đặc biệt trong Windows 10 giới hạn máy ở các ứng dụng Windows Store để tránh phần mềm độc hại gây nhầm lẫn và không phổ biến. Microsoft cũng bỏ lại hàng triệu PC khi ra mắt Windows 11 và các yêu cầu phần cứng được thiết kế để cải thiện tính bảo mật của PC Windows.
Nếu không muốn Windows trở thành trung tâm của sự cố giống như CrowdStrike lần này, Microsoft cần phải đi một con đường khó khăn hơn. Microsoft bị kẹt ở giữa, với áp lực từ cả hai phía. Nhưng vào thời điểm Microsoft đang cải tổ lại vấn đề bảo mật, cần phải có chỗ để các nhà cung cấp bảo mật và Microsoft đồng ý về một hệ thống tốt hơn nhằm tránh xảy ra tình trạng màn hình xanh một lần nữa.
Nguồn: theverge.com