Thứ sáu, Tháng mười 18, 2024
Công nghệTin tức

Cloudflare cung cấp miễn phí công cụ chống lại các trình thu thập dữ liệu bot AI

Cloudflare cung cấp miễn phí công cụ chống lại các trình thu thập dữ liệu bot AI

Mùa hè này,  Cloudflare một trong những nhà cung cấp dịch vụ mạng và bảo mật web hàng đầu, đã phát triển nhiều công cụ để chống lại việc thu thập dữ liệu và bảo vệ quyền riêng tư của người sáng tạo nội dung thứ mà họ gọi là “easy button” miễn phí để chặn tất cả trình thu thập thông tin của trang web chỉ bằng một cú nhấp chuột.

Tuy nhiên, mặc dù hữu ích, tuy nhiên công cụ này cũng còn mặt hạn chế, CEO của Cloudflare Matthew Prince nói với  Fortune. Nó không thể phân biệt giữa các trình thu thập dữ liệu đào tạo AI và các trình thu thập dữ liệu cho công cụ tìm kiếm. Ngoài ra, khách hàng không thể quyết định chặn một trình thu thập dữ liệu này nhưng không chặn trình thu thập dữ liệu khác.

 “Mọi người không biết có nên nhấn nút hay không”, ông nói.

Ngày nay, công ty Cloudflare đã bổ sung vào kho vũ khí của mình những công cụ mà họ cho là chính xác hơn, giúp các trang web và người sáng tạo nội dung kiểm soát tốt hơn những ai có thể truy cập dữ liệu của họ, cũng như khả năng phân tích cách các mô hình AI sử dụng nội dung của họ.

Bây giờ một trang web có thể sử dụng các bộ lọc mới cho phép OpenAI thu thập dữ liệu trang web của mình, nhưng không phải Baidu hoặc Perplexity, và nó cũng có thể kiểm soát những khu vực nào của trang web mà một bot AI được phép truy cập. Cloudflare duy trì rằng phân tích của mình cũng có thể giúp những người ký thỏa thuận cấp phép với các nhà cung cấp mô hình hiểu được các số liệu được sử dụng trong các cuộc đàm phán, chẳng hạn như tốc độ thu thập dữ liệu các phần nhất định hoặc toàn bộ trang.

Khi 40 triệu trang web sử dụng Cloudflare bắt đầu tận dụng các tính năng mới, công ty cũng hy vọng trở thành một thị trường trung tâm để họ đàm phán với các nhà cung cấp mô hình AI (cũng sử dụng Cloudflare) để cấp phép dữ liệu của họ. Chủ sở hữu trang web có thể đặt giá cho trang web của họ hoặc các phần của trang web của họ, sau đó tính phí cho các nhà cung cấp mô hình.

Prince cho biết Cloudflare có vị thế độc đáo để đóng vai trò là trung gian. “Khi chúng tôi nói, hãy lắng nghe, chúng tôi sẽ đặt ra những quy tắc này, đó là điều mà các công ty AI chú ý đến, vì nó ngay lập tức tác động đến hơn 20% trang web”, Prince cho biết. Ông giải thích rằng mối quan hệ của Cloudflare với các công ty AI lớn tạo ra một thị trường hai mặt.

Ông nói thêm rằng những nỗ lực của Cloudflare là cần thiết để internet mở tiếp tục phát triển vì nếu không có khả năng kiểm soát cách các công ty AI tìm cách đào tạo mô hình thu thập dữ liệu các trang web, những người sáng tạo nội dung sẽ ngừng sáng tạo hoặc họ sẽ quy định các khoản phí nếu muốn tiếp cận nội dung. Trong khi các nhà xuất bản lớn có thể đạt được thỏa thuận trực tiếp, các nhà cung cấp mô hình AI sẽ gặp khó khăn trong việc truy cập nội dung chất lượng cao từ các trang web nhỏ hơn.

Prince cho biết: “Tôi tin rằng Cloudflare sẽ là công ty có thể giải quyết được vấn đề mà tôi cho là then chốt để đảm bảo rằng nội dung tiếp tục được tạo trực tuyến trên một trang web mới ngày càng được hỗ trợ bởi AI”.

Một số phương pháp Cloudflare cung cấp:

Bot Management – Cloudflare sử dụng hệ thống phát hiện bot để bảo vệ các trang web khỏi việc thu thập dữ liệu tự động từ các “scraper” (công cụ thu thập thông tin). Công cụ này giúp phân biệt giữa lưu lượng truy cập từ người dùng thật và từ các bot, từ đó ngăn chặn các bot thu thập dữ liệu trái phép.

Challenge bằng CAPTCHA – Cloudflare thường yêu cầu người truy cập trang web thực hiện các bài kiểm tra CAPTCHA nhằm phân biệt giữa người và bot. Điều này giúp ngăn chặn các chương trình tự động truy cập và thu thập dữ liệu từ trang web(Turnstile CAPTCHA).

Firewall Rules(Quy tắc tường lửa) – Ngoài Bot Management, Cloudflare cho phép người dùng thiết lập các quy tắc tường lửa cụ thể để bảo vệ trang web khỏi việc thu thập dữ liệu. Các quy tắc này có thể được thiết lập dựa trên quốc gia, địa chỉ IP, hoặc các đặc điểm khác của người truy cập.

Rate Limiting(Giới hạn tần suất) – Một tính năng khác giúp ngăn chặn việc thu thập dữ liệu là Rate Limiting (Giới hạn tần suất truy cập). Cloudflare có thể giám sát và giới hạn số lần yêu cầu từ một IP trong một khoảng thời gian nhất định, giúp ngăn chặn các bot gửi quá nhiều yêu cầu đến trang web.

Super Bot Fight Mode – Đây là một tính năng cao cấp của Cloudflare, được thiết kế đặc biệt để chặn các bot độc hại. Nó phân tích sâu về hành vi của các bot và cung cấp các tùy chọn để chặn hoặc kiểm soát chúng theo thời gian thực.

Obfuscation Tools(Công cụ làm mờ dữ liệu) – Cloudflare cung cấp các công cụ như email obfuscation để bảo vệ các thông tin cá nhân trên trang web. Ví dụ, công cụ này làm mờ hoặc mã hóa địa chỉ email, khiến cho các bot không thể dễ dàng thu thập thông tin.

Threat Intelligence(Trí tuệ về mối đe dọa) – Cloudflare thu thập dữ liệu từ hàng triệu website và ứng dụng trên toàn cầu để phát triển trí tuệ về các mối đe dọa, từ đó giúp xác định các bot độc hại và ngăn chặn các nỗ lực thu thập thông tin trái phép.

Dịch vụ bảo mật Privacy Pass – Cloudflare cũng cung cấp dịch vụ Privacy Pass, cho phép người dùng chứng minh họ là con người thông qua một mã có thể thông qua nhiều trang web mà không cần phải qua CAPTCHA nhiều lần. Điều này giúp cân bằng giữa quyền riêng tư và bảo mật, tránh việc thu thập thông tin từ phía bot mà vẫn giữ cho trải nghiệm người dùng mượt mà.

#congcuchongthuthapthongtinbotAI #Côngcụchốngthuthậpthôngtinmiễnphí #changngoccongcuchongthuthapthongtinmienphi

Tham khảo:

[1]-https://fortune.com/2024/09/23/ai-bot-crawlers-cloudflare-content-creators/

[2]-https://www.cloudflare.com/

Bình luận: “Cloudflare cung cấp miễn phí công cụ chống lại các trình thu thập dữ liệu bot AI

Gửi phản hồi