[HVA News] – Deep Web (Web Ẩn) là gì?


Nguồn: http://www.hvaonline.net/hvaonline/posts/list/42557.hva

Deep Web (tạm dịch là Web Ẩn) là các nguồn dữ liệu, thông tin dạng Web trên Internet nhưng không thể tìm thấy trên các máy tìm kiếm thông thường hiện nay như Google, Bing…

Có rất nhiều nghiên cứu cho thấy, các máy tìm kiếm hiện nay chỉ lập được chỉ mục (indexing) cho một phần rất nhỏ của tất cả các nội dung web hiện có trên internet, còn một phần rất lớn của internet hoàn toàn không được biết đến bởi hầu hết người dùng internet.

Bạn sẽ nghĩ gì nếu bạn được cho biết rằng ngầm bên dưới của internet là cả một thế giới nội dung rộng lớn gấp nhiều lần hơn thế giới World Wide Web mà chúng ta có thể tiếp cận hiện nay? Chúng tôi cho rằng bạn sẽ cảm thấy thực sự sốc. Các chuyên gia ước tính rằng các Web Ẩn mà các máy tìm kiếm hiện nay không thể chạm tới, chứa lượng nội dung nhiều gấp 500 lần so với World Wide Web.

Để có thể giải thích đơn giản và dễ hiểu hơn về khái niệm Web Ẩn, chuyên gia về Web Ẩn Mike Bergman, sáng lập viên của công ty BrightPlanet đã đưa ra một hình ảnh so sánh. Các dữ liệu có thể truy cập được của internet hiện nay thông qua cách tìm kiếm trên các máy tìm kiếm (Google, Bing…) giống như bề mặt của đại dương (xem hình minh họa đầu bài), rất nhiều thứ có giá trị có thể được tìm thấy trên bề mặt của đại dương internet, thế nhưng những mỏ dữ liệu, thông tin có kích thước lớn hơn nhiều, giá trị hơn nhiều lại nằm sâu, thậm chí rất sâu dưới bề mặt yên ả của internet, các dữ liệu này thường bị bỏ lỡ bởi các máy tìm kiếm không thể với tới chúng.

Thông thường các máy tìm kiếm sẽ lục lọi trên internet để thu thập các dữ liệu bằng một dạng phần mềm gọi là “Crawler” (chương trình thu thập thông tin). Công nghệ này hoàn toàn không hiệu quả trong việc lục tìm các nguồn dữ liệu ẩn trên internet (Web Ẩn), chúng ta có thể phân các dạng Web Ẩn thành các loại sau:

  • Dữ liệu web động: các trang web động có nội dung được sinh ra dựa vào các yêu cầu truy vấn nội dung đặc biệt hoặc truy cập thông qua các biểu mẫu truy vấn nội dụng (ví dụ các biểu mẫu ở mục tìm kiếm của HVA).
  • Các nội dung không được tạo liên kết hyperlink: các trang nội dung web không được liên kết tới từ bất kỳ trang web nào và bản thân nó cũng không có liên kết tham chiếu nào đến trang web khác. Giống như việc bạn đưa lên internet một tờ giấy A4 chỉ chứa nội dung mà không hề có một cái link nào hết cả vậy (chú giải của người dịch).
  • Các trang web phải xác thực truy cập: các trang web yêu cầu muốn truy cập nội dung của nó thì thực hiện việc đăng ký và đăng nhập.
  • Các trang web có nội dung thay đổi theo ngữ cảnh: các trang web này hiển thị nội dung thay đổi tùy thuộc vào một số điều kiện tác động, ví dụ như người dùng từ các dải IP của châu Á truy cập vào thì sẽ được xem nội dung phù hợp cho khu vực châu Á.
  • Các nội dung web bị giới hạn truy cập: một số trang web giới hạn việc truy cập tới các nội dung của nó bằng một số phương pháp kỹ thuật như file Robots.txt, CAPTCHAs hoặc tham số HTTP headers để ngăn cấm các máy tìm kiếm truy cập nội dung cua nó, cũng như tạo phiên bản cache nội dụng.
  • Nội dung sinh từ script hoặc Flash, Ajax: một số trang web chỉ có thể truy cập thông qua một liên kết được sinh ra bởi một đoạn mã JavaScript (mà HVA là một ví dụ trực tiếp), hoặc nội dung được nhúng bên trong Flash hoặc chỉ có thể được tải về thông qua Ajax.
  • Nội dung phi HTML hoặc text: tức là các nội dung là text (văn bản) nhưng được hiển thị bên trong một tấm hình, video hoặc một số định dạng file mà các máy tìm kiếm không thể đọc được.
  • Nội dung văn bản chỉ có thể truy cập thông qua giao thức Gopher hoặc các file được lưu trữ trên các máy chủ FTP thì không được lập chỉ mục bởi hầu hết các máy tìm kiếm hiện nay: các máy tìm kiếm thông dụng như Google mặc nhiên không lập chỉ mục cho các trang không dùng giao thức HTTP hoặc HTTPS

Thế giới Web Ẩn song song này còn rộng lớn hơn nữa với rất nhiều nguồn thông tin, dữ liệu đa dạng thuộc các hệ thống mạng (có đấu nối với internet) của các doanh nghiệp, các chính phủ và cả của các tổ chức tội phạm mạng (như các nguồn dữ liệu bị đánh cắp và công bố bởi Anonymous, LulzSec…).

Trong trí tưởng tượng của nhiều người, khái niệm Web Ẩn thường đi kèm với ý tưởng về các nguồn dữ liệu bị đánh cắp, các nguồn dữ liệu bí mật thuộc các hệ thống bí ẩn không thể truy cập được. Dĩ nhiên, điều này thực sự chỉ là một sự hiểu biết sai lầm về Web Ẩn, các nội dung này vẫn có thể truy cập được theo một cách nào đó và trong một giới hạn nào đó, tuy nhiên ta sẽ chắc chắn rất khó để tìm thấy chúng bằng cách lục lọi trên một máy tìm kiếm phổ thông nào đó. Web Ẩn chính là giới hạn kỹ thuật mà các máy tìm kiếm hiện nay đang cố vượt qua.

(Theo TheHackerNews)

xnohat – HVA News


Tham khảo:

[1] http://thehackernews.com/2012/05/what-is-deep-web-first-trip-into-abyss.html

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s