Nội dung ngày đầu tiên
Tổng quan
Hôm nay, chúng ta sẽ bắt đầu hành trình vào thế giới Dữ liệu lớn (Big Data). Chúng ta sẽ tìm hiểu định nghĩa, các đặc trưng cốt lõi và tại sao nó lại quan trọng trong thế giới hiện đại.
1. Big Data là gì?
Big Data là thuật ngữ dùng để chỉ những tập dữ liệu cực kỳ lớn và phức tạp, đến mức các công cụ xử lý dữ liệu truyền thống không thể thu thập, quản lý và xử lý chúng trong một khoảng thời gian hợp lý.
Nó không chỉ là về kích thước, mà còn về sự phức tạp và tốc độ phát sinh dữ liệu.
2. Ba chữ V của Big Data (The 3Vs)
Để hiểu rõ hơn về Big Data, người ta thường định nghĩa nó qua 3 đặc trưng cốt lõi, gọi là 3V:
Volume (Khối lượng): Đây là đặc trưng rõ ràng nhất. Dữ liệu lớn có khối lượng khổng lồ, có thể từ terabytes (TB) đến petabytes (PB) hoặc thậm chí exabytes (EB).
- Ví dụ: Sàn giao dịch chứng khoán New York tạo ra khoảng 1 TB dữ liệu giao dịch mỗi ngày.
Velocity (Tốc độ): Dữ liệu được tạo ra và truyền đi với tốc độ cực nhanh, thường là theo thời gian thực.
- Ví dụ: Hàng triệu tweet được gửi đi mỗi phút, dữ liệu từ các cảm biến IoT liên tục được truyền về máy chủ.
Variety (Sự đa dạng): Dữ liệu đến từ nhiều nguồn khác nhau và có nhiều định dạng khác nhau.
- Dữ liệu có cấu trúc (Structured): Dữ liệu được tổ chức rõ ràng trong các bảng, hàng, cột như trong cơ sở dữ liệu quan hệ (SQL). Ví dụ: Bảng thông tin khách hàng.
- Dữ liệu bán cấu trúc (Semi-structured): Dữ liệu không tuân theo mô hình của cơ sở dữ liệu quan hệ nhưng có các thẻ hoặc dấu hiệu để phân tách các yếu tố. Ví dụ: Dữ liệu JSON, XML.
- Dữ liệu phi cấu trúc (Unstructured): Dữ liệu không có cấu trúc nội tại rõ ràng. Đây là loại dữ liệu chiếm tỷ trọng lớn nhất. Ví dụ: Email, video, hình ảnh, file âm thanh, bài đăng trên mạng xã hội.
3. Tại sao Big Data lại quan trọng?
Việc phân tích Big Data giúp các tổ chức, doanh nghiệp:
- Hiểu rõ hơn về khách hàng và thị trường.
- Đưa ra quyết định kinh doanh tốt hơn và nhanh hơn.
- Tối ưu hóa quy trình vận hành.
- Phát hiện gian lận, dự báo rủi ro.
- Tạo ra các sản phẩm và dịch vụ mới.
Bài tập thực hành (Tư duy)
Hãy nghĩ về ứng dụng Facebook hoặc YouTube bạn đang dùng. Liệt kê các loại dữ liệu mà ứng dụng này tạo ra và phân loại chúng theo 3V.
Mục tiêu học tập
Nắm vững kiến thức cơ bản về Big Data và Hadoop thông qua một danh sách phát trên YouTube.