[Series MongoDB] Phần 1 - Big data là gì? Mongodb là gì? Mongodb có xử lý được big data hay không?

Thường ngày các bạn đã nghe về cụm từ "Big data". Vậy Big data là gì? Mongodb là gì? và tại sao Big data lại quan trọng và phổ biến đến như vậy, ngoài Oracle.. Thì Mongodb có xử lý được big data hay không thì trong bài viết này, chúng ta sẽ đi tìm hiểu thế nào.

Và bài viết này sẽ phù hợp những bạn nào tương lai sẽ đi về DATABASE. Thì các bạn nhớ chú ý và tìm hiểu rộng hơn về Big data là gì? Mongodb là gì?.

1 - Big data là gì?

Big data là một thuật ngữ mô tả một khối lượng dữ liệu rất lớn, big data bao gồm các kiểu dữ liệu Structured, Unstructured, Semi-structured. Big data đề cập đến các nhóm thông tin lớn, đa dạng và phát triển với tốc độ cấp số nhân mỗi ngày. Big data thường đến từ nhiều nguồn trong một môi trường tuỳ trường hợp của Doanh Nghiệp và đến ở nhiều định dạng khác nhau. 

2 - Ví dụ về Big data?

Sàn giao dịch chứng khoán New York Stock Exchange mỗi ngày sinh ra 1 terabyte dữ liệu. 

Nếu như New York Stock Exchange như vậy thì bạn biết Facebook mỗi ngày nó sinh ra bao nhiêu dữ liệu bao gồm text, image, media không? Gấp 6 lần cơ đây, Có nghĩa là mỗi ngày dữ liệu được sinh ra 6 terabyte. Kinh khủng chưa? 

3 - Big data bao gồm các dạng dữ liệu nào?

Big data bao gồm 3 dạng dữ liệu như đã nói ở trên đó là: 

Structured 

Unstructured 

Semi-structured

#Structured (có cấu trúc) 

Đây là dạng dữ liệu mà chúng ta hay gặp nhất trong việc lập trình lưu vào dữ liệu trong DB. Bất kỳ dữ liệu nào có thể được lưu trữ, nhằm truy cập và xử lý ở dạng định dạng cố định được gọi là dữ liệu Structured (có cấu trúc). Ví dụ: Hình ảnh:  

#Unstructured (phi cấu trúc) 

Đây là dạng dữ liệu không xác định hoặc cấu trúc được phân loại là dữ liệu phi cấu trúc. Ngoài kích thước khổng lồ, dữ liệu không có cấu trúc còn đặt ra nhiều thách thức về mặt xử lý để lấy giá trị từ nó. Một ví dụ điển hình của dữ liệu Unstructured (phi cấu trúc) là nguồn dữ liệu không đồng nhất chứa sự kết hợp của các tệp văn bản, hình ảnh, video đơn giản, v.v ... Ví dụ: Hình ảnh 

#Semi-structured (bán cấu trúc) 

Dữ liệu bán cấu trúc có thể chứa cả các dạng dữ liệu. Chúng ta có thể thấy dữ liệu bán cấu trúc dưới dạng cấu trúc ở dạng nhưng thực tế nó không được xác định với ví dụ: một định nghĩa bảng trong DBMS quan hệ. 

Ví dụ về dữ liệu bán cấu trúc là dữ liệu được biểu thị trong tệp XML.

<rec><name>Prashant Rao</name><sex>Male</sex><age>35</age></rec> 
<rec><name>Seema R.</name><sex>Female</sex><age>41</age></rec> 
<rec><name>Satish Mane</name><sex>Male</sex><age>29</age></rec> 
<rec><name>Subrato Roy</name><sex>Male</sex><age>26</age></rec> 
<rec><name>Jeremiah J.</name><sex>Male</sex><age>35</age></rec> 

4 - Mongodb là gì?

Mongodb là gì? và nó liên quan gì đến big data thì chúng ta hãy cùng tiếp tục tìm hiểu xem nó như thế nào? 

MongoDB là một cơ sở dữ liệu tài liệu cung cấp hiệu suất cao, tính sẵn sàng cao và khả năng mở rộng dễ dàng. Nó là một hệ thống cơ sở dữ liệu hướng tài liệu đa nền tảng được phân loại là cơ sở dữ liệu NoQuery, giúp thu hẹp khoảng cách giữa các hệ thống RDBMS khóa-giá trị và truyền thống. MongoDB là một ứng cử viên tương đối mới trong vòng lưu trữ dữ liệu so với người khổng lồ như OracleIBM DB2, nhưng nó đã thu hút sự chú ý rất lớn với kho lưu trữ khóa phân tán, khả năng tính toán MapReduce và các tính năng NoQuery định hướng tài liệu. Do MongoDB có các tính năng như trên thì việc MongoDB có xử lý được big data hay không? Vâng câu trả lời là có, và còn tốt hơn nữa. 

5 - Vì sao MongoDB lại phổ biến.

MongoDB là một sản phẩm NoQuery và đang trở nên rất phổ biến trong cộng đồng các nhà phát triển dữ liệu. Điều này là do MongoDB kết hợp hoàn hảo với các ngôn ngữ lập trình như JavaScript, RubyPython; sự pha trộn liền mạch này truyền tải tốc độ mã hóa cao. Tính năng này cùng với sự đơn giản của nó, đã khiến MongoDB trở nên rất phổ biến trong một khoảng thời gian ngắn. 

6 - Kết Luận

Ở bài đầu tiên thì chúng ta đi thử tìm hiểu về Big data là gì? Mongodb là gì? Big data có dạng dữ liệu gì? Mongodb có xử lý được big data hay không? 

Ở bài tiếp theo chúng ta sẽ tìm hiểu về cách install mongodb trên windows và trên linux như thế nào để xử lý big data. 

Cảm ơn các bạn đã đọc! Nhớ theo dõi phần 2 "hướng dẫn install mongodb trên windows và trên linux".


ReSource:
https://www.edureka.co/blog/mongodb-the-database-for-big-data-processing/
https://www.guru99.com/what-is-big-data.html