Nhảy đến nội dung

Bài 1. Dữ Liệu Lớn Và Kỹ Sư Dữ Liệu

Một số cụm từ mà có thể lần đầu tiên bạn biết tới. Bạn chỉ cần xem qua, các bài học tới sẽ giải thích đầy đủ. 

  • Data engineer - kỹ sư dữ liệu
  • Data engireering - từ này được các website dịch là "kỹ thuật dữ liệu" nhưng mình thấy nó rất chung không rõ nghĩa, kiểu dịch này giống như ngành chemical engineering được dịch là hoá kỹ thuật, hay kỹ thuật hoá học. Coursera định nghĩa data engineering là hoạt động thiết kế và xây dựng các hệ thống để thu thập, lưu trữ và phân tích dữ liệu ở quy mô lớn. 
  • Data workflow - Nếu từ workflow đứng riêng lẻ thì đó là luồng công việc, còn ghép với data workflow thì đó là dữ liệu đi qua một luồng công việc, nếu để dịch thành một từ ngắn gọn thì mình chưa nghĩ ra nên sẽ để nguyên từ tiếng anh. 
  • Data pipeline - một số website dịch là "đường ống dữ liệu" nghe rất thô, AWS dịch là "quy trình dữ liệu" cũng chưa hay lắm nên mình sẽ vẫn để là data pipeline
  • Data warehouse - kho dữ liệu
  • Data lake - Hồ dữ liệu (nghe rất là mênh mông ^^)
  • Structured data - dữ liệu có cấu trúc (hay phi cấu trúc), cái này khác với kiểu dữ liệu, dữ liệu có cấu trúc là dữ liệu được xắp xếp theo thông tin đã được định dạng.
  • Unstructured data - dữ liệu không có cấu trúc
  • Parallel computing - Tính toán song song
  • Cloud computing - điện toán đám mây 

Tài liệu