Khóa học Big Data Spark

 

Big Data là gì?

Dữ liệu được ví như loại "Dầu mỏ" của nền kinh tế số. Sự phát triển của Big Data thúc đẩy sự phát triển của xã hội thông qua việc lưu trữ, xử lý lượng lớn dữ liệu mà các hệ thống truyền thống không thể làm được.

Big Data trên thực tế đang được ứng dụng vào rất nhiều lĩnh vực của nền kinh tế, tạo những chuyển biến ấn tượng, giúp tăng hiệu quả và năng suất của doanh nghiệp.

Big Data được mô tả bởi những đặc trưng sau (5V):

  •  Velocity (Tốc độ)
  •  Volume (Khối lượng)
  •  Variety (Tính đa dạng)
  •  Veracity (Độ tin cậy)
  •  Value (Giá trị)

Lý do nên học nên học lộ trình Big Data?

  • Big Data được sử dụng trong mọi ngành công nghiệp
  • Nâng cao kỹ năng
  • Tạo lợi thế cạnh tranh
  • Cơ hội nghề nghiệp tốt hơn
  • Tăng trưởng theo cấp số nhân của thị trường Big Data

Đối tượng tham gia

  • Người đang công tác trong các lĩnh vực liên quan đến phân tích, xử lý dữ liệu lớn.
  • Người đang thiết kế, xây dựng các hệ thống lưu trữ xử lý dữ liệu truyền thống và muốn chuyển sang Big Data
  • Sinh viên muốn tìm hiểu thêm về Big Data cho định hướng công việc trong tương lai.
  • Các bạn đam mê công nghệ.

Khóa học Lộ trình Big Data tại Techmaster Việt Nam

Mô tả khóa học:

  • Khóa học Big Data có giáo trình online bổ trợ bao gồm mã nguồn, lý thuyết và video
  • Chương trình cập nhật mới nhất

Điểm nổi bật của khóa học 

  • Lớp học tối đa từ 12-16 học viên để đảm bảo chất lượng học tập và giảng dạy tốt nhất
  • Lớp học nhỏ do đó giảng viên có thể code cùng sinh viên
  • Chấm, chữa bài, code camp thường xuyên

 

Giáo trình
0. Giới thiệu về Big Data, lập trình Python.
  • Giới thiệu Python.
  • Làm quen với Anaconda, cài đặt và chạy code trên command line và jupyter notebook.
  • Python Structures: List, Tuple, Dictionary, Set và các phương thức của mỗi loại.
  • Cấu trúc điều khiển: If-else, loop
  • String, datetime trong Python.
  • Lambda functions trong Python.
  • Khai báo và sử dụng hàm.
  • Download và cài đặt Anaconda
  • Python Hello World với command-line và jupyter notebook.
  • Lưu trữ và truy xuất dữ liệu dạng bảng (sử dụng List và Dictionary).
1. Các công nghệ Big Data và nền tảng DataBricks.
  • Giới thiệu về lưu trữ và xử lý dữ liệu lớn, sử dụng Hadoop Ecosystem (Hdfs, Spark).
  • Big data khác gì với xử lý Data thông thường.
  • Giới thiệu về Apache Spark: Kiến trúc, và các khái niệm quan trọng (Spark Session, Executors, Driver).
  • Spark essentials: Partitions, Lazy evaluation.
  • Tổng quan các module trong Apache Spark: Spark Core, SQL, Streaming, MLlib, GraphX.
  • Giới thiệu nền tảng DataBricks cho việc xử lý dữ liệu sử dụng Apache Spark.
  • Tương quan giữa Spark và CSDL quan hệ.
  • Tạo tài khoản trên DataBricks Community.
  • Tạo và quản lý clusters, notebooks.
  • Tương tác với file thông qua dbfs: Download, upload file.
  • Cài đặt thư viện trên môi trường DataBricks Community
  • Thực hành sử dụng python lambda functions cơ bản: map, filter, sort.
2. DataFrames, DataSet và các operations.
  • Giới thiệu về DataFrame (DF), DataSet (DS), Schemas và Types
  • So sánh DF và DS.
  • Actions/ Transformations trong Spark.
  • Cơ chế Lazy Evaluation.
  • Các actions/ functions quan trọng:
  • printSchema
  • show, limit
  • count
  • write
  • Định dạng dữ liệu Row based: text, csv, json
  • Tạo DF, DS từ list.
  • Sử dụng Data Frame reader để đọc CSV, Json với nhiều options
  • Tương tác với DF, DS: count, printSchema, show, limit…
3. Làm việc với dữ liệu có cấu trúc.
  • Các kiểu dữ liệu nhị nhân trong Spark: Parquet, Avro, Orc
  • Đọc dữ liệu từ RDBMS (mySQL, OracleDB...)
  • Đối tượng Column trong DataFrame.
  • Các transformation quan trọng:
  • Select
  • Filter
  • Map
  • Join
  • Sort
  • Ghi dữ liệu sử dụng Data Frame Writer.
  • Ghi dữ liệu thành Partition theo category
  • Đọc các định dạng dữ liệu: Parquet, Avro, Orc.
  • Thực hành các Transformations trên DataFrame:
  • Select: Truy vấn 1 số trường trong 1 bảng.
  • Filter: Lọc dữ liệu theo 1 số điều kiện nhất định.
  • Map: Biến đổi dữ liệu theo 1 hàm tùy biến.
  • Join: Innter, Left, Outer join 2 DataFrame.
  • Ghi Data Frame thành các định dạng text và binary.
  • Ghi dữ liệu có chia partitions, sub-partitions.
4. Tổng hợp dữ liệu với Spark SQL API: Built-in Functions.
  • Aggregate functions: sum, min, max, avg...
  • Date time functions: Thao tác với dữ liệu thời gian.
  • String functions: Thao tác với dữ liệu String.
  • Xử lý dữ liệu Null.
  • Tính lương trung bình của 1 tập dữ liệu nhân viên theo giới tính.
  • Lấy top 10 nhân viên có lương cao nhất, thấp nhất.
  • Tính thâm niên của các nhân viên.
  • Chuẩn hóa số điện thoại của tập nhân viên.
  • Fill dữ liệu mặc định vào tập dữ liệu có các trường null.
5. Tương tác với Spark SQL thông qua SQL query.
  • Giới thiệu về Spark SQL Engine.
  • Spark Catalog.
  • Kết hợp giữa Spark SQL Engine và Spark SQL API.
  • SQL Query, subquery và nested query.
  • Sử dụng Built-in functions trong SQL Query.
  • Tạo 1 báo cáo theo yêu cầu nghiệp vụ, có sử dụng kết hợp cả SQL Engine và SQL API.
  • Join 2 nguồn dữ liệu khác nhau (1 từ DB, 1 từ file csv).
  • Lọc dữ liệu theo điều kiện.
  • Nhóm dữ liệu theo nghiệp vụ.
  • Xuất báo cáo thành file CSV.
6. Spark UI, cách xem thông tin về task, job, stage.
  • Giải thích các khái niệm về task, job, stage trong Spark.
  • Persistence trong Spark.
  • Các cấu hình Spark quan trọng.
  • Hướng dẫn xem các thông tin về việc thực thi thông qua Spark UI.
  • Tạo 1 báo cáo theo yêu cầu, sau đó dựa vào thông tin từ Spark UI để tối ưu code thực thi.
7. Cài đặt Spark.
  • Các mode triển khai Spark Application.
  • Cài đặt và chạy chương trình Spark trên Windows, Ubuntu, MacOS
  • Spark-shell tips.
  • Tự cài đặt, cấu hình và chạy Spark trên máy local.
  • ết nối Jupyter notebook với Spark.
  • Setup project Spark với IDE
8. Xử lý luồng dữ liệu.
  • Bản chất luồng dữ liệu.
  • Streaming concept: Cách xử lý dữ liệu dạng stream.
  • Giới thiệu Apache Spark Structured Streaming.
  • Giả lập luồng dữ liệu.
  • Xây dựng ứng dụng đọc và xử lý luồng dữ liệu sử dụng Socket Data source.
  • Tương tác giữa luồng dữ liệu với dữ liệu tĩnh.
9. Machine Learning với Spark MLlib
  • Machine Learning là gì?
  • Các kỹ thuật Machine learning phổ biến.
  • Giới thiệu Spark MLlib.
  • Sử dụng kết hợp Spark SQL, với MLlib để xây dựng mô hình.
  • Thực hiện xây dựng Classification Model qua các bước:
  • Clean Data
  • Feature Engineering
  • Model Training
  • Model Evaluation
Gói học phí
Bạn có thắc mắc
Nhận hỗ trợ
Để lại thông tin, chúng tôi sẽ liên hệ với bạn
Đóng trọn gói
5000000đ
Học viên hoàn thành học phí trong một lần