Techmaster cần xây dựng giáo trình trực tuyến và đào tạo khoá học phòng lab Big Data, Hadoop, Spark sử dụng Python. Thời lượng 14 buổi thực hành x 3 tiếng phòng lab. Anh chị em nào đã làm Big Data có kinh nghiệm, có thời gian làm giáo trình, yêu thích chia sẻ kinh nghiệm thì liên hệ cuong@techmaster.vn, 0902209011

Đầu vào sinh viên đã biết lập trình Python căn bản và viết câu lệnh SQL Query.

Mục tiêu khoá học

  • Dẫn dắt sinh viên qua những ví dụ BigData từ đơn giản đến phức tạp
  • Thực hành triển khai dự án BigData từ mô hình một điểm (single node) đến đa điểm (multiple nodes)
  • Làm quen dịch vụ lưu trữ xử lý BigData trên DataBricks.com
  • Đọc dữ liệu từ nhiều loại file 

Yêu cầu giáo trình

  • PowerPoint slide chi tiết cho từng buổi học, chia thành các Hand On Lab
  • Mã nguồn đẩy lên github
  • Video FullHD, nén định đạng H264 ghi lại các phần lập trình thực tế. Techmaster sẽ hướng dẫn kỹ năng thu hình bài giảng

Thù lao

  • Trả phí bản quyền cho công đoạn xây dựng giáo trình trực tuyến và chia % khi có doanh thu bán khoá học trực tuyến 
  • Trả thù lao cho mỗi buổi giảng dạy phòng lab.
  • Techmaster luôn là công ty trả thù lao giảng dạy tốt nhất tại Hà nội

Mẫu chương trình đào tạo Big Data, Spark, DataBrick, Python

Phần 01: Giới thiệu về Data Science, lập trình Python
    Cài đặt Python trên Mac OSX, Ubuntu, Windows
    Chạy Python từ command line
    Cài đặt Anaconda, Virtual Environment    
    Sử dụng Jupyter Note Book
    Python khác gì so với Java
    Khai báo hàm
    Cấu trúc điều khiển if then else, for loop
    String và nhóm hàm, phương thức liên quan đến String
    Datetime và nhóm các hàm, phương thức liên quan
    Cấu trúc dữ liệu List, Tuple, Dictionary, Set
    Lập trình hướng đối tượng

Phần 02: Bài toán Big Data, Spark, Hadoop
    Các bài toán Big Data
    Big Data khác gì với Data thông thường
    Kiến trúc Spark
    Giới thiệu dịch vụ đám mây Databricks.com
    Chu trình xử lý từ dữ liệu thô đến thông tin hữu ích
    Các thành phần căn bản của Spark:
        - Data Frame, Data Set, Schema
        - Column, Row, Operation
    Tương quan giữa Spark và CSDL quan hệ    

Phần 03: Cài đặt Spark
    Cài đặt Spark trực tiếp trên local
    Sử dụng DataBricks Community Edition, miễn phí
    Cài đặt Docker, cú pháp căn bản Docker
    Cài đặt Spark trên Docker
    Cài đặt Spark multi notes với Docker Swarm

    Chạy ứng dụng với PySpark
    Sử dụng Jupyter NoteBook kết nối vào Spark

Phần 04: Đọc dữ liệu từ file vào Spark
    Structure Type - Structure Field
    Đọc từ file CSV
    Đọc từ file JSON
    Đọc từ file XML
    Đọc từ file Avro
    Đọc từ file Parquet

Phần 05: Thao tác cơ bản
    In ra cấu trúc dữ liệu - print schema
    Thao tác trên cột - Colums
    Thao tác trên hàng - Rows
    Thêm / bớt hàng - cột
    Giới hạn dữ liệu - show, limit
    Sắp xếp dữ liệu - sort
    Lọc dữ liệu - where, filter

Phần 06: Vẽ đồ thị Matplotlib - Seaborn
    Cài đặt MaplotLib, Seaborn
    Các loại đồ thị: Line, bar, scatter, stack, pie...

Phần 07: Đọc từ CSDL quan hệ
    Đọc dữ liệu từ MySQL / Postgresql
    Lọc dữ liệu bằng WHERE
    Liên kết dữ liệu bằng JOIN
    Phân vùng (partition) dữ liệu

Phần 08: Spark SQL
    Apache Hive
    Spark SQL CLI
    Catalog
    Table
    Sắp xếp - sort
    Lọc - Filter
    Liên kết - Join
    Phân nhóm - Group By
    Tổng hợp - Aggregate: Sum, Count, Average, Mean
    Views: local and global view
    Select Statements: case ... when ... then
    Complex Type
    Function
    Subqueries

Phần 09: Xử lý luồng dữ liệu
    Bản chất data stream
    Giả lập luồng dữ liệu
    Xử lý luồng dữ liệu

Phần 10: Machine Learning với MLlib
    Ví dụ Linear Regression
    Ví dụ Logistic Regression
    Ví dụ K-Means Clustering