Techmaster cần xây dựng giáo trình trực tuyến và đào tạo khoá học phòng lab Big Data, Hadoop, Spark sử dụng Python. Thời lượng 14 buổi thực hành x 3 tiếng phòng lab. Anh chị em nào đã làm Big Data có kinh nghiệm, có thời gian làm giáo trình, yêu thích chia sẻ kinh nghiệm thì liên hệ cuong@techmaster.vn, 0902209011
Đầu vào sinh viên đã biết lập trình Python căn bản và viết câu lệnh SQL Query.
Mục tiêu khoá học
- Dẫn dắt sinh viên qua những ví dụ BigData từ đơn giản đến phức tạp
- Thực hành triển khai dự án BigData từ mô hình một điểm (single node) đến đa điểm (multiple nodes)
- Làm quen dịch vụ lưu trữ xử lý BigData trên DataBricks.com
- Đọc dữ liệu từ nhiều loại file
Yêu cầu giáo trình
- PowerPoint slide chi tiết cho từng buổi học, chia thành các Hand On Lab
- Mã nguồn đẩy lên github
- Video FullHD, nén định đạng H264 ghi lại các phần lập trình thực tế. Techmaster sẽ hướng dẫn kỹ năng thu hình bài giảng
Thù lao
- Trả phí bản quyền cho công đoạn xây dựng giáo trình trực tuyến và chia % khi có doanh thu bán khoá học trực tuyến
- Trả thù lao cho mỗi buổi giảng dạy phòng lab.
- Techmaster luôn là công ty trả thù lao giảng dạy tốt nhất tại Hà nội
Mẫu chương trình đào tạo Big Data, Spark, DataBrick, Python
Phần 01: Giới thiệu về Data Science, lập trình Python
Cài đặt Python trên Mac OSX, Ubuntu, Windows
Chạy Python từ command line
Cài đặt Anaconda, Virtual Environment
Sử dụng Jupyter Note Book
Python khác gì so với Java
Khai báo hàm
Cấu trúc điều khiển if then else, for loop
String và nhóm hàm, phương thức liên quan đến String
Datetime và nhóm các hàm, phương thức liên quan
Cấu trúc dữ liệu List, Tuple, Dictionary, Set
Lập trình hướng đối tượng
Phần 02: Bài toán Big Data, Spark, Hadoop
Các bài toán Big Data
Big Data khác gì với Data thông thường
Kiến trúc Spark
Giới thiệu dịch vụ đám mây Databricks.com
Chu trình xử lý từ dữ liệu thô đến thông tin hữu ích
Các thành phần căn bản của Spark:
- Data Frame, Data Set, Schema
- Column, Row, Operation
Tương quan giữa Spark và CSDL quan hệ
Phần 03: Cài đặt Spark
Cài đặt Spark trực tiếp trên local
Sử dụng DataBricks Community Edition, miễn phí
Cài đặt Docker, cú pháp căn bản Docker
Cài đặt Spark trên Docker
Cài đặt Spark multi notes với Docker Swarm
Chạy ứng dụng với PySpark
Sử dụng Jupyter NoteBook kết nối vào Spark
Phần 04: Đọc dữ liệu từ file vào Spark
Structure Type - Structure Field
Đọc từ file CSV
Đọc từ file JSON
Đọc từ file XML
Đọc từ file Avro
Đọc từ file Parquet
Phần 05: Thao tác cơ bản
In ra cấu trúc dữ liệu - print schema
Thao tác trên cột - Colums
Thao tác trên hàng - Rows
Thêm / bớt hàng - cột
Giới hạn dữ liệu - show, limit
Sắp xếp dữ liệu - sort
Lọc dữ liệu - where, filter
Phần 06: Vẽ đồ thị Matplotlib - Seaborn
Cài đặt MaplotLib, Seaborn
Các loại đồ thị: Line, bar, scatter, stack, pie...
Phần 07: Đọc từ CSDL quan hệ
Đọc dữ liệu từ MySQL / Postgresql
Lọc dữ liệu bằng WHERE
Liên kết dữ liệu bằng JOIN
Phân vùng (partition) dữ liệu
Phần 08: Spark SQL
Apache Hive
Spark SQL CLI
Catalog
Table
Sắp xếp - sort
Lọc - Filter
Liên kết - Join
Phân nhóm - Group By
Tổng hợp - Aggregate: Sum, Count, Average, Mean
Views: local and global view
Select Statements: case ... when ... then
Complex Type
Function
Subqueries
Phần 09: Xử lý luồng dữ liệu
Bản chất data stream
Giả lập luồng dữ liệu
Xử lý luồng dữ liệu
Phần 10: Machine Learning với MLlib
Ví dụ Linear Regression
Ví dụ Logistic Regression
Ví dụ K-Means Clustering
Bình luận