I. Apache Spark là gì?
Spark Streaming.
Machine Learning and Graph.
Spark SQL/DataFrame API.
Spark’s integration with Hadoop.
II. Cài đặt Spark trên Wondows 10:
1.
Chuẩn bị
- Phần
mềm jdk-8u162-windows-x64.
- Phần
mềm scala-SDK-4.7.0.
- Phần
mềm spark-2.3.0.
- Phần
mềm winutils hadoop-2.6.0.
2.
Tải phần mềm và cài đặt
2.1. Phần
mềm jdk-8u162-windows-x64
Đầu tiên bạn vào google.com, sau đó gõ jdk như hình dưới. bạn chọn java SE
Development Kit 8
Hình 2.1.1 Tải phần mềm JDK java cho
Apache Spark
Sau đó bạn kéo xuống
tới phần Java SE Development Kit 8u162 Demos and Samples Downloads và chọn Accept License Agreement, ở đây có rất
nhiều Hệ điều hành cho bạn lựa chọn, nhưng ở đây mình đang dùng windows 10
phiên bản x64 nên mình tải windows 10
x64 như hình 2.1.1 bên dưới.
Hình 2.1.2 Tải jdk-8u162-windows-x64 cho
Apache Spark
Chạy file java bằng quyền Administrator như hình.
2.1.2
Hình 2.1.3 cài đặt java
SE Development Kit 8
Lần lượt bấm Next tới phần đường dẫn
file java chọn như hình.
Hình 2.1.3 cài
đặt java JDK
Tiếp theo cài đặt JRE như hình 2.1.4
Hình 2.1.4 cài
đặt java JRE
Sau
khi cài đặt xong, nhấn close, quá trình cài đặt JAVA kết thúc.
2.2
Phần mềm scala-SDK-4.7.0.
Đầu tiên bạn vào google.com, sau đó gõ scala-SDK-4.7.0 như hình dưới. bạn chọn dòng đầu tiên như hình
2.2.1
Hình 2.2.1 Tải phần mềm scala-SDK-4.7.0
Trang
mới hiện ra, chọn phần Windows 64 bit như hình 2.2.2
Hình 2.2.2 Tải
scala-SDK-4.7.0 cho windows 10
Sau
khi tải xong về, giải nén ra được thư mục scala-SDK-4.7.0-vfinal-2.12
win32.win32.x86_64, vào thư mục này sẽ có thư mục eclipse, copy eclipse
này vào đường dẫn ổ C:\eclipse.
2.3
Phần mềm spark-2.3.0.
Đầu tiên bạn vào google.com, sau đó gõ spack 2.3.0 như hình dưới. bạn chọn dòng đầu tiên như hình
2.3.1
Hình 2.3.1 Tải spack 2.3.0 cho Apache
Spark
Sau
khi vào trang Spark, kéo xuống thấy phần Download Spark như hình 2.3.2, các bạn
click vào để tải file Spark
Hình 2.3.2 Tải spack 2.3.0 cho Apache
Spark
Tới
phần này rất quan trọng, các bạn chú ý, bình thường mặc định của nó là
Pre-built for Apache Hadoop 2.7, nhưng do phiên bản này cao hơn trong quá trình
mình cấu hình nên mình sẽ chọn bản thấp hơn là Pre-built for Apache Hadoop 2.6
như hình 2.3.3
Sau
khi tải Spark 2.3.0 về, giải nén và copy thư mục Spack 2.3.0 vào đường dẩn ổ C:\Spark-2.3.0
2.4
Phần mềm winutils hadoop-2.6.0.
Đầu tiên bạn vào google.com, sau đó gõ Winutils/hadoop-2.6.0 như hình dưới.
bạn chọn dòng đầu tiên như hình 2.4.1
Hình 2.4.1 Tải Winutils/hadoop-2.6.0 cho
Apache Spark
Sau
đó các bạn kéo xuống và tìm dòng winutils.exe hoặc cách nhanh hơn là bấm phím
F3 ( Ctrl + F ) rồi gõ vào winutils, giống như hình 2.4.2
Hình 2.4.2 Tải Winutils.exe cho Apache Spark
Lưu
ý: Tạo thư mục cho winutils như hình 2.4.3
Sau đó copy vào đường dẩn ổ C:\winutils
3.
Cấu hình Apache Spark
-
Đầu tiên bấm nút windows + R, nhập lệnh sysdm.cpl .sẽ hiện ra bảng như hình 3.1
-
Chọn tab Advanced à Environment Variables
Hình 3.1. Bảng nhập lệnh cơ bản của phần
mềm
- Tại Tab User variables for user ( Tên máy tính của bạn ) , chọn new --> thêm các lần lượt chức năng sau.
- HADOOP_HOME / C:\winutils
- JAVA_HOME /
C:\Program Files\Java\jdk1.8.0_162
- SPARK_HOME / C:\spark-2.3.0
Hình 3.1.2 Kết quả nhập 3 chức năng
- Tiếp theo tại Tab User variables for user, chọn path Edit và thêm 2 mục chức năng sau như hình 3.1.3
%JAVA_HOME%\bin
%HADOOP_HOME%\bin
Hình
3.1.3 Thêm 2 chức năng vào path
Xong,
đóng tất cả lại, Sau đó, click OK, Click tiếp OK ở của sổ Environment
Variables. Sau đó mở của sổ Command Prompt lên gõ java -version xem coi nó chạy
không, nêu chạy ra như hình là ổn.
- Tiếp theo mở Command Prompt lên nhập:
+ Cd c:/spark-2.3.0
+ Cd bin
+ Spark-shell
Nếu kết quả chạy như hình là ổn, còn không ra nên xem lại cách bước trên xem có thiếu gì không
- Tiếp theo nhập code:
val textFile = sc.textFile("c:/spark-2.3.0/README.md")
textFile.count()
- Tiếp theo nhập code:
val textFile = sc.textFile("c:/spark-2.3.0/README.md")
textFile.count()
- Tiếp theo mở bảng cmd lên nhập code:
cd c:\spark-2.3.0\bin
spark-class org.apache.spark.deploy.master.Master
Kết quả như hình dưới.
- Vào trình duyệt gõ: localhost:8080 và thấy chưa có dữ liệu
- Tiếp theo mở bảng cmd lên nhập code:
cd c:\spark-2.3.0\bin
spark-class org.apache.spark.deploy.worker.Worker spark://127.0.0.1:7077
Kết quả như hình dưới.
- Vào trình duyệt xem lại: localhost:8080. Kết quả như hình dưới.
Đã có dữ liệu up lên localhost rồi, bây giờ up tiếp theo nhé.
Tiếp theo mở bảng cmd lên nhập code:
cd c:\spark-2.3.0\bin
spark-shell --master spark://127.0.0.1:7077
Kết quả như hình dưới.
Nhập code tiếp theo.
val textFile = sc.textFile("c:\\spark-2.3.0\\README.md")
textFile.count()
textFile.first()
val linesWithSpark = textFile.filter(line => line.contains("Spark"))
textFile.filter(line => line.contains("Spark")).count()
- Vào trình duyệt xem lại: localhost:8080. Kết quả như hình dưới.
- Và đây là quá trình phân tích được dữ liệu khi dung Apache Spark
Nhấp vào app-20180412111514-0000 trong Application ID, chọn Application Detail UI, được thông tin như bảng sau:
3 dòng này cho thấy công việc phân tích dữ liệu đã hoàn thành
Còn đây là hiển thị các chỉ số bổ sung bao gồm:
- Thời lượng
- Lập trình chậm
- Thời gian Deserialization Task
- Thời gian GC
- Thời gian Kết quả Kết quả
- Bắt thời gian kết quả
- Đỉnh thực hiện bộ nhớ
- Kích thước đầu vào / hồ sơ
Còn đây là Các giai đoạn cho Tất cả Việc
làm
Còn đây là môi trường xử lí của Apavhe Spark bao gồm:
- Thông tin Thời gian chạy
- Thuộc tính Spark
- Thuộc tính Hệ thống
- Các lớp của Spark
Còn đây là Tab thông tin người thực hiện, hay còn gọi là tác giả của bải Lab này.
Hết, trên đây là các bước cài đặt và cấu hình Apache Spark phiên bản 2.3.0 tren nền tản windows 10. hy vọng sẽ giúp các bạn làm được giống mình trong thời gian sắp tới.
Không có nhận xét nào:
Đăng nhận xét