Tìm hiểu và Cài đặt Apache Spark 2.3.0 trên windows 10 - TrungThieniT.COM

HOT

Home Top Ad

Post Top Ad

Thứ Tư, 11 tháng 4, 2018

Tìm hiểu và Cài đặt Apache Spark 2.3.0 trên windows 10

Tìm hiểu và Cài đặt Apache Spark 2.3.0 trên windows 10

I. Apache Spark là gì?

Apache Spark là một nền tảng tính toán theo cluster mã nguồn mở, được phát triển lần đầu tiên tại AMPLab thuộc đại học California, Berkeley vào năm 2009. Sau này, vào năm 2013, Spark được trao lại cho Apache Software Foundation và phát triển đến ngày nay. Một trong những đặt tính nổi bật nhất của Spark là tốc độ xử lý, do Spark xử lý data hoàn toàn trên bộ nhớ (in – memory processing), ngoài ra có thể kể thêm một số tính năng khác như:

Spark Streaming.
Machine Learning and Graph.
Spark SQL/DataFrame API.
Spark’s integration with Hadoop.
Tìm hiểu và Cài đặt Apache Spark 2.3.0 trên windows 10
II. Cài đặt Spark trên Wondows 10:

1.      Chuẩn bị
-      Phần mềm jdk-8u162-windows-x64.
-      Phần mềm scala-SDK-4.7.0.
-      Phần mềm spark-2.3.0.
-      Phần mềm winutils hadoop-2.6.0.

2.      Tải phần mềm và cài đặt
2.1.  Phần mềm jdk-8u162-windows-x64
Đầu tiên bạn vào google.com, sau đó gõ jdk như hình dưới. bạn chọn java SE Development Kit 8
Cài đặt Apache Spark 2.3.0 trên windows 10

Hình 2.1.1 Tải phần mềm JDK java cho Apache Spark

Sau đó bạn kéo xuống tới phần  Java SE Development Kit 8u162 Demos and Samples Downloads và chọn Accept License Agreement, ở đây có rất nhiều Hệ điều hành cho bạn lựa chọn, nhưng ở đây mình đang dùng windows 10 phiên bản x64 nên mình tải windows 10 x64  như hình 2.1.1 bên dưới.
Hình 2.1.2 Tải jdk-8u162-windows-x64 cho Apache Spark

               Chạy file java bằng quyền Administrator như hình. 2.1.2
Hình 2.1.3 cài đặt java SE Development Kit 8

Lần lượt bấm Next tới phần đường dẫn file java chọn như hình. 
Hình 2.1.3 cài đặt java JDK
Tiếp theo cài đặt JRE như hình 2.1.4
Hình 2.1.4 cài đặt java JRE
Sau khi cài đặt xong, nhấn close, quá trình cài đặt JAVA kết thúc.

2.2 Phần mềm scala-SDK-4.7.0.
Đầu tiên bạn vào google.com, sau đó gõ scala-SDK-4.7.0  như hình dưới. bạn chọn dòng đầu tiên như hình 2.2.1 
Hình 2.2.1 Tải phần mềm scala-SDK-4.7.0
Trang mới hiện ra, chọn phần Windows 64 bit như hình 2.2.2

Hình 2.2.2 Tải scala-SDK-4.7.0 cho windows 10
Sau khi tải xong về, giải nén ra được thư mục scala-SDK-4.7.0-vfinal-2.12 win32.win32.x86_64, vào thư mục này sẽ có thư mục eclipse, copy eclipse này vào đường dẫn ổ C:\eclipse.

2.3 Phần mềm spark-2.3.0.
Đầu tiên bạn vào google.com, sau đó gõ spack 2.3.0  như hình dưới. bạn chọn dòng đầu tiên như hình 2.3.1 
Hình 2.3.1 Tải spack 2.3.0 cho Apache Spark
Sau khi vào trang Spark, kéo xuống thấy phần Download Spark như hình 2.3.2, các bạn click vào để tải file Spark
Hình 2.3.2 Tải spack 2.3.0 cho Apache Spark
Tới phần này rất quan trọng, các bạn chú ý, bình thường mặc định của nó là Pre-built for Apache Hadoop 2.7, nhưng do phiên bản này cao hơn trong quá trình mình cấu hình nên mình sẽ chọn bản thấp hơn là Pre-built for Apache Hadoop 2.6 như hình 2.3.3

 Hình 2.3.3 Tải spack 2.3.0 Pre-built for Apache Hadoop 2.6

Sau khi tải Spark 2.3.0 về, giải nén và copy thư mục Spack 2.3.0 vào đường dẩn ổ C:\Spark-2.3.0

         2.4 Phần mềm winutils hadoop-2.6.0.
Đầu tiên bạn vào google.com, sau đó gõ Winutils/hadoop-2.6.0 như hình dưới. bạn chọn dòng đầu tiên như hình 2.4.1 
Hình 2.4.1 Tải Winutils/hadoop-2.6.0 cho Apache Spark


Sau đó các bạn kéo xuống và tìm dòng winutils.exe hoặc cách nhanh hơn là bấm phím F3 ( Ctrl + F ) rồi gõ vào winutils, giống như hình 2.4.2
Hình 2.4.2 Tải Winutils.exe cho Apache Spark


Lưu ý: Tạo thư mục cho winutils như hình 2.4.3
Sau đó copy vào đường dẩn ổ C:\winutils

3.      Cấu hình Apache Spark
-      Đầu tiên bấm nút windows + R, nhập lệnh sysdm.cpl .sẽ hiện ra bảng như hình 3.1
-      Chọn tab Advanced à Environment Variables
Hình 3.1. Bảng nhập lệnh cơ bản của phần mềm

-      Tại Tab User variables for user ( Tên máy tính của bạn ) , chọn new --> thêm các lần lượt chức năng sau.

- HADOOP_HOME / C:\winutils
- JAVA_HOME  /  C:\Program Files\Java\jdk1.8.0_162
- SPARK_HOME /  C:\spark-2.3.0

Hình 3.1.2 Kết quả nhập 3 chức năng
- Tiếp theo tại Tab User variables for user, chọn path  Edit và thêm 2 mục chức năng sau như hình 3.1.3 
 %JAVA_HOME%\bin
%HADOOP_HOME%\bin
Hình 3.1.3 Thêm 2 chức năng vào path

Xong, đóng tất cả lại, Sau đó, click OK, Click tiếp OK ở của sổ Environment Variables. Sau đó mở của sổ Command Prompt lên gõ java -version xem coi nó chạy không, nêu chạy ra như hình là ổn.


- Tiếp theo mở Command Prompt lên nhập:
+ Cd c:/spark-2.3.0
+ Cd bin
+ Spark-shell


Nếu kết quả chạy như hình là ổn, còn không ra nên xem lại cách bước trên xem có thiếu gì không

- Tiếp theo nhập code:
val textFile = sc.textFile("c:/spark-2.3.0/README.md")

textFile.count()

- Tiếp theo mở bảng cmd lên nhập code:
cd c:\spark-2.3.0\bin
spark-class org.apache.spark.deploy.master.Master
Kết quả như hình dưới. 

- Vào trình duyệt gõ: localhost:8080 và thấy chưa có dữ liệu

- Tiếp theo mở bảng cmd lên nhập code:
cd c:\spark-2.3.0\bin
spark-class org.apache.spark.deploy.worker.Worker spark://127.0.0.1:7077
Kết quả như hình dưới. 

- Vào trình duyệt xem lại: localhost:8080.  Kết quả như hình dưới.

Đã có dữ liệu up lên localhost rồi, bây giờ up tiếp theo nhé.
Tiếp theo mở bảng cmd lên nhập code:
cd c:\spark-2.3.0\bin
spark-shell --master spark://127.0.0.1:7077
Kết quả như hình dưới. 

Nhập code tiếp theo.
val textFile = sc.textFile("c:\\spark-2.3.0\\README.md")
textFile.count()
textFile.first()
val linesWithSpark = textFile.filter(line => line.contains("Spark"))
textFile.filter(line => line.contains("Spark")).count()


- Vào trình duyệt xem lại: localhost:8080.  Kết quả như hình dưới.

- Và đây là quá trình phân tích được dữ liệu khi dung Apache Spark
Nhấp vào app-20180412111514-0000  trong Application ID, chọn Application Detail UI, được thông tin như bảng sau: 
3 dòng này cho thấy công việc phân tích dữ liệu đã hoàn thành

Còn đây là hiển thị các chỉ số bổ sung bao gồm: 
- Thời lượng
- Lập trình chậm
- Thời gian Deserialization Task
- Thời gian GC
- Thời gian Kết quả Kết quả
- Bắt thời gian kết quả
- Đỉnh thực hiện bộ nhớ
- Kích thước đầu vào / hồ sơ

Còn đây là Các giai đoạn cho Tất cả Việc làm

Còn đây là môi trường xử lí của Apavhe Spark bao gồm:
- Thông tin Thời gian chạy
- Thuộc tính Spark
- Thuộc tính Hệ thống
- Các lớp của Spark

Còn đây là Tab thông tin người thực hiện, hay còn gọi là tác giả của bải Lab này.
Hết, trên đây là các bước cài đặt và cấu hình Apache Spark phiên bản 2.3.0 tren nền tản windows 10. hy vọng sẽ giúp các bạn làm được giống mình trong thời gian sắp tới. 


Tác giả: Nguyễn Trung Thiện

Bài viết:  13h:20 PM 12/04/2018



Không có nhận xét nào:

Đăng nhận xét

Post Bottom Ad