Title: Data Science using R and RStudio: Basic R Programming, Data Visualization, and Data Wrangling
Author: สุทธิพงษ์ มีใย
Published: นครราชสีมา : มหาวิทยาลัยเทคโนโลยีสุรนารี, 2567
สาระสังเขป
ตำราเรียนรู้วิทยาศาสตร์ข้อมูลด้วยโปรแกรม R และ RStudio: พื้นฐานการโปรแกรมภาษา R การสร้างภาพข้อมูล และการทำความสะอาดข้อมูล (Data Science using R and RStudio: Basic R Programming, Data Visualization and Data Wrangling) เล่มนี้ ผู้เขียนจัดทำขึ้นเพื่อใช้เป็นส่วนหนึ่งในเอกสารประกอบการเรียนวิชา ENG22 3015 การเรียนรู้ของเครื่องและการวิเคราะห์ข้อมูล (Machine Learning and Data Analysis) สำหรับนักศึกษาสาขาวิชาวิศวกรรมขนส่ง สำนักวิชาวิศวกรรมศาสตร์ มหาวิทยาลัยเทคโนโลยีสุรนารี ตำราเล่มนี้รวบรวมจากประสบการณ์สอนในห้องปฏิบัติการคอมพิวเตอร์ ข้อมูลจากหลายแหล่ง รวมทั้งข้อมูลความต้องการใช้งานของสถานประกอบการ เพื่อให้ตรงตามวัตถุประสงค์รายวิชา และนำไปใช้ในการวิเคราะห์ข้อมูลสำหรับงานขนส่งและโลจิสติกส์ และงานด้านวิทยาศาสตร์ข้อมูล (Data science) ที่กำลังเป็นที่นิยมในปัจจุบัน
ในขณะที่เขียนตำราเล่มนี้มีเอกสาร/หนังสือภาษาไทยที่เน้นเรื่องการสร้างภาพข้อมูลอยู่น้อยมาก โดยเฉพาะการทำความสะอาดข้อมูลไม่มีหนังสือที่กล่าวถึงเรื่องนี้โดยเฉพาะ ดังนั้นตำราเล่มนี้นอกจากจะปูพื้นฐานการใช้โปรแกรมภาษา R (Basic R programming) แล้วยังเน้นให้นักศึกษา/ผู้อ่านมีความรู้ความเข้าใจการสร้างภาพข้อมูล (Data visualization) โดยเฉพาะการทำความสะอาดข้อมูล (Data wrangling) ซึ่งขั้นตอนดังกล่าวใช้เวลาถึงร้อยละ 80 ของเวลาการทำงานทั้งหมด (Andrews, 2021) ซึ่งจะช่วยให้การทำงานมีประสิทธิภาพมากขึ้น ช่วยลดเวลาการทำงานในขั้นตอนดังกล่าวได้มาก เนื้อหาในเอกสารฉบับนี้ไม่ได้เน้นการใช้ R กับงานวิเคราะห์ทางด้านสถิติ (Statistics) หรือแบบจำลอง Machine Learning ผู้ที่สนใจสามารถศึกษาได้ในเอกสารอื่นที่เกี่ยวข้องได้
เนื้อหาแบ่งออกเป็น 3 ส่วน ได้แก่
ส่วนที่ 1 พื้นฐานการโปรแกรมภาษา R (Basic R Programming) ประกอบด้วย (1) บทนำ (Introduction) (2) เวกเตอร์ (Vectors) เมทริกซ์ (Matrixes) และอาร์เรย์ (Arrays) (3) ลิสต์ (Lists) เดต้าเฟรม (data.frame) และเดต้าเทเบิ้ล (data.table) (4) ข้อมูลที่ไม่ใช่ตัวเลข (Non-Numeric data types) ค่าเฉพาะ (Special values) คลาส (Class) และการแปลงชนิดข้อมูล (Coercion) (5) การพล็อตเบื้องต้น (Basic plotting) ไฟล์ (Files) และชุดข้อมูลสำหรับโปรแกรม R (6) การโปรแกรมเบื้องต้น (7) R Markdown และ R Notebook
ส่วนที่ 2 การสร้างภาพข้อมูล (Data Visualization) ประกอบด้วย (8) ggplot2 เบื้องต้น (9) การพล็อตกราฟ 1 ตัวแปร (X): ตัวแปรต่อเนื่อง หรือตัวแปรแบ่งกลุ่ม (10) การพล็อตกราฟ 2 ตัวแปร (X and Y): ตัวแปรต่อเนื่อง หรือตัวแปรแบ่งกลุ่ม (11) การพล็อตกราฟ 2 ตัวแปร (X and Y): X ตัวแปรแบ่งกลุ่ม และ Y ตัวแปรต่อเนื่อง (12) พารามิเตอร์ต่าง ๆ ในกราฟ (Graphical Parameters) (13) ส่วนขยายของ ggplot2 (Extensions of ggplot2)
ส่วนที่ 3 การทำความสะอาดข้อมูล (Data Wrangling) ประกอบด้วย (14) โครงสร้างข้อมูลแบบ tibble และเดต้าเฟรม (data.frame) (15) การจัดการข้อมูลด้วยแพ็กเกจ tidyr (16) การจัดการข้อมูลด้วยแพ็กเกจ dplyr (17) การนำเข้าข้อมูลด้วยแพ็กเกจ readr และ readxl (18) การจัดการข้อความ (Strings) ด้วยแพ็กเกจ stringr (19) การจัดการแฟกเตอร์ (Factors) ด้วยแพ็กเกจ forcats (20) การจัดการวันและเวลาด้วยแพ็กเกจ lubridate (21) การวนลูปด้วยแพ็กเกจ purr