Apache Spark’s speed, ease of use, sophisticated analytics, and multilanguage support makes practical knowledge of this cluster-computing framework a required skill for data engineers and data scientists. With this hands-on guide, anyone looking for an introduction to Spark will learn practical algorithms and examples using PySpark.
In each chapter, author Mahmoud Parsian shows you how to solve a data problem with a set of Spark transformations and algorithms. You’ll learn how to tackle problems involving ETL, design patterns, machine learning algorithms, data partitioning, and genomics analysis. Each detailed recipe includes PySpark algorithms using the PySpark driver and shell script.
With this book, you will:
- Learn how to select Spark transformations for optimized solutions
- Explore powerful transformations and reductions including reduceByKey(), combineByKey(), and mapPartitions()
- Understand data partitioning for optimized queries
- Design machine learning algorithms including Naive Bayes, linear regression, and logistic regression
- Build and apply a model using PySpark design patterns
- Apply motif-finding algorithms to graph data
- Analyze graph data by using the GraphFrames API
- Apply PySpark algorithms to clinical and genomics data (such as DNA-Seq)
ترجمه فارسی (ترجمه ماشینی)
سرعت، سهولت استفاده، تجزیه و تحلیل پیچیده و پشتیبانی چند زبانه Apache Spark، دانش عملی این چارچوب محاسباتی خوشهای را برای مهندسان داده و دانشمندان داده به یک مهارت ضروری تبدیل میکند. با استفاده از این راهنمای عملی، هر کسی که به دنبال مقدمهای برای Spark باشد، الگوریتمها و مثالهای عملی را با استفاده از PySpark میآموزد.
در هر فصل، نویسنده محمود پارسیان به شما نشان میدهد که چگونه یک مشکل داده را با مجموعهای از Spark حل کنید. تبدیل ها و الگوریتم ها شما یاد خواهید گرفت که چگونه با مشکلات مربوط به ETL، الگوهای طراحی، الگوریتم های یادگیری ماشین، پارتیشن بندی داده ها و تجزیه و تحلیل ژنومیک مقابله کنید. هر دستور العمل دقیق شامل الگوریتمهای PySpark با استفاده از درایور PySpark و اسکریپت پوسته است.
با این کتاب، میتوانید:
- چگونگی انتخاب تبدیلهای Spark را برای راهحلهای بهینهشده بیاموزید
- تحولات و کاهشهای قدرتمند از جمله ()reducByKey()، combinationByKey() و mapPartitions()
- درک پارتیشن بندی دادهها برای جستارهای بهینه شده
- طراحی الگوریتمهای یادگیری ماشین از جمله Naive Bayes، رگرسیون خطی و رگرسیون لجستیک
- ساخت و اعمال یک مدل با استفاده از الگوهای طراحی PySpark
- استفاده از الگوریتم های موتیف یاب در داده های نمودار
- تجزیه و تحلیل داده های نمودار با استفاده از GraphFrames API
- استفاده از الگوریتم های PySpark برای داده های بالینی و ژنومیک (مانند DNA-Seq)
نقد و بررسیها
هنوز بررسیای ثبت نشده است.