<em id="pn7p8"><acronym id="pn7p8"><u id="pn7p8"></u></acronym></em>

    <th id="pn7p8"></th>

    <button id="pn7p8"></button>

      <dd id="pn7p8"></dd>
      <progress id="pn7p8"><track id="pn7p8"></track></progress>

      Linux培訓
      達內IT學院

      400-111-8989

      Spark和Hadoop作業之間的區別

      • 發布:Linux培訓
      • 來源:網絡
      • 時間:2015-07-03 21:00

      Spark目前被越來越多的企業使用,和Hadoop一樣,Spark也是以作業的形式向集群提交任務,那么在內部實現Spark和Hadoop作業模型都一樣嗎?答案是不對的。

      熟悉Hadoop的人應該都知道,用戶先編寫好一個程序,我們稱為Mapreduce程序,一個Mapreduce程序就是一個Job,而一個Job里面可以有一個或多個Task,Task又可以區分為Map Task和Reduce Task,如下圖所示:

      如果想及時了解Spark、Hadoop或者Hbase相關的文章,歡迎關注微信公共帳號:iteblog_hadoop

      而在Spark中,也有Job概念,但是這里的Job和Mapreduce中的Job不一樣,它不是作業的最高級別的粒度,在它只上還有Application的概念。我們先來看看Spark文檔是怎么定義Application,Task ,Job和Stage的:

      Application:User program built on Spark. Consists of a driver program and executors on the cluster.

      Task:A unit of work that will be sent to one executor

      Job:A parallel computation consisting of multiple tasks that gets spawned in response to a Spark action (e.g. save, collect); you'll see this term used in the driver's logs.

      Stage:Each job gets divided into smaller sets of tasks called stages that depend on each other (similar to the map and reduce stages in MapReduce); you'll see this term used in the driver's logs.

      一個Application和一個SparkContext相關聯,每個Application中可以有一個或多個Job,可以并行或者串行運行Job。Spark中的一個Action可以觸發一個Job的運行。在Job里面又包含了多個Stage,Stage是以Shuffle進行劃分的。在Stage中又包含了多個Task,多個Task構成了Task Set。他們之間的關系如下圖所示:

      如果想及時了解Spark、Hadoop或者Hbase相關的文章,歡迎關注微信公共帳號:iteblog_hadoop

      Mapreduce中的每個Task分別在自己的進程中運行,當該Task運行完的時候,該進程也就結束了。和Mapreduce不一樣的是,Spark中多個Task可以運行在一個進程里面,而且這個進程的生命周期和Application一樣,即使沒有Job在運行。

      這個模型有什么好處呢?可以加快Spark的運行速度!Tasks可以快速地啟動,并且處理內存中的數據。但是這個模型有的缺點就是粗粒度的資源管理,每個Application擁有固定數量的executor和固定數量的內存。

      預約申請免費試聽課

      填寫下面表單即可預約申請免費試聽!怕錢不夠?可就業掙錢后再付學費! 怕學不會?助教全程陪讀,隨時解惑!擔心就業?一地學習,可全國推薦就業!

      上一篇:重大新聞:Hadoop 2.6.0發布
      下一篇:Spark on YARN客戶端模式作業運行全過程分析

      Hadoop元數據合并異常及解決方法

      Hadoop與Spark常用配置參數總結

      Spark在Yarn上運行Wordcount程序

      Spark和Hadoop作業之間的區別

      • 掃碼領取資料

        回復關鍵字:視頻資料

        免費領取 達內課程視頻學習資料

      • 視頻學習QQ群

        添加QQ群:1143617948

        免費領取達內課程視頻學習資料

      Copyright ? 2021 Tedu.cn All Rights Reserved 京ICP備08000853號-56 京公網安備 11010802029508號 達內時代科技集團有限公司 版權所有

      選擇城市和中心
      黑龍江省

      吉林省

      河北省

      湖南省

      貴州省

      云南省

      廣西省

      海南省

      高清特黄a大片,日本真人真做爰,特级做人爱C级,免费a级毛片 百度 好搜 搜狗
      <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <文本链> <文本链> <文本链> <文本链> <文本链> <文本链>