MatsuLab. Lecture Note

ハイパフォーマンスコンピューティング

日時
月曜日 10:45〜12:15(3,4限)
場所
西8号館 832号室
連絡
松岡教授 (Prof. S.Matsuoka) matsu あっと is.
TA 岩渕 (K.Iwabuchi)iwabuchi.k.ab あっと m.titech.ac.jp
メーリングリストに追加しますので、TA岩渕までメールを送ってください。Please email to iwabuchi (TA) in order to add you to the mailing list.

目次

休講予定日 Lecture Cancelled

11/17

授業概要と参考資料 Guidance and References

発表スケジュール Schedule

日付担当発表資料文献
第2回10/27(月)佐々木filehpc141027-Sasaki-ver2.pptx (update after this lecture)fileMCREngine.pdf
第3回11/6(木)佐々木同上同上
第4回11/10(月)社本filehpc14_shamoto_1110.pdffilesc12-redmpi.pdf
第5回11/26(水)ShwetafileHPC2014_11:26_Shweta.pdffileCheckpointing Orchestration.pdf
第6回12/1(月)JianfileHPC2014_Jian_1201.pdffileICS12_UniFI.pdf
第7回12/8(月)Jian同上同上
第8回12/15(月)MateuszfileICPP2014_rollback-avoidance-modeling.pdf
第9回12/22(月)長坂 侑亮filehpc14_nagasaka_ver2.pdffiledsn12_sparse.pdf
第10回1/5(月)矢野 雅大filehauberk.pdffileyim_ipdps_hauberk.pdf
第11回1/15(木)鈴木 太一郎fileHPC_suzuki.pdffile20150115_paper.pdf
第12回1/19(月)大村 裕fileHPC2014_20150119.pdffilep707-costa.pdf
第13回1/26(月)太田尚博fileHPC_20150126.pdffilecore.pdf
第14回2/2(月)(場所・時間は通常通り)都筑 一希fileHPC14_tsuzuku.pdffileEnergy Consumption of Resilience Mechanisms in Large Scale Systems.pdf

禁止リスト Inhibited List

  • "McrEngine?: a scalable checkpointing system using data-aware aggregation and compression"
  • "Reliability-Aware Approach: An Incremental Checkpoint/Restart Model in HPC Environments"
  • "FALCON - A System for Reliable Checkpoint Recovery in Shared Grid Environments"
  • "Detection and Correction of Silent Data Corruption for Large-Scale High-Performance Computing"
  • "A Proactive Fault Tolerance Approach to High Performance Computing (HPC) in the Cloud"
  • "Checkpoint-Restart for a Network of Virtual Machines"
  • "Checkpointing Orchestration: Toward a Scalable HPC Fault-Tolerant Environment"
  • "UniFI: leveraging non-volatile memories for a unified fault tolerance and idle power management technique"
  • "Transparent checkpoint-restart over infiniband"
  • "Feliss: Flexible distributed computing framework with light-weight checkpointing"
  • "Parallel Reduction to Hessenberg Form with Algorithm-Based Fault Tolerance"
  • "Online-ABFT: An Online Algorithm Based Fault Tolerance Scheme for Soft Error Detection in Iterative Methods"
  • "Algorithmic Approaches to Low Overhead Fault Detection for Sparse Linear Algebra"

リンク Links


添付ファイル: fileHPC14_tsuzuku.pdf 589件 [詳細] fileEnergy Consumption of Resilience Mechanisms in Large Scale Systems.pdf 515件 [詳細] filecore.pdf 618件 [詳細] fileHPC_20150126.pdf 783件 [詳細] filehpc14_nagasaka_ver2.pdf 645件 [詳細] filep707-costa.pdf 539件 [詳細] fileHPC2014_20150119.pdf 675件 [詳細] fileHPC_suzuki.pdf 665件 [詳細] file20150115_paper.pdf 677件 [詳細] fileyim_ipdps_hauberk.pdf 14577件 [詳細] filehauberk.pdf 749件 [詳細] fileICPP2014_rollback-avoidance-modeling.pdf 630件 [詳細] fileICS12_UniFI.pdf 693件 [詳細] fileHPC2014_Jian_1201.pdf 646件 [詳細] filedsn12_sparse.pdf 641件 [詳細] fileHPC2014_11:26_Shweta.pdf 780件 [詳細] fileCheckpointing Orchestration.pdf 555件 [詳細] filesc12-redmpi.pdf 19261件 [詳細] filehpc14_shamoto_1110.pdf 669件 [詳細] filehpc141027-Sasaki-ver2.pptx 691件 [詳細] filehpc141027-Sasaki.pptx 339件 [詳細] fileMCREngine.pdf 1099件 [詳細] fileHPChadout0-1.pdf 864件 [詳細]

トップ   編集 凍結 差分 バックアップ 添付 複製 名前変更 リロード   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS
Last-modified: 2015-02-02 (月) 09:41:17 (1021d)