- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Intel MIC程序性能优化 提纲 MIC体系结构及编程模式 MIC上的程序性能优化 MIC概况 体系结构:英特尔集成众核 (Many Integrated Core) 商标:Intel Xeon Phi Coprocessor 产品序列 Knights Ferry Knights Corner Knights Landing ??? Intel面向Exascale的战略产品,SC11发布,专为高性能计算设计 三个项目的成果 80核心的万亿级芯片研究计划 单芯片云计算机项目(SCC) 多核图形计算Larrabee项目 MIC处理器结构(KNC) Bi-directional ring Cores 50 cores (KNC: 57) 1 TFLOPS in DP Cache L1 (32KB+32KB) L2 (512KB -28.5MB ) Full coherence Memory GDDR5 16 memory channels 5.5 GT/s MIC中单核的结构图 标量部件来自Pentium 512位向量部件 32 vector registers each Hold 16 singles or 8 doubles Pipelined one-per-clock throughput 4 clock latency, hidden by round-robin scheduling of threads L1 Cache私有,L2 Cache 共享(NUCA) 每核4个硬件线程 关于512位宽向量部件 KNC Sandy-Bridge (E5-2670)2,3 GFLOPS 1000 166.4(x2=332.8) BW (GB/s) 352 51.2 (x2=112.4) Price ~$2000 1 $1550 (x2=3100) 1 Intel Inc. /content/www/us/en/processors/xeon/xeon-phi-detail.html 2 Intel Inc. /products/64595/Intel-Xeon-Processor-E5-2670-(20M-Cache-2_60-GHz-8_00-GTs-Intel-QPI) 3 Williams et al. Optimization of Geometric Multigrid for Emerging Multi- and Manycore Processors, SC’12 PKNC≈3×P2SandyB 峰值性能:KNC VS. 2xSandyBridge(SNB) 应用性能 1.2S Xeon* vs. 1 Xeon Phi* (preproduction HW/SW Application running 100% on coprocessor unless otherwise noted) 2.2S Xeon* vs. 2S Xeon* + 2 Xeon Phi* (offload) 3.4 node cluster, each node with 2S Xeon* (comparison is cluster performance with and without 1 Xeon Phi* per node) (Hetero) 4.Intel Measured Oct. 2012 千万亿次超级计算机Stampede MIC首次大规模部署,德克萨斯高级计算中心(TACC) 10 PF(Xeon E5处理器 2+PF,Xeon Phi协处理器7+PF) 结点间互连:Mellanox FDR InfiniBand No. 7 @ top500 on 201211 MIC的编程环境 MIC作为加速卡插在Host上,但通过软件虚拟化为类似一台 使用与Intel Xeon类似的开发语言与工具环境 大多数现存代码均可通过重新编译就可运行 MIC的编程模型 Native模式 MIC是一台网络化的Linux主机 代码全部运行在MIC卡上,无需offload指导语句 利用MPI/OpenMP并行开发MIC上众核间的并行性 适合内存需求量不大、非大规模并行的应用 # define NSET 1000000 int main ( int argc, const char** argv ) { long int i; float num_inside, Pi; num_inside = 0.0f; #pragma omp parallel for reduction(+:num_inside) for( i = 0; i NSET; i++ ) { float x, y,
有哪些信誉好的足球投注网站
文档评论(0)