LLVM AMDGPU 后端代码分析研究（1）：PassPipe Line|电子爱好者

admin管理员组
文章数量:1594241

本系列文章是对GPU LLVM后端的探索与学习，后端的学习资料主要有LLVM源码和公开的Spec. 众所周知，在PC GPU领域的玩家主要有三家公司：NV, AMD, INTEL. 在LLVM 后端开源的代码只有NV, AMD，而AMD相对NV的文档分享会更Open一些，比较容易找到它的Spec. 所以整个系统文章会以AMD的GPU作为研究目标，AMD 开源的代码对应的芯片有两款：R600 , GCN，本系列文章关注GCN，因为它是更新的架构. 以上是基本背景。

0. 预备知识

编译LLVM llc, 通过llc工具，使用以下命令，并下断点在addPassesToGenerateCode。代码使用了TargetPassConfig 类，它是后端Codegen 模块常用的Pass Pipeline 配置工具类，AMDGPU后端会继承TargetPassConfig, 并重载Target-Specific接口，从设计模式角度来看，这是典型的Template Method Pattern, 将具体任务交给子类, 我们重点关注AMD注册了那些Pass. 从宏观角度来看：Codegen Pass主要分为两个部分：指令选择和 Machine层优化

llc.exe -mtriple=amdgcn G:\Mesa3D_ws\llvm-11.0.0.src\llvm-11.0.0.src\test\CodeGen\AMDGPU\add.ll

addPassesToGenerateCode

static TargetPassConfig *
addPassesToGenerateCode(LLVMTargetMachine &TM, PassManagerBase &PM,
                        bool DisableVerify,
                        MachineModuleInfoWrapperPass &MMIWP) {
  // Targets may override createPassConfig to provide a target-specific
  // subclass.
  TargetPassConfig *PassConfig = TM.createPassConfig(PM);
  // Set PassConfig options provided by TargetMachine.
  PassConfig->setDisableVerify(DisableVerify);
  PM.add(PassConfig);
  PM.add(&MMIWP);

  if (PassConfig->addISelPasses()) // 指令选择
    return nullptr;
  PassConfig->addMachinePasses(); // Machine层优化
  PassConfig->setInitialized();
  return PassConfig;
}

1. 指令选择Pass

TargetPassConfig::addISelPasses

bool TargetPassConfig::addISelPasses() {
  if (TM->useEmulatedTLS())
    addPass(createLowerEmuTLSPass());
  addPass(createPreISelIntrinsicLoweringPass());
  addPass(createTargetTransformInfoWrapperPass(TM->getTargetIRAnalysis()));
  addIRPasses();  // 多态
  addCodeGenPrepare(); // 多态
  addPassesToHandleExceptions();
  addISelPrepare();
  return addCoreISelPasses();
}

AMDGPUPassConfig

class AMDGPUPassConfig : public TargetPassConfig{
...
  void addIRPasses() override;
  void addCodeGenPrepare() override;
  bool addPreISel() override;
  bool addInstSelector() override;
...
}

GCNPassConfig

class GCNPassConfig final : public AMDGPUPassConfig {
public:
  ....
  ScheduleDAGInstrs *
  createMachineScheduler(MachineSchedContext *C) const override;

  bool addPreISel() override;
  void addMachineSSAOptimization() override;
  bool addILPOpts() override;
  bool addInstSelector() override;
  bool addIRTranslator() override;
  void addPreLegalizeMachineIR() override;
  bool addLegalizeMachineIR() override;
  void addPreRegBankSelect() override;
  bool addRegBankSelect() override;
  bool addGlobalInstructionSelect() override;
  void addFastRegAlloc() override;
  void addOptimizedRegAlloc() override;
  void addPreRegAlloc() override;
  bool addPreRewrite() override;
  void addPostRegAlloc() override;
  void addPreSched2() override;
  void addPreEmitPass() override;
};

1.1 AMDGPUPassConfig::addIRPasses()

addIRPasses 接口注册了LLVM IR层面的优化, 从源码可以看出在调用TargetPassConfig::addIRPasses() 通用优化Pass pipeline之前, AMD Target有些Patch工作需要处理 , 同时使用了一些标量优化.

void AMDGPUPassConfig::addIRPasses() {
  const AMDGPUTargetMachine &TM = getAMDGPUTargetMachine();
  // There is no reason to run these.
  disablePass(&StackMapLivenessID);
  disablePass(&FuncletLayoutID);
  disablePass(&PatchableFunctionID);
  addPass(createAMDGPUPrintfRuntimeBinding());
  addPass(createAMDGPUFixFunctionBitcastsPass());
  addPass(createAMDGPUPropagateAttributesEarlyPass(&TM));
  addPass(createAtomicExpandPass());
  addPass(createAMDGPULowerIntrinsicsPass());
  addPass(createAMDGPUAlwaysInlinePass());
  addPass(createAlwaysInlinerLegacyPass());
  addPass(createBarrierNoopPass());
  if (TM.getTargetTriple().getArch() == Triple::r600)
    addPass(createR600OpenCLImageTypeLoweringPass());
  addPass(createAMDGPUOpenCLEnqueuedBlockLoweringPass());
  if (TM.getOptLevel() > CodeGenOpt::None) {
    addPass(createInferAddressSpacesPass());
    addPass(createAMDGPUPromoteAlloca());
    if (EnableSROA)
      addPass(createSROAPass());
      
    if (EnableScalarIRPasses)
      addStraightLineScalarOptimizationPasses(); // Amd gpu 标量优化

    if (EnableAMDGPUAliasAnalysis) {
      addPass(createAMDGPUAAWrapperPass());
      addPass(createExternalAAWrapperPass([](Pass &P, Function &,
                                             AAResults &AAR) {
        if (auto *WrapperPass = P.getAnalysisIfAvailable<AMDGPUAAWrapperPass>())
          AAR.addAAResult(WrapperPass->getResult());
        }));
    }
  }

  if (TM.getTargetTriple().getArch() == Triple::amdgcn) {
    addPass(createAMDGPUCodeGenPreparePass());
  }
  TargetPassConfig::addIRPasses();  // 通用优化Pass
  if (getOptLevel() != CodeGenOpt::None && EnableScalarIRPasses)
    addEarlyCSEOrGVNPass();
}

AMD GPU 标量优化 Pass

void AMDGPUPassConfig::addStraightLineScalarOptimizationPasses() {
  addPass(createLICMPass());
  addPass(createSeparateConstOffsetFromGEPPass());
  addPass(createSpeculativeExecutionPass());
  // ReassociateGEPs exposes more opportunites for SLSR. See
  // the example in reassociate-geps-and-slsr.ll.
  addPass(createStraightLineStrengthReducePass());
  // SeparateConstOffsetFromGEP and SLSR creates common expressions which GVN or
  // EarlyCSE can reuse.
  addEarlyCSEOrGVNPass();
  // Run NaryReassociate after EarlyCSE/GVN to be more effective.
  addPass(createNaryReassociatePass());
  // NaryReassociate on GEPs creates redundant common expressions, so run
  // EarlyCSE after it.
  addPass(createEarlyCSEPass());
}

1.2 AMDGPUPassConfig::addCodeGenPrepare()

addCodeGenPrepare 接口注册了一些Codegen代码之前的一些准备工作, 同样从源码可以看出在调用通用TargetPassConfig::addCodeGenPrepare()之前, AMD Target 也有些Patch工作需要处理.

void AMDGPUPassConfig::addCodeGenPrepare() {
  if (TM->getTargetTriple().getArch() == Triple::amdgcn)
    addPass(createAMDGPUAnnotateKernelFeaturesPass());
  if (TM->getTargetTriple().getArch() == Triple::amdgcn &&
      EnableLowerKernelArguments)
    addPass(createAMDGPULowerKernelArgumentsPass());
  addPass(&AMDGPUPerfHintAnalysisID);
  TargetPassConfig::addCodeGenPrepare(); // 通用addCodeGenPrepare
  if (EnableLoadStoreVectorizer)
    addPass(createLoadStoreVectorizerPass());
  addPass(createLowerSwitchPass());
}

1.3 TargetPassConfig::addISelPrepare

void TargetPassConfig::addISelPrepare() {
  addPreISel(); // 多态 -> GCNPassConfig::addPreISel()

  if (requiresCodeGenSCCOrder())
    addPass(new DummyCGSCCPass);
  addPass(createSafeStackPass());
  addPass(createStackProtectorPass());
  if (PrintISelInput)
    addPass(createPrintFunctionPass(dbgs(), "\n\n*** Final LLVM Code input to ISel ***\n"));
  if (!DisableVerify)
    addPass(createVerifierPass());
}

bool GCNPassConfig::addPreISel() {
  AMDGPUPassConfig::addPreISel(); 

  if (EnableAtomicOptimizations) {
    addPass(createAMDGPUAtomicOptimizerPass());
  }
  addPass(&AMDGPUUnifyDivergentExitNodesID);
  if (!LateCFGStructurize) {
    if (EnableStructurizerWorkarounds) {
      addPass(createFixIrreduciblePass());
      addPass(createUnifyLoopExitsPass());
    }
    addPass(createStructurizeCFGPass(false)); // true -> SkipUniformRegions
  }
  addPass(createSinkingPass());
  addPass(createAMDGPUAnnotateUniformValues());
  if (!LateCFGStructurize) {
    addPass(createSIAnnotateControlFlowPass());
  }
  addPass(createLCSSAPass());

  return false;
}

bool AMDGPUPassConfig::addPreISel() {
  addPass(createFlattenCFGPass());
  return false;
}

1.4 TargetPassConfig::addCoreISelPasses

LLVM 指令选择算法有三种：（Todo: 后续文章会详细介绍这三种算法，链接：）

FastISel
SelectionDAG
GlobalISel

SelectionDAG 为默认的指令选择算法，后端代码也会继承这个类，并重载部分接口，设计模式也是Template Method.

bool TargetPassConfig::addCoreISelPasses() {
  // Determine an instruction selector.
  enum class SelectorType { SelectionDAG, FastISel, GlobalISel };
  SelectorType Selector;
  ....
  // Add instruction selector passes.
  if (Selector == SelectorType::GlobalISel) {
	....
  } 
  else if (addInstSelector()) // GCNPassConfig::addInstSelector
    return true;
    
  addPass(&FinalizeISelID);
  printAndVerify("After Instruction Selection");

  return false;
}

1.4 GCNPassConfig::addInstSelector

bool GCNPassConfig::addInstSelector() {
  AMDGPUPassConfig::addInstSelector(); // SelectionDAG
  addPass(&SIFixSGPRCopiesID);
  addPass(createSILowerI1CopiesPass());
  addPass(&FinalizeISelID);
  addPass(createSIFixupVectorISelPass());
  addPass(createSIAddIMGInitPass());
  return false;
}

bool AMDGPUPassConfig::addInstSelector() {
  // Defer the verifier until FinalizeISel.
  addPass(createAMDGPUISelDag(&getAMDGPUTargetMachine(), getOptLevel()), false); // AMD SelectionDAG
  return false;
}

2. Machine 层优化

Machine层优化也分为通用 + 定制，

TargetPassConfig::addMachinePasses

void TargetPassConfig::addMachinePasses() {
  AddingMachinePasses = true;
  ....

  if (getOptLevel() != CodeGenOpt::None) {
    addMachineSSAOptimization(); // 重载
  } else {
    addPass(&LocalStackSlotAllocationID);
  }

  addPreRegAlloc(); // 重载

  if (getOptimizeRegAlloc())
    addOptimizedRegAlloc(); //重载
  else
    addFastRegAlloc(); // 重载

  addPostRegAlloc(); // 重载
  ...
  addPreSched2(); // 重载
  ....
  addPreEmitPass(); // 重载
  ...
  addPreEmitPass2(); // 重载
}

3. 总结

《LLVM Getting Started with LLVM Core Libraries》书中的后端框架示意图：

AMDGPU 后端Pipeline 如下图所示:

4. 参考资料

https://en.wikipedia/wiki/Graphics_Core_Next#Instruction_set
llvm11 source code

本文标签：分析研究后端代码 AMDGPU LLVM

版权声明：本文标题：LLVM AMDGPU 后端代码分析研究（1）：PassPipe Line 内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://www.elefans.com/dianzi/1726768819a1083612.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

电子爱好者 - 最新技术资讯及电子产品介绍！

LLVM AMDGPU 后端代码分析研究（1）：PassPipe Line

0. 预备知识

1. 指令选择Pass

1.1 AMDGPUPassConfig::addIRPasses()

1.2 AMDGPUPassConfig::addCodeGenPrepare()

1.3 TargetPassConfig::addISelPrepare

1.4 TargetPassConfig::addCoreISelPasses

1.4 GCNPassConfig::addInstSelector

2. Machine 层优化

3. 总结

4. 参考资料

更多相关文章

WizardCoder：写代码能力测评 Use Golang Write LSM tree code （WizardCoder-15B）

Pyhton酷我音乐爬取，爬虫MP3文件下载核心代码

python下载音乐代码_使用python3下载网易云音乐歌单歌曲，附源代码

PageRank原理与代码实例讲解

最佳编程浏览器推荐及示例代码

用代码写uml并在线生成uml图

python 代码生成器_Python代码生成器(代码生成工具)V1.1 正式版

分享 19 个免费好用的 CSS 代码样式生成器工具

推荐几个代码自动生成器，神器

VScode和HBuilder还原文件历史记录及代码修改对比,误操作删除的文件不在回收站

winform仿QQ聊天气泡（c#代码+GDI绘图）

聊聊后端程序员的知识体系-第一篇

【AI帮我写代码体验】AI编程助手体验+百度comate编程助手license获取方式——08.27更新

如何对matlab .m代码文件进行加密

使用python实现代码动画视频

代码看不懂？ChatGPT 帮你解释，详细到爆！

python编写代码自动运行程序_用Python写一个自动木马程序

崩溃！如何面对令人脱发的老代码？

简单flash播放器代码

windows 大容量存储设备驱动异常（代码：39）U盘由于驱动问题无法用的解决方法

发表评论

推荐文章

平板电脑服务器的安装系统安装,平板电脑安装win8系统的具体方法

WINCC组态软件BasicComfortAdvancedProfessional版本

win10固态硬盘分区 整数_送给“毒奶粉”以及win7党！win10如何重装win7?

SCI论文写作（一） | SCI论文的文献综述(Literature Review)部分

视频教程-Office Project 2019教程-OfficeWPS

热门文章

win7 nvme 支持补丁_国产桌面版OS系统发布：Win7般体验 最高安全认证

引导过程与解决root密码忘记问题、不能正常开机

使用WiFi真的有那么危险吗？

[译] APT分析报告：05.Turla新型水坑攻击后门（NetFlash和PyFlash）

PDF的页面设置工具在哪里？如何使用并调整PDF页面？

如何将wav转换成mp3？这里有几个转换教程

安卓机型不需要解锁bl 不需要root 即可安装模块 框架 VirtualXposed使用步骤分析

UEFI安装win10+manjaro双系统

将word文档转换成pdf格式【使用Aspose技术实现：亲测可用】

国产UOS系统root登陆及开机自动启动

最新文章

计算机网络（6）应用层

如何使用计算机？【快速上手】带你了解计算机！

PPT制作技巧汇总之图形对象与多媒体应用(office 2007)

Java Web文件传输及邮件发送

4万字 全面解读数据中台、数据仓库、数据湖等概念！建议收藏！

PPT设置自动保存时间 mac_第17期分享：如何控制PPT演讲汇报时间？

在平板电脑与移动3G大爆炸的时代，昔日霸主微软的反击

小饶学编程之JAVA EE第三部分——操作系统：5Linux

充分利用Internet Explorer 10的最佳技巧和窍门

电脑快捷键全都在这了！电脑技巧收藏！

强化练习200题（一）正题：160

A002-185-2502-李林

搭建kms服务器速记

关于一些Excel宏病毒的清除方法整理合集

【六】目录结构和重要配置文件

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

【模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311】模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311 官方免费下载

win10固态硬盘分区整数_送给“毒奶粉”以及win7党！win10如何重装win7?

win7 nvme 支持补丁_国产桌面版OS系统发布：Win7般体验最高安全认证

安卓机型不需要解锁bl 不需要root 即可安装模块框架 VirtualXposed使用步骤分析

4万字全面解读数据中台、数据仓库、数据湖等概念！建议收藏！

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载