@haukzero
Hauk Zero 暂无简介
个人Windows/Linux常用配置
一个基于C++编写的高性能文本符号替换工具, 支持多线程将多文本按照制定规则将符号替换, 不依赖任何第三方库
手写 Triton 融合算子并应用于 qwen2 模型推理
针对CUDA上的单精度矩阵乘法做一些比较容易想到的优化
一个用 c++ 写的简单的红黑树
MHA, MQA, GQA, MLA 相关原理及简要实现
用 pytorch 模拟实现 flash_attn v1/v2 的核心算法
三种方法在 pytorch 中调用自定义 cuda 算子
一个简单的投机推理实现
跟着原论文主要框架走,像搭积木一样一步一步构建出一个基础的Transformer模型