你在用 PyTorch 寫(xiě) transformer 嗎?請(qǐng)關(guān)注下這個(gè)項(xiàng)目。
推理服務(wù)器:Nvidia Triton(它接受查詢,傳輸給引擎,并添加對(duì)推理有用的功能,如動(dòng)態(tài)批處理或多推理引擎調(diào)度)
推理引擎:Microsoft ONNX Runtime(用于 CPU 和 GPU 推理)和 Nvidia TensorRT(僅限 GPU)
源代碼:https://github.com/ELS-RD/transformer-deploy/blob/main/demo/quantization/quantization_end_to_end.ipynb
項(xiàng)目 GitHub:https://github.com/ELS-RD/transformer-deploy
聯(lián)系客服