Wrap model's buffers and params to `MultiTensor` & update the results #16

yiliu30 · 2024-09-03T08:30:59Z

No description provided.

Signed-off-by: yiliu30 <[email protected]>

* initial flow for autoround Signed-off-by: yiliu30 <[email protected]> * update flow Signed-off-by: yiliu30 <[email protected]> * use int4 kernel Signed-off-by: yiliu30 <[email protected]> * remove debug code Signed-off-by: yiliu30 <[email protected]> * update the forward Signed-off-by: yiliu30 <[email protected]> * clean code Signed-off-by: yiliu30 <[email protected]> * e2e example Signed-off-by: yiliu30 <[email protected]> * refine code Signed-off-by: yiliu30 <[email protected]> * add requirements for test Signed-off-by: yiliu30 <[email protected]> * update test Signed-off-by: yiliu30 <[email protected]> * update the readme Signed-off-by: yiliu30 <[email protected]> * add readme Signed-off-by: yiliu30 <[email protected]> * update the filenames Signed-off-by: yiliu30 <[email protected]> * update the np version Signed-off-by: yiliu30 <[email protected]> * add demo Signed-off-by: yiliu30 <[email protected]> * format Signed-off-by: yiliu30 <[email protected]> * add more docs Signed-off-by: yiliu30 <[email protected]> * format Signed-off-by: yiliu30 <[email protected]> * add doc Signed-off-by: yiliu30 <[email protected]> * use `AffineQuantizedTensor` Signed-off-by: yiliu30 <[email protected]> * impl ar using multensors Signed-off-by: yiliu30 <[email protected]> * clean code Signed-off-by: yiliu30 <[email protected]> * use hook + multensors Signed-off-by: yiliu30 <[email protected]> * separate mul_tensors into a new file Signed-off-by: yiliu30 <[email protected]> * fix typos Signed-off-by: yiliu30 <[email protected]> * rename mul_tensor to multi_tensor Signed-off-by: yiliu30 <[email protected]> * enable amp Signed-off-by: yiliu30 <[email protected]> * eval model Signed-off-by: yiliu30 <[email protected]> * add gen examples Signed-off-by: yiliu30 <[email protected]> * add warmup to benchmark Signed-off-by: yiliu30 <[email protected]> * add benchmark Signed-off-by: yiliu30 <[email protected]> * clean code Signed-off-by: yiliu30 <[email protected]> * format code Signed-off-by: yiliu30 <[email protected]> * use tiny kernel Signed-off-by: yiliu30 <[email protected]> * add more note Signed-off-by: yiliu30 <[email protected]> * format Signed-off-by: yiliu30 <[email protected]> * correct typos Signed-off-by: yiliu30 <[email protected]> * remove hard code Signed-off-by: yiliu30 <[email protected]> * use intx Signed-off-by: yiliu30 <[email protected]> * enable offload for multitensor Signed-off-by: yiliu30 <[email protected]> * update the default config Signed-off-by: yiliu30 <[email protected]> * refine note Signed-off-by: yiliu30 <[email protected]> * update the version check Signed-off-by: yiliu30 <[email protected]> * format Signed-off-by: yiliu30 <[email protected]> * update Signed-off-by: yiliu30 <[email protected]> * add ut Signed-off-by: yiliu30 <[email protected]> * format Signed-off-by: yiliu30 <[email protected]> * add scripts Signed-off-by: yiliu30 <[email protected]> * format code Signed-off-by: yiliu30 <[email protected]> * format Signed-off-by: yiliu30 <[email protected]> * update Signed-off-by: yiliu30 <[email protected]> * fix typo Signed-off-by: yiliu30 <[email protected]> * refine bench code Signed-off-by: yiliu30 <[email protected]> * Enable `use_optimized_layer_output` and AO' llama (#12) Signed-off-by: yiliu30 <[email protected]> * Refine the Doc (#14) --------- Signed-off-by: yiliu30 <[email protected]> * add more docstring Signed-off-by: yiliu30 <[email protected]> * add paper link Signed-off-by: yiliu30 <[email protected]> * correct some note Signed-off-by: yiliu30 <[email protected]> * add cmd Signed-off-by: yiliu30 <[email protected]> * udpdate the scripts Signed-off-by: yiliu30 <[email protected]> * revert some change Signed-off-by: yiliu30 <[email protected]> * Add a lightweight configuration for quick benchmarking (#15) Signed-off-by: yiliu30 <[email protected]> * update quant method name Signed-off-by: yiliu30 <[email protected]> * Wrap model's buffers and params to `MultiTensor` & update the results (#16) * wrap model's buffers and params to `MultiTensor` and update the results Signed-off-by: yiliu30 <[email protected]> --------- Signed-off-by: yiliu30 <[email protected]>

yiliu30 added 6 commits September 2, 2024 10:37

wrap model buffers and params to MultiTensor

071e9c7

Signed-off-by: yiliu30 <[email protected]>

fix test

b322ac3

Signed-off-by: yiliu30 <[email protected]>

fix typo

d45b587

Signed-off-by: yiliu30 <[email protected]>

set use_optimized_layer_output to False by default

dd4714a

Signed-off-by: yiliu30 <[email protected]>

update the results

98704ad

Signed-off-by: yiliu30 <[email protected]>

format code

96d9c21

Signed-off-by: yiliu30 <[email protected]>

yiliu30 changed the title ~~Wrap model buffers and params to MultiTensor~~ Wrap model's buffers and params to MultiTensor & update the results Sep 3, 2024

yiliu30 marked this pull request as ready for review September 3, 2024 15:39

yiliu30 merged commit 96f745d into auto_round_support-3 Sep 3, 2024

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Wrap model's buffers and params to `MultiTensor` & update the results #16

Wrap model's buffers and params to `MultiTensor` & update the results #16

yiliu30 commented Sep 3, 2024

Wrap model's buffers and params to MultiTensor & update the results #16

Wrap model's buffers and params to MultiTensor & update the results #16

Conversation

yiliu30 commented Sep 3, 2024

Wrap model's buffers and params to `MultiTensor` & update the results #16

Wrap model's buffers and params to `MultiTensor` & update the results #16