[Feature]请帮忙提供load_from_weight_dict(weight_dict)接口。

需求背景：
TGI适配lightllm，多卡加载模型的时候，用到几张卡就会有几个进程，并且每个进程都会完整的加载整个模型到内存中来。
当模型文件太大，比如65B以上的模型，使用8卡加载的话就会需要8*130G的内存，这显然是不合理的，会导致OOM。

解决办法：
可在lightllm中帮忙提供load_from_weight_dict(weight_dict) 接口。TGI层传入权重词典，一边加载一边释放内存，才能解决此问题。