load local model sd3 error with diffuser backend #4144

JarHMJ · 2024-11-14T09:56:09Z

LocalAI version:

localai/localai:master-cublas-cuda12

Environment, CPU architecture, OS, and Version:

Linux worker-node-2 5.15.0-116-generic #126-Ubuntu SMP Mon Jul 1 10:14:24 UTC 2024 x86_64 x86_64 x86_64 GNU/Linux

Describe the bug

load local model sd3 error with diffuser backend

To Reproduce

this is config

backend: diffusers
diffusers:
  cuda: true
  enable_parameters: negative_prompt,num_inference_steps
  pipeline_type: StableDiffusion3Pipeline
f16: false
name: stable-diffusion-3-medium
parameters:
  model: stable-diffusion-3-medium-diffusers
step: 2

stable-diffusion-3-medium-diffusers is a floder including https://huggingface.co/stabilityai/stable-diffusion-3-medium-diffusers

Expected behavior

Logs

@@@@@
Skipping rebuild
@@@@@
If you are experiencing issues with the pre-compiled builds, try setting REBUILD=true
If you are still experiencing issues with the build, try setting CMAKE_ARGS and disable the instructions set as needed:
CMAKE_ARGS="-DGGML_F16C=OFF -DGGML_AVX512=OFF -DGGML_AVX2=OFF -DGGML_FMA=OFF"
see the documentation at: https://localai.io/basics/build/index.html
Note: See also https://github.com/go-skynet/LocalAI/issues/288
@@@@@
CPU info:
model name      : Intel(R) Xeon(R) Platinum 8458P
flags           : fpu vme de pse tsc msr pae mce cx8 apic sep mtrr pge mca cmov pat pse36 clflush mmx fxsr sse sse2 ss ht syscall nx pdpe1gb rdtscp lm constant_tsc arch_perfmon rep_good nopl xtopology tsc_reliable nonstop_tsc cpuid tsc_known_freq pni pclmulqdq ssse3 fma cx16 pcid sse4_1 sse4_2 x2apic movbe popcnt tsc_deadline_timer aes xsave avx f16c rdrand lahf_lm abm 3dnowprefetch invpcid_single ssbd ibrs ibpb stibp ibrs_enhanced fsgsbase tsc_adjust bmi1 avx2 smep bmi2 erms invpcid avx512f avx512dq rdseed adx smap avx512ifma clflushopt clwb avx512cd sha_ni avx512bw avx512vl xsaveopt xsavec xgetbv1 xsaves avx_vnni avx512_bf16 wbnoinvd arat avx512vbmi umip pku ospke avx512_vbmi2 gfni vaes vpclmulqdq avx512_vnni avx512_bitalg avx512_vpopcntdq rdpid cldemote movdiri movdir64b fsrm md_clear serialize amx_bf16 avx512_fp16 amx_tile amx_int8 flush_l1d arch_capabilities
CPU:    AVX    found OK
CPU:    AVX2   found OK
CPU:    AVX512 found OK
@@@@@
9:53AM INF env file found, loading environment variables from file envFile=.env
9:53AM DBG Setting logging to debug
9:53AM INF Starting LocalAI using 32 threads, with models path: /build/models
9:53AM INF LocalAI version: b36ced8 (b36ced8681a4352b962bba1ac42b06e25aca1569)
9:53AM DBG CPU capabilities: [3dnowprefetch abm adx aes amx_bf16 amx_int8 amx_tile apic arat arch_capabilities arch_perfmon avx avx2 avx512_bf16 avx512_bitalg avx512_fp16 avx512_vbmi2 avx512_vnni avx512_vpopcntdq avx512bw avx512cd avx512dq avx512f avx512ifma avx512vbmi avx512vl avx_vnni bmi1 bmi2 cldemote clflush clflushopt clwb cmov constant_tsc cpuid cx16 cx8 de erms f16c flush_l1d fma fpu fsgsbase fsrm fxsr gfni ht ibpb ibrs ibrs_enhanced invpcid invpcid_single lahf_lm lm mca mce md_clear mmx movbe movdir64b movdiri msr mtrr nonstop_tsc nopl nx ospke pae pat pcid pclmulqdq pdpe1gb pge pku pni popcnt pse pse36 rdpid rdrand rdseed rdtscp rep_good sep serialize sha_ni smap smep ss ssbd sse sse2 sse4_1 sse4_2 ssse3 stibp syscall tsc tsc_adjust tsc_deadline_timer tsc_known_freq tsc_reliable umip vaes vme vpclmulqdq wbnoinvd x2apic xgetbv1 xsave xsavec xsaveopt xsaves xtopology]
9:53AM DBG GPU count: 2
9:53AM DBG GPU: card #0  [affined to NUMA node 0]@0000:03:00.0 -> driver: 'nvidia' class: 'Display controller' vendor: 'NVIDIA Corporation' product: 'unknown'
9:53AM DBG GPU: card #1  [affined to NUMA node 0]@0000:03:01.0 -> driver: 'nvidia' class: 'Display controller' vendor: 'NVIDIA Corporation' product: 'unknown'
9:53AM DBG guessDefaultsFromFile: not a GGUF file
9:53AM INF Preloading models from /build/models

  Model name: stable-diffusion-3-medium                                       


9:53AM DBG Model: stable-diffusion-3-medium (config: {PredictionOptions:{Model:stable-diffusion-3-medium-diffusers Language: Translate:false N:0 TopP:0xc00117e870 TopK:0xc00117e878 Temperature:0xc00117e880 Maxtokens:0xc00117e8b0 Echo:false Batch:0 IgnoreEOS:false RepeatPenalty:0 RepeatLastN:0 Keep:0 FrequencyPenalty:0 PresencePenalty:0 TFZ:0xc00117e8a8 TypicalP:0xc00117e8a0 Seed:0xc00117e8c8 NegativePrompt: RopeFreqBase:0 RopeFreqScale:0 NegativePromptScale:0 UseFastTokenizer:false ClipSkip:0 Tokenizer:} Name:stable-diffusion-3-medium F16:0xc00117e75a Threads:0xc00117e860 Debug:0xc00117e8c0 Roles:map[] Embeddings:0xc00117e8c1 Backend:diffusers TemplateConfig:{Chat: ChatMessage: Completion: Edit: Functions: UseTokenizerTemplate:false JoinChatMessagesByCharacter:<nil> Multimodal:} KnownUsecaseStrings:[] KnownUsecases:<nil> PromptStrings:[] InputStrings:[] InputToken:[] functionCallString: functionCallNameString: ResponseFormat: ResponseFormatMap:map[] FunctionsConfig:{DisableNoAction:false GrammarConfig:{ParallelCalls:false DisableParallelNewLines:false MixedMode:false NoMixedFreeString:false NoGrammar:false Prefix: ExpectStringsAfterJSON:false PropOrder: SchemaType:} NoActionFunctionName: NoActionDescriptionName: ResponseRegex:[] JSONRegexMatch:[] ReplaceFunctionResults:[] ReplaceLLMResult:[] CaptureLLMResult:[] FunctionNameKey: FunctionArgumentsKey:} FeatureFlag:map[] LLMConfig:{SystemPrompt: TensorSplit: MainGPU: RMSNormEps:0 NGQA:0 PromptCachePath: PromptCacheAll:false PromptCacheRO:false MirostatETA:0xc00117e898 MirostatTAU:0xc00117e890 Mirostat:0xc00117e888 NGPULayers:0xc00117e8b8 MMap:0xc00117e8c0 MMlock:0xc00117e8c1 LowVRAM:0xc00117e8c1 Grammar: StopWords:[] Cutstrings:[] ExtractRegex:[] TrimSpace:[] TrimSuffix:[] ContextSize:0xc00117e858 NUMA:false LoraAdapter: LoraBase: LoraAdapters:[] LoraScales:[] LoraScale:0 NoMulMatQ:false DraftModel: NDraft:0 Quantization: LoadFormat: GPUMemoryUtilization:0 TrustRemoteCode:false EnforceEager:false SwapSpace:0 MaxModelLen:0 TensorParallelSize:0 MMProj: FlashAttention:false NoKVOffloading:false RopeScaling: ModelType: YarnExtFactor:0 YarnAttnFactor:0 YarnBetaFast:0 YarnBetaSlow:0} AutoGPTQ:{ModelBaseName: Device: Triton:false UseFastTokenizer:false} Diffusers:{CUDA:true PipelineType:StableDiffusion3Pipeline SchedulerType: EnableParameters:negative_prompt,num_inference_steps CFGScale:0 IMG2IMG:false ClipSkip:0 ClipModel: ClipSubFolder: ControlNet:} Step:2 GRPC:{Attempts:0 AttemptsSleepTime:0} TTSConfig:{Voice: VallE:{AudioPath:}} CUDA:false DownloadFiles:[] Description: Usage:})
9:53AM DBG Extracting backend assets files to /tmp/localai/backend_data
9:53AM DBG processing api keys runtime update
9:53AM DBG processing external_backends.json
9:53AM DBG external backends loaded from external_backends.json
9:53AM INF core/startup process completed!
9:53AM DBG No configuration file found at /tmp/localai/upload/uploadedFiles.json
9:53AM DBG No configuration file found at /tmp/localai/config/assistants.json
9:53AM DBG No configuration file found at /tmp/localai/config/assistantsFile.json
9:53AM INF LocalAI API is listening! Please connect to the endpoint for API documentation. endpoint=http://0.0.0.0:8080
9:54AM DBG Request received: {"model":"stable-diffusion-3-medium","language":"","translate":false,"n":0,"top_p":null,"top_k":null,"temperature":null,"max_tokens":null,"echo":false,"batch":0,"ignore_eos":false,"repeat_penalty":0,"repeat_last_n":0,"n_keep":0,"frequency_penalty":0,"presence_penalty":0,"tfz":null,"typical_p":null,"seed":null,"negative_prompt":"","rope_freq_base":0,"rope_freq_scale":0,"negative_prompt_scale":0,"use_fast_tokenizer":false,"clip_skip":0,"tokenizer":"","file":"","size":"1024x1024","prompt":"A cat holding a sign that says hello world","instruction":"","input":null,"stop":null,"messages":null,"functions":null,"function_call":null,"stream":false,"mode":0,"step":25,"grammar":"","grammar_json_functions":null,"backend":"","model_base_name":""}
9:54AM DBG Loading model: stable-diffusion-3-medium
9:54AM DBG guessDefaultsFromFile: not a GGUF file
9:54AM DBG Parameter Config: &{PredictionOptions:{Model:stable-diffusion-3-medium-diffusers Language: Translate:false N:0 TopP:0xc00117e870 TopK:0xc00117e878 Temperature:0xc00117e880 Maxtokens:0xc00117e8b0 Echo:false Batch:0 IgnoreEOS:false RepeatPenalty:0 RepeatLastN:0 Keep:0 FrequencyPenalty:0 PresencePenalty:0 TFZ:0xc00117e8a8 TypicalP:0xc00117e8a0 Seed:0xc00117e8c8 NegativePrompt: RopeFreqBase:0 RopeFreqScale:0 NegativePromptScale:0 UseFastTokenizer:false ClipSkip:0 Tokenizer:} Name:stable-diffusion-3-medium F16:0xc00117e75a Threads:0xc00117e860 Debug:0xc00117f330 Roles:map[] Embeddings:0xc00117e8c1 Backend:diffusers TemplateConfig:{Chat: ChatMessage: Completion: Edit: Functions: UseTokenizerTemplate:false JoinChatMessagesByCharacter:<nil> Multimodal:} KnownUsecaseStrings:[] KnownUsecases:<nil> PromptStrings:[A cat holding a sign that says hello world] InputStrings:[] InputToken:[] functionCallString: functionCallNameString: ResponseFormat: ResponseFormatMap:map[] FunctionsConfig:{DisableNoAction:false GrammarConfig:{ParallelCalls:false DisableParallelNewLines:false MixedMode:false NoMixedFreeString:false NoGrammar:false Prefix: ExpectStringsAfterJSON:false PropOrder: SchemaType:} NoActionFunctionName: NoActionDescriptionName: ResponseRegex:[] JSONRegexMatch:[] ReplaceFunctionResults:[] ReplaceLLMResult:[] CaptureLLMResult:[] FunctionNameKey: FunctionArgumentsKey:} FeatureFlag:map[] LLMConfig:{SystemPrompt: TensorSplit: MainGPU: RMSNormEps:0 NGQA:0 PromptCachePath: PromptCacheAll:false PromptCacheRO:false MirostatETA:0xc00117e898 MirostatTAU:0xc00117e890 Mirostat:0xc00117e888 NGPULayers:0xc00117e8b8 MMap:0xc00117e8c0 MMlock:0xc00117e8c1 LowVRAM:0xc00117e8c1 Grammar: StopWords:[] Cutstrings:[] ExtractRegex:[] TrimSpace:[] TrimSuffix:[] ContextSize:0xc00117e858 NUMA:false LoraAdapter: LoraBase: LoraAdapters:[] LoraScales:[] LoraScale:0 NoMulMatQ:false DraftModel: NDraft:0 Quantization: LoadFormat: GPUMemoryUtilization:0 TrustRemoteCode:false EnforceEager:false SwapSpace:0 MaxModelLen:0 TensorParallelSize:0 MMProj: FlashAttention:false NoKVOffloading:false RopeScaling: ModelType: YarnExtFactor:0 YarnAttnFactor:0 YarnBetaFast:0 YarnBetaSlow:0} AutoGPTQ:{ModelBaseName: Device: Triton:false UseFastTokenizer:false} Diffusers:{CUDA:true PipelineType:StableDiffusion3Pipeline SchedulerType: EnableParameters:negative_prompt,num_inference_steps CFGScale:0 IMG2IMG:false ClipSkip:0 ClipModel: ClipSubFolder: ControlNet:} Step:2 GRPC:{Attempts:0 AttemptsSleepTime:0} TTSConfig:{Voice: VallE:{AudioPath:}} CUDA:false DownloadFiles:[] Description: Usage:}
9:54AM INF Loading model 'stable-diffusion-3-medium' with backend diffusers
9:54AM DBG Loading model in memory from file: /build/models/stable-diffusion-3-medium-diffusers
9:54AM DBG Loading Model stable-diffusion-3-medium with gRPC (file: /build/models/stable-diffusion-3-medium-diffusers) (backend: diffusers): {backendString:diffusers model:stable-diffusion-3-medium-diffusers modelID:stable-diffusion-3-medium assetDir:/tmp/localai/backend_data context:{emptyCtx:{}} gRPCOptions:0xc000022a08 externalBackends:map[autogptq:/build/backend/python/autogptq/run.sh bark:/build/backend/python/bark/run.sh coqui:/build/backend/python/coqui/run.sh diffusers:/build/backend/python/diffusers/run.sh exllama2:/build/backend/python/exllama2/run.sh huggingface-embeddings:/build/backend/python/sentencetransformers/run.sh mamba:/build/backend/python/mamba/run.sh openvoice:/build/backend/python/openvoice/run.sh parler-tts:/build/backend/python/parler-tts/run.sh rerankers:/build/backend/python/rerankers/run.sh sentencetransformers:/build/backend/python/sentencetransformers/run.sh transformers:/build/backend/python/transformers/run.sh transformers-musicgen:/build/backend/python/transformers-musicgen/run.sh vall-e-x:/build/backend/python/vall-e-x/run.sh vllm:/build/backend/python/vllm/run.sh] grpcAttempts:20 grpcAttemptsDelay:2 singleActiveBackend:false parallelRequests:false}
9:54AM DBG Loading external backend: /build/backend/python/diffusers/run.sh
9:54AM DBG external backend is file: &{name:run.sh size:73 mode:493 modTime:{wall:0 ext:63867008110 loc:0x50c033e0} sys:{Dev:1048803 Ino:3235889245 Nlink:1 Mode:33261 Uid:0 Gid:0 X__pad0:0 Rdev:0 Size:73 Blksize:4096 Blocks:8 Atim:{Sec:1731411310 Nsec:0} Mtim:{Sec:1731411310 Nsec:0} Ctim:{Sec:1731488608 Nsec:518016885} X__unused:[0 0 0]}}
9:54AM DBG Loading GRPC Process: /build/backend/python/diffusers/run.sh
9:54AM DBG GRPC Service for stable-diffusion-3-medium will be running at: '127.0.0.1:42163'
9:54AM DBG GRPC Service state dir: /tmp/go-processmanager2065713050
9:54AM DBG GRPC Service Started
9:54AM DBG Wait for the service to start up
9:54AM DBG GRPC(stable-diffusion-3-medium-127.0.0.1:42163): stdout Initializing libbackend for diffusers
9:54AM DBG GRPC(stable-diffusion-3-medium-127.0.0.1:42163): stdout virtualenv activated
9:54AM DBG GRPC(stable-diffusion-3-medium-127.0.0.1:42163): stdout activated virtualenv has been ensured
9:54AM DBG GRPC(stable-diffusion-3-medium-127.0.0.1:42163): stderr /build/backend/python/diffusers/venv/lib/python3.10/site-packages/transformers/utils/hub.py:128: FutureWarning: Using `TRANSFORMERS_CACHE` is deprecated and will be removed in v5 of Transformers. Use `HF_HOME` instead.
9:54AM DBG GRPC(stable-diffusion-3-medium-127.0.0.1:42163): stderr   warnings.warn(
9:54AM DBG GRPC(stable-diffusion-3-medium-127.0.0.1:42163): stderr Server started. Listening on: 127.0.0.1:42163
9:54AM DBG GRPC Service Ready
9:54AM DBG GRPC: Loading model with options: {state:{NoUnkeyedLiterals:{} DoNotCompare:[] DoNotCopy:[] atomicMessageInfo:<nil>} sizeCache:0 unknownFields:[] Model:stable-diffusion-3-medium-diffusers ContextSize:512 Seed:2058506972 NBatch:512 F16Memory:false MLock:false MMap:true VocabOnly:false LowVRAM:false Embeddings:false NUMA:false NGPULayers:99999999 MainGPU: TensorSplit: Threads:32 LibrarySearchPath: RopeFreqBase:0 RopeFreqScale:0 RMSNormEps:0 NGQA:0 ModelFile:/build/models/stable-diffusion-3-medium-diffusers Device: UseTriton:false ModelBaseName: UseFastTokenizer:false PipelineType:StableDiffusion3Pipeline SchedulerType: CUDA:true CFGScale:0 IMG2IMG:false CLIPModel: CLIPSubfolder: CLIPSkip:0 ControlNet: Tokenizer: LoraBase: LoraAdapter: LoraScale:0 NoMulMatQ:false DraftModel: AudioPath: Quantization: GPUMemoryUtilization:0 TrustRemoteCode:false EnforceEager:false SwapSpace:0 MaxModelLen:0 TensorParallelSize:0 LoadFormat: MMProj: RopeScaling: YarnExtFactor:0 YarnAttnFactor:0 YarnBetaFast:0 YarnBetaSlow:0 Type: FlashAttention:false NoKVOffload:false ModelPath:/build/models LoraAdapters:[] LoraScales:[]}
9:54AM DBG GRPC(stable-diffusion-3-medium-127.0.0.1:42163): stderr Loading model stable-diffusion-3-medium-diffusers...
9:54AM DBG GRPC(stable-diffusion-3-medium-127.0.0.1:42163): stderr Request Model: "stable-diffusion-3-medium-diffusers"
9:54AM DBG GRPC(stable-diffusion-3-medium-127.0.0.1:42163): stderr ContextSize: 512
9:54AM DBG GRPC(stable-diffusion-3-medium-127.0.0.1:42163): stderr Seed: 2058506972
9:54AM DBG GRPC(stable-diffusion-3-medium-127.0.0.1:42163): stderr NBatch: 512
9:54AM DBG GRPC(stable-diffusion-3-medium-127.0.0.1:42163): stderr MMap: true
9:54AM DBG GRPC(stable-diffusion-3-medium-127.0.0.1:42163): stderr NGPULayers: 99999999
9:54AM DBG GRPC(stable-diffusion-3-medium-127.0.0.1:42163): stderr Threads: 32
9:54AM DBG GRPC(stable-diffusion-3-medium-127.0.0.1:42163): stderr ModelFile: "/build/models/stable-diffusion-3-medium-diffusers"
9:54AM DBG GRPC(stable-diffusion-3-medium-127.0.0.1:42163): stderr PipelineType: "StableDiffusion3Pipeline"
9:54AM DBG GRPC(stable-diffusion-3-medium-127.0.0.1:42163): stderr CUDA: true
9:54AM DBG GRPC(stable-diffusion-3-medium-127.0.0.1:42163): stderr ModelPath: "/build/models"
9:54AM DBG GRPC(stable-diffusion-3-medium-127.0.0.1:42163): stderr 
9:54AM ERR Server error error="failed to load model with internal loader: could not load model (no success): Unexpected err=ValueError('Invalid `pretrained_model_name_or_path` provided. Please set it to a valid URL.'), type(err)=<class 'ValueError'>" ip=10.33.2.64 latency=10.026025313s method=POST status=500 url=/v1/images/generations

Additional context

The text was updated successfully, but these errors were encountered:

JarHMJ added bug Something isn't working unconfirmed labels Nov 14, 2024

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

load local model sd3 error with diffuser backend #4144

load local model sd3 error with diffuser backend #4144

JarHMJ commented Nov 14, 2024

load local model sd3 error with diffuser backend #4144

load local model sd3 error with diffuser backend #4144

Comments

JarHMJ commented Nov 14, 2024