auto-coder 0.1.254__py3-none-any.whl → 0.1.255__py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Potentially problematic release.


This version of auto-coder might be problematic. Click here for more details.

@@ -0,0 +1,1549 @@
1
+ # byzerllm 大模型编程快速指南
2
+
3
+
4
+ ## 基于 Ray 的启动和管理模型
5
+
6
+ byzerllm 支持私有化模型或者SaaS模型的部署。
7
+
8
+ 这里以 deepseek 官方API 为例:
9
+
10
+ ```bash
11
+ easy-byzerllm deploy deepseek-chat --token xxxxx --alias deepseek_chat
12
+ ```
13
+
14
+ 或者跬基流动API:
15
+
16
+ ```bash
17
+ easy-byzerllm deploy alibaba/Qwen1.5-110B-Chat --token xxxxx --alias qwen110b_chat
18
+ ```
19
+
20
+ 将上面的 API KEY 替换成你们自己的。
21
+
22
+ 之后,你就可以在代码里使用 deepseek_chat 或者 qwen110b_chat 访问模型了。
23
+
24
+ 可以使用
25
+
26
+ ```
27
+ easy-byzerllm chat <模型别名> <query>
28
+ ```
29
+
30
+ 来和任何已经部署好的模型进行聊天。
31
+
32
+
33
+ ### 硅基流动
34
+
35
+ ```
36
+ byzerllm deploy --pretrained_model_type saas/openai \
37
+ --cpus_per_worker 0.001 \
38
+ --gpus_per_worker 0 \
39
+ --num_workers 1 \
40
+ --worker_concurrency 1000 \
41
+ --infer_params saas.base_url="https://api.siliconflow.cn/v1" saas.api_key=${MODEL_silcon_flow_TOKEN} saas.model=deepseek-ai/deepseek-v2-chat \
42
+ --model deepseek_chat
43
+ ```
44
+
45
+ 将 saas.model 替换成硅基流动提供的模型名字,然后将 saas.api_key 替换成你自己的key.
46
+
47
+ ### gpt4o
48
+
49
+ byzerllm deploy --pretrained_model_type saas/openai \
50
+ --cpus_per_worker 0.001 \
51
+ --gpus_per_worker 0 \
52
+ --num_workers 1 \
53
+ --worker_concurrency 1000 \
54
+ --infer_params saas.api_key=${MODEL_OPENAI_TOKEN} saas.model=gpt-4o \
55
+ --model gpt4o_chat
56
+
57
+ 只需要填写 token, 其他的不需要调整。
58
+
59
+ ### Azure gpt4o
60
+
61
+ byzerllm deploy --pretrained_model_type saas/azure_openai \
62
+ --cpus_per_worker 0.001 \
63
+ --gpus_per_worker 0 \
64
+ --num_workers 1 \
65
+ --worker_concurrency 10 \
66
+ --infer_params saas.api_type="azure" saas.azure_endpoint="https:/xxx.openai.azure.com/" saas.api_key="xxx" saas.api_version="2024-02-15-preview" saas.azure_deployment="gpt-4o-2024-05-13" saas.model=gpt-4o \
67
+ --model gpt4o_chat
68
+
69
+ 主要修改的是 infer_params 里的参数。其他的不用调整。
70
+
71
+ 值得注意的是:
72
+
73
+ 1. saas.azure_endpoint 需要按需修改。
74
+ 2. saas.azure_deployment="gpt-4o-2024-05-13" 是必须的,根据azure 提供的信息填写。
75
+
76
+ ### Sonnet 3.5
77
+
78
+ byzerllm deploy --pretrained_model_type saas/claude \
79
+ --cpus_per_worker 0.001 \
80
+ --gpus_per_worker 0 \
81
+ --worker_concurrency 10 \
82
+ --num_workers 1 \
83
+ --infer_params saas.api_key=${MODEL_CLAUDE_TOEKN} saas.model=claude-3-5-sonnet-20240620 \
84
+ --model sonnet_3_5_chat
85
+
86
+ ### AWS Sonnet 3.5
87
+
88
+ byzerllm deploy --pretrained_model_type saas/aws_bedrock \
89
+ --cpus_per_worker 0.001 \
90
+ --gpus_per_worker 0 \
91
+ --worker_concurrency 10 \
92
+ --num_workers 1 \
93
+ --infer_params saas.aws_access_key=xxxx saas.aws_secret_key=xxxx saas.region_name=xxxx saas.model_api_version=xxxx saas.model=xxxxx \
94
+ --model sonnet_3_5_chat
95
+
96
+ 你可能还需要安装一个驱动:
97
+
98
+ pip install boto3
99
+
100
+ 主要修改的是 infer_params 里的参数。其他的不用调整。
101
+
102
+ 如果 saas.model_api_version 如果没有填写,并且 saas.model 是anthropic 开头的,那么该值默认为:bedrock-2023-05-31。 一般使用默认的即可。
103
+
104
+ 下面是一个更完整的例子:
105
+
106
+ byzerllm deploy --pretrained_model_type saas/aws_bedrock --cpus_per_worker 0.001 --gpus_per_worker 0 --worker_concurrency 10 --num_workers 1 --infer_params saas.aws_access_key=xxx saas.aws_secret_key=xx saas.region_name=us-east-1 saas.model=anthropic.claude-3-5-sonnet-20240620-v1:0 --model sonnet_3_5_chat
107
+
108
+ ### ollama或者oneapi
109
+
110
+ byzerllm deploy --pretrained_model_type saas/openai \
111
+ --cpus_per_worker 0.01 \
112
+ --gpus_per_worker 0 \
113
+ --num_workers 1 \
114
+ --worker_concurrency 10 \
115
+ --infer_params saas.api_key=token saas.model=llama3:70b-instruct-q4_0 saas.base_url="http://192.168.3.106:11434/v1/" \
116
+ --model ollama_llama3_chat
117
+
118
+ ### 兼容 OpenAI 接口
119
+ 或者支持标准 OpenAI 的模型,比如 kimi 部署方式如下:
120
+
121
+ byzerllm deploy --pretrained_model_type saas/official_openai \
122
+ --cpus_per_worker 0.001 \
123
+ --gpus_per_worker 0 \
124
+ --num_workers 1 \
125
+ --worker_concurrency 10 \
126
+ --infer_params saas.api_key=${MODEL_KIMI_TOKEN} saas.base_url="https://api.moonshot.cn/v1" saas.model=moonshot-v1-32k \
127
+ --model kimi_chat
128
+
129
+ ### 阿里云 Qwen系列
130
+
131
+ 阿里云上的模型 qwen:
132
+
133
+ byzerllm deploy --pretrained_model_type saas/qianwen \
134
+ --cpus_per_worker 0.001 \
135
+ --gpus_per_worker 0 \
136
+ --num_workers 1 \
137
+ --worker_concurrency 10 \
138
+ --infer_params saas.api_key=${MODEL_QIANWEN_TOKEN} saas.model=qwen1.5-32b-chat \
139
+ --model qwen32b_chat
140
+
141
+ ### 私有开源模型
142
+ 或者部署一个私有/开源模型:
143
+
144
+ byzerllm deploy --pretrained_model_type custom/auto \
145
+ --infer_backend vllm \
146
+ --model_path /home/winubuntu/models/Qwen-1_8B-Chat \
147
+ --cpus_per_worker 0.001 \
148
+ --gpus_per_worker 1 \
149
+ --num_workers 1 \
150
+ --infer_params backend.max_model_len=28000 \
151
+ --model qwen_1_8b_chat
152
+
153
+ ### emb模型:
154
+ 比如Qwen系列:
155
+ byzerllm deploy --pretrained_model_type saas/qianwen \
156
+ --cpus_per_worker 0.001 \
157
+ --gpus_per_worker 0 \
158
+ --num_workers 2 \
159
+ --infer_params saas.api_key=${MODEL_QIANWEN_TOKEN} saas.model=text-embedding-v2 \
160
+ --model qianwen_emb
161
+
162
+ ### GPT系列:
163
+
164
+ byzerllm deploy --pretrained_model_type saas/openai \
165
+ --cpus_per_worker 0.001 \
166
+ --gpus_per_worker 0 \
167
+ --num_workers 1 \
168
+ --worker_concurrency 10 \
169
+ --infer_params saas.api_key=${MODEL_OPENAI_TOKEN} saas.model=text-embedding-3-small \
170
+ --model gpt_emb
171
+
172
+ ### 私有 BGE 等:
173
+
174
+ !byzerllm deploy --pretrained_model_type custom/bge \
175
+ --cpus_per_worker 0.001 \
176
+ --gpus_per_worker 0 \
177
+ --worker_concurrency 10 \
178
+ --model_path /home/winubuntu/.auto-coder/storage/models/AI-ModelScope/bge-large-zh \
179
+ --infer_backend transformers \
180
+ --num_workers 1 \
181
+ --model emb
182
+
183
+ ### 多模态部署
184
+
185
+ OpenAI 语音转文字模型:
186
+
187
+ byzerllm deploy --pretrained_model_type saas/openai \
188
+ --cpus_per_worker 0.001 \
189
+ --gpus_per_worker 0 \
190
+ --num_workers 1 \
191
+ --worker_concurrency 10 \
192
+ --infer_params saas.model=whisper-1 saas.api_key=${MODEL_OPENAI_TOKEN} \
193
+ --model voice2text
194
+
195
+ Open Whisper 语音转文字模型部署
196
+
197
+ byzerllm deploy --pretrained_model_type custom/whisper \
198
+ --infer_backend transformers \
199
+ --cpus_per_worker 0.001 \
200
+ --gpus_per_worker 0 \
201
+ --num_workers 1 \
202
+ --model_path <Whiper模型的地址> \
203
+ --model voice2text
204
+ 如果有GPU,记得 `--gpus_per_worker 0` 也设置为 1。CPU 还是比较慢的。
205
+
206
+ SenseVoice 语音转文字模型
207
+
208
+ byzerllm deploy --pretrained_model_type custom/sensevoice \
209
+ --infer_backend transformers \
210
+ --cpus_per_worker 0.001 \
211
+ --gpus_per_worker 0 \
212
+ --num_workers 1 \
213
+ --model_path <模型的地址> \
214
+ --infer_params vad_model=fsmn-vad vad_kwargs.max_single_segment_time=30000
215
+ --model voice2text
216
+
217
+ 注意: infer_params 是可选的。如果你通过 --gpus_per_workers 1 设置了 GPU ,那么 infer_params 参数可以追加一个 device=cuda:0 来使用 GPU。
218
+
219
+ ### 火山引擎语言合成模型:
220
+
221
+ byzerllm deploy --pretrained_model_type saas/volcengine \
222
+ --cpus_per_worker 0.001 \
223
+ --gpus_per_worker 0 \
224
+ --num_workers 1 \
225
+ --infer_params saas.api_key=${MODEL_VOLCANO_TTS_TOKEN} saas.app_id=6503259792 saas.model=volcano_tts \
226
+ --model volcano_tts
227
+
228
+ ### 微软语言合成模型:
229
+
230
+ byzerllm deploy --pretrained_model_type saas/azure \
231
+ --cpus_per_worker 0.001 \
232
+ --gpus_per_worker 0 \
233
+ --num_workers 1 \
234
+ --infer_params saas.api_key=${MODEL_AZURE_TTS_TOKEN} saas.service_region=eastus \
235
+ --model azure_tts
236
+
237
+ ### OpenAI 语言合成模型:
238
+ byzerllm deploy --pretrained_model_type saas/openai \
239
+ --cpus_per_worker 0.001 \
240
+ --gpus_per_worker 0 \
241
+ --num_workers 1 \
242
+ --infer_params saas.api_key=${MODEL_OPENAI_TOKEN} saas.model=tts-1 \
243
+ --model openai_tts
244
+
245
+ ### OpenAi 图片生成模型:
246
+
247
+ byzerllm deploy --pretrained_model_type saas/openai \
248
+ --cpus_per_worker 0.001 \
249
+ --gpus_per_worker 0 \
250
+ --num_workers 1 \
251
+ --infer_params saas.api_key=${MODEL_OPENAI_TOKEN} saas.model=dall-e-3 \
252
+ --model openai_image_gen
253
+
254
+ ### 千问VL模型
255
+
256
+ byzerllm deploy --pretrained_model_type saas/qianwen_vl \
257
+ --cpus_per_worker 0.001 \
258
+ --gpus_per_worker 0 \
259
+ --num_workers 1 \
260
+ --worker_concurrency 10 \
261
+ --infer_params saas.api_key=${MODEL_2_QIANWEN_TOKEN} saas.model=qwen-vl-max \
262
+ --model qianwen_vl_max_chat
263
+
264
+ ### 01万物VL模型:
265
+
266
+ byzerllm deploy --pretrained_model_type saas/openai \
267
+ --cpus_per_worker 0.001 \
268
+ --gpus_per_worker 0 \
269
+ --num_workers 1 \
270
+ --worker_concurrency 10 \
271
+ --infer_params saas.api_key=${MODEL_YI_TOKEN} saas.model=yi-vision saas.base_url=https://api.lingyiwanwu.com/v1 \
272
+ --model yi_vl_chat
273
+
274
+ ### CPU部署私有开源模型
275
+
276
+ byzerllm deploy --pretrained_model_type custom/auto \
277
+ --infer_backend llama_cpp \
278
+ --cpus_per_worker 0.001 \
279
+ --gpus_per_worker 0 \
280
+ --num_workers 1 \
281
+ --infer_params verbose=true num_gpu_layers=0 \
282
+ --model_path /Users/allwefantasy/Downloads/Meta-Llama-3-8B-Instruct-Q4_K_M.gguf \
283
+ --model llama_3_chat
284
+
285
+ 现在我们来仔细看看上面的参数。
286
+
287
+ ### 参数解析
288
+
289
+ --model
290
+
291
+ 给当前部署的实例起一个名字,这个名字是唯一的,用于区分不同的模型。你可以理解为模型是一个模板,启动后的一个模型就是一个实例。比如同样一个 SaaS模型,我可以启动多个实例。每个实例里可以包含多个worker实例。
292
+
293
+ --pretrained_model_type
294
+
295
+ 定义规则如下:
296
+
297
+ 1. 如果是SaaS模型,这个参数是 saas/xxxxx。 如果你的 SaaS 模型(或者公司已经通过别的工具部署的模型),并且兼容 openai 协议,那么你可以使用 saas/openai,否则其他的就要根据官方文档的罗列来写。 参考这里: https://github.com/allwefantasy/byzer-llm?tab=readme-ov-file#SaaS-Models
298
+
299
+ 下面是一个兼容 openai 协议的例子,比如 moonshot 的模型:
300
+
301
+ byzerllm deploy --pretrained_model_type saas/official_openai \
302
+ --cpus_per_worker 0.001 \
303
+ --gpus_per_worker 0 \
304
+ --num_workers 2 \
305
+ --infer_params saas.api_key=${MODEL_KIMI_TOKEN} saas.base_url="https://api.moonshot.cn/v1" saas.model=moonshot-v1-32k \
306
+ --model kimi_chat
307
+
308
+ 还有比如如果你使用 ollama 部署的模型,就可以这样部署:
309
+
310
+ byzerllm deploy --pretrained_model_type saas/openai \
311
+ --cpus_per_worker 0.01 \
312
+ --gpus_per_worker 0 \
313
+ --num_workers 2 \
314
+ --infer_params saas.api_key=token saas.model=llama3:70b-instruct-q4_0 saas.base_url="http://192.168.3.106:11434/v1/" \
315
+ --model ollama_llama3_chat
316
+
317
+ 2. 如果是私有模型,这个参数是是由 --infer_backend 参数来决定的。 如果你的模型可以使用 vllm/llama_cpp 部署,那么 --pretrained_model_type 是一个固定值 custom/auto。 如果你是用 transformers 部署,那么这个参数是 transformers 的模型名称, 具体名称目前也可以参考 https://github.com/allwefantasy/byzer-llm。 通常只有多模态,向量模型才需要使用 transformers 部署,我们大部分都有例子,如果没有的,那么也可以设置为 custom/auto 进行尝试。
318
+
319
+ --infer_backend
320
+
321
+ 目前支持 vllm/transformers/deepspeed/llama_cpp 四个值。 其中 deepspeed 因为效果不好,基本不用。推荐vllm/llama_cpp 两个。
322
+
323
+ --infer_params
324
+
325
+ 对于 SaaS 模型,所有的参数都以 saas. 开头,基本兼容 OpenAI 参数。 例如 saas.api_key, saas.model,saas.base_url 等等。
326
+ 对于所有私有模型,如果使用 vllm 部署,则都以 backend. 开头。 具体的参数则需要参考 vllm 的文档。 对于llama_cpp 部署,则直接配置 llama_cpp相关的参数即可,具体的参数则需要参考 llama_cpp 的文档。
327
+
328
+ vllm 常见参数:
329
+
330
+ 1. backend.gpu_memory_utilization GPU显存占用比例 默认0.9
331
+ 2. backend.max_model_len 模型最大长度 会根据模型自动调整。 但是如果你的显存不够模型默认值,需要自己调整。
332
+ 3. backend.enforce_eager 是否开启eager模式(cuda graph, 会额外占用一些显存来提数) 默认True
333
+ 4. backend.trust_remote_code 有的时候加载某些模型需要开启这个参数。 默认False
334
+
335
+ llama_cpp 常见参数:
336
+
337
+ 1. n_gpu_layers 用于控制模型GPU加载模型的层数。默认为 0,表示不使用GPU。尽可能使用GPU,则设置为 -1, 否则设置一个合理的值。(你可以比如从100这个值开始试)
338
+ 2. verbose 是否开启详细日志。默认为True。
339
+
340
+ --model_path
341
+
342
+ --model_path 是私有模型独有的参数, 通常是一个目录,里面包含了模型的权重文件,配置文件等等。
343
+
344
+ --num_workers
345
+
346
+ --num_workers 是指定部署实例的数量。 以backend vllm 为例,默认一个worker就是一个vllm实例,支持并发推理,所以通常可以设置为1。 如果是SaaS模型,则一个 worker 只支持一个并发,你可以根据你的需求设置合理数目的 worker 数量。
347
+
348
+ byzerllm 默认使用 LRU 策略来进行worker请求的分配。
349
+
350
+ --cpus_per_worker
351
+
352
+ --cpus_per_worker 是指定每个部署实例的CPU核数。 如果是SaaS模型通常是一个很小的值,比如0.001。
353
+
354
+
355
+ --gpus_per_worker
356
+
357
+ --gpus_per_worker 是指定每个部署实例的GPU核数。 如果是SaaS模型通常是0。
358
+
359
+ ### 监控部署状态
360
+
361
+ 你可以通过 byzerllm stat 来查看当前部署的模型的状态。
362
+
363
+ 比如:
364
+
365
+ byzerllm stat --model gpt3_5_chat
366
+
367
+ 输出:
368
+
369
+ Command Line Arguments:
370
+ --------------------------------------------------
371
+ command : stat
372
+ ray_address : auto
373
+ model : gpt3_5_chat
374
+ file : None
375
+ --------------------------------------------------
376
+ 2024-05-06 14:48:17,206 INFO worker.py:1564 -- Connecting to existing Ray cluster at address: 127.0.0.1:6379...
377
+ 2024-05-06 14:48:17,222 INFO worker.py:1740 -- Connected to Ray cluster. View the dashboard at 127.0.0.1:8265
378
+ {
379
+ "total_workers": 3,
380
+ "busy_workers": 0,
381
+ "idle_workers": 3,
382
+ "load_balance_strategy": "lru",
383
+ "total_requests": [
384
+ 33,
385
+ 33,
386
+ 32
387
+ ],
388
+ "state": [
389
+ 1,
390
+ 1,
391
+ 1
392
+ ],
393
+ "worker_max_concurrency": 1,
394
+ "workers_last_work_time": [
395
+ "631.7133535240428s",
396
+ "631.7022202090011s",
397
+ "637.2349605050404s"
398
+ ]
399
+ }
400
+
401
+ 解释下上面的输出:
402
+
403
+ 1. total_workers: 模型gpt3_5_chat的实际部署的worker实例数量
404
+ 2. busy_workers: 正在忙碌的worker实例数量
405
+ 3. idle_workers: 当前空闲的worker实例数量
406
+ 4. load_balance_strategy: 目前实例之间的负载均衡策略
407
+ 5. total_requests: 每个worker实例的累计的请求数量
408
+ 6. worker_max_concurrency: 每个worker实例的最大并发数
409
+ 7. state: 每个worker实例当前空闲的并发数(正在运行的并发=worker_max_concurrency-当前state的值)
410
+ 8. workers_last_work_time: 每个worker实例最后一次被调用的截止到现在的时间
411
+
412
+
413
+ ## 纯客户端启动和管理模型
414
+
415
+ byzerllm 也支持纯客户端启动和管理模型。启动一个 llm 的实例方式为:
416
+
417
+ ```python
418
+ llm = byzerllm.SimpleByzerLLM(default_model_name="deepseek_chat")
419
+ api_key_dir = os.path.expanduser("~/.auto-coder/keys")
420
+ api_key_file = os.path.join(api_key_dir, "api.deepseek.com")
421
+
422
+ if not os.path.exists(api_key_file):
423
+ raise Exception(f"API key file not found: {api_key_file}")
424
+
425
+ with open(api_key_file, "r") as f:
426
+ api_key = f.read()
427
+
428
+ llm.deploy(
429
+ model_path="",
430
+ pretrained_model_type="saas/openai",
431
+ udf_name="deepseek_chat",
432
+ infer_params={
433
+ "saas.base_url": "https://api.deepseek.com/v1",
434
+ "saas.api_key": api_key,
435
+ "saas.model": "deepseek-chat"
436
+ }
437
+ )
438
+ ```
439
+
440
+ 之后就可以用 llm 实例和大模型沟通了。
441
+
442
+ ## hello world
443
+
444
+ 启动大模型后,我们就可以使用 byzerllm API和的大模型交流了:
445
+
446
+ ```python
447
+ import byzerllm
448
+
449
+ llm = byzerllm.ByzerLLM.from_default_model(model="deepseek_chat")
450
+ # or use SimpleByzerLLM
451
+
452
+ @byzerllm.prompt(llm=llm)
453
+ def hello(q:str) ->str:
454
+ '''
455
+ 你好, {{ q }}
456
+ '''
457
+
458
+ s = hello("你是谁")
459
+ print(s)
460
+
461
+ ## 输出:
462
+ ## '你好!我是一个人工智能助手,专门设计来回答问题、提供信息和帮助解决问题。如果你有任何疑问或需要帮助,请随时告诉我。'
463
+ ```
464
+
465
+ 恭喜,你和大模型成功打了招呼!
466
+
467
+ 可以看到,我们通过 `@byzerllm.prompt` 装饰器,将一个方法转换成了一个大模型的调用,然后这个方法的主题是一段文本,文本中
468
+ 使用了 jinja2 模板语法,来获得方法的参数。当正常调用该方法时,实际上就发起了和大模型的交互,并且返回了大模型的结果。
469
+
470
+ 在 byzerllm 中,我们把这种方法称之为 prompt 函数。
471
+
472
+ ## 查看发送给大模型的prompt
473
+
474
+ 很多情况你可能需要调试,查看自己的 prompt 渲染后到底是什么样子的,这个时候你可以通过如下方式
475
+ 获取渲染后的prompt:
476
+
477
+ ```python
478
+ hello.prompt("你是谁")
479
+ ## '你好, 你是谁'
480
+ ```
481
+
482
+ ## 动态换一个模型
483
+
484
+ 前面的 hello 方法在初始化的时候,我们使用了默认的模型 deepseek_chat,如果我们想换一个模型,可以这样做:
485
+
486
+ ```python
487
+ hello.with_llm(llm).run("你是谁")
488
+ ## '你好!我是一个人工智能助手,专门设计来回答问题、提供信息和帮助解决问题。如果你有任何疑问或需要帮助,请随时告诉我。'
489
+ ```
490
+
491
+ 通过 with_llm 你可以设置一个新的 llm 对象,然后调用 run 方法,就可以使用新的模型了。
492
+
493
+ ## 超长文本生成
494
+
495
+ 我们知道,大模型一次生成的长度其实是有限的,如果你想生成超长文本,你可能需手动的不断获得
496
+ 生成结果,然后把他转化为输入,然后再次生成,这样的方式是比较麻烦的。
497
+
498
+ byzerllm 提供了更加易用的 API :
499
+
500
+ ```python
501
+ import byzerllm
502
+ from byzerllm import ByzerLLM
503
+
504
+ llm = ByzerLLM.from_default_model("deepseek_chat")
505
+
506
+ @byzerllm.prompt()
507
+ def tell_story() -> str:
508
+ """
509
+ 讲一个100字的故事。
510
+ """
511
+
512
+
513
+ s = (
514
+ tell_story.with_llm(llm)
515
+ .with_response_markers()
516
+ .options({"llm_config": {"max_length": 10}})
517
+ .run()
518
+ )
519
+ print(s)
520
+
521
+ ## 从前,森林里住着一只聪明的小狐狸。一天,它发现了一块闪闪发光的宝石。小狐狸决定用这块宝石帮助森林里的动物们。它用宝石的光芒指引迷路的小鹿找到了回家的路,用宝石的温暖治愈了受伤的小鸟。从此,小狐狸成了森林里的英雄,动物们都感激它的善良和智慧。
522
+ ```
523
+
524
+ 实际核心部分就是这一行:
525
+
526
+ ```python
527
+ tell_story.with_llm(llm)
528
+ .with_response_markers()
529
+ .run()
530
+ ```
531
+
532
+ 我们只需要调用 `with_response_markers` 方法,系统就会自动的帮我们生成超长文本。
533
+ 在上面的案例中,我们通过
534
+
535
+ ```python
536
+ .options({"llm_config": {"max_length": 10}})
537
+ ```
538
+
539
+ 认为的限制大模型一次交互最多只能输出10个字符,但是系统依然自动完成了远超过10个字符的文本生成。
540
+
541
+ *** 尽管如此,我们还是推荐使用我们后面介绍的对话前缀续写的方式来生成超长文本。***
542
+
543
+ ## 对象输出
544
+
545
+ 前面我们的例子都是返回字符串,但是我们也可以返回对象,这样我们就可以更加灵活的处理返回结果。
546
+
547
+ ```python
548
+ import pydantic
549
+
550
+ class Story(pydantic.BaseModel):
551
+ '''
552
+ 故事
553
+ '''
554
+
555
+ title: str = pydantic.Field(description="故事的标题")
556
+ body: str = pydantic.Field(description="故事主体")
557
+
558
+ @byzerllm.prompt()
559
+ def tell_story()->Story:
560
+ '''
561
+ 讲一个100字的故事。
562
+ '''
563
+
564
+ s = tell_story.with_llm(llm).run()
565
+ print(isinstance(s, Story))
566
+ print(s.title)
567
+
568
+ ## True
569
+ ## 勇敢的小鸟
570
+ ```
571
+
572
+ 可以看到,我们很轻松的将输出转化为格式化输出。
573
+
574
+ *** 尽管如此,我们推荐另外一个结构化输出方案 ***:
575
+
576
+ ```python
577
+ import pydantic
578
+
579
+ class Story(pydantic.BaseModel):
580
+ title: str
581
+ body: str
582
+
583
+ @byzerllm.prompt()
584
+ def tell_story()->str:
585
+ '''
586
+ 讲一个100字的故事。
587
+
588
+ 返回符合以下格式的JSON:
589
+
590
+ ```json
591
+ {
592
+ "title": "故事的标题",
593
+ "body": "故事主体"
594
+ }
595
+ ```
596
+ '''
597
+
598
+ s = tell_story.with_llm(llm).with_return_type(Story).run()
599
+ print(isinstance(s, Story))
600
+ print(s.title)
601
+
602
+ ## True
603
+ ## 勇敢的小鸟
604
+ ```
605
+
606
+ 这里我们显示的指定要返回的json格式,然后通过 with_return_type 指定对应的pydatic 类,自动来完成转换。
607
+
608
+ ## 自定义字段抽取
609
+
610
+ 前面的结构化输出,其实会消耗更多token,还有一种更加精准的结构化输出方式。
611
+ 比如让大模型生成一个正则表达式,但实际上大模型很难准确只输出一个正则表达式,这个时候我们可以通过自定义抽取函数来获取我们想要的结果。
612
+
613
+
614
+ ```python
615
+ from loguru import logger
616
+ import re
617
+
618
+ @byzerllm.prompt()
619
+ def generate_regex_pattern(desc: str) -> str:
620
+ """
621
+ 根据下面的描述生成一个正则表达式,要符合python re.compile 库的要求。
622
+
623
+ {{ desc }}
624
+
625
+ 最后生成的正则表达式要在<REGEX></REGEX>标签对里。
626
+ """
627
+
628
+ def extract_regex_pattern(regex_block: str) -> str:
629
+ pattern = re.search(r"<REGEX>(.*)</REGEX>", regex_block, re.DOTALL)
630
+ if pattern is None:
631
+ logger.warning("No regex pattern found in the generated block:\n {regex_block}")
632
+ raise None
633
+ return pattern.group(1)
634
+
635
+ pattern = "匹配一个邮箱地址"
636
+ v = generate_regex_pattern.with_llm(llm).with_extractor(extract_regex_pattern).run(desc=pattern)
637
+ print(v)
638
+ ## ^[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}$
639
+ ```
640
+
641
+ 在上面的例子里,我们根据一句话生成一个正则表达式。我们通过 `with_extractor` 方法,传入了一个自定义的抽取函数,这个函数会在大模型生成结果后,对结果进行处理,然后返回我们想要的结果。
642
+
643
+ 我们在 prompt 明确说了,生成的结果要放到 `<REGEX></REGEX>` 标签对里,然后我们通过 extract_regex_pattern 函数,从结果中提取出了我们想要的正则表达式。
644
+
645
+ ## 在实例方法中使用大模型
646
+
647
+ ```python
648
+ import byzerllm
649
+ data = {
650
+ 'name': 'Jane Doe',
651
+ 'task_count': 3,
652
+ 'tasks': [
653
+ {'name': 'Submit report', 'due_date': '2024-03-10'},
654
+ {'name': 'Finish project', 'due_date': '2024-03-15'},
655
+ {'name': 'Reply to emails', 'due_date': '2024-03-08'}
656
+ ]
657
+ }
658
+
659
+
660
+ class RAG():
661
+ def __init__(self):
662
+ self.llm = byzerllm.ByzerLLM()
663
+ self.llm.setup_template(model="deepseek_chat",template="auto")
664
+ self.llm.setup_default_model_name("deepseek_chat")
665
+
666
+ @byzerllm.prompt()
667
+ def generate_answer(self,name,task_count,tasks)->str:
668
+ '''
669
+ Hello {{ name }},
670
+
671
+ This is a reminder that you have {{ task_count }} pending tasks:
672
+ {% for task in tasks %}
673
+ - Task: {{ task.name }} | Due: {{ task.due_date }}
674
+ {% endfor %}
675
+
676
+ Best regards,
677
+ Your Reminder System
678
+ '''
679
+
680
+ t = RAG()
681
+
682
+ response = t.generate_answer.with_llm(llm).run(**data)
683
+ print(response)
684
+
685
+ ## 输出:
686
+ ## Hello Jane Doe,
687
+ ##I hope this message finds you well. I wanted to remind you of your 3 pending tasks to ensure you stay on track:
688
+ ## 1. **Submit report** - This task is due on **2024-03-10**. Please ensure that you allocat
689
+ ```
690
+
691
+ 这里我们给了个比较复杂的例子,但我们可以看到,给一个实例prompt方法和普通prompt 方法差异不大。
692
+ 唯一的区别是如果你希望在定义的时候就指定大模型,使用一个lambda函数返回实例的 llm 对象即可。
693
+
694
+ ```python
695
+ @byzerllm.prompt(lambda self:self.llm)
696
+ ```
697
+
698
+ 你也可以不返回,在调用的时候通过 `with_llm` 方法指定 llm 对象。
699
+
700
+ 此外,这个例子也展示了如何通过jinja2模板语法,来处理复杂的结构化数据。
701
+
702
+ ## 通过 Python 代码处理复杂入参
703
+
704
+ 上面的一个例子中,我们通过 jinja2 模板语法,来处理复杂的结构化数据,但是有时候我们可能需要更加复杂的处理,这个时候我们可以通过 Python 代码来处理。
705
+
706
+ ```python
707
+ import byzerllm
708
+
709
+ data = {
710
+ 'name': 'Jane Doe',
711
+ 'task_count': 3,
712
+ 'tasks': [
713
+ {'name': 'Submit report', 'due_date': '2024-03-10'},
714
+ {'name': 'Finish project', 'due_date': '2024-03-15'},
715
+ {'name': 'Reply to emails', 'due_date': '2024-03-08'}
716
+ ]
717
+ }
718
+
719
+
720
+ class RAG():
721
+ def __init__(self):
722
+ self.llm = byzerllm.ByzerLLM.from_default_model(model="deepseek_chat")
723
+
724
+ @byzerllm.prompt()
725
+ def generate_answer(self,name,task_count,tasks)->str:
726
+ '''
727
+ Hello {{ name }},
728
+
729
+ This is a reminder that you have {{ task_count }} pending tasks:
730
+
731
+ {{ tasks }}
732
+
733
+ Best regards,
734
+ Your Reminder System
735
+ '''
736
+
737
+ tasks_str = "\n".join([f"- Task: {task['name']} | Due: { task['due_date'] }" for task in tasks])
738
+ return {"tasks": tasks_str}
739
+
740
+ t = RAG()
741
+
742
+ response = t.generate_answer.with_llm(t.llm).run(**data)
743
+ print(response)
744
+
745
+ ## Just a gentle nudge to keep you on track with your pending tasks. Here's a quick recap:....
746
+ ```
747
+
748
+ 在这个例子里,我们直接把 tasks 在方法体里进行处理,然后作为一个字符串返回,最够构建一个字典,字典的key为 tasks,然后
749
+ 你就可以在 docstring 里使用 `{{ tasks }}` 来引用这个字符串。
750
+
751
+ 这样对于很复杂的入参,就不用谢繁琐的 jinja2 模板语法了。
752
+
753
+ ## 如何自动实现一个方法
754
+
755
+ 比如我定义一个签名,但是我不想自己实现里面的逻辑,让大模型来实现。这个在 byzerllm 中叫 function impl。我们来看看怎么
756
+ 实现:
757
+
758
+ ```python
759
+ import pydantic
760
+ class Time(pydantic.BaseModel):
761
+ time: str = pydantic.Field(...,description="时间,时间格式为 yyyy-MM-dd")
762
+
763
+
764
+ @llm.impl()
765
+ def calculate_current_time()->Time:
766
+ '''
767
+ 计算当前时间
768
+ '''
769
+ pass
770
+
771
+
772
+ calculate_current_time()
773
+ #output: Time(time='2024-06-14')
774
+ ```
775
+
776
+ 在这个例子里,我们定义了一个 calculate_current_time 方法,但是我们没有实现里面的逻辑,我们通过 `@llm.impl()` 装饰器,让大模型来实现这个方法。
777
+ 为了避免每次都要“生成”这个方法,导致无法适用,我们提供了缓存,用户可以按如下方式打印速度:
778
+
779
+ ```python
780
+ start = time.monotonic()
781
+ calculate_current_time()
782
+ print(f"first time cost: {time.monotonic()-start}")
783
+
784
+ start = time.monotonic()
785
+ calculate_current_time()
786
+ print(f"second time cost: {time.monotonic()-start}")
787
+
788
+ # output:
789
+ # first time cost: 6.067266260739416
790
+ # second time cost: 4.347506910562515e-05
791
+ ```
792
+ 可以看到,第一次执行花费了6s,第二次几乎是瞬间完成的,这是因为第一次执行的时候,我们实际上是在生成这个方法,第二次执行的时候,我们是执行已经生成好的代码,所以速度会非常快。你可以显示的调用 `llm.clear_impl_cache()` 清理掉函数缓存。
793
+
794
+ ## Stream 模式
795
+
796
+ 前面的例子都是一次性生成结果,但是有时候我们可能需要一个流式的输出,这个时候我们可能需要用底层一点的API来完成了:
797
+
798
+ ```python
799
+ import byzerllm
800
+
801
+ llm = byzerllm.ByzerLLM.from_default_model(model="deepseek_chat")
802
+
803
+ v = llm.stream_chat_oai(model="deepseek_chat",conversations=[{
804
+ "role":"user",
805
+ "content":"你好,你是谁",
806
+ }],delta_mode=True)
807
+
808
+ for t,meta in v:
809
+ print(t,flush=True)
810
+
811
+ # 你好
812
+ # !
813
+ # 我
814
+ # 是一个
815
+ # 人工智能
816
+ # 助手
817
+ # ,
818
+ # 旨在
819
+ # 提供
820
+ # 信息
821
+ # 、
822
+ # 解答
823
+ # 问题....
824
+ ```
825
+ 其中meta的结构如下:
826
+
827
+ ```python
828
+ SingleOutputMeta(input_tokens_count=input_tokens_count,
829
+ generated_tokens_count=generated_tokens_count,
830
+ reasoning_content=reasoning_text,
831
+ finish_reason=chunk.choices[0].finish_reason)
832
+ ```
833
+
834
+ 如果你不想要流式输出,但是想用底层一点的API,你可以使用 `llm.chat_oai` 方法:
835
+
836
+ ```python
837
+ import byzerllm
838
+
839
+ llm = byzerllm.ByzerLLM.from_default_model(model="deepseek_chat")
840
+
841
+ v = llm.chat_oai(model="deepseek_chat",conversations=[{
842
+ "role":"user",
843
+ "content":"你好,你是谁",
844
+ }])
845
+
846
+ print(v[0].output)
847
+ ## 你好!我是一个人工智能助手,旨在提供信息、解答问题和帮助用户解决问题。如果你有任何问题或需要帮助,请随时告诉我。
848
+ ```
849
+
850
+ 其中 v[9].meta 的结构如下:
851
+
852
+ ```python
853
+ {
854
+ "request_id": response.id,
855
+ "input_tokens_count": input_tokens_count,
856
+ "generated_tokens_count": generated_tokens_count,
857
+ "time_cost": time_cost,
858
+ "first_token_time": 0,
859
+ "speed": float(generated_tokens_count) / time_cost,
860
+ # Available options: stop, eos, length, tool_calls
861
+ "finish_reason": response.choices[0].finish_reason,
862
+ "reasoning_content": reasoning_text
863
+ }
864
+ ```
865
+
866
+
867
+ ## Function Calling
868
+
869
+ byzerllm 可以不依赖模型自身就能提供 function calling 支持,我们来看个例子:
870
+
871
+
872
+ ```python
873
+ from typing import List,Dict,Any,Annotated
874
+ import pydantic
875
+ import datetime
876
+ from dateutil.relativedelta import relativedelta
877
+
878
+ def compute_date_range(count:Annotated[int,"时间跨度,数值类型"],
879
+ unit:Annotated[str,"时间单位,字符串类型",{"enum":["day","week","month","year"]}])->List[str]:
880
+ '''
881
+ 计算日期范围
882
+
883
+ Args:
884
+ count: 时间跨度,数值类型
885
+ unit: 时间单位,字符串类型,可选值为 day,week,month,year
886
+ '''
887
+ now = datetime.datetime.now()
888
+ now_str = now.strftime("%Y-%m-%d %H:%M:%S")
889
+ if unit == "day":
890
+ return [(now - relativedelta(days=count)).strftime("%Y-%m-%d %H:%M:%S"),now_str]
891
+ elif unit == "week":
892
+ return [(now - relativedelta(weeks=count)).strftime("%Y-%m-%d %H:%M:%S"),now_str]
893
+ elif unit == "month":
894
+ return [(now - relativedelta(months=count)).strftime("%Y-%m-%d %H:%M:%S"),now_str]
895
+ elif unit == "year":
896
+ return [(now - relativedelta(years=count)).strftime("%Y-%m-%d %H:%M:%S"),now_str]
897
+ return ["",""]
898
+
899
+ def compute_now()->str:
900
+ '''
901
+ 计算当前时间
902
+ '''
903
+ return datetime.datetime.now().strftime("%Y-%m-%d %H:%M:%S")
904
+ ```
905
+
906
+ 我们定义了两个方法,一个是计算日期范围,一个是计算当前时间。
907
+
908
+ 现在我么可以来测试下,系统如何根据自然语言决定调用哪个方法:
909
+
910
+ ```python
911
+ t = llm.chat_oai([{
912
+ "content":'''计算当前时间''',
913
+ "role":"user"
914
+ }],tools=[compute_date_range,compute_now],execute_tool=True)
915
+
916
+ t[0].values
917
+
918
+ ## output: ['2024-06-14 15:18:02']
919
+ ```
920
+
921
+ 我们可以看到,他正确的选择了 compute_now 方法。
922
+
923
+ 接着我们再试一个:
924
+
925
+ ```python
926
+ t = llm.chat_oai([{
927
+ "content":'''最近三个月趋势''',
928
+ "role":"user"
929
+ }],tools=[compute_date_range,compute_now],execute_tool=True)
930
+
931
+ t[0].values
932
+
933
+ ## output: [['2024-03-14 15:19:13', '2024-06-14 15:19:13']]
934
+ ```
935
+
936
+ 模型正确的选择了 compute_date_range 方法。
937
+
938
+ ## 多模态
939
+
940
+ byerllm 也能很好的支持多模态的交互,而且统一了多模态大模型的接口,比如你可以用一样的方式使用 openai 或者 claude 的图片转文字能力, 或者一致的方式使用火山,azuer, openai的语音合成接口。
941
+
942
+ ### 图生文
943
+
944
+ ```python
945
+ import byzerllm
946
+ from byzerllm.types import ImagePath
947
+
948
+ vl_llm = byzerllm.ByzerLLM.from_default_model("gpt4o_mini_chat")
949
+
950
+
951
+ @byzerllm.prompt()
952
+ def what_in_image(image_path: ImagePath) -> str:
953
+ """
954
+ {{ image_path }}
955
+ 这个图片里有什么?
956
+ """
957
+
958
+
959
+ v = what_in_image.with_llm(vl_llm).run(
960
+ ImagePath(value="/Users/allwefantasy/projects/byzer-llm/images/cat1.png")
961
+ )
962
+ v
963
+ ## OUTPUT: 这张图片展示了多只可爱的猫咪,采用了艺术风格的绘画。猫咪们有不同的颜色和花纹,背景是浅棕色,上面还点缀着一些红色的花朵。整体画面给人一种温馨和谐的感觉
964
+ ```
965
+
966
+ 可以看到,我们只需要把 prompt 函数的图片地址入参使用 byzerllm.types.ImagePath里进行包装,就可以直接在 prompt 函数体里
967
+ 带上图片。
968
+
969
+ 或者你可以这样:
970
+
971
+ ```python
972
+ import byzerllm
973
+
974
+ vl_llm = byzerllm.ByzerLLM.from_default_model("gpt4o_mini_chat")
975
+
976
+
977
+ @byzerllm.prompt()
978
+ def what_in_image(image_path: str) -> str:
979
+ """
980
+ {{ image }}
981
+ 这个图片里有什么?
982
+ """
983
+ return {"image": byzerllm.Image.load_image_from_path(image_path)}
984
+
985
+
986
+ v = what_in_image.with_llm(vl_llm).run(
987
+ "/Users/allwefantasy/projects/byzer-llm/images/cat1.png"
988
+ )
989
+ v
990
+ ```
991
+
992
+ 通过 `image_path` 参数,然后通过 `byzerllm.Image.load_image_from_path` 方法,转化为一个图片对象 image,最后在 prompt 函数体里
993
+ 使用 `{{ image }}` 引用这个图片对象。
994
+
995
+ 另外我们也是可以支持配置多张图片的。
996
+
997
+ 另外,我们也可以使用基础的 `llm.chat_oai` 方法来实现:
998
+
999
+ ```python
1000
+ import byzerllm
1001
+ import json
1002
+
1003
+ vl_llm = byzerllm.ByzerLLM.from_default_model("gpt4o_mini_chat")
1004
+ image = byzerllm.Image.load_image_from_path(
1005
+ "/Users/allwefantasy/projects/byzer-llm/images/cat1.png"
1006
+ )
1007
+ v = vl_llm.chat_oai(
1008
+ conversations=[
1009
+ {
1010
+ "role": "user",
1011
+ "content": json.dumps(
1012
+ [{"image": image, "text": "这个图片里有什么?"}], ensure_ascii=False
1013
+ ),
1014
+ }
1015
+ ]
1016
+ )
1017
+ v[0].output
1018
+ ```
1019
+
1020
+ 还可以这么写:
1021
+
1022
+ ```python
1023
+ import byzerllm
1024
+ import json
1025
+
1026
+ vl_llm = byzerllm.ByzerLLM.from_default_model("gpt4o_mini_chat")
1027
+ image = byzerllm.Image.load_image_from_path(
1028
+ "/Users/allwefantasy/projects/byzer-llm/images/cat1.png"
1029
+ )
1030
+ v = vl_llm.chat_oai(
1031
+ conversations=[
1032
+ {
1033
+ "role": "user",
1034
+ "content": json.dumps(
1035
+ [
1036
+ {
1037
+ "type": "image_url",
1038
+ "image_url": {"url": image, "detail": "high"},
1039
+ },
1040
+ {"text": "这个图片里有什么?", "type": "text"},
1041
+ ],
1042
+ ensure_ascii=False,
1043
+ ),
1044
+ }
1045
+ ]
1046
+ )
1047
+ v[0].output
1048
+ ```
1049
+
1050
+ ### 语音合成
1051
+
1052
+ 这里以 openai 的 tts 为例:
1053
+
1054
+ ```bash
1055
+ byzerllm deploy --pretrained_model_type saas/openai \
1056
+ --cpus_per_worker 0.001 \
1057
+ --gpus_per_worker 0 \
1058
+ --num_workers 1 \
1059
+ --infer_params saas.api_key=${MODEL_OPENAI_TOKEN} saas.model=tts-1 \
1060
+ --model openai_tts
1061
+ ```
1062
+
1063
+ 此外,byzerllm 支持 azure,火山引擎等 tts 语音合成引擎。
1064
+
1065
+ 接着你可以这么用:
1066
+
1067
+ ```python
1068
+ import byzerllm
1069
+ import base64
1070
+ import json
1071
+
1072
+ llm = byzerllm.ByzerLLM.from_default_model("openai_tts")
1073
+
1074
+
1075
+ t = llm.chat_oai(conversations=[{
1076
+ "role":"user",
1077
+ "content": json.dumps({
1078
+ "input":"hello, open_tts",
1079
+ "voice": "alloy",
1080
+ "response_format": "mp3"
1081
+ },ensure_ascii=False)
1082
+ }])
1083
+
1084
+ with open("voice.mp3","wb") as f:
1085
+ f.write(base64.b64decode(t[0].output))
1086
+ ```
1087
+
1088
+ tts 模型生成没有prompt函数可以用,你需要直接使用 chat_oai。
1089
+
1090
+
1091
+ ### 语音识别
1092
+
1093
+ 这里以 openai 的 whisper-1 为例:
1094
+
1095
+ ```bash
1096
+ byzerllm deploy --pretrained_model_type saas/openai \
1097
+ --cpus_per_worker 0.001 \
1098
+ --gpus_per_worker 0 \
1099
+ --num_workers 1 \
1100
+ --worker_concurrency 10 \
1101
+ --infer_params saas.model=whisper-1 saas.api_key=${MODEL_OPENAI_TOKEN} \
1102
+ --model speech_to_text
1103
+ ```
1104
+
1105
+ 语音识别的使用方式和图生文类似,我们可以直接在 prompt 函数体里带上音频文件。
1106
+
1107
+ ```python
1108
+ import byzerllm
1109
+ import json
1110
+ import base64
1111
+ from byzerllm.types import AudioPath
1112
+
1113
+ llm = byzerllm.ByzerLLM.from_default_model("speech_to_text")
1114
+
1115
+ audio_file = "/Users/allwefantasy/videos/output_audio.mp3"
1116
+
1117
+ @byzerllm.prompt(llm=llm)
1118
+ def audio_to_text(audio_file: AudioPath):
1119
+ """
1120
+ {{ audio_file }}
1121
+ """
1122
+
1123
+ v = audio_to_text(AudioPath(value=audio_file))
1124
+ json.loads(v)
1125
+ ```
1126
+ 输出的数据格式略微复杂:
1127
+
1128
+ ```
1129
+ {'text': 'In the last chapter, you and I started to step through the internal workings of a transformer. This is one of the key pieces of technology inside large language models, and a lot of other tools in the modern wave of AI.',
1130
+ 'task': 'transcribe',
1131
+ 'language': 'english',
1132
+ 'duration': 10.0,
1133
+ 'segments': [{'id': 0,
1134
+ 'seek': 0,
1135
+ 'start': 0.0,
1136
+ 'end': 4.78000020980835,
1137
+ 'text': ' In the last chapter, you and I started to step through the internal workings of a transformer.',
1138
+ 'tokens': [50364,
1139
+ 682,
1140
+ 264,
1141
+ 1036,
1142
+ 7187,
1143
+ 11,
1144
+ 291,
1145
+ 293,
1146
+ 286,
1147
+ 1409,
1148
+ .....
1149
+ 31782,
1150
+ 13,
1151
+ 50586],
1152
+ 'temperature': 0.0,
1153
+ 'avg_logprob': -0.28872039914131165,
1154
+ 'compression_ratio': 1.4220778942108154,
1155
+ 'no_speech_prob': 0.016033057123422623},
1156
+ ....
1157
+ {'id': 2,
1158
+ 'seek': 0,
1159
+ 'start': 8.579999923706055,
1160
+ 'end': 9.979999542236328,
1161
+ 'text': ' and a lot of other tools in the modern wave of AI.',
1162
+ 'tokens': [50759,
1163
+ 293,
1164
+ 257,
1165
+ 688,
1166
+ 295,
1167
+ 661,
1168
+ 3873,
1169
+ 294,
1170
+ 264,
1171
+ 4363,
1172
+ 5772,
1173
+ 295,
1174
+ 7318,
1175
+ 13,
1176
+ 50867],
1177
+ 'temperature': 0.0,
1178
+ 'avg_logprob': -0.28872039914131165,
1179
+ 'compression_ratio': 1.4220778942108154,
1180
+ 'no_speech_prob': 0.016033057123422623}],
1181
+ 'words': [{'word': 'In', 'start': 0.0, 'end': 0.18000000715255737},
1182
+ {'word': 'the', 'start': 0.18000000715255737, 'end': 0.23999999463558197},
1183
+ {'word': 'last', 'start': 0.23999999463558197, 'end': 0.5400000214576721},
1184
+ {'word': 'chapter', 'start': 0.5400000214576721, 'end': 0.800000011920929},
1185
+ ....
1186
+ {'word': 'AI', 'start': 9.920000076293945, 'end': 9.979999542236328}]}
1187
+ ```
1188
+
1189
+ 会输出每一句话以及每一个字所在的起始时间和截止时间。你可以根据需要来使用。
1190
+
1191
+
1192
+ ### 文生图
1193
+
1194
+ 文生图和语音合成类似,首先要启动合适的模型,以openai 的 dall-e-3 为例:
1195
+
1196
+ ```bash
1197
+ byzerllm deploy --pretrained_model_type saas/openai \
1198
+ --cpus_per_worker 0.001 \
1199
+ --gpus_per_worker 0 \
1200
+ --num_workers 1 \
1201
+ --infer_params saas.api_key=${MODEL_OPENAI_TOKEN} saas.model=dall-e-3 \
1202
+ --model openai_image_gen
1203
+ ```
1204
+
1205
+ 启动模型后,只需要记住几个模板参数即可使用,这里直接使用 chat_oai 方法来使用:
1206
+
1207
+ ```python
1208
+
1209
+ import byzerllm
1210
+ import json
1211
+ import base64
1212
+
1213
+ llm = byzerllm.ByzerLLM.from_default_model("openai_image_gen")
1214
+ t = llm.chat_oai(conversations=[{
1215
+ "role":"user",
1216
+ "content": json.dumps({
1217
+ "input":"a white siamese cat",
1218
+ "size": "1024x1024",
1219
+ "quality": "standard"
1220
+ },ensure_ascii=False)
1221
+ }])
1222
+
1223
+ with open("output1.jpg","wb") as f:
1224
+ f.write(base64.b64decode(t[0].output))
1225
+
1226
+
1227
+ import matplotlib.pyplot as plt
1228
+
1229
+ image_path = "output1.jpg"
1230
+ image = plt.imread(image_path)
1231
+
1232
+ plt.imshow(image)
1233
+ plt.axis('off')
1234
+ plt.show()
1235
+ ```
1236
+
1237
+ ## Prompt 函数的流式输出
1238
+
1239
+ byzerllm 底层支持流式输出,非 prompt 函数的用法是这样的:
1240
+
1241
+ ```python
1242
+ import byzerllm
1243
+
1244
+ llm = byzerllm.ByzerLLM.from_default_model("deepseek_chat")
1245
+
1246
+ v = llm.stream_chat_oai(conversations=[{
1247
+ "role":"user",
1248
+ "content":"讲一个100字的故事"
1249
+ }])
1250
+
1251
+ for s in v:
1252
+ print(s[0], end="")
1253
+ ```
1254
+
1255
+ 如果你像用 prompt 函数,可以这么用:
1256
+
1257
+
1258
+ ```python
1259
+ import byzerllm
1260
+ import json
1261
+ import base64
1262
+ from typing import Generator
1263
+
1264
+ llm = byzerllm.ByzerLLM.from_default_model("deepseek_chat")
1265
+
1266
+ @byzerllm.prompt()
1267
+ def tell_story() -> Generator[str, None, None]:
1268
+ '''
1269
+ 给我讲一个一百多字的故事
1270
+ '''
1271
+
1272
+ v = tell_story.with_llm(llm).run()
1273
+ for i in v:
1274
+ print(i, end="")
1275
+ ```
1276
+
1277
+ 可以看到,和普通的 prompt 函数的区别在于,返回值是一个生成器,然后你可以通过 for 循环来获取结果。
1278
+
1279
+ ## 向量化模型
1280
+
1281
+ byzerllm 支持向量化模型,你可以这样启动一个本地的模型:
1282
+
1283
+ ```bash
1284
+ !byzerllm deploy --pretrained_model_type custom/bge \
1285
+ --cpus_per_worker 0.001 \
1286
+ --gpus_per_worker 0 \
1287
+ --worker_concurrency 10 \
1288
+ --model_path /home/winubuntu/.auto-coder/storage/models/AI-ModelScope/bge-large-zh \
1289
+ --infer_backend transformers \
1290
+ --num_workers 1 \
1291
+ --model emb
1292
+ ```
1293
+
1294
+ 注意两个参数:
1295
+
1296
+ 1. --infer_backend transformers: 表示使用 transformers 作为推理后端。
1297
+ 2. --model_path: 表示模型的路径。
1298
+
1299
+ 也可以启动一个 SaaS 的emb模型,比如 qwen 的 emb 模型:
1300
+
1301
+ ```bash
1302
+ byzerllm deploy --pretrained_model_type saas/qianwen \
1303
+ --cpus_per_worker 0.001 \
1304
+ --gpus_per_worker 0 \
1305
+ --num_workers 2 \
1306
+ --infer_params saas.api_key=${MODEL_QIANWEN_TOKEN} saas.model=text-embedding-v2 \
1307
+ --model qianwen_emb
1308
+ ```
1309
+
1310
+ 或者 openai 的 emb 模型:
1311
+
1312
+ ```bash
1313
+ byzerllm deploy --pretrained_model_type saas/openai \
1314
+ --cpus_per_worker 0.001 \
1315
+ --gpus_per_worker 0 \
1316
+ --num_workers 1 \
1317
+ --worker_concurrency 10 \
1318
+ --infer_params saas.api_key=${MODEL_OPENAI_TOKEN} saas.model=text-embedding-3-small \
1319
+ --model gpt_emb
1320
+ ```
1321
+ SaaS 模型无需配置 `--infer_backend` 参数。
1322
+
1323
+ 无论是本地模型还是 SaaS 模型,我们都可以这样使用:
1324
+
1325
+ ```python
1326
+ import byzerllm
1327
+ llm = byzerllm.ByzerLLM.from_default_model("deepseek_chat")
1328
+ llm.setup_default_emb_model_name("emb")
1329
+ llm.emb_query("你好")
1330
+ ```
1331
+
1332
+ 如果你配置 byzerllm 中的 Storage 使用,比如你这样启动了存储:
1333
+
1334
+ ```bash
1335
+ byzerllm storage start --enable_emb
1336
+ ```
1337
+
1338
+ 那么需要这么使用:
1339
+
1340
+ ```python
1341
+ from byzerllm.apps.byzer_storage.simple_api import ByzerStorage, DataType, FieldOption,SortOption
1342
+ storage = ByzerStorage("byzerai_store", "memory", "memory")
1343
+ storage.emb("你好")
1344
+ ```
1345
+
1346
+ ## Chat Prefix Completion
1347
+
1348
+ byzerllm 支持 chat prefix completion 功能,也就是对话前缀续写。该功能沿用 Chat Completion API,用户提供 assistant 开头的消息,来让模型补全其余的消息。
1349
+ 该功能可以达到两个效果:
1350
+
1351
+ 1. 有效的引导大模型的回答。
1352
+ 2. 可以增加大模型的输出(continue) 功能。
1353
+
1354
+ 具体使用方式:
1355
+
1356
+ ```python
1357
+ response = llm.chat_oai(
1358
+ conversations=[
1359
+ {"role":"user","content":"xxxxx"},
1360
+ {"role":"assistant","content":"xxxxx"}
1361
+ ],
1362
+ llm_config={
1363
+ "gen.response_prefix": True},
1364
+ )
1365
+ k = response[0].output
1366
+ ```
1367
+
1368
+ 要开启该功能,需要确保两点:
1369
+
1370
+ 1. conversations 最后一条消息必须是 assistant
1371
+ 2. llm_config 参数中添加配置: "gen.response_prefix": True
1372
+
1373
+ 通常,还可以配置 llm_config 中的参数 `gen.stop`(字符串数组),这样模型在输出的时候,遇到这些指定的字符就会停止输出,让你有机会控制大模型什么时候停止输出,
1374
+ 这样你可以再做一些处理后,通过上面的功能让大模型继续输出。
1375
+
1376
+ ## 案例集锦
1377
+
1378
+ 请对指定文件夹内的所有.py文件进行处理,判断是否存在不兼容 windows 文件编码读取的情况。请使用 prompt 函数来实现。
1379
+
1380
+ ```python
1381
+ import os
1382
+ from pathlib import Path
1383
+ from autocoder.common.files import read_file
1384
+ import byzerllm
1385
+
1386
+ # 初始化大模型
1387
+ llm = byzerllm.ByzerLLM.from_default_model(model="deepseek_chat")
1388
+
1389
+ @byzerllm.prompt()
1390
+ def detect_windows_encoding_issues(code: str) -> str:
1391
+ """
1392
+ 分析以下Python代码是否存在读取文件时不兼容Windows的编码问题(要兼容uft8/gbk):
1393
+
1394
+ {{ code }}
1395
+
1396
+ 如果存在以上问题,返回如下json格式:
1397
+
1398
+ ```json
1399
+ {
1400
+ "value": 是否存在问题,true 或者 false
1401
+ }
1402
+ ```
1403
+ """
1404
+
1405
+ from byzerllm.types import Bool
1406
+ def check_directory(directory: str):
1407
+ """检查目录下所有.py文件的Windows编码兼容性"""
1408
+ issues = []
1409
+
1410
+ for root, _, files in os.walk(directory):
1411
+ for file in files:
1412
+ if file.endswith('.py'):
1413
+ file_path = Path(root) / file
1414
+ try:
1415
+ print("processing file: ", file_path)
1416
+ content = read_file(str(file_path))
1417
+ result = detect_windows_encoding_issues.with_llm(llm).with_return_type(Bool).run(content)
1418
+ if result.value:
1419
+ print("found issue in file: ", file_path)
1420
+ issues.append(str(file_path))
1421
+ except Exception as e:
1422
+ print(f"Error reading {file_path}: {str(e)}")
1423
+
1424
+ return issues
1425
+
1426
+ # 使用示例
1427
+ directory_to_check = "xxxx" # 修改为你要检查的目录
1428
+ issues = check_directory(directory_to_check)
1429
+
1430
+ if issues:
1431
+ print("发现以下文件可能存在Windows编码问题:")
1432
+ for issue in issues:
1433
+ print(f"- {issue}")
1434
+ else:
1435
+ print("未发现Windows编码问题")
1436
+ ```
1437
+
1438
+
1439
+ ## 一些辅助工具
1440
+
1441
+ 当调用 prompt 函数返回字符串的时候,如果想从里面抽取代码,可以使用如下方式:
1442
+
1443
+ ```python
1444
+ from byzerllm.utils.client import code_utils
1445
+ text_with_markdown = '''
1446
+ ```shell
1447
+ ls -l
1448
+ ```
1449
+ '''
1450
+ code_blocks = code_utils.extract_code(text_with_markdown)
1451
+ for code_block in code_blocks:
1452
+ if code_block[0] == "shell":
1453
+ print(code_block[1])
1454
+ ##output: ls -l
1455
+ ```
1456
+
1457
+ TagExtractor 工具用于对任意 `<_tag_></_tag_>` 标签对的抽取,下面是一个使用示例:
1458
+
1459
+ ```python
1460
+ from byzerllm.apps.utils import TagExtractor
1461
+
1462
+ extractor = TagExtractor('''
1463
+ 大家好
1464
+ <_image_></_image_>
1465
+ 大家好
1466
+ <_image_></_image_>
1467
+ ''')
1468
+
1469
+ v = extractor.extract()
1470
+ print(v.content[0].content)
1471
+ print(v.content[1].content)
1472
+ ```
1473
+ 输出为:
1474
+
1475
+ ```
1476
+ 
1477
+ 
1478
+ ```
1479
+
1480
+ 我们成功的将 <_image_></_image_> 标签对里的内容抽取出来了。
1481
+
1482
+ 在Python异步编程时,你还可以使用 `byzerllm.utils.langutil` 中的 asyncfy 或者 asyncfy_with_semaphore 将一个同步方法转化为异步方法。
1483
+ 下面是这两个方法的签名和说明:
1484
+
1485
+ ```python
1486
+ def asyncfy_with_semaphore(
1487
+ func, semaphore: Optional[anyio.Semaphore]=None, timeout: Optional[float] = None
1488
+ ):
1489
+ """Decorator that makes a function async, as well as running in a separate thread,
1490
+ with the concurrency controlled by the semaphore. If Semaphore is None, we do not
1491
+ enforce an upper bound on the number of concurrent calls (but it is still bound by
1492
+ the number of threads that anyio defines as an upper bound).
1493
+
1494
+ Args:
1495
+ func (function): Function to make async. If the function is already async,
1496
+ this function will add semaphore and timeout control to it.
1497
+ semaphore (anyio.Semaphore or None): Semaphore to use for concurrency control.
1498
+ Concurrent calls to this function will be bounded by the semaphore.
1499
+ timeout (float or None): Timeout in seconds. If the function does not return
1500
+ within the timeout, a TimeoutError will be raised. If None, no timeout
1501
+ will be enforced. If the function is async, one can catch the CancelledError
1502
+ inside the function to handle the timeout.
1503
+ """
1504
+
1505
+ def asyncfy(func):
1506
+ """Decorator that makes a function async. Note that this does not actually make
1507
+ the function asynchroniously running in a separate thread, it just wraps it in
1508
+ an async function. If you want to actually run the function in a separate thread,
1509
+ consider using asyncfy_with_semaphore.
1510
+
1511
+ Args:
1512
+ func (function): Function to make async
1513
+ """
1514
+ ```
1515
+ 示例用法:
1516
+
1517
+ ```python
1518
+ async def async_get_meta(self):
1519
+ return await asyncfy_with_semaphore(self.get_meta)()
1520
+
1521
+ async def async_stream_chat(
1522
+ self,
1523
+ tokenizer,
1524
+ ins: str,
1525
+ his: List[Tuple[str, str]] = [],
1526
+ max_length: int = 4096,
1527
+ top_p: float = 0.7,
1528
+ temperature: float = 0.9,
1529
+ **kwargs
1530
+ ):
1531
+ return await asyncfy_with_semaphore(self.stream_chat)(tokenizer, ins, his, max_length, top_p, temperature, **kwargs)
1532
+
1533
+ ## 还可以配合 lambda 函数使用,这样可以将一个同步方法转化为无参数的异步方法来调用,使用起来更加方便。
1534
+ with io.BytesIO() as output:
1535
+ async with asyncfy_with_semaphore(
1536
+ lambda: self.client.with_streaming_response.audio.speech.create(
1537
+ model=self.model, voice=voice, input=ins, **kwargs
1538
+ )
1539
+ )() as response:
1540
+ for chunk in response.iter_bytes():
1541
+ output.write(chunk)
1542
+ ```
1543
+
1544
+
1545
+ ## 注意事项
1546
+
1547
+ 1. prompt函数方法体返回只能是dict,实际的返回类型和方法签名可以不一样,但是方法体返回只能是dict。
1548
+ 2. 大部分情况prompt函数体为空,如果一定要有方法体,可以返回一个空字典。
1549
+ 3. 调用prompt方法的时候,如果在@byzerllm.prompt()里没有指定llm对象,那么需要在调用的时候通过with_llm方法指定llm对象。