add llm API (#19)

* add llm API * refine llm API
2025-12-19 20:16:49 +08:00 · 2023-12-28 13:50:13 +08:00
parent cdd956568d
commit d0db329fef
17 changed files with 349 additions and 170 deletions
--- a/python/llm/init.py
+++ b/python/llm/init.py
@ -1,2 +1,21 @@
-from .embedding_model import HuEmbedding
-from .chat_model import GptTurbo
+import os
+from .embedding_model import *
+from .chat_model import *
+from .cv_model import *
+
+EmbeddingModel = None
+ChatModel = None
+CvModel = None
+
+
+if os.environ.get("OPENAI_API_KEY"):
+    EmbeddingModel = GptEmbed()
+    ChatModel = GptTurbo()
+    CvModel = GptV4()
+
+elif os.environ.get("DASHSCOPE_API_KEY"):
+    EmbeddingModel = QWenEmbd()
+    ChatModel = QWenChat()
+    CvModel = QWenCV()
+else:
+    EmbeddingModel = HuEmbedding()
--- a/python/llm/chat_model.py
+++ b/python/llm/chat_model.py
@ -1,7 +1,8 @@
 from abc import ABC
-import openapi
+from openai import OpenAI
 import os

+
 class Base(ABC):
    def chat(self, system, history, gen_conf):
        raise NotImplementedError("Please implement encode method!")
@ -9,26 +10,27 @@ class Base(ABC):

 class GptTurbo(Base):
    def __init__(self):
-        openapi.api_key = os.environ["OPENAPI_KEY"]
+        self.client = OpenAI(api_key=os.environ["OPENAI_API_KEY"])

    def chat(self, system, history, gen_conf):
        history.insert(0, {"role": "system", "content": system})
-        res = openapi.ChatCompletion.create(model="gpt-3.5-turbo",
-                                           messages=history,
-                                          **gen_conf)
+        res = self.client.chat.completions.create(
+            model="gpt-3.5-turbo",
+            messages=history,
+            **gen_conf)
        return res.choices[0].message.content.strip()


-class QWen(Base):
+class QWenChat(Base):
    def chat(self, system, history, gen_conf):
        from http import HTTPStatus
        from dashscope import Generation
-        from dashscope.api_entities.dashscope_response import Role
        # export DASHSCOPE_API_KEY=YOUR_DASHSCOPE_API_KEY
+        history.insert(0, {"role": "system", "content": system})
        response = Generation.call(
-                    Generation.Models.qwen_turbo,
-                    messages=messages,
-                    result_format='message'
+            Generation.Models.qwen_turbo,
+            messages=history,
+            result_format='message'
        )
        if response.status_code == HTTPStatus.OK:
            return response.output.choices[0]['message']['content']
--- a/python/llm/cv_model.py
+++ b/python/llm/cv_model.py
@ -0,0 +1,66 @@
+from abc import ABC
+from openai import OpenAI
+import os
+import base64
+from io import BytesIO
+
+
+class Base(ABC):
+    def describe(self, image, max_tokens=300):
+        raise NotImplementedError("Please implement encode method!")
+
+    def image2base64(self, image):
+        if isinstance(image, BytesIO):
+            return base64.b64encode(image.getvalue()).decode("utf-8")
+        buffered = BytesIO()
+        try:
+            image.save(buffered, format="JPEG")
+        except Exception as e:
+            image.save(buffered, format="PNG")
+        return base64.b64encode(buffered.getvalue()).decode("utf-8")
+
+    def prompt(self, b64):
+        return [
+            {
+                "role": "user",
+                "content": [
+                    {
+                        "type": "text",
+                        "text": "请用中文详细描述一下图中的内容，比如时间，地点，人物，事情，人物心情等。",
+                    },
+                    {
+                        "type": "image_url",
+                        "image_url": {
+                            "url": f"data:image/jpeg;base64,{b64}"
+                        },
+                    },
+                ],
+            }
+        ]
+
+
+class GptV4(Base):
+    def __init__(self):
+        self.client = OpenAI(api_key=os.environ["OPENAI_API_KEY"])
+
+    def describe(self, image, max_tokens=300):
+        b64 = self.image2base64(image)
+
+        res = self.client.chat.completions.create(
+            model="gpt-4-vision-preview",
+            messages=self.prompt(b64),
+            max_tokens=max_tokens,
+        )
+        return res.choices[0].message.content.strip()
+
+
+class QWenCV(Base):
+    def describe(self, image, max_tokens=300):
+        from http import HTTPStatus
+        from dashscope import MultiModalConversation
+        # export DASHSCOPE_API_KEY=YOUR_DASHSCOPE_API_KEY
+        response = MultiModalConversation.call(model=MultiModalConversation.Models.qwen_vl_chat_v1,
+                                               messages=self.prompt(self.image2base64(image)))
+        if response.status_code == HTTPStatus.OK:
+            return response.output.choices[0]['message']['content']
+        return response.message
--- a/python/llm/embedding_model.py
+++ b/python/llm/embedding_model.py
@ -1,8 +1,11 @@
 from abc import ABC
+from openai import OpenAI
 from FlagEmbedding import FlagModel
 import torch
+import os
 import numpy as np

+
 class Base(ABC):
    def encode(self, texts: list, batch_size=32):
        raise NotImplementedError("Please implement encode method!")
@ -22,11 +25,37 @@ class HuEmbedding(Base):

        """
        self.model = FlagModel("BAAI/bge-large-zh-v1.5",
-                              query_instruction_for_retrieval="为这个句子生成表示以用于检索相关文章：",
-                              use_fp16=torch.cuda.is_available())
+                               query_instruction_for_retrieval="为这个句子生成表示以用于检索相关文章：",
+                               use_fp16=torch.cuda.is_available())

    def encode(self, texts: list, batch_size=32):
        res = []
        for i in range(0, len(texts), batch_size):
-            res.extend(self.model.encode(texts[i:i+batch_size]).tolist())
+            res.extend(self.model.encode(texts[i:i + batch_size]).tolist())
        return np.array(res)
+
+
+class GptEmbed(Base):
+    def __init__(self):
+        self.client = OpenAI(api_key=os.envirement["OPENAI_API_KEY"])
+
+    def encode(self, texts: list, batch_size=32):
+        res = self.client.embeddings.create(input=texts,
+                                            model="text-embedding-ada-002")
+        return [d["embedding"] for d in res["data"]]
+
+
+class QWenEmbd(Base):
+    def encode(self, texts: list, batch_size=32, text_type="document"):
+        # export DASHSCOPE_API_KEY=YOUR_DASHSCOPE_API_KEY
+        import dashscope
+        from http import HTTPStatus
+        res = []
+        for txt in texts:
+            resp = dashscope.TextEmbedding.call(
+                model=dashscope.TextEmbedding.Models.text_embedding_v2,
+                input=txt[:2048],
+                text_type=text_type
+            )
+            res.append(resp["output"]["embeddings"][0]["embedding"])
+        return res