init

mzegla · mzegla · commit 32b3ae0b3ee7 · 2025-04-11T16:41:25.000+02:00
diff --git a/src/llm/apis/openai_completions.cpp b/src/llm/apis/openai_completions.cpp
@@ -275,7 +275,7 @@ absl::Status OpenAIChatCompletionsHandler::parseChatCompletionsPart(std::optiona
     return absl::OkStatus();
 }
 
-absl::Status OpenAIChatCompletionsHandler::parseCommonPart(std::optional<uint32_t> maxTokensLimit, uint32_t bestOfLimit, bool isSpeculativePipeline, std::optional<uint32_t> maxModelLength) {
+absl::Status OpenAIChatCompletionsHandler::parseCommonPart(std::optional<uint32_t> maxTokensLimit, uint32_t bestOfLimit, bool isSpeculativePipeline, bool isPromptLookupPipeline, std::optional<uint32_t> maxModelLength) {
     OVMS_PROFILE_FUNCTION();
     // stream: bool; optional
     if (!doc.IsObject())
@@ -495,22 +495,30 @@ absl::Status OpenAIChatCompletionsHandler::parseCommonPart(std::optional<uint32_
         request.numReturnSequences = it->value.GetUint();
     }
 
-    // Speculative decoding specific parameters
+    // Assisted decoding specific parameters
 
     auto numAssistantTokensIt = doc.FindMember("num_assistant_tokens");
     auto assistantConfidenceThresholdIt = doc.FindMember("assistant_confidence_threshold");
+    auto maxNgramSizeIt = doc.FindMember("max_ngram_size");
 
     bool numAssistantTokensItHasValue = (numAssistantTokensIt != doc.MemberEnd() && !numAssistantTokensIt->value.IsNull());
     bool assistantConfidenceThresholdItHasValue = (assistantConfidenceThresholdIt != doc.MemberEnd() && !assistantConfidenceThresholdIt->value.IsNull());
+    bool maxNgramSizeItHasValue = (maxNgramSizeIt != doc.MemberEnd() && !maxNgramSizeIt->value.IsNull());
 
     if (isSpeculativePipeline) {
         if (!numAssistantTokensItHasValue && !assistantConfidenceThresholdItHasValue)
             return absl::InvalidArgumentError("Speculative decoding requires either num_assistant_tokens or assistant_confidence_threshold to be set.");
 
         if (numAssistantTokensItHasValue && assistantConfidenceThresholdItHasValue)
             return absl::InvalidArgumentError("num_assistant_tokens and assistant_confidence_threshold are mutually exclusive and cannot both be set.");
-    } else if (numAssistantTokensItHasValue || assistantConfidenceThresholdItHasValue) {
-        return absl::InvalidArgumentError("num_assistant_tokens and assistant_confidence_threshold are only supported when speculative decoding is enabled.");
+    } else if (assistantConfidenceThresholdItHasValue) {
+        return absl::InvalidArgumentError("assistant_confidence_threshold is only supported when speculative decoding is enabled.");
+    }
+
+    if (isPromptLookupPipeline) {
+        if (!numAssistantTokensItHasValue || !maxNgramSizeItHasValue) {
+            return absl::InvalidArgumentError("Prompt lookup requires num_assistant_tokens and max_ngram_size to be set.");
+        }
     }
     // num_assistant_tokens: uint;
     if (numAssistantTokensItHasValue) {
@@ -529,6 +537,14 @@ absl::Status OpenAIChatCompletionsHandler::parseCommonPart(std::optional<uint32_
             return absl::InvalidArgumentError("assistant_confidence_threshold must be greater than 0");
         }
     }
+
+    // max_ngram_size: uint; optional - defaults to 0
+    if (maxNgramSizeIt != doc.MemberEnd() && !maxNgramSizeIt->value.IsNull()) {
+        if (!maxNgramSizeIt->value.IsUint() || numAssistantTokensIt->value.GetUint() == 0) {
+            return absl::InvalidArgumentError("max_ngram_size must be an unsigned integer greater than 0");
+        }
+        request.maxNgramSize = maxNgramSizeIt->value.GetUint();
+    }
     request.maxModelLength = maxModelLength;
 
     // use_beam_search: bool; optional - defaults to false
@@ -573,8 +589,8 @@ ov::genai::GenerationConfig OpenAIChatCompletionsHandler::createGenerationConfig
     return request.createGenerationConfig();
 }
 
-absl::Status OpenAIChatCompletionsHandler::parseRequest(std::optional<uint32_t> maxTokensLimit, uint32_t bestOfLimit, bool isSpeculativePipeline, std::optional<uint32_t> maxModelLength) {
-    absl::Status status = parseCommonPart(maxTokensLimit, bestOfLimit, isSpeculativePipeline, maxModelLength);
+absl::Status OpenAIChatCompletionsHandler::parseRequest(std::optional<uint32_t> maxTokensLimit, uint32_t bestOfLimit, bool isSpeculativePipeline, bool isPromptLookupPipeline, std::optional<uint32_t> maxModelLength) {
+    absl::Status status = parseCommonPart(maxTokensLimit, bestOfLimit, isSpeculativePipeline, isPromptLookupPipeline, maxModelLength);
 
     if (status != absl::OkStatus())
         return status;
diff --git a/src/llm/apis/openai_completions.hpp b/src/llm/apis/openai_completions.hpp
@@ -95,9 +95,10 @@ struct OpenAIChatCompletionsRequest {
     std::optional<int> bestOf{std::nullopt};
     std::optional<float> lengthPenalty{std::nullopt};
 
-    // Speculative decoding specific (only with speculative decoding pipeline, see <docs> for reference)
+    // Assisted decoding specific (only with speculative decoding or prompt lookup pipeline)
     std::optional<int> numAssistantTokens{std::nullopt};
     std::optional<float> assistantConfidenceThreshold{std::nullopt};
+    std::optional<int> maxNgramSize{std::nullopt};
 
     std::optional<uint32_t> maxModelLength;
 
@@ -157,11 +158,13 @@ struct OpenAIChatCompletionsRequest {
 
         if (logprobschat || logprobs)
             config.logprobs = 1;
-        // Speculative decoding specific
+        // Assisted decoding specific
         if (numAssistantTokens.has_value())
             config.num_assistant_tokens = numAssistantTokens.value();
         if (assistantConfidenceThreshold.has_value())
             config.assistant_confidence_threshold = assistantConfidenceThreshold.value();
+        if (maxNgramSize.has_value())
+            config.max_ngram_size = maxNgramSize.value();
 
         return config;
     }
@@ -180,7 +183,7 @@ class OpenAIChatCompletionsHandler {
 
     absl::Status parseCompletionsPart();
     absl::Status parseChatCompletionsPart(std::optional<uint32_t> maxTokensLimit);
-    absl::Status parseCommonPart(std::optional<uint32_t> maxTokensLimit, uint32_t bestOfLimit, bool isSpeculativePipeline, std::optional<uint32_t> maxModelLength);
+    absl::Status parseCommonPart(std::optional<uint32_t> maxTokensLimit, uint32_t bestOfLimit, bool isSpeculativePipeline, bool isPromptLookupPipeline, std::optional<uint32_t> maxModelLength);
 
 public:
     OpenAIChatCompletionsHandler(Document& doc, Endpoint endpoint, std::chrono::time_point<std::chrono::system_clock> creationTime,
@@ -208,7 +211,7 @@ class OpenAIChatCompletionsHandler {
 
     ov::genai::GenerationConfig createGenerationConfig() const;
 
-    absl::Status parseRequest(std::optional<uint32_t> maxTokensLimit, uint32_t bestOfLimit, bool isSpeculativePipeline, std::optional<uint32_t> maxModelLength);
+    absl::Status parseRequest(std::optional<uint32_t> maxTokensLimit, uint32_t bestOfLimit, bool isSpeculativePipeline, bool isPromptLookupPipeline, std::optional<uint32_t> maxModelLength);
     absl::Status parseMessages();
 
     std::string serializeUnaryResponse(const std::vector<ov::genai::GenerationOutput>& generationOutputs);
diff --git a/src/llm/language_model/continuous_batching/servable_initializer.cpp b/src/llm/language_model/continuous_batching/servable_initializer.cpp
@@ -40,16 +40,6 @@
 
 namespace ovms {
 
-ov::genai::SchedulerConfig ContinuousBatchingServableInitializer::prepareDraftPipelineSchedulerConfigExperimental(const mediapipe::LLMCalculatorOptions_PipelineConfig& draftPipelineConfig) {
-    ov::genai::SchedulerConfig config;
-    config.max_num_batched_tokens = draftPipelineConfig.max_num_batched_tokens();
-    config.cache_size = draftPipelineConfig.cache_size();
-    config.dynamic_split_fuse = draftPipelineConfig.dynamic_split_fuse();
-    config.max_num_seqs = draftPipelineConfig.max_num_seqs();
-    config.enable_prefix_caching = draftPipelineConfig.enable_prefix_caching();
-    return config;
-}
-
 ov::genai::SchedulerConfig ContinuousBatchingServableInitializer::prepareDraftPipelineSchedulerConfig(const mediapipe::LLMCalculatorOptions& nodeOptions) {
     ov::genai::SchedulerConfig config;
     config.max_num_batched_tokens = nodeOptions.has_draft_max_num_batched_tokens() ? nodeOptions.draft_max_num_batched_tokens() : nodeOptions.max_num_batched_tokens();
@@ -60,72 +50,6 @@ ov::genai::SchedulerConfig ContinuousBatchingServableInitializer::prepareDraftPi
     return config;
 }
 
-Status ContinuousBatchingServableInitializer::initializeExperimental(std::shared_ptr<GenAiServable>& servable, const mediapipe::LLMCalculatorOptions& nodeOptions, std::string graphPath) {
-    auto continousBatchingPipelineConfig = nodeOptions.continuous_batching_pipeline_config();
-    auto mainPipelineConfig = continousBatchingPipelineConfig.main_pipeline_config();
-    std::string parsedModelsPath;
-    auto status = parseModelsPath(parsedModelsPath, mainPipelineConfig.models_path(), graphPath);
-    if (!status.ok()) {
-        return status;
-    }
-    auto properties = std::static_pointer_cast<ContinuousBatchingServableProperties>(servable->getProperties());
-    properties->modelsPath = parsedModelsPath;
-
-    properties->schedulerConfig.max_num_batched_tokens = mainPipelineConfig.max_num_batched_tokens();
-    properties->schedulerConfig.cache_size = mainPipelineConfig.cache_size();
-    properties->schedulerConfig.dynamic_split_fuse = mainPipelineConfig.dynamic_split_fuse();
-    properties->schedulerConfig.max_num_seqs = mainPipelineConfig.max_num_seqs();
-    properties->schedulerConfig.enable_prefix_caching = mainPipelineConfig.enable_prefix_caching();
-
-    properties->device = mainPipelineConfig.device();
-
-    // Speculative decoding enabled
-    properties->isSpeculativePipeline = false;
-    if (continousBatchingPipelineConfig.has_draft_pipeline_config()) {
-        auto draftPipelineConfig = continousBatchingPipelineConfig.draft_pipeline_config();
-        auto fsDraftModelsPath = std::filesystem::path(draftPipelineConfig.models_path());
-        std::string draftPipelinePath;
-        if (fsDraftModelsPath.is_relative()) {
-            draftPipelinePath = (std::filesystem::path(graphPath) / fsDraftModelsPath).string();
-        } else {
-            draftPipelinePath = fsDraftModelsPath.string();
-        }
-        auto draftSchedulerConfig = prepareDraftPipelineSchedulerConfigExperimental(draftPipelineConfig);
-        auto draftPipeline = ov::genai::draft_model(draftPipelinePath, draftPipelineConfig.device(), ov::genai::scheduler_config(draftSchedulerConfig));
-        properties->pluginConfig.insert(draftPipeline);
-        properties->isSpeculativePipeline = true;
-    }
-
-    status = JsonParser::parsePluginConfig(mainPipelineConfig.plugin_config(), properties->pluginConfig);
-    if (!status.ok()) {
-        SPDLOG_ERROR("Error during llm node plugin_config option parsing to JSON: {}", mainPipelineConfig.plugin_config());
-        return status;
-    }
-
-    properties->tokenizerPluginConfig = {{"PERFORMANCE_HINT", "THROUGHPUT"}};
-    try {
-        properties->pipeline = std::make_shared<ov::genai::ContinuousBatchingPipeline>(parsedModelsPath,
-            properties->schedulerConfig, properties->device,
-            properties->pluginConfig, properties->tokenizerPluginConfig);
-        properties->tokenizer = properties->pipeline->get_tokenizer();
-    } catch (const std::exception& e) {
-        SPDLOG_ERROR("Error during llm node initialization for models_path: {} exception: {}", parsedModelsPath, e.what());
-        return StatusCode::LLM_NODE_RESOURCE_STATE_INITIALIZATION_FAILED;
-    } catch (...) {
-        SPDLOG_ERROR("Error during llm node initialization for models_path: {}", parsedModelsPath);
-        return StatusCode::LLM_NODE_RESOURCE_STATE_INITIALIZATION_FAILED;
-    }
-
-    loadTextProcessor(properties, parsedModelsPath);
-    if (nodeOptions.has_max_tokens_limit()) {
-        properties->maxTokensLimit = nodeOptions.max_tokens_limit();
-    }
-    properties->bestOfLimit = mainPipelineConfig.best_of_limit();
-
-    properties->llmExecutorWrapper = std::make_shared<LLMExecutorWrapper>(properties->pipeline);
-    return StatusCode::OK;
-}
-
 Status ContinuousBatchingServableInitializer::initialize(std::shared_ptr<GenAiServable>& servable, const mediapipe::LLMCalculatorOptions& nodeOptions, std::string graphPath) {
     std::string parsedModelsPath;
     auto status = parseModelsPath(parsedModelsPath, nodeOptions.models_path(), graphPath);
@@ -174,6 +98,20 @@ Status ContinuousBatchingServableInitializer::initialize(std::shared_ptr<GenAiSe
         return status;
     }
 
+    std::cout << "Checking if prompt lookup is enabled" << std::endl;
+    // Check if prompt lookup is enabled
+    auto promptLookupPropertyIt = properties->pluginConfig.find("prompt_lookup");
+    if (promptLookupPropertyIt != properties->pluginConfig.end()) {
+        auto promptLookupProperty = promptLookupPropertyIt->second.as<bool>();
+        if (promptLookupProperty == true) {
+            properties->isPromptLookupPipeline = true;
+        } else {
+            properties->isPromptLookupPipeline = false;
+        }
+    }
+
+    std::cout << "properties->isPromptLookupPipeline: " << properties->isPromptLookupPipeline << std::endl;
+
     properties->tokenizerPluginConfig = {{"PERFORMANCE_HINT", "THROUGHPUT"}};
     try {
         properties->pipeline = std::make_shared<ov::genai::ContinuousBatchingPipeline>(parsedModelsPath,
diff --git a/src/llm/language_model/continuous_batching/servable_initializer.hpp b/src/llm/language_model/continuous_batching/servable_initializer.hpp
@@ -33,11 +33,9 @@ namespace ovms {
 class Status;
 
 class ContinuousBatchingServableInitializer : public GenAiServableInitializer {
-    static ov::genai::SchedulerConfig prepareDraftPipelineSchedulerConfigExperimental(const mediapipe::LLMCalculatorOptions_PipelineConfig& draftModelConfig);
     static ov::genai::SchedulerConfig prepareDraftPipelineSchedulerConfig(const mediapipe::LLMCalculatorOptions& nodeOptions);
 
 public:
-    Status initializeExperimental(std::shared_ptr<GenAiServable>& servable, const mediapipe::LLMCalculatorOptions& nodeOptions, std::string graphPath);
     Status initialize(std::shared_ptr<GenAiServable>& servable, const mediapipe::LLMCalculatorOptions& nodeOptions, std::string graphPath) override;
 };
 }  // namespace ovms
diff --git a/src/llm/language_model/legacy/servable.cpp b/src/llm/language_model/legacy/servable.cpp
@@ -72,7 +72,8 @@ absl::Status LegacyServable::parseRequest(std::shared_ptr<GenAiServableExecution
         std::chrono::system_clock::now(),
         getProperties()->tokenizer);
 
-    auto status = executionContext->apiHandler->parseRequest(getProperties()->maxTokensLimit, getProperties()->bestOfLimit, getProperties()->isSpeculativePipeline, getProperties()->maxModelLength);
+    auto status = executionContext->apiHandler->parseRequest(getProperties()->maxTokensLimit, getProperties()->bestOfLimit, getProperties()->isSpeculativePipeline,
+        getProperties()->isPromptLookupPipeline, getProperties()->maxModelLength);
     if (!status.ok()) {
         SPDLOG_LOGGER_ERROR(llm_calculator_logger, "Failed to parse request: {}", status.message());
         return status;
diff --git a/src/llm/servable.cpp b/src/llm/servable.cpp
@@ -55,7 +55,8 @@ absl::Status GenAiServable::parseRequest(std::shared_ptr<GenAiServableExecutionC
         std::chrono::system_clock::now(),
         getProperties()->tokenizer);
 
-    auto status = executionContext->apiHandler->parseRequest(getProperties()->maxTokensLimit, getProperties()->bestOfLimit, getProperties()->isSpeculativePipeline, getProperties()->maxModelLength);
+    auto status = executionContext->apiHandler->parseRequest(getProperties()->maxTokensLimit, getProperties()->bestOfLimit, getProperties()->isSpeculativePipeline,
+        getProperties()->isPromptLookupPipeline, getProperties()->maxModelLength);
     if (!status.ok()) {
         SPDLOG_LOGGER_ERROR(llm_calculator_logger, "Failed to parse request: {}", status.message());
         return status;
diff --git a/src/llm/servable.hpp b/src/llm/servable.hpp
@@ -82,7 +82,9 @@ struct GenAiServableProperties {
     // Sampling limits
     std::optional<uint32_t> maxTokensLimit;
     uint32_t bestOfLimit;
-    bool isSpeculativePipeline;  // sampling is generally common, but maybe we could avoid having this field at all
+    // TODO (mzegla): perhaps we can remove below bools and rely on GenAI logic entirely
+    bool isSpeculativePipeline;   // sampling is generally common, but maybe we could avoid having this field at all
+    bool isPromptLookupPipeline;  // prompt lookup is generally common, but maybe we could avoid having this field at all
     // Text processing utilities
     ov::genai::Tokenizer tokenizer;
     TextProcessor textProcessor;
diff --git a/src/llm/servable_initializer.cpp b/src/llm/servable_initializer.cpp
@@ -214,7 +214,7 @@ Status initializeGenAiServable(std::shared_ptr<GenAiServable>& servable, const :
     mediapipe::LLMCalculatorOptions nodeOptions;
     graphNodeConfig.node_options(0).UnpackTo(&nodeOptions);
     Status status;
-    if (nodeOptions.has_models_path()) {  // Stable initialization
+    if (nodeOptions.has_models_path()) {
         // need to initialize pipelineType with some value to avoid compiler warning, determinePipelineType will set it properly
         PipelineType pipelineType{PipelineType::LM_CB};
         status = determinePipelineType(pipelineType, nodeOptions, graphPath);
@@ -262,22 +262,12 @@ Status initializeGenAiServable(std::shared_ptr<GenAiServable>& servable, const :
             return StatusCode::INTERNAL_ERROR;
         }
     } else {
-        if (nodeOptions.has_continuous_batching_pipeline_config()) {  // Experimental initialization
-            ContinuousBatchingServableInitializer cbServableInitializer;
-            servable = std::make_shared<ContinuousBatchingServable>();
-            status = cbServableInitializer.initializeExperimental(servable, nodeOptions, graphPath);
-        } else {
-            SPDLOG_LOGGER_ERROR(modelmanager_logger, "LLM node options do not contain any recognized pipeline configuration.");
-            return StatusCode::INTERNAL_ERROR;
-        }
-
-        if (status != StatusCode::OK) {
-            SPDLOG_LOGGER_ERROR(modelmanager_logger, "Error during LLM node resources initialization: {}", status.string());
-            return status;
-        }
+        SPDLOG_LOGGER_ERROR(modelmanager_logger, "LLM node requires models_path to be set.");
+        return StatusCode::INTERNAL_ERROR;
     }
     return StatusCode::OK;
 }
+
 std::optional<uint32_t> parseMaxModelLength(std::string& modelsPath) {
     std::string configPath = FileSystem::appendSlash(modelsPath) + "config.json";
     std::optional<uint32_t> maxModelLength;
diff --git a/src/llm/visual_language_model/legacy/servable.cpp b/src/llm/visual_language_model/legacy/servable.cpp
@@ -74,7 +74,8 @@ absl::Status VisualLanguageModelLegacyServable::parseRequest(std::shared_ptr<Gen
         std::chrono::system_clock::now(),
         getProperties()->tokenizer);
 
-    auto status = executionContext->apiHandler->parseRequest(getProperties()->maxTokensLimit, getProperties()->bestOfLimit, getProperties()->isSpeculativePipeline, getProperties()->maxModelLength);
+    auto status = executionContext->apiHandler->parseRequest(getProperties()->maxTokensLimit, getProperties()->bestOfLimit, getProperties()->isSpeculativePipeline,
+        getProperties()->isPromptLookupPipeline, getProperties()->maxModelLength);
     if (!status.ok()) {
         SPDLOG_LOGGER_ERROR(llm_calculator_logger, "Failed to parse request: {}", status.message());
         return status;