MarkLogic 中使用 Java 创建正确的通配符查询

本文旨在解决在 MarkLogic 数据库中使用 Java API 进行通配符查询时,结果不准确的问题。通过详细的代码示例和配置说明,指导开发者如何利用 `cts:json-property-value-query` 或创建带有特定索引设置的字段,实现精确的通配符匹配,从而获得期望的查询结果。

在使用 MarkLogic 数据库时,经常需要进行模糊查询,特别是针对 JSON 属性中的字符串列表。本文将深入探讨如何使用 MarkLogic 的 Java API 创建正确的通配符查询,以确保获得准确的搜索结果。我们将讨论使用 cts:json-property-value-query 以及创建具有特定索引设置的字段这两种方法,并提供详细的代码示例和注意事项。

理解通配符查询的问题

在使用通配符查询时,可能会遇到一些问题,例如:

  • 结果不准确: 查询返回的结果可能包含不符合通配符模式的文档。
  • 性能问题: 不正确的通配符查询可能导致性能下降,特别是当数据量很大时。
  • 索引配置: 数据库的索引配置会影响通配符查询的结果。

解决方案一:使用 cts:json-property-value-query

cts:json-property-value-query 允许你直接在 JSON 属性上执行值查询,并支持通配符。这种方法通常比使用 cts:word-query 更精确,尤其是在处理包含多个单词或特殊字符的字符串时。

代码示例:

import com.marklogic.client.query.StructuredQueryBuilder;
import com.marklogic.client.query.StructuredQueryDefinition;
import com.marklogic.client.query.StringQueryDefinition;
import com.marklogic.client.query.QueryManager;
import com.marklogic.client.DatabaseClient;
import com.marklogic.client.DatabaseClientFactory;
import com.marklogic.client.io.JacksonHandle;
import com.fasterxml.jackson.databind.JsonNode;
import com.marklogic.client.document.JSONDocumentManager;
import com.marklogic.client.pojo.annotation.Id;

import java.util.List;
import java.util.Arrays;

public class WildcardQueryExample {

    public static void main(String[] args) {
        // 替换为你的 MarkLogic 连接信息
        String host = "localhost";
        int port = 8000;
        String username = "your_username";
        String password = "your_password";
        String database = "your_database";

        // 创建数据库客户端
        DatabaseClient client = DatabaseClientFactory.newClient(host, port, database, username, password, DatabaseClientFactory.Authentication.DIGEST);

        // 创建查询管理器
        QueryManager queryManager = client.newQueryManager();

        // 创建 StructuredQueryBuilder
        StructuredQueryBuilder sqb = new StructuredQueryBuilder();

        // 定义查询选项,启用通配符
        String[] options = {"wildcarded"};

        // 要搜索的字符串,例如 "50"
        String searchText = "50";

        // 创建 cts:json-property-value-quer

y StructuredQueryDefinition queryDefinitionIcs = sqb.value(sqb.jsonProperty("icsList"), null, options, 1, searchText + "*"); // 执行查询 JacksonHandle handle = new JacksonHandle(); queryManager.search(queryDefinitionIcs, handle); // 处理查询结果 JsonNode results = handle.get(); System.out.println(results.toString()); // 关闭客户端 client.release(); } }

重要提示:

  • 确保你的 MarkLogic 数据库已启用通配符搜索。
  • 通配符 "*" 匹配零个或多个字符。
  • cts:json-property-value-query 将属性值视为短语,因此通配符不能跨越单词边界。 例如,如果属性值为 "hello friend",则 "he*" 不会匹配,但 "hello *" 会匹配。

解决方案二:创建具有特定索引设置的字段

另一种方法是创建一个带有特定索引设置的字段,以支持更精细的通配符搜索。这涉及到在 MarkLogic 管理界面中配置字段,并启用以下选项:

  • 字段值搜索 (Field Value Searches)
  • 尾部通配符搜索 (Trailing Wildcard Searches)
  • 两个字符搜索 (Two Character Searches) (如果需要支持短通配符)

代码示例:

import com.marklogic.client.query.StructuredQueryBuilder;
import com.marklogic.client.query.StructuredQueryDefinition;
import com.marklogic.client.query.StringQueryDefinition;
import com.marklogic.client.query.QueryManager;
import com.marklogic.client.DatabaseClient;
import com.marklogic.client.DatabaseClientFactory;
import com.marklogic.client.io.JacksonHandle;
import com.fasterxml.jackson.databind.JsonNode;
import com.marklogic.client.document.JSONDocumentManager;
import com.marklogic.client.pojo.annotation.Id;

import java.util.List;
import java.util.Arrays;

public class FieldWildcardQueryExample {

    public static void main(String[] args) {
        // 替换为你的 MarkLogic 连接信息
        String host = "localhost";
        int port = 8000;
        String username = "your_username";
        String password = "your_password";
        String database = "your_database";

        // 创建数据库客户端
        DatabaseClient client = DatabaseClientFactory.newClient(host, port, database, username, password, DatabaseClientFactory.Authentication.DIGEST);

        // 创建查询管理器
        QueryManager queryManager = client.newQueryManager();

        // 创建 StructuredQueryBuilder
        StructuredQueryBuilder sqb = new StructuredQueryBuilder();

        // 定义查询选项,启用通配符
        String[] options = {"wildcarded"};

        // 要搜索的字符串,例如 "50"
        String searchText = "50";

        // 创建 cts:field-value-query
        StructuredQueryDefinition queryDefinitionIcs = sqb.value(sqb.field("icsList"),
                null, options, 1, searchText + "* *");

        // 执行查询
        JacksonHandle handle = new JacksonHandle();
        queryManager.search(queryDefinitionIcs, handle);

        // 处理查询结果
        JsonNode results = handle.get();
        System.out.println(results.toString());

        // 关闭客户端
        client.release();
    }
}

注意事项:

  • 在 MarkLogic 管理界面中创建名为 "icsList" 的字段,并配置上述索引选项。
  • 使用 sqb.field("icsList") 代替 sqb.jsonProperty("icsList") 来指定字段。
  • 尾部通配符搜索通常需要一个空格作为分隔符,例如 "50* *".

选择哪种方法?

  • 如果只需要简单的通配符查询,并且不需要精细的控制,可以使用 cts:json-property-value-query。
  • 如果需要更精细的控制,例如支持短通配符或优化性能,可以创建具有特定索引设置的字段。
  • 如果需要进行复杂的查询,比如需要组合多个条件,那么需要根据实际情况选择合适的方法。

总结

本文介绍了在 MarkLogic 数据库中使用 Java API 创建正确的通配符查询的两种方法。通过使用 cts:json-property-value-query 或创建具有特定索引设置的字段,你可以实现精确的通配符匹配,并获得期望的搜索结果。在选择方法时,请考虑你的具体需求和数据库的配置。正确配置通配符查询对于提高搜索效率和准确性至关重要。