deepmodeling · njzjz · Jun 20, 2026 · coderabbitai · Jun 20, 2026 · coderabbitai
diff --git a/deepmd/pd/entrypoints/main.py b/deepmd/pd/entrypoints/main.py
@@ -23,6 +23,9 @@
     expand_sys_str,
     j_loader,
 )
+from deepmd.dpmodel.utils.lmdb_data import (
+    is_lmdb,
+)
 from deepmd.loggers.loggers import (
     set_log_handles,
 )
@@ -109,10 +112,36 @@ def prepare_trainer_input_single(
         )
         training_systems = training_dataset_params["systems"]
         trn_patterns = training_dataset_params.get("rglob_patterns", None)
-        training_systems = process_systems(training_systems, patterns=trn_patterns)
+        training_systems = process_systems(
+            training_systems,
+            patterns=trn_patterns,
+            fmt=training_dataset_params.get("format", None),
+            out_fmt=training_dataset_params.get(
+                "out_format", training_dataset_params.get("output_format", None)
+            ),
+        )
+        if len(training_systems) == 1 and is_lmdb(training_systems[0]):
+            raise NotImplementedError(
+                "Paddle backend does not support LMDB training data yet. "
+                "Set training_data.out_format to 'deepmd/hdf5' when using "
+                "training_data.format for automatic conversion."
+            )
         if validation_systems is not None:
             val_patterns = validation_dataset_params.get("rglob_patterns", None)
-            validation_systems = process_systems(validation_systems, val_patterns)
+            validation_systems = process_systems(
+                validation_systems,
+                val_patterns,
+                fmt=validation_dataset_params.get("format", None),
+                out_fmt=validation_dataset_params.get(
+                    "out_format", validation_dataset_params.get("output_format", None)
+                ),
+            )
+            if len(validation_systems) == 1 and is_lmdb(validation_systems[0]):
+                raise NotImplementedError(
+                    "Paddle backend does not support LMDB validation data yet. "
+                    "Set validation_data.out_format to 'deepmd/hdf5' when using "
+                    "validation_data.format for automatic conversion."
+                )
 
         # stat files
         stat_file_path_single = data_dict_single.get("stat_file", None)

diff --git a/deepmd/pt/entrypoints/main.py b/deepmd/pt/entrypoints/main.py
@@ -183,10 +183,24 @@ def prepare_trainer_input_single(
         def _make_dp_loader_set(
             systems: str | list[str],
             dataset_params: dict[str, Any],
-        ) -> DpLoaderSet:
-            """Create a DpLoaderSet from systems with pattern expansion."""
+        ) -> DpLoaderSet | LmdbDataset:
+            """Create a dataset from systems with pattern expansion/conversion."""
             patterns = dataset_params.get("rglob_patterns", None)
-            systems = process_systems(systems, patterns=patterns)
+            systems = process_systems(
+                systems,
+                patterns=patterns,
+                fmt=dataset_params.get("format", None),
+                out_fmt=dataset_params.get(
+                    "out_format", dataset_params.get("output_format", None)
+                ),
+            )
+            if len(systems) == 1 and is_lmdb(systems[0]):
+                return LmdbDataset(
+                    systems[0],
+                    model_params_single["type_map"],
+                    dataset_params["batch_size"],
+                    auto_prob_style=dataset_params.get("auto_prob", None),
+                )
             return DpLoaderSet(
                 systems,
                 dataset_params["batch_size"],
@@ -196,7 +210,11 @@ def _make_dp_loader_set(
             )
 
         # LMDB path: single string → LmdbDataset
-        if isinstance(training_systems, str) and is_lmdb(training_systems):
+        if (
+            training_dataset_params.get("format", None) is None
+            and isinstance(training_systems, str)
+            and is_lmdb(training_systems)
+        ):
             auto_prob = training_dataset_params.get("auto_prob", None)
             train_data_single = LmdbDataset(
                 training_systems,
@@ -206,6 +224,7 @@ def _make_dp_loader_set(
             )
             if (
                 validation_systems is not None
+                and validation_dataset_params.get("format", None) is None
                 and isinstance(validation_systems, str)
                 and is_lmdb(validation_systems)
             ):
@@ -397,50 +416,51 @@ def train(
             "Calculate neighbor statistics... (add --skip-neighbor-stat to skip this step)"
         )
 
-        if not multi_task:
-            type_map = config["model"].get("type_map")
-            training_systems = config["training"]["training_data"].get("systems")
+        def _get_neighbor_stat_data_from_params(
+            dataset_params: dict[str, Any],
+            type_map: list[str] | None,
+        ) -> Any:
+            training_systems = dataset_params.get("systems")
             if (
-                training_systems is not None
+                dataset_params.get("format", None) is None
+                and training_systems is not None
                 and isinstance(training_systems, str)
                 and is_lmdb(training_systems)
             ):
+                systems = [training_systems]
+            else:
+                systems = process_systems(
+                    training_systems,
+                    patterns=dataset_params.get("rglob_patterns", None),
+                    fmt=dataset_params.get("format", None),
+                    out_fmt=dataset_params.get(
+                        "out_format", dataset_params.get("output_format", None)
+                    ),
+                )
+            if len(systems) == 1 and is_lmdb(systems[0]):
                 from deepmd.dpmodel.utils.lmdb_data import (
                     make_neighbor_stat_data,
                 )
 
-                train_data = make_neighbor_stat_data(training_systems, type_map)
-            else:
-                train_data = get_data(
-                    config["training"]["training_data"], 0, type_map, None
-                )
+                return make_neighbor_stat_data(systems[0], type_map)
+            return get_data(dataset_params, 0, type_map, None)
+
+        if not multi_task:
+            type_map = config["model"].get("type_map")
+            train_data = _get_neighbor_stat_data_from_params(
+                config["training"]["training_data"], type_map
+            )
             config["model"], min_nbor_dist = BaseModel.update_sel(
                 train_data, type_map, config["model"]
             )
         else:
             min_nbor_dist = {}
             for model_item in config["model"]["model_dict"]:
                 type_map = config["model"]["model_dict"][model_item].get("type_map")
-                training_systems = config["training"]["data_dict"][model_item][
-                    "training_data"
-                ].get("systems")
-                if (
-                    training_systems is not None
-                    and isinstance(training_systems, str)
-                    and is_lmdb(training_systems)
-                ):
-                    from deepmd.dpmodel.utils.lmdb_data import (
-                        make_neighbor_stat_data,
-                    )
-
-                    train_data = make_neighbor_stat_data(training_systems, type_map)
-                else:
-                    train_data = get_data(
-                        config["training"]["data_dict"][model_item]["training_data"],
-                        0,
-                        type_map,
-                        None,
-                    )
+                train_data = _get_neighbor_stat_data_from_params(
+                    config["training"]["data_dict"][model_item]["training_data"],
+                    type_map,
+                )
                 config["model"]["model_dict"][model_item], min_nbor_dist[model_item] = (
                     BaseModel.update_sel(
                         train_data, type_map, config["model"]["model_dict"][model_item]

diff --git a/deepmd/pt_expt/entrypoints/main.py b/deepmd/pt_expt/entrypoints/main.py
@@ -104,13 +104,31 @@ def _get_neighbor_stat_data(
     ``make_neighbor_stat_data``; falls back to the legacy ``get_data`` for
     npy/HDF5 directories.
     """
-    lmdb_path = _detect_lmdb_path(dataset_params.get("systems"))
+    lmdb_path = (
+        None
+        if dataset_params.get("format", None) is not None
+        else _detect_lmdb_path(dataset_params.get("systems"))
+    )
     if lmdb_path is not None:
         from deepmd.dpmodel.utils.lmdb_data import (
             make_neighbor_stat_data,
         )
 
         return make_neighbor_stat_data(lmdb_path, type_map)
+    systems = process_systems(
+        dataset_params["systems"],
+        patterns=dataset_params.get("rglob_patterns", None),
+        fmt=dataset_params.get("format", None),
+        out_fmt=dataset_params.get(
+            "out_format", dataset_params.get("output_format", None)
+        ),
+    )
+    if len(systems) == 1 and is_lmdb(systems[0]):
+        from deepmd.dpmodel.utils.lmdb_data import (
+            make_neighbor_stat_data,
+        )
+
+        return make_neighbor_stat_data(systems[0], type_map)
     return get_data(dataset_params, 0, type_map, None)
 
 
@@ -126,7 +144,11 @@ def _build_data_system(
     :class:`DeepmdDataSystem` path with system expansion.
     """
     systems_raw = dataset_params["systems"]
-    lmdb_path = _detect_lmdb_path(systems_raw)
+    lmdb_path = (
+        None
+        if dataset_params.get("format", None) is not None
+        else _detect_lmdb_path(systems_raw)
+    )
     if lmdb_path is not None:
         return LmdbDataSystem(
             lmdb_path=lmdb_path,
@@ -138,7 +160,19 @@ def _build_data_system(
     systems = process_systems(
         systems_raw,
         patterns=dataset_params.get("rglob_patterns", None),
+        fmt=dataset_params.get("format", None),
+        out_fmt=dataset_params.get(
+            "out_format", dataset_params.get("output_format", None)
+        ),
     )
+    if len(systems) == 1 and is_lmdb(systems[0]):
+        return LmdbDataSystem(
+            lmdb_path=systems[0],
+            type_map=type_map,
+            batch_size=dataset_params["batch_size"],
+            auto_prob_style=dataset_params.get("auto_prob"),
+            seed=seed,
+        )
     return DeepmdDataSystem(
         systems=systems,
         batch_size=dataset_params["batch_size"],

diff --git a/deepmd/utils/argcheck.py b/deepmd/utils/argcheck.py
@@ -4745,6 +4745,19 @@ def training_data_args() -> list[
     doc_patterns = (
         "The customized patterns used in `rglob` to collect all training systems. "
     )
+    doc_format = (
+        "The input data format passed to dpdata for automatic conversion. "
+        "If this key is not set, `systems` must already point to DeePMD data. "
+        "If this key is set to a non-DeePMD format, each selected input path is "
+        "loaded by dpdata and converted before training. Use dpdata format names "
+        "such as `extxyz`, `ase/structure`, `ase/traj`, or `auto`."
+    )
+    doc_out_format = (
+        "The output data format passed to dpdata for automatic conversion. "
+        "When `format` requests conversion from a non-DeePMD format, this key "
+        "defaults to `lmdb`. Use a DeePMD format supported by dpdata, such as "
+        "`lmdb`, `deepmd/hdf5`, or `deepmd/npy`."
+    )
     doc_batch_size = f'This key can be \n\n\
 - list: the length of which is the same as the {link_sys}. The batch size of each system is given by the elements of the list.\n\n\
 - int: all {link_sys} use the same batch size.\n\n\
@@ -4783,6 +4796,20 @@ def training_data_args() -> list[
             default=None,
             doc=doc_patterns + doc_only_pt_supported,
         ),
+        Argument(
+            "format",
+            [str, None],
+            optional=True,
+            doc=doc_format,
+        ),
+        Argument(
+            "out_format",
+            [str, None],
+            optional=True,
+            default="lmdb",
+            doc=doc_out_format,
+            alias=["output_format"],
+        ),
         Argument(
             "batch_size",
             [list[int], int, str],
@@ -4842,6 +4869,19 @@ def validation_data_args() -> list[
     doc_patterns = (
         "The customized patterns used in `rglob` to collect all validation systems. "
     )
+    doc_format = (
+        "The input data format passed to dpdata for automatic conversion. "
+        "If this key is not set, `systems` must already point to DeePMD data. "
+        "If this key is set to a non-DeePMD format, each selected input path is "
+        "loaded by dpdata and converted before validation. Use dpdata format names "
+        "such as `extxyz`, `ase/structure`, `ase/traj`, or `auto`."
+    )
+    doc_out_format = (
+        "The output data format passed to dpdata for automatic conversion. "
+        "When `format` requests conversion from a non-DeePMD format, this key "
+        "defaults to `lmdb`. Use a DeePMD format supported by dpdata, such as "
+        "`lmdb`, `deepmd/hdf5`, or `deepmd/npy`."
+    )
     doc_batch_size = f'This key can be \n\n\
 - list: the length of which is the same as the {link_sys}. The batch size of each system is given by the elements of the list.\n\n\
 - int: all {link_sys} use the same batch size.\n\n\
@@ -4867,6 +4907,20 @@ def validation_data_args() -> list[
             default=None,
             doc=doc_patterns + doc_only_pt_supported,
         ),
+        Argument(
+            "format",
+            [str, None],
+            optional=True,
+            doc=doc_format,
+        ),
+        Argument(
+            "out_format",
+            [str, None],
+            optional=True,
+            default="lmdb",
+            doc=doc_out_format,
+            alias=["output_format"],
+        ),
         Argument(
             "batch_size",
             [list[int], int, str],