编程开发 | IT小章

Python批量筛选HMDB代谢物Detected and Quantified与Endogenous字段

客户提供数万条 HMDB 代谢物 ID，需要批量判断 Status 是否为 Detected and Quantified，以及是否为 Endogenous。通过 Python 自动化处理 ID 清洗、字段匹配与结果输出，替代人工逐条查询，提高处理效率并减少错误。

本文介绍如何使用Python将HMDB离线XML及MS/MS谱图转换为MSP格式谱库，实现MS-DIAL可导入使用，并解决大文件解析与内存占用问题，同时支持完整与分割谱库输出。

使用 Python 解析 HMDB 离线数据库 XML 文件并转换为 CSV，导出约 21 万条代谢物数据（含 HMDB ID、分子式、分子量、SMILES、KEGG ID 等字段），生成文件体积较大，支持 gzip 压缩及字段筛选以降低内存占用。

从 HMDB XML 构建 Kidney 相关 HMDB ID 命中集合，再批量过滤 Excel（.xlsx）并导出 CSV，保持原有列结构与顺序不变，同时输出统计与未命中列表。

HMDB数据库提供约845MB的XML数据文件，包含65000多条化合物记录。由于XML结构无法直接用于分析软件，需要解析文件并提取HMDB ID、名称、分子式、质量、SMILES、保留时间及MS/MS信息，整理为CSV表格数据。

自动化抓取 HMDB 数据库中代谢物外源性来源，生成 CSV，便于科研与食物-代谢物关联分析。

这篇文章介绍了一个HMDB代谢物批量爬虫工具，自持同时爬取几万条数据、并发限速与重试、断点续跑，解析25项核心字段并导出CSV。

文介绍了一个专业的HMDB代谢物信息批量获取工具，该工具支持双离子模式、灵活的Da/PPM误差计算、智能缓存机制和并发处理。通过Python实现，具备企业级稳定性和用户友好的配置界面，为代谢组学研究提供高效的数据获取和代谢物注释解决方案，显著提升科研效率。

本文介绍三种批量创建新文件夹的方法：巧妙高效的 ChatGPT 技巧、便捷实用的在线工具，以及功能强大的 Python 脚本。

本文介绍一个强大的Python爬虫脚本，能自动从HMDB网站批量抓取代谢物信息。它支持多线程、缓存和断点续传，极大提升科研数据获取效率。