← back
overview.md
小红书需求场景整理
workspace
content
# 小红书需求场景整理 ## 状态 - 来源:Hermes `weixin` session - Session ID:`20260703_193716_afe11779` - 起止时间:2026-07-03 19:37:16 → 2026-07-03 20:01:03 - 消息数:5 - 工具调用数:1 - 主要工具:session_search ## 原始意图 把上午我关于小红书的讨论,我的需求场景发给我一下,这项任务我将安排我电脑本地的codex来做,可能更方便调试,本地调试没问题后,我再把skill移植过来hermes ## 最近一次用户方向 把上午我关于小红书的讨论,我的需求场景发给我一下,这项任务我将安排我电脑本地的codex来做,可能更方便调试,本地调试没问题后,我再把skill移植过来hermes ## 最近一次助手结论 / 交付 Boss,上午关于小红书的需求场景,我整理成一份可以直接发给本地 Codex 的任务说明: --- # 小红书本地采集与口碑分析 Skill 需求说明 ## 1. 背景 我发现小红书在中国大陆很多本地生活场景里,真正有价值的信息往往不在帖子正文,而在评论区。 典型例子: 我需要去医院拔智齿,会搜索: ```text 地区 + 医院名称 + 医生名 / 科室 / 功能词 例如: 汕头 口腔医院 拔智齿 汕头 某医院 某医生 拔智齿 汕头 智齿 医生推荐 ``` 搜索结果里,帖子正文经常只是泛泛经验、种草、避雷、广告或引流,但评论区会出现很多真实用户的亲身经历: - 某医生技术好不好 - 哪个医生拔智齿比较稳 - 哪个医生态度差 - 哪个医院收费高 - 哪些是广告托 - 有没有真实避雷经历 - 有没有多人重复推荐的医生 这些评论可以帮助我做现实决策,比如挂号时避开口碑差的医生,选择更靠谱的医生。 --- ## 2. 核心问题 VPS 端访问小红书风险很高。 之前我们用小红书 MCP / VPS headless 方式跑过类似任务,比如搜索“汕头哪个牛肉店好吃”,跑一会就被截断,账号还收到了警告。 所以后续不应该继续走: ```text VPS + headless browser + 主账号 + 高频搜索/评论抓取 ``` 这条路收益不值得,容易触发风控。 --- ## 3. 推荐方向 更合适的方案是: ```text 本地电脑真实 Chrome / Edge → 复用本地登录态 → 本地低频采集小红书搜索结果和评论 → 本地清洗数据 → 导出 JSON / Markdown → 再交给 Hermes 分析 ``` 也就是说:采集和调试放在本地 Codex / 本地浏览器完成,Hermes 后续只负责分析或接收结构化结果。 --- ## 4. 目标 做一个本地可运行的“小红书口碑采集与清洗工具 / skill”。 输入: ```text 地区 医院 / 商户 / 场景关键词 医生名 / 项目名 / 功能词 ``` 例如: ```text 地区:汕头 场景:拔智齿 医院:某口腔医院 医生:某医生 ``` 输出: ```text xhs_raw.json xhs_cleaned.json xhs_report.md ``` 最终报告应能回答: - 哪些医生 / 医院 / 店铺被推荐 - 哪些被避雷 - 推荐或避雷的证据来自哪些评论 - 信号强度如何 - 哪些账号疑似广告号 - 哪些结论证据不足 --- ## 5. 采集范围 MVP 第一版不要做大规模爬虫,只做保守采样。 建议 MVP: ```text 每次只跑 1 个关键词 搜索结果只取前 5–10 条 每条笔记只采集前 20–50 条评论 必要时采集少量二级评论 每篇停留 30–90 秒 遇到验证码、风控、异常提示立即停止 ``` 关键词示例: ```text 汕头 拔智齿 医生推荐 汕头 某医院 拔智齿 汕头 某医生 智齿 汕头 口腔医院 避雷 ``` --- ## 6. 数据字段 ### note 字段 ```json { "note_id": "", "url": "", "title": "", "content": "", "author_name": "", "author_id": "", "like_count": 0, "comment_count": 0, "collect_count": 0, "publish_time": "", "keyword": "", "crawl_time": "" } ``` ### comment 字段 ```json { "comment_id": "", "note_id": "", "content": "", "author_name": "", "author_id": "", "like_count": 0, "time": "", "parent_comment_id": "", "mentioned_entities": [], "senti ...[truncated 2496 chars] ## 过程文件 / 产物路径 - `/root/ai_microeconomics_analysis.html` - `/root/book_outputs/behavior_sapolsky_fable.md` - `/root/book_outputs/microeconomics_9th_standup_script.md` - `/root/.hermes/cron/jobs.json` - `/root/.hermes/scripts/hermes-upstream-watchdog.py` - `/root/.hermes/state/hermes-upstream-watchdog.json` - `/root/.hermes/cron/output` ## 下一步协作建议 - 你可以在网页端补一句“继续/改方向/回滚到某步”,我会从这个 workspace 接续,不需要你回翻微信。 - 如果这个话题已经收口,可以在网页端把状态改成归档;当前 MVP 暂未加归档按钮,我会后续补。
保存
raw