overview.md · 小红书需求场景整理

content

# 小红书需求场景整理

## 状态

- 来源：Hermes `weixin` session
- Session ID：`20260703_193716_afe11779`
- 起止时间：2026-07-03 19:37:16 → 2026-07-03 20:01:03
- 消息数：5
- 工具调用数：1
- 主要工具：session_search

## 原始意图

把上午我关于小红书的讨论，我的需求场景发给我一下，这项任务我将安排我电脑本地的codex来做，可能更方便调试，本地调试没问题后，我再把skill移植过来hermes

## 最近一次用户方向

## 最近一次助手结论 / 交付

Boss，上午关于小红书的需求场景，我整理成一份可以直接发给本地 Codex 的任务说明：

---

# 小红书本地采集与口碑分析 Skill 需求说明

## 1. 背景

我发现小红书在中国大陆很多本地生活场景里，真正有价值的信息往往不在帖子正文，而在评论区。

典型例子：

我需要去医院拔智齿，会搜索：

```text
地区 + 医院名称 + 医生名 / 科室 / 功能词
例如：
汕头 口腔医院 拔智齿
汕头 某医院 某医生 拔智齿
汕头 智齿 医生推荐
```

搜索结果里，帖子正文经常只是泛泛经验、种草、避雷、广告或引流，但评论区会出现很多真实用户的亲身经历：

- 某医生技术好不好
- 哪个医生拔智齿比较稳
- 哪个医生态度差
- 哪个医院收费高
- 哪些是广告托
- 有没有真实避雷经历
- 有没有多人重复推荐的医生

这些评论可以帮助我做现实决策，比如挂号时避开口碑差的医生，选择更靠谱的医生。

---

## 2. 核心问题

VPS 端访问小红书风险很高。

之前我们用小红书 MCP / VPS headless 方式跑过类似任务，比如搜索“汕头哪个牛肉店好吃”，跑一会就被截断，账号还收到了警告。

所以后续不应该继续走：

```text
VPS + headless browser + 主账号 + 高频搜索/评论抓取
```

这条路收益不值得，容易触发风控。

---

## 3. 推荐方向

更合适的方案是：

```text
本地电脑真实 Chrome / Edge
→ 复用本地登录态
→ 本地低频采集小红书搜索结果和评论
→ 本地清洗数据
→ 导出 JSON / Markdown
→ 再交给 Hermes 分析
```

也就是说：采集和调试放在本地 Codex / 本地浏览器完成，Hermes 后续只负责分析或接收结构化结果。

---

## 4. 目标

做一个本地可运行的“小红书口碑采集与清洗工具 / skill”。

输入：

```text
地区
医院 / 商户 / 场景关键词
医生名 / 项目名 / 功能词
```

例如：

```text
地区：汕头
场景：拔智齿
医院：某口腔医院
医生：某医生
```

输出：

```text
xhs_raw.json
xhs_cleaned.json
xhs_report.md
```

最终报告应能回答：

- 哪些医生 / 医院 / 店铺被推荐
- 哪些被避雷
- 推荐或避雷的证据来自哪些评论
- 信号强度如何
- 哪些账号疑似广告号
- 哪些结论证据不足

---

## 5. 采集范围 MVP

第一版不要做大规模爬虫，只做保守采样。

建议 MVP：

```text
每次只跑 1 个关键词
搜索结果只取前 5–10 条
每条笔记只采集前 20–50 条评论
必要时采集少量二级评论
每篇停留 30–90 秒
遇到验证码、风控、异常提示立即停止
```

关键词示例：

```text
汕头 拔智齿 医生推荐
汕头 某医院 拔智齿
汕头 某医生 智齿
汕头 口腔医院 避雷
```

---

## 6. 数据字段

### note 字段

```json
{
  "note_id": "",
  "url": "",
  "title": "",
  "content": "",
  "author_name": "",
  "author_id": "",
  "like_count": 0,
  "comment_count": 0,
  "collect_count": 0,
  "publish_time": "",
  "keyword": "",
  "crawl_time": ""
}
```

### comment 字段

```json
{
  "comment_id": "",
  "note_id": "",
  "content": "",
  "author_name": "",
  "author_id": "",
  "like_count": 0,
  "time": "",
  "parent_comment_id": "",
  "mentioned_entities": [],
  "senti

...[truncated 2496 chars]

## 过程文件 / 产物路径

- `/root/ai_microeconomics_analysis.html`
- `/root/book_outputs/behavior_sapolsky_fable.md`
- `/root/book_outputs/microeconomics_9th_standup_script.md`
- `/root/.hermes/cron/jobs.json`
- `/root/.hermes/scripts/hermes-upstream-watchdog.py`
- `/root/.hermes/state/hermes-upstream-watchdog.json`
- `/root/.hermes/cron/output`

## 下一步协作建议

- 你可以在网页端补一句“继续/改方向/回滚到某步”，我会从这个 workspace 接续，不需要你回翻微信。
- 如果这个话题已经收口，可以在网页端把状态改成归档；当前 MVP 暂未加归档按钮，我会后续补。

raw