#816assistant
2026-07-04T00:11:05+08:00
Boss,上午关于小红书的需求场景,我整理成一份可以直接发给本地 Codex 的任务说明:
tool: assistant
Boss,上午关于小红书的需求场景,我整理成一份可以直接发给本地 Codex 的任务说明:
---
# 小红书本地采集与口碑分析 Skill 需求说明
## 1. 背景
我发现小红书在中国大陆很多本地生活场景里,真正有价值的信息往往不在帖子正文,而在评论区。
典型例子:
我需要去医院拔智齿,会搜索:
```text
地区 + 医院名称 + 医生名 / 科室 / 功能词
例如:
汕头 口腔医院 拔智齿
汕头 某医院 某医生 拔智齿
汕头 智齿 医生推荐
```
搜索结果里,帖子正文经常只是泛泛经验、种草、避雷、广告或引流,但评论区会出现很多真实用户的亲身经历:
- 某医生技术好不好
- 哪个医生拔智齿比较稳
- 哪个医生态度差
- 哪个医院收费高
- 哪些是广告托
- 有没有真实避雷经历
- 有没有多人重复推荐的医生
这些评论可以帮助我做现实决策,比如挂号时避开口碑差的医生,选择更靠谱的医生。
---
## 2. 核心问题
VPS 端访问小红书风险很高。
之前我们用小红书 MCP / VPS headless 方式跑过类似任务,比如搜索“汕头哪个牛肉店好吃”,跑一会就被截断,账号还收到了警告。
所以后续不应该继续走:
```text
VPS + headless browser + 主账号 + 高频搜索/评论抓取
```
这条路收益不值得,容易触发风控。
---
## 3. 推荐方向
更合适的方案是:
```text
本地电脑真实 Chrome / Edge
→ 复用本地登录态
→ 本地低频采集小红书搜索结果和评论
→ 本地清洗数据
→ 导出 JSON / Markdown
→ 再交给 Hermes 分析
```
也就是说:采集和调试放在本地 Codex / 本地浏览器完成,Hermes 后续只负责分析或接收结构化结果。
---
## 4. 目标
做一个本地可运行的“小红书口碑采集与清洗工具 / skill”。
输入:
```text
地区
医院 / 商户 / 场景关键词
医生名 / 项目名 / 功能词
```
例如:
```text
地区:汕头
场景:拔智齿
医院:某口腔医院
医生:某医生
```
输出:
```text
xhs_raw.json
xhs_cleaned.json
xhs_report.md
```
最终报告应能回答:
- 哪些医生 / 医院 / 店铺被推荐
- 哪些被避雷
- 推荐或避雷的证据来自哪些评论
- 信号强度如何
- 哪些账号疑似广告号
- 哪些结论证据不足
---
## 5. 采集范围 MVP
第一版不要做大规模爬虫,只做保守采样。
建议 MVP:
```text
每次只跑 1 个关键词
搜索结果只取前 5–10 条
每条笔记只采集前 20–50 条评论
必要时采集少量二级评论
每篇停留 30–90 秒
遇到验证码、风控、异常提示立即停止
```
关键词示例:
```text
汕头 拔智齿 医生推荐
汕头 某医院 拔智齿
汕头 某医生 智齿
汕头 口腔医院 避雷
```
---
## 6. 数据字段
### note 字段
```json
{
"note_id": "",
"url": "",
"title": "",
"content": "",
"author_name": "",
"author_id": "",
"like_count": 0,
"comment_count": 0,
"collect_count": 0,
"publish_time": "",
"keyword": "",
"crawl_time": ""
}
```
### comment 字段
...[truncated 2696 chars]
#815tool
2026-07-04T00:11:05+08:00
调用工具:session_search
tool: session_search
{"query":"小红书 OR xhs OR XHS 需求 场景 Codex skill","limit":5,"sort":"newest"}