要让自己的信息密度处于世界一流水平,光靠AI去过滤我觉得并不够精准。因为自己到底需要什么样的信息,其实连自己都无法预定,所有的“设定”都是在闭门造车,要给自己不设限,还得去靠自己人工去刷,否则今天你以为的AI,明天它就变成了另外一个东西,你不以身入局,无法最清晰地去感知发展。
但是人工去刷,终究具有局限性,刷是要时间的,刷到了如何才能让其化为己用,才是最具有性价比的动作。这一步需要Agent的辅助,Claude code或者openclaw,你需要帮助你的Agent打通阅读任何一个社媒平台的门槛,才能快速把你“看到的东西”变成“真正能复用学习的东西”。
比如我在做AI自媒体,我每天会在不同的平台:X、Reddit、公众号、小红书、抖音、即刻、视频号…看到大量的信息,但是如果我仅仅是看了就滑走了,对我基本没有帮助,但是如果我刷到一篇好文章或者看到一条结构很好的爆款视频,我能把链接丢给我的Agent,它就自动帮我沉淀到选题库(做视频的时候直接挑选即可)和沉淀到学习库(以后Agent自动推送学习),那简直太美妙了。
但是想要打通和各个平台之间的联系,涉及到的内容和工具很多,我以下只讲解我跑通的真实方法(把相关链接丢给AI分析,包括纯文本、图文、视频,但其实最后都要落实到文本):
1.X的推文和文章
1)xreach + auth(免费) 这个方法需要认证自己的X账号,可能有一点点风险,但是能够抓取到完整的数据。 2)nitter+camoufox(免费) nitter变为静态页面,camoufox反爬抓取数据 3)nitter+xcrawl(付费,有免费额度) nitter变为静态页面,xcrawl抓取数据
X的书签内容抓取:
工具:fieldtheory(免费,Mac/Linux)
核心原理:用 Chrome 浏览器的会话 Cookie 调用 X 内部 GraphQL API,不需要 X API Key。
安装:
npm install -g fieldtheory
# 需要 Node.js 20+ 和 Google ChromeMac 配置步骤:
- 确保 Chrome 已登录 X(x.com)
- 首次运行会自动从 Chrome 读取会话 Cookie 并同步书签
ft sync # 增量同步(只拉新的)
ft sync --full # 全量重新抓取可获取的数据:
- 推文正文(text)
- 作者信息(名字、bio、粉丝数、是否认证)
- 发布时间
- 互动数据(点赞/转发/回复/引用/收藏数)
- 媒体(图片/视频)
- 话题标签(tags)
- 推文内链接
不能获取: 评论内容、收藏时间(X 不返回这些)
数据存储位置: ~/.ft-bookmarks/bookmarks.jsonl
定时同步(每天早上7点自动拉一次):
crontab -e
# 添加:
0 7 * * * ft sync --classifyOAuth 方式(跨平台,Mac/Linux/Windows):
ft auth # 配置 OAuth(需要 X 开发者账号)
ft sync --api # 通过 API 同步2.公众号文章
公众号专用抓取借口: (1)先拿到公众号文章链接 比如: https://mp.weixin.qq.com/s/CljajqS3x3ETOe4tPubQzw (2)把这个链接 URL 编码 也就是把它转成这种形式: https%3A%2F%2Fmp.weixin.qq.com%2Fs%2FCljajqS3x3ETOe4tPubQzw (3)调用一个第三方抓取接口 curl -s “https://down.mptext.top/api/public/v1/download?url=<URL_ENCODED_LINK>&format=markdown”
3.小红书图文笔记
直接抓网页 HTML → 先拿 meta → 再解析 window.INITIAL_STATE → 拿结构化 note 数据 → 提取图片直链 → 必要时再对图片做视觉分析
4.即刻文章
1)jina,不能抓取到互动数据,免费 2)camoufox,不能抓取到互动数据,免费 3)xcrawl,能抓取到互动数据,付费 4)curl + 解析,能抓取到互动数据,免费
5.抖音视频
- 启动无头 Chromium — 模拟一个真实的 Chrome 浏览器
- 访问抖音页面 — page.goto(url) 加载页面,此时浏览器执行 JS、生成 msToken 和 X-Bogus 签名,所有加密参数自动搞定
- 拦截 aweme/detail API 响应 — 用 page.on(‘response’) 监听网络响应,当抖音的详情 API 返回时,直接把 JSON 响应体拿下来
- 从 JSON 中提取视频直链 — play_addr.url_list[0] 就是无水印 MP4 链接
- 用 requests 下载 — 带上 Referer: https://www.douyin.com/ 模拟浏览器来源
6.微信
7.所有平台视频
处理流程:
用户发视频链接
↓
Step1: yt-dlp 下载视频到本地 /tmp
↓
Step2: transcribe.py 调用 volc ASR(支持视频URL直传,返回纯文字无时间戳)
↓
Step3: LLM 读取转写文字,按规则切分段落
↓
Step4: feishu_drive 在目标文件夹创建「视频对标库」bitable(检查是否已存在)
↓
Step5: feishu_bitable_create_field 创建字段(已有则跳过)
↓
Step6: feishu_bitable_create_record 逐条写入记录
↓
返回入库结果
视频对标库 bitable 字段设计:
| 字段名 | 类型 | 说明 |
|---|---|---|
| 标题 | 文本 | 主字段,同标题 |
| 来源链接 | URL | 原始视频链接 |
| 平台 | 单选 | 抖音/小红书/B站/YouTube/微博/微信/知乎/其他 |
| 作者 | 文本 | 账号名/UP主 |
| 日期 | 日期 | 发布时间 |
| 正文口播稿 | 文本 | LLM切分后的段落文字 |
| 口播稿分析 | 文本 | 结构/爆点/开头分析 |
| 内容类型 | 多选 | 固定选项(见下方) |
内容类型(多选,固定值):
- 口播种草
- 知识干货
- 故事叙事
- 观点输出
- 测评对比
- 教程分享
- 热点追评
- 其他