要让自己的信息密度处于世界一流水平,光靠AI去过滤我觉得并不够精准。因为自己到底需要什么样的信息,其实连自己都无法预定,所有的“设定”都是在闭门造车,要给自己不设限,还得去靠自己人工去刷,否则今天你以为的AI,明天它就变成了另外一个东西,你不以身入局,无法最清晰地去感知发展。

但是人工去刷,终究具有局限性,刷是要时间的,刷到了如何才能让其化为己用,才是最具有性价比的动作。这一步需要Agent的辅助,Claude code或者openclaw,你需要帮助你的Agent打通阅读任何一个社媒平台的门槛,才能快速把你“看到的东西”变成“真正能复用学习的东西”。

比如我在做AI自媒体,我每天会在不同的平台:X、Reddit、公众号、小红书、抖音、即刻、视频号…看到大量的信息,但是如果我仅仅是看了就滑走了,对我基本没有帮助,但是如果我刷到一篇好文章或者看到一条结构很好的爆款视频,我能把链接丢给我的Agent,它就自动帮我沉淀到选题库(做视频的时候直接挑选即可)和沉淀到学习库(以后Agent自动推送学习),那简直太美妙了。

但是想要打通和各个平台之间的联系,涉及到的内容和工具很多,我以下只讲解我跑通的真实方法(把相关链接丢给AI分析,包括纯文本、图文、视频,但其实最后都要落实到文本):

1.X的推文和文章

1)xreach + auth(免费) 这个方法需要认证自己的X账号,可能有一点点风险,但是能够抓取到完整的数据。 2)nitter+camoufox(免费) nitter变为静态页面,camoufox反爬抓取数据 3)nitter+xcrawl(付费,有免费额度) nitter变为静态页面,xcrawl抓取数据

X的书签内容抓取:

工具:fieldtheory(免费,Mac/Linux)

核心原理:用 Chrome 浏览器的会话 Cookie 调用 X 内部 GraphQL API,不需要 X API Key。

安装:

npm install -g fieldtheory
# 需要 Node.js 20+ 和 Google Chrome

Mac 配置步骤:

  1. 确保 Chrome 已登录 X(x.com)
  2. 首次运行会自动从 Chrome 读取会话 Cookie 并同步书签
ft sync              # 增量同步(只拉新的)
ft sync --full      # 全量重新抓取

可获取的数据:

  • 推文正文(text)
  • 作者信息(名字、bio、粉丝数、是否认证)
  • 发布时间
  • 互动数据(点赞/转发/回复/引用/收藏数)
  • 媒体(图片/视频)
  • 话题标签(tags)
  • 推文内链接

不能获取: 评论内容、收藏时间(X 不返回这些)

数据存储位置: ~/.ft-bookmarks/bookmarks.jsonl

定时同步(每天早上7点自动拉一次):

crontab -e
# 添加:
0 7 * * * ft sync --classify

OAuth 方式(跨平台,Mac/Linux/Windows):

ft auth              # 配置 OAuth(需要 X 开发者账号)
ft sync --api        # 通过 API 同步

2.公众号文章

公众号专用抓取借口: (1)先拿到公众号文章链接 比如: https://mp.weixin.qq.com/s/CljajqS3x3ETOe4tPubQzw (2)把这个链接 URL 编码 也就是把它转成这种形式: https%3A%2F%2Fmp.weixin.qq.com%2Fs%2FCljajqS3x3ETOe4tPubQzw (3)调用一个第三方抓取接口 curl -s “https://down.mptext.top/api/public/v1/download?url=<URL_ENCODED_LINK>&format=markdown”

3.小红书图文笔记

直接抓网页 HTML → 先拿 meta → 再解析 window.INITIAL_STATE → 拿结构化 note 数据 → 提取图片直链 → 必要时再对图片做视觉分析

4.即刻文章

1)jina,不能抓取到互动数据,免费 2)camoufox,不能抓取到互动数据,免费 3)xcrawl,能抓取到互动数据,付费 4)curl + 解析,能抓取到互动数据,免费

5.抖音视频

  1. 启动无头 Chromium — 模拟一个真实的 Chrome 浏览器
  2. 访问抖音页面 — page.goto(url) 加载页面,此时浏览器执行 JS、生成 msToken 和 X-Bogus 签名,所有加密参数自动搞定
  3. 拦截 aweme/detail API 响应 — 用 page.on(‘response’) 监听网络响应,当抖音的详情 API 返回时,直接把 JSON 响应体拿下来
  4. 从 JSON 中提取视频直链 — play_addr.url_list[0] 就是无水印 MP4 链接
  5. 用 requests 下载 — 带上 Referer: https://www.douyin.com/ 模拟浏览器来源

6.微信

7.所有平台视频

处理流程:

用户发视频链接
    ↓
Step1: yt-dlp 下载视频到本地 /tmp
    ↓
Step2: transcribe.py 调用 volc ASR(支持视频URL直传,返回纯文字无时间戳)
    ↓
Step3: LLM 读取转写文字,按规则切分段落
    ↓
Step4: feishu_drive 在目标文件夹创建「视频对标库」bitable(检查是否已存在)
    ↓
Step5: feishu_bitable_create_field 创建字段(已有则跳过)
    ↓
Step6: feishu_bitable_create_record 逐条写入记录
    ↓
返回入库结果

视频对标库 bitable 字段设计:

字段名类型说明
标题文本主字段,同标题
来源链接URL原始视频链接
平台单选抖音/小红书/B站/YouTube/微博/微信/知乎/其他
作者文本账号名/UP主
日期日期发布时间
正文口播稿文本LLM切分后的段落文字
口播稿分析文本结构/爆点/开头分析
内容类型多选固定选项(见下方)

内容类型(多选,固定值):

  • 口播种草
  • 知识干货
  • 故事叙事
  • 观点输出
  • 测评对比
  • 教程分享
  • 热点追评
  • 其他