要让自己的信息密度处于世界一流水平，光靠AI去过滤我觉得并不够精准。因为自己到底需要什么样的信息，其实连自己都无法预定，所有的“设定”都是在闭门造车，要给自己不设限，还得去靠自己人工去刷，否则今天你以为的AI，明天它就变成了另外一个东西，你不以身入局，无法最清晰地去感知发展。

但是人工去刷，终究具有局限性，刷是要时间的，刷到了如何才能让其化为己用，才是最具有性价比的动作。这一步需要Agent的辅助，Claude code或者openclaw，你需要帮助你的Agent打通阅读任何一个社媒平台的门槛，才能快速把你“看到的东西”变成“真正能复用学习的东西”。

比如我在做AI自媒体，我每天会在不同的平台：X、Reddit、公众号、小红书、抖音、即刻、视频号…看到大量的信息，但是如果我仅仅是看了就滑走了，对我基本没有帮助，但是如果我刷到一篇好文章或者看到一条结构很好的爆款视频，我能把链接丢给我的Agent，它就自动帮我沉淀到选题库（做视频的时候直接挑选即可）和沉淀到学习库（以后Agent自动推送学习），那简直太美妙了。

但是想要打通和各个平台之间的联系，涉及到的内容和工具很多，我以下只讲解我跑通的真实方法（把相关链接丢给AI分析，包括纯文本、图文、视频，但其实最后都要落实到文本）：

1.X的推文和文章

1）xreach + auth（免费）这个方法需要认证自己的X账号，可能有一点点风险，但是能够抓取到完整的数据。 2）nitter+camoufox（免费） nitter变为静态页面，camoufox反爬抓取数据 3）nitter+xcrawl（付费，有免费额度） nitter变为静态页面，xcrawl抓取数据

X的书签内容抓取：

工具：fieldtheory（免费，Mac/Linux）

核心原理：用 Chrome 浏览器的会话 Cookie 调用 X 内部 GraphQL API，不需要 X API Key。

安装：

npm install -g fieldtheory
# 需要 Node.js 20+ 和 Google Chrome

Mac 配置步骤：

确保 Chrome 已登录 X（x.com）
首次运行会自动从 Chrome 读取会话 Cookie 并同步书签

ft sync              # 增量同步（只拉新的）
ft sync --full      # 全量重新抓取

可获取的数据：

推文正文（text）
作者信息（名字、bio、粉丝数、是否认证）
发布时间
互动数据（点赞/转发/回复/引用/收藏数）
媒体（图片/视频）
话题标签（tags）
推文内链接

不能获取： 评论内容、收藏时间（X 不返回这些）

数据存储位置： ~/.ft-bookmarks/bookmarks.jsonl

定时同步（每天早上7点自动拉一次）：

crontab -e
# 添加：
0 7 * * * ft sync --classify

OAuth 方式（跨平台，Mac/Linux/Windows）：

ft auth              # 配置 OAuth（需要 X 开发者账号）
ft sync --api        # 通过 API 同步

2.公众号文章

公众号专用抓取借口：（1）先拿到公众号文章链接比如： https://mp.weixin.qq.com/s/CljajqS3x3ETOe4tPubQzw （2）把这个链接 URL 编码也就是把它转成这种形式： https%3A%2F%2Fmp.weixin.qq.com%2Fs%2FCljajqS3x3ETOe4tPubQzw （3）调用一个第三方抓取接口 curl -s “https://down.mptext.top/api/public/v1/download?url=<URL_ENCODED_LINK>&format=markdown”

3.小红书图文笔记

直接抓网页 HTML → 先拿 meta → 再解析 window.INITIAL_STATE → 拿结构化 note 数据 → 提取图片直链 → 必要时再对图片做视觉分析

4.即刻文章

1）jina，不能抓取到互动数据，免费 2）camoufox，不能抓取到互动数据，免费 3）xcrawl，能抓取到互动数据，付费 4）curl + 解析，能抓取到互动数据，免费

5.抖音视频

启动无头 Chromium — 模拟一个真实的 Chrome 浏览器
访问抖音页面 — page.goto(url) 加载页面，此时浏览器执行 JS、生成 msToken 和 X-Bogus 签名，所有加密参数自动搞定
拦截 aweme/detail API 响应 — 用 page.on(‘response’) 监听网络响应，当抖音的详情 API 返回时，直接把 JSON 响应体拿下来
从 JSON 中提取视频直链 — play_addr.url_list[0] 就是无水印 MP4 链接
用 requests 下载 — 带上 Referer: https://www.douyin.com/ 模拟浏览器来源

6.微信

7.所有平台视频

处理流程：

用户发视频链接
    ↓
Step1: yt-dlp 下载视频到本地 /tmp
    ↓
Step2: transcribe.py 调用 volc ASR（支持视频URL直传，返回纯文字无时间戳）
    ↓
Step3: LLM 读取转写文字，按规则切分段落
    ↓
Step4: feishu_drive 在目标文件夹创建「视频对标库」bitable（检查是否已存在）
    ↓
Step5: feishu_bitable_create_field 创建字段（已有则跳过）
    ↓
Step6: feishu_bitable_create_record 逐条写入记录
    ↓
返回入库结果

视频对标库 bitable 字段设计：

字段名	类型	说明
标题	文本	主字段，同标题
来源链接	URL	原始视频链接
平台	单选	抖音/小红书/B站/YouTube/微博/微信/知乎/其他
作者	文本	账号名/UP主
日期	日期	发布时间
正文口播稿	文本	LLM切分后的段落文字
口播稿分析	文本	结构/爆点/开头分析
内容类型	多选	固定选项（见下方）

内容类型（多选，固定值）：

口播种草
知识干货
故事叙事
观点输出
测评对比
教程分享
热点追评
其他

逸尘的AI知识库

探索

让Agent任意抓取各平台的数据方法汇总