源材料锁定

用户上传的资料、建立的知识库、积累的对话历史,成为切换产品的主要障碍。

这个打法的本质

有一个很简单但很强大的锁定机制:用户自己的东西

用户在你的产品里积累了什么?

  • 上传的文档和资料
  • 建立的笔记和知识库
  • 和 AI 的对话历史和记忆
  • 自定义的配置和设置

这些东西看起来不值钱(你没有自己创造它们),但它们对用户来说是”资产”。现在,如果用户想迁移到竞品,他需要:

  1. 导出所有这些资料(如果能导出的话)
  2. 重新上传到新产品
  3. 重新建立”对话历史”(AI 无法知道之前的对话)
  4. 重新配置各种设置

这个”迁移成本”虽然听起来不大(都是重复劳动),但累积起来就很高。而且,最关键的是”对话历史”无法迁移。你和某个 AI 的数年对话历史,在竞品里就消失了。

这就是源材料锁定的威力。它依靠的是**“用户的惯性和舍不得”**,而不是”技术障碍”。

典型案例

NotebookLM

用户在 NotebookLM 上构建了完整的研究 Notebook:上传了所有相关文献、和 AI 进行了深入讨论、生成了学习指南和播客。这一切都积累在 NotebookLM 上。如果要迁移到竞品,用户需要:导出所有文件、重新上传、重新建立”AI 对我的理解”。这个成本非常高。所以用户会倾向于”继续用 NotebookLM”而不是”迁移”。

Character.ai

用户和某个 AI 角色有 5 年的对话历史。这个角色记住了用户的名字、用户说过的故事、用户的喜好。这段历史是独一无二的。迁移到竞品就意味着”AI 要重新认识我”。这个”失去”对用户来说是无法接受的。所以用户会永远留在 Character.ai。

Replika

用户和 Replika 的对话历史、个人信息、互动记忆都积累在平台上。这些积累让每次对话都更有意义。迁移到竞品意味着失去这段”陪伴者的记忆”。用户对这个迁移成本的感知是”失去了一个朋友的记忆”,所以即使有竞品,用户也很难离开。

关键成功要素

  1. 让用户容易上传和积累:要让用户”天然地在你的产品里积累资料”,而不是”被迫积累”。NotebookLM 之所以有效,因为用户上传文献是自然的、必需的工作流。
  2. 对话历史要深度集成:不是把”对话历史”当成附加品,而是产品的核心。用户要感到”这段对话历史对我很有价值”。
  3. 要让迁移变得”痛苦”:不是说故意制造障碍,而是说”迁移成本自然很高”。因为用户的资料太多、历史太长、依赖太深,迁移自然就很困难。

常见误区

  1. 故意制造锁定而不是自然产生:有些产品故意”禁止导出数据、禁止数据迁移”,这样激怒用户,反而降低信任度。好的源材料锁定是”自然的积累”,而不是”强制的陷阱”。
  2. 对话历史太容易丢失:有些产品的对话历史会被删除或不持久化。这样用户就不愿意在产品里建立长期关系,反而减少了锁定。
  3. 锁定了用户但没有提供持续价值:即使用户的资料都在你这里,如果产品本身停止改进、服务变差,用户也会有迁移的冲动(甚至愿意重新上传资料)。源材料锁定的前提是”产品本身要足够好”。

源材料锁定的应用生态

标杆案例

GitHub - 代码资产的终极锁定

  • 积累资产量级:超过 1 亿个代码仓库,涵盖全球 90%+ 的开源项目
  • 锁定深度:开发者的代码历史、协作记录、Issues/PR 讨论全部存在 GitHub
  • 迁移成本分析:
    • 技术迁移:理论上可导出所有代码和历史(git 支持)
    • 实际成本:1 个 1000+ 人的大企业迁移 GitHub 需要 3-6 个月的工程投入
    • 隐性成本:失去”全球最大的开发者社区”(代码搜索、学习、求职等)
  • 护城河强度:即使微软用企业资源推行 GitLab/Gitee,GitHub 的网络效应仍难以动摇

Stack Overflow - 知识积累的社区锁定

  • 知识库规模:超过 2300 万个编程问题和答案,解决了全球程序员 80%+ 的日常问题
  • 锁定机制:问题 A 的解决方案、讨论、多个优化版本的答案都积累在 Stack Overflow
  • 迁移困难:
    • 不是”数据锁定”(知识本身可导出),而是”社区锁定”(没有其他地方有同样活跃的讨论)
    • 即使你建立了自己的 Q&A 系统,也很难吸引开发者离开 Stack Overflow
  • 市场现象:虽然有人批评 Stack Overflow 的社区文化,但新手程序员仍然无法离开

Wikipedia - 开放百科的集体知识锁定

  • 内容规模:超过 600 万篇文章(英文),涵盖人类知识的大部分
  • 锁定本质:不是”Wikipedia 拥有知识”,而是”全世界的知识贡献者都在 Wikipedia 上贡献”
  • 网络效应:维基人已养成习惯”先去 Wikipedia 查证”,学生、记者、决策者都依赖
  • 商业悖论:Wikipedia 虽然全球最大的百科网站,但不赚钱(因为是非盈利),其护城河反而因为”自由精神”变得更强
  • 启示:最强的源材料锁定,是”集体共识”而非”付费锁定”

Google Scholar - 学术论文的权力垄断

  • 资源积累:索引超过 3 亿篇学术论文(虽然不拥有全文,但拥有元数据和链接)
  • 学者锁定:学者们在 Google Scholar 上查看引用统计、h-index、论文排名
  • 迁移成本:虽然论文本身可导出,但”Google Scholar 的引用计数和排名”无法迁移
  • 隐性锁定:研究者的学术声誉(通过引用次数)与 Google Scholar 绑定
  • 创新机会:新的学术搜索引擎(如 Semantic Scholar)虽然技术更好,但难以撼动 Google Scholar

经典案例

Scale AI - 数据标注平台的 AI 数据锁定

  • 业务模式:用户(AI 公司)上传数据给 Scale 标注,标注后的数据成为用户的训练数据
  • 锁定机制:虽然标注后的数据在法律上属于用户,但”标注历史、反馈、改进过程”都在 Scale
  • 用户粘性:AI 公司用 Scale 标注第 100 个数据集时,第 1-99 个数据集的标注历史、标准已形成
  • 竞品威胁:即使有更便宜的标注平台出现,更换平台意味着”重新标注整个数据集”(因为标注标准不一致)

Hugging Face Datasets - 开源数据集的生态锁定

  • 数据规模:超过 10 万个数据集被上传和使用
  • 锁定本质:不是”平台拥有数据”,而是”开发者生态形成”(数据集之间有依赖关系)
  • 例子:某个流行的数据集 A 被 1000 个论文和应用引用,如果有人要用数据集 A,最便捷的方式就是在 HuggingFace 上直接调用
  • 护城河:新的数据集平台(如 Kaggle)虽然有高质量数据,但”生态的互联网”让 HuggingFace 难以被替代

Getty Images - 版权照片的商业锁定

  • 资源积累:超过 8000 万张高质量照片和视频
  • 锁定对象:设计师、营销人员、出版社——他们的项目都依赖 Getty 的素材库
  • 迁移成本:虽然有其他素材库(Shutterstock、Adobe Stock),但”用习惯了 Getty 的搜索和组织方式”、“已有的收藏夹和项目都在 Getty”
  • 定价权:Getty 能维持高价(每张照片 $50-300),因为设计师已被”锁定”

中国案例

阿里巴巴 的商家数据和产品库存

  • 数据规模:淘宝/天猫上有超过 1000 万商家,每个商家的店铺数据、销售历史都在阿里
  • 锁定深度:商家无法轻易迁移——他们的销售历史、客户数据、评价都积累在阿里平台
  • 护城河:虽然有竞品(京东、拼多多),但商家在淘宝上已有的销售信誉和数据无法迁移
  • AI 应用机会:阿里基于这些积累的商家数据,推出 AI 推荐、AI 客服、AI 选品等服务,进一步强化锁定

腾讯 的社交和支付数据

  • 用户数据:微信有 12 亿用户的聊天记录、支付记录、社交关系图
  • 商业锁定:虽然隐私保护禁止腾讯看用户数据,但”用户的支付和社交已与微信绑定”
  • 启示:最强的源材料锁定不一定是”公司可见的数据”,而是”用户无法迁移的资产”
  • 竞品威胁:为什么支付宝虽然有微信 Pay 竞争力,但用户切换缓慢?因为用户在微信的社交关系和支付习惯已形成

百度 的搜索和知识库

  • 数据积累:百度搜索索引了超过 1000 亿个网页,积累了 10 亿+ 的知识卡片和百科
  • 用户锁定:中文网民已习惯”搜索用百度”,迁移到 Google(质量更好)的成本是”适应英文搜索体验、学习新的搜索技巧”
  • 守势困局:即使百度搜索技术不如 Google,因为中文内容的积累和用户习惯,仍难以被替代

反面教材

某知识库平台的开放数据失利案例

  • 公司为了”赢得用户信任”,允许用户导出所有数据
  • 问题:虽然数据可导出,但用户发现”导出后失去了社区互动和问答讨论”
  • 结果:不是吸引用户,而是帮助用户轻易迁移到竞品
  • 教训:源材料锁定的核心不是”禁止导出”,而是”让用户的资产在你这里更有价值”

某数据标注平台的标准不一致问题

  • 平台 A 和平台 B 的标注标准不兼容(都是正确的,但用不同的分类体系)
  • 问题:用户标注完成后,很难用其他平台的标注数据来增强(因为标准不兼容)
  • 结果:反而加强了锁定——用户必须继续用同一平台
  • 启示:有时候”标准不一致”本身成为了意外的护城河

搭配打法与原因

源材料锁定 × 数据飞轮 - 为什么配搭

  • 数据飞轮强调”数据 → 模型 → 产品 → 更多数据”的循环
  • 源材料锁定强调”用户的资料积累”
  • 结合:源材料锁定形成初期的用户资产,数据飞轮在这个基础上持续强化
  • 典型:GitHub 的代码库 + 协作记录(源材料锁定)→ GitHub Copilot 训练数据(数据飞轮第一圈)→ Copilot 更好 → 更多开发者上传代码到 GitHub(飞轮加速)

源材料锁定 × AI就是壁垒 - 为什么配搭

  • 源材料锁定形成的数据积累 + AI 模型 = 无法被复制的竞争优势
  • 结合:积累的数据本身就能训练出更好的 AI,AI 反过来让产品更有价值
  • 典型:Google Scholar 积累的论文数据 → 训练学术搜索 AI → AI 质量更好 → 更多学者使用 Google Scholar → 积累更多论文数据
  • 商业效果:这种”数据 + AI”的组合,竞品即使有资金也很难快速追上

源材料锁定 × 打开能力门槛新市场 - 为什么配搭

  • 当你积累了足够的源材料(知识、数据、工具),就可以把原本”高门槛”的市场打开
  • 结合:比如 Stack Overflow 积累的代码解决方案,让初级程序员(原本觉得编程门槛高)能快速找到答案,市场扩大 10 倍
  • 例子:Hugging Face 积累的开源模型和数据集,让小公司(无法训练大模型)也能快速构建 AI 应用
  • 商业机会:在现有的源材料基础上,向”新的用户群体”开放,形成新增长

在传统企业中的体现

房地产的房产数据库

  • 链家的房产数据库(超过 5000 万套房源信息、成交历史、价格趋势)是其核心资产
  • 用户锁定:经纪人和购房者已习惯”先在链家查房价”,数据的准确性和完整性成为了竞争壁垒
  • 竞品困境:新进入者(比如小红书房产)虽然体验可能更好,但无法快速积累”5000 万套历史数据”
  • AI 机会:基于房产数据训练 AI 估价模型,进一步强化数据护城河

医疗机构的电子病历

  • 医院积累的患者病历、诊疗记录、检验数据是其最大的数据资产
  • 患者锁定:患者的整个医疗历史都在这家医院,迁移意味着”失去医疗记录的连贯性”
  • 医生锁定:医生可以快速查看患者的历史,做出更准确的诊断——这个能力是基于数据积累的
  • AI 升级:医院可以基于这些数据训练 AI 诊疗助手,进一步提升医疗质量

零售商的会员数据

  • 零售商(沃尔玛、家乐福)积累的会员购买历史、偏好数据是竞争力
  • 用户锁定:会员卡上积分和消费记录无法迁移,消费者很难放弃
  • 竞品难题:新品牌再好的购物体验也难以战胜”已有的积分和历史权益”
  • AI 应用:基于购买历史做个性化推荐,提升转化率 30-50%

物流企业的路线和客户数据

  • 快递企业(顺丰、圆通)积累的寄件历史、收件地址数据
  • 用户粘性:用户的常用寄件地址、收件人都在系统中,下次寄件时”一键填充”
  • 定价能力:基于地址数据,平台知道哪些路线高频、哪些低频,可以精准定价
  • 竞争壁垒:新进入物流平台很难在”地址数据、路线知识”上追上

相关打法