
【挖坑】微信聊天记录 训练 数字人
AI-摘要
GPT
AI初始化中...
介绍自己
生成本文简介
推荐相关文章
前往主页
前往tianli博客
参考文献
【1】我用我的微信聊天记录和 280 篇博客文章,做了我自己的数字克隆AI
王登科博主一直渴望创建一个与众不同的聊天机器人。他认为,尽管聊天 AI 已经取得了巨大进步,但它们与他心目中的 AI 还是有所差异。因此,他决定利用自己在网络世界中留下的痕迹,包括微信聊天记录和博客文章,来训练一个独一无二的 AI,这个 AI 能够更接近他自己的思维和行为模式。通过使用开源工具 WechatExporter 从 iPhone 中导出微信聊天记录,并编写 Python 脚本进行数据清洗,他获得了一个个人化的微信聊天数据集。接着,他选择了 chatglm-6b 作为预训练模型,并在此基础上进行了微调训练。由于训练结果的 loss 下降不佳,他决定将博客文章转换为问答格式的数据集并进行第二轮训练。最终,他通过融合两个模型的权重,创建了一个更加符合自己特点的数字克隆 AI。尽管这个 AI 在多轮对话和准确性方面存在一些不足,但它能够体现出一些与博主相似的特点。王登科将这个数字克隆 AI 部署在线上,让大家可以与之交流,并表示会持续优化这个模型。
网页主要报道了一个名为 wecone 的开源项目,该项目利用微信聊天记录通过 RAG 知识库模型微调,生成用户的数字分身,支持阿里同义千问 2.5 模型,并且提供了 ASR 与 TTS 功能,可以将聊天记录转化为用户自己的声音。
本文是原创文章,采用 CC BY-NC-ND 4.0 协议,完整转载请注明来自 EnderKC
评论
匿名评论
隐私政策
你无需删除空行,直接评论以获取最佳展示效果