用2000条数据训练后的AI,居然比我更懂起标题? * { margin: 0; padding: 0; outline: 0; } body { font-family: “PingFang SC”, system-ui, -apple-system, BlinkMacSystemFont, “Helvetica Neue”, “Hiragino Sans GB”, “Microsoft YaHei UI”, “Microsoft YaHei”, Arial, sans-serif; line-height: 1.6; } .__page_content__ { max-width: 667px; margin: 0 auto; padding: 20px; text-size-adjust: 100%; color: rgba(0, 0, 0, 0.9); padding-bottom: 64px; } .title { user-select: text; font-size: 22px; line-height: 1.4; margin-bottom: 14px; font-weight: 500; } .__meta__ { color: rgba(0, 0, 0, 0.3); font-size: 15px; line-height: 20px; hyphens: auto; word-break: break-word; margin-bottom: 50px; } .__meta__ .nick_name { color: 576B95; } .__meta__ .copyright { color: rgba(0, 0, 0, 0.3); background-color: rgba(0, 0, 0, 0.05); padding: 0 4px; margin: 0 10px 10px 0; } blockquote.source { padding: 10px; margin: 30px 0; border-left: 5px solid ccc; color: #333; font-style: italic; word-wrap: break-word; } blockquote.source a { cursor: pointer; text-decoration: underline; } .item_show_type_0 > section { margin-top: 0; margin-bottom: 24px; } a { color: 576B95; text-decoration: none; cursor: default; } .text_content { margin-bottom: 50px; user-select: text; font-size: 17px; white-space: pre-wrap; word-wrap: break-word; line-height: 28px; hyphens: auto; } .picture_content .picture_item { margin-bottom: 30px; } .picture_content .picture_item .picture_item_label { text-align: center; } img { max-width: 100%; } .pay_subscribe_notice { margin: 30px 0; padding: 20px; background: fffbe6; border: 1px solid ffe58f; border-radius: 8px; } .pay_subscribe_badge { display: inline-block; padding: 4px 12px; background: faad14; color: fff; border-radius: 4px; font-size: 14px; font-weight: 500; margin-bottom: 12px; } .pay_subscribe_desc { font-size: 15px; line-height: 1.8; color: rgba(0, 0, 0, 0.7); margin-bottom: 12px; } .pay_subscribe_hint { font-size: 13px; color: rgba(0, 0, 0, 0.4); } .__bottom-bar__ { display: flex; justify-content: space-between; align-items: center; position: fixed; bottom: 0; left: 0; right: 0; height: 64px; padding: 8px 20px; background: white; box-sizing: border-box; border-top: 1px solid rgba(0, 0, 0, 0.2); } .__bottom-bar__ .left { display: flex; align-items: center; font-size: 15px; white-space: nowrap; } .__bottom-bar__ .right { display: flex; } .__bottom-bar__ .sns_opr_btn { display: flex; align-items: center; user-select: none; background: transparent; border: 0; color: rgba(0, 0, 0, 0.9); font-size: 14px; } .__bottom-bar__ .sns_opr_btn:not(:last-child) { margin-right: 16px; } .__bottom-bar__ .sns_opr_btn > img { margin-right: 4px; }
用2000条数据训练后的AI,居然比我更懂起标题?
原创 数字生命卡兹克 数字生命卡兹克 2023-09-24 18:18 天津
写了这么久文章,我一直有一个很强的痛点:
给文章起标题。
真的,起标题太特么痛苦了。
而起一个能让观众愿意点进来的标题,更特么的痛苦。
标题,是你跟观众见面的第一眼,你的内容写的无论再好再牛逼,标题不吸引人,那照样跟观众无缘。
很多媒体人都做过一件事,分析各种爆款标题,学他们写作方法。
但是我这人呢,是个大懒逼。
所以,秉持着AI让懒逼生活更****美好的理念。
我干脆,花一些时间,让AI来当我的赛博小编,把取标题这事给我解决了吧~
首先,我们得知道,什么标题能称的上是“爆款标题”?可能每个人都有每个人的喜好,但是我们就用最“科学”的方法:谁的火谁就是对的。
比如我最喜欢的Lks的标题。
按朋友的话说:“浓烈的情绪化表达,熟悉的设问和反问,吊人胃口的一把好手。”
而各家大模型写出来的都是啥样的标题呢?
你就感觉,完全没有那个味,一股子正儿八经的劲。
所以,只能自己动手了。
为了让懒逼生活更美好,我要自己找数据集,微调一个大模型,来专门给我干起标题的这个事。
微调或者训练一个大模型,其实没有大家想的那么复杂,找数据集、清洗数据集、上传训练。三步,完事。
说干就干。
第一步,当然是找数据集啦。
我自己是用GPT4帮我写了代码,抓了B站、公众号、人人都是产品经理、知乎这四个地方的一些爆文。这个地方不能细说,因为XX要求。
所以请找GPT4、智谱AI等大模型帮你写代码去抓,或者找你身边的开发朋友。只能自己去解决。
总而言之,我形成了一个6000条数据的数据集。
第二步,清洗数据集。
数据集的质量,对于训练来说,非常非常非常重要。数量不一定要多,一两千条都够了,但是质量一定要好,不要有一些乱七八糟的东西。
因为我是用文心千帆大模型平台去训练的,所以其实是有标准的数据集格式的,直接照抄就行。
文心千帆网址在此:
https://console.bce.baidu.com/qianfan/data/dataset/list
你只需要创建数据集,选择文本对话,非排序,然后下一步。
再选有标注信息,把你的jsonl格式的数据集传上去。
数据集的具体格式,按文心千帆平台的要求是这样的:
[{“prompt”: “请根据下面的文章生成标题, 内容如下:<文章内容>\n生成标题如下:”, “response”: “<文章标题>”}]
<>中的内容,替换成你抓过来的信息。
举个例子:
[{“prompt”: “请根据下面的文章生成标题, 内容如下:曾经的抖音直播顶流“交个朋友”团…发展轨迹?我们拭目以待。\n生成标题如下:”, “response”: “三年后,「交个朋友」怎么样了?”}]
可以用GPT4的Advanced Data Analysis功能,帮你把数据直接AI处理成这样的格式。
同时也可以让它帮你删除一些太短的和太长的文章,只保留1000~4000字符的文章即可。
最后我处理完以后,还剩1945条干净的数据集。
直接传到文心千帆上就行,记得传完了以后点击一下发布。
最后一步,就是愉快又简单的微调训练啦。
得益于文心千帆的傻瓜式操作,你直接点开首页的SFT训练,创建一个新任务。
选择文心自己的那个最新的模型ERNIE-Bot-turbo-0725,训练方式选LoRA,其他的都是默认就行,数据集就选自己的。然后直接开跑。
大概就花个50几块钱就行,真的不贵了。。
毕竟,我微调GPT3.5,特么的微调1次花了我71刀,@&!*…
大概1个小时左右,模型就微调好啦。
咱们直接来验证一下效果!
微调前:小红书自营电商关停: 从福利社”到”小绿洲”的探索与失败
微调后:小红书的电商闭环梦,难道又要碎了?
微调前:ChatGPT引领Al潮流: 生成式AI产品流量权升,移动优先的GenAl产品薪露头角
微调后:ChatGPT之后,谁可能成为下一个“大赢家”?
这就是我最喜欢的标题范式了!
有“爆款标题”那个味了。
我又随手扔了几篇文章进去,它生成的标题是这样的:
---
字节跳动再战长视频,这次和之前有何不同?
抖音悄悄开店卖衣服,向快时尚大佬们“宣战”
《长相思》爆红,网文IP改编影视剧为何越来越火?
双十一到了,你还在疯狂购物吗?
—
当然,我把我的这篇文章写完了扔给他,这篇文章的标题也是它帮我取的:
泪流满面。
以后我终于不用痛苦的想标题了。
特定微调过的大模型,在一些特定任务中,从效率上能碾压99%的人类,从质量上,也能碾压95%的人类。
以前,我想标题的时间可能都要憋半小时到一小时,要写好几个,让朋友们帮忙挑。
现在,这一个小时的时间,我终于可以拿去做一些更有意思的事了。
再去做更多的特定任务的微调大模型。
把我从另一些事情中再解放出来。
解放的后时间,再去做一些更多的AI。
如此循环。
直到我自己的生活中,不再需要我。
AI,让懒逼生活更____****。
后面这个词该填啥,现在我也不知道了。
以上,既然看到这里了,如果觉得不错,随手点个赞、在看、转发三连吧,并给我个星标⭐~感恩。
数字生命卡兹克
 阅读 赞  分享 ‘%3E %3Cg transform=‘translate(0 -2.349)‘%3E %3Cpath d=‘M0 2.349h24v24H0z’/%3E %3Cpath fill=‘%23576B95’ d=‘M16.45 7.68c-.954 0-1.94.362-2.77 1.113l-1.676 1.676-1.853-1.838a3.787 3.787 0 0 0-2.63-.971 3.785 3.785 0 0 0-2.596 1.112 3.786 3.786 0 0 0-1.113 2.687c0 .97.368 1.938 1.105 2.679l7.082 6.527 7.226-6.678a3.787 3.787 0 0 0 .962-2.618 3.785 3.785 0 0 0-1.112-2.597A3.687 3.687 0 0 0 16.45 7.68zm3.473.243a4.985 4.985 0 0 1 1.464 3.418 4.98 4.98 0 0 1-1.29 3.47l-.017.02-7.47 6.903a.9.9 0 0 1-1.22 0l-7.305-6.73-.008-.01a4.986 4.986 0 0 1-1.465-3.535c0-1.279.488-2.56 1.465-3.536A4.985 4.985 0 0 1 7.494 6.46c1.24-.029 2.49.4 3.472 1.29l.01.01L12 8.774l.851-.85.01-.01c1.046-.951 2.322-1.434 3.59-1.434 1.273 0 2.52.49 3.472 1.442z’/%3E %3C/g%3E %3C/g%3E %3C/g%3E%3C/svg%3E) 推荐 ’ fill=‘%23000’ fill-opacity=’.9’/%3E%3C/svg%3E) 留言