RetroArch指南
关注频道 @ZaiHuaPd
频道投稿 @ZaiHuabot
618购物红包及攻略
GPT-4o的中文语料训练数据被赌博诈骗和色情内容污染
OpenAI 发布 GPT-4o 后不久,一些中文用户开始注意到这个最新版本的聊天机器人似乎有些不对劲,它用来解析文本的词块充满了垃圾内容和色情短语。人类以单词为单位进行阅读,而 LLM 则以词块(Token)为单位进行阅读,词块是句子中的不同单位,具有一致且重要的含义。模型编码的词块越多,“读取 ”句子的速度就越快,消耗的计算能力就越少,从而降低了响应的成本。
多名研究过 GPT-4o 使用的新词块库的研究人员表示,中文里最长的词块几乎都是用于色情、赌博和诈骗的垃圾词。甚至更短的词块,例如三个字长的中文单词,也在很大程度上反映了这些主题。
“问题很明显,用于训练[分词器]的语料库不干净。英文词块看起来不错,但中文词块就不行了,”普林斯顿大学的蔡天乐说。语言模型在收集训练数据时抓取垃圾信息的情况并不罕见,但通常会在使用数据之前花费大量精力来清理数据。 “他们可能没有对中文进行适当的数据清理,”他说。
—— 麻省理工科技评论 (节选)
OpenAI 发布 GPT-4o 后不久,一些中文用户开始注意到这个最新版本的聊天机器人似乎有些不对劲,它用来解析文本的词块充满了垃圾内容和色情短语。人类以单词为单位进行阅读,而 LLM 则以词块(Token)为单位进行阅读,词块是句子中的不同单位,具有一致且重要的含义。模型编码的词块越多,“读取 ”句子的速度就越快,消耗的计算能力就越少,从而降低了响应的成本。
多名研究过 GPT-4o 使用的新词块库的研究人员表示,中文里最长的词块几乎都是用于色情、赌博和诈骗的垃圾词。甚至更短的词块,例如三个字长的中文单词,也在很大程度上反映了这些主题。
“问题很明显,用于训练[分词器]的语料库不干净。英文词块看起来不错,但中文词块就不行了,”普林斯顿大学的蔡天乐说。语言模型在收集训练数据时抓取垃圾信息的情况并不罕见,但通常会在使用数据之前花费大量精力来清理数据。 “他们可能没有对中文进行适当的数据清理,”他说。
—— 麻省理工科技评论 (节选)
玩法误解惹来差评,开发者给自家游戏狠狠改了个名
https://www.yystv.cn/p/11750
https://www.yystv.cn/p/11750
在 Windows 11 23H2 预览版本 22631.3668 正式发布,其中一项更新内容为中国大陆用户预装「微软电脑管家」应用程序。
此前版本中安装系统完毕后显示的「电脑管家」仅为图标,点击后才会通过微软商店下载。
关注频道 @ZaiHuaPd
频道投稿 @ZaiHuabot
🤡 ugly-face:丑头像生成器,目前已出现「人传人」现象
🔗:GitHub | Web
😎 频道介绍了许多头像生成器,它们都比 ugly-face 要好看得多。但只有 ugly-face 这么多天过去了热度不减,甚至在 V2EX 出现了「人传人」现象,于是我想要在 Telegram 再添一把火
💡 ugly-face 之所以受人追捧,就是因为它「丑到极致」,或许无意中迎合了大家对丧、特立独行的追求。人们纷纷换上丑头像,想要成为群聊、论坛中最靓的人。还有人为此开发了 Raycast 插件
👀 开发者采用了非商用开源协议,因此大家不能把生成的这些头像用以赢利,不过开发者声称利用源码搭建头像生成网站是受欢迎的。事不宜迟,大家赶快试试吧!
📘 关联阅读:
1️⃣ Uchinoko Maker:在线制作可爱猫猫手绘插画
2️⃣ Avatar-gen:开源的随机头像生成器
3️⃣ Boring Avatars:可自定义元素的头像 JS 库
4️⃣ Notion-avatar:开源的 Notion 风格头像在线生成器
5️⃣ Vue Color Avatar:纯前端实现的头像生成网站
6️⃣ 顔アイコンジェネレーターZ:在线制作社交平台头像
频道:@NewlearnerChannel
#Tip #OpenAI #API
由于 GPT-4o 的 tokenization 方式变化,同样长度的文本占用的 token 数量会小于 GPT-4 Turbo,这意味着使用 GPT-4o 的 API 成本在定价砍半的基础上进一步降低了。
详情可参考官方文档:https://openai.com/index/hello-gpt-4o/
由于 GPT-4o 的 tokenization 方式变化,同样长度的文本占用的 token 数量会小于 GPT-4 Turbo,这意味着使用 GPT-4o 的 API 成本在定价砍半的基础上进一步降低了。
详情可参考官方文档:https://openai.com/index/hello-gpt-4o/
Raycast 该怎么用?我们帮你准备了一份实用指南
https://sspai.com/post/79769
https://sspai.com/post/79769
#OpenAI Spring Update
OpenAI 刚刚发布了:
- 桌面 App(macOS 最先推出,Windows 会在今年晚些时候)
- 新网页 UI
- GPT-4o 模型
- 多模态:文本、视频、音频
- 端到端实现,可实时语音、视频对话
- 速度更快(2x)
- 免费用户可用(且为默认模型),付费用户有更多配额(高达 5 倍)
- API 将有 5 倍于 GPT-4 Turbo 的 Rate Limit
OpenAI 将在接下来几周灰度推送 GPT-4o 模型。
OpenAI 刚刚发布了:
- 桌面 App(macOS 最先推出,Windows 会在今年晚些时候)
- 新网页 UI
- GPT-4o 模型
- 多模态:文本、视频、音频
- 端到端实现,可实时语音、视频对话
- 速度更快(2x)
- 免费用户可用(且为默认模型),付费用户有更多配额(高达 5 倍)
- API 将有 5 倍于 GPT-4 Turbo 的 Rate Limit
OpenAI 将在接下来几周灰度推送 GPT-4o 模型。
今天,中国境内的万事达卡品牌银行卡清算业务正式启动。通过携手金融机构、商户和各界合作伙伴,万事达卡将为广大消费者提供更便捷、更安全、更智能的支付体验,国内国外皆可用,线上线下全渠道,让你拥有更多无价时刻。
万事达人
目前中国银行、浦发银行、工商银行、民生银行、上海银行、招商银行都已经开始发卡。
关注频道 @ZaiHuaTG
频道投稿 @ZaiHuabot
怀旧游戏全能王:RetroArch 极速入门
https://sspai.com/post/88260
https://sspai.com/post/88260
五一假期将至,用 iPhone 轻松搞定假日出行
https://sspai.com/post/88452
https://sspai.com/post/88452