由北京人工智能学院和几所中美高校...

发布时间 :2023-04-18 14:49:29
由北京人工智能学院和几所中美高校一起搞的中文语料库,收集并人工检查了约20万个中文指令调整样本。

《Chinese Open Instruction Generalist: A Preliminary Release》
网页链接

1 北京人工智能学院,中国
2 英国谢菲尔德大学计算机科学系。
3 美国密歇根大学安阿伯分校
4 美国达特茅斯大学
5 中国浙江大学
6 中国北京航空航天大学
7 美国卡内基梅隆大学

指令调整(Instruction tuning)被广泛认为是构建通用语言模型的关键技术,在 InstructGPT和 ChatGPT发布后,引起了研究人员和公众的关注。尽管面向英语的大规模语言模型(LLM)取得了令人印象深刻的进展,但目前尚未充分探究基于英语的基础 LLM 在多语言任务中是否能够在设计良好的指令调整下表现出与英语任务相近的性能,以及我们如何构建调整所需的语料库。为了弥补这一空白,我们提出了这个项目,试图通过适应4个子任务的固有特点的各种方法,创建一个中文指令数据集。我们收集了约20万个中文指令调整样本,这些样本经过人工检查,以确保高质量。我们还总结了现有的英文和中文指令语料库,并简要介绍了新建中文指令语料库的一些潜在应用。

热门评论

BackwardMail
BackwardMail

BAAI中文叫智源啦[并不简单]

娃哈哈要一直努力
娃哈哈要一直努力

达特茅斯不是College吗 怎么改名University 了[偷笑]

Leslie995
Leslie995

发展真的太快了

哈希力量官方微博
哈希力量官方微博

北京人工智能学院?

哈希力量官方微博
哈希力量官方微博

转发微博

神之路哥
神之路哥

中国互联网语料库基本被百度污染干净了。

Black_J
Black_J

污染干净这四个字都够Ai学好久了[doge]

盲侧有人保护吗
盲侧有人保护吗

回复 Black_J:[哈哈][哈哈][哈哈]

今日热门