公开数据集

中文预训练词向量数据集

354K

789 浏览

0 喜欢

2 次下载

0 条讨论

MNIST Classification

该项目提供使用不同表征（稀疏和密集）、上下文特征（单词、n-gram、字符等）以及语料库训练的中文词向量（嵌入）。在这里，你可......

数据介绍
文件预览
相关论文
Code
分享讨论(0)
使用声明

启动Notebook开发

数据结构 ? 354K

* 以上分析是由系统提取分析形成的结果，具体实际数据为准。

README.md

该项目提供使用不同表征（稀疏和密集）、上下文特征（单词、n-gram、字符等）以及语料库训练的中文词向量（嵌入）。

在这里，你可以轻松获得具有不同属性的预训练向量，并将它们用于各类下游任务。

此外，开发者还在该工具中提供了一个中文类比推理数据集 CA8 及其评估工具包，用户可以以此评估自己词向量的质量。

引用：

@InProceedings{P18-2023,
  author =  "Li, Shen
    and Zhao, Zhe
    and Hu, Renfen
    and Li, Wensi
    and Liu, Tao
    and Du, Xiaoyong",
  title = "Analogical Reasoning on Chinese Morphological and Semantic Relations",
  booktitle = "Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers)",
  year = "2018",
  publisher = "Association for Computational Linguistics",
  pages = "138--143",
  location = "Melbourne, Australia",
  url = "http://aclweb.org/anthology/P18-2023"
}

格式：

本资源中的预训练词向量文件以文本格式存储，每一行包含一个单词及其词向量，每个值由空格分开。

第一行记录元信息：第一个数字表示该单词在文件中的排序，第二个数字表示维度大小。

除了密集单词向量（以 SGNS 训练），该项目还提供了稀疏向量（以 PPMI 训练）。

它们与 liblinear 格式相同，其中「：」前的数字代表维度索引，「：」后的数字表示值。

暂无相关内容。

分享你的想法

去分享你的想法~~

全部内容

欢迎交流分享

开始分享您的观点和意见，和大家一起交流分享.

数据使用声明：

一、数据来源与展示说明：

1、该数据来自于互联网数据采集或服务商的提供，本平台为用户提供数据集的展示与浏览。
2、本平台仅作为数据集的基本信息展示、包括但不限于图像、文本、视频、音频等文件类型。
3、数据集基本信息来自数据原地址或数据提供方提供的信息，如数据集描述中有描述差异，请以数据原地址或服务商原地址为准。

二、所有权说明：

1、本站中的所有数据集的版权都归属于原数据发布者或数据提供方所有。

三、数据转载说明：

1、如您需要转载本站数据，请保留原数据地址及相关版权声明。

四、侵权与处理说明：

1、如本站中的部分数据涉及侵权展示，请及时联系本站，我们会安排进行数据下线。

所需积分：

3 去赚积分？

789浏览
2下载
0点赞
收藏
分享

Select Language

AI社区

今日排行

本月搜索

Dataset Category