公开数据集
数据结构 ? 1.52M
Data Structure ?
* 以上分析是由系统提取分析形成的结果,具体实际数据为准。
README.md
Data Set Information:
该数据集描述了一组92个分子,其中47个被人类专家判定为麝香,其余45个分子被判定为非麝香。目的是学习预测新分子是麝香还是非麝香。然而,描述这些分子的166个特征取决于分子的确切形状或构象。由于键可以旋转,单个分子可以采用许多不同的形状。为了生成该数据集,生成分子的低能构象,然后过滤以去除高度相似的构象。这留下了476个构象。然后,提取描述每个构象的特征向量。
特征向量和分子之间的这种多对一关系被称为“多实例问题”。当为这些数据学习分类器时,如果分子的任何构象被分类为麝香,则分类器应将其分类为“麝香”。如果一个分子的构象没有一个被归类为麝香,那么它就应该被归类为“非麝香”。
Attribute Information:
分子名称:
每个分子的符号名称。麝香有麝香-188这样的名字。非麝香的名称为Non-MUSK-jp13。
构象名称:
每个构象的符号名称。它们的格式是MOL_ISO+CONF,其中MOL是分子数,ISO是立体异构体数(通常为1),CONF是构象数。
f1到f162:
这些是沿光线的“距离特征”(见上面引用的论文)。这些距离以百分之一埃为单位。距离可以是负的,也可以是正的,因为它们实际上是相对于沿每条光线放置的原点测量的。原点由不再使用的“一致麝香”表面定义。因此,任何数据实验都应将这些特征值视为位于任意连续尺度上。特别是,该算法不应使用每个特征值的零点或符号。
f163:这是分子中氧原子到三维空间中指定点的距离。这也被称为氧-DIS。
f164:OXY-X:X-从指定点的位移。
f165:OXY-Y:Y-从指定点的位移。
f166:OXY-Z:Z-从指定点的位移。
类别:0=>非麝香,1=>麝香
Please note that the molecule_name and conformation_name attributes should not be used to predict the class.
Relevant Papers:
Dietterich, T. G., Lathrop, R. H., Lozano-Perez, T. Solving the multiple-instance problem with axis-parallel rectangles. Artificial Intelligence.
[Web link]
Papers That Cite This Data Set1:
Qingping Tao and Stephen Scott and N. V. Vinodchandran and Thomas T. Osugi. SVM-based generalized multiple-instance learning via approximate box counting. ICML
Creators:
AI Group at Arris Pharmaceutical Corporation
contact: David Chapman or Ajay Jain
Arris Pharmaceutical Corporation
385 Oyster Point Blvd.
South San Francisco, CA 94080
415-737-8600
zvona '@' arris.com, jain '@' arris.com
Donor:
Tom Dietterich
Department of Computer Science
Oregon State University
Corvallis, OR 97331
503-737-5559
tgd '@' cs.orst.edu
帕依提提提温馨提示
该数据集正在整理中,为您准备了其他渠道,请您使用
- 分享你的想法
全部内容
数据使用声明:
- 1、该数据来自于互联网数据采集或服务商的提供,本平台为用户提供数据集的展示与浏览。
- 2、本平台仅作为数据集的基本信息展示、包括但不限于图像、文本、视频、音频等文件类型。
- 3、数据集基本信息来自数据原地址或数据提供方提供的信息,如数据集描述中有描述差异,请以数据原地址或服务商原地址为准。
- 1、本站中的所有数据集的版权都归属于原数据发布者或数据提供方所有。
- 1、如您需要转载本站数据,请保留原数据地址及相关版权声明。
- 1、如本站中的部分数据涉及侵权展示,请及时联系本站,我们会安排进行数据下线。