公开数据集
数据结构 ? 1.5M
Data Structure ?
* 以上分析是由系统提取分析形成的结果,具体实际数据为准。
README.md
Data Set Information:
HTRU2是一个数据集,描述了在高时间分辨率宇宙测量(南部)期间收集的脉冲星候选样本[1]。
脉冲星是一种罕见的中子星,在地球上产生可探测的无线电发射。它们作为时空、星间介质和物质状态的探测器具有相当大的科学价值(更多用途见[2])。
当脉冲星旋转时,它们的发射光束扫过天空,当它穿过我们的视线时,产生一种可检测的宽带无线电发射模式。作为脉冲星
快速旋转,此模式会定期重复。因此,脉冲星搜索包括用大型射电望远镜寻找周期性无线电信号。
每颗脉冲星产生的发射模式略有不同,随每次旋转略有不同(参见[2]了解脉冲星天体物理学导论以了解原因)。因此,一个被称为“候选者”的潜在信号检测在脉冲星的多次旋转中被平均,这由观测的长度决定。在缺乏额外信息的情况下,每个候选星都可能描述一个真实的脉冲星。然而在实践中,几乎所有的检测都是由射频干扰(RFI)和噪声引起的,使得合法信号很难找到。
机器学习工具现在被用来自动标记候选脉冲星,以便于快速分析。特别是分类系统正在被广泛采用,
(参见[4,5,6,7,8,9]),将候选数据集视为二进制分类问题。这里合法的脉冲星例子是少数的正类,而虚假的例子是多数的负类。考虑到与数据注释相关的成本,目前无法使用多类标签。
这里共享的数据集包含16259个由RFI/噪声引起的虚假示例,以及1639个真实脉冲星示例。这些示例都经过了人工注释员的检查。
数据以两种格式显示:CSV和ARFF(由WEKA数据挖掘工具使用)。候选文件以单独的行存储在两个文件中。每行首先列出变量,类标签是最终条目。使用的类标签是0(负)和1(正)。
请注意,数据不包含位置信息或其他天文细节。它只是使用PulsarFeatureLab工具从候选文件中提取的特征数据(参见[10])。
Attribute Information:
每个候选变量由8个连续变量和一个类变量描述。前四个是从综合脉冲剖面(折叠剖面)获得的简单统计数据。这是一个连续变量数组,用于描述在时间和频率上均取平均值的信号的经度解析版本(有关更多详细信息,请参见[3])。其余四个变量类似地从DM-SNR曲线中获得(更多详细信息,请参见[3])。总结如下:
1.综合剖面的平均值。
2.综合剖面的标准偏差。
3.积分轮廓的过度峰度。
4.整体轮廓的偏斜度。
5.DM-SNR曲线的平均值。
6.DM-SNR曲线的标准偏差。
7.DM-SNR曲线的过度峰度。
8.DM-SNR曲线的偏度。
HTRU 2摘要
总共17898个例子。
1639个正面例子。
16259个反面例子。
Relevant Papers:
[1] M. J. Keith et al., 'The High Time Resolution Universe Pulsar Survey - I. System Configuration and Initial Discoveries',2010, Monthly Notices of the Royal Astronomical Society, vol. 409, pp. 619-627. DOI: 10.1111/j.1365-2966.2010.17325.x
[2] D. R. Lorimer and M. Kramer, 'Handbook of Pulsar Astronomy', Cambridge University Press, 2005.
[3] R. J. Lyon, 'Why Are Pulsars Hard To Find?', PhD Thesis, University of Manchester, 2016.
[4] R. J. Lyon et al., 'Fifty Years of Pulsar Candidate Selection: From simple filters to a new principled real-time classification approach', Monthly Notices of the Royal Astronomical Society 459 (1), 1104-1123, DOI: 10.1093/mnras/stw656
[5] R. P. Eatough et al., 'Selection of radio pulsar candidates using artificial neural networks', Monthly Notices of the Royal Astronomical Society, vol. 407, no. 4, pp. 2443-2450, 2010.
[6] S. D. Bates et al., 'The high time resolution universe pulsar survey vi. an artificial neural network and timing of 75 pulsars', Monthly Notices of the Royal Astronomical Society, vol. 427, no. 2, pp. 1052-1065, 2012.
[7] D. Thornton, 'The High Time Resolution Radio Sky', PhD thesis, University of Manchester, Jodrell Bank Centre for Astrophysics School of Physics and Astronomy, 2013.
[8] K. J. Lee et al., 'PEACE: pulsar evaluation algorithm for candidate extraction a software package for post-analysis processing of pulsar survey candidates', Monthly Notices of the Royal Astronomical Society, vol. 433, no. 1, pp. 688-694, 2013.
[9] V. Morello et al., 'SPINN: a straightforward machine learning solution to the pulsar candidate selection problem', Monthly Notices of the Royal Astronomical Society, vol. 443, no. 2, pp. 1651-1662, 2014.
[10] R. J. Lyon, 'PulsarFeatureLab', 2015, [Web link].
Citation Request:
If you use the dataset in your work, please cite us using the following paper:
R. J. Lyon, B. W. Stappers, S. Cooper, J. M. Brooke, J. D. Knowles, Fifty Years of Pulsar Candidate Selection: From simple filters to a new principled real-time classification approach, Monthly Notices of the Royal Astronomical Society 459 (1), 1104-1123, DOI: 10.1093/mnras/stw656
If possible, please also cite the DOI of the data set directly:
R. J. Lyon, HTRU2, DOI: 10.6084/m9.figshare.3080389.v1.
Acknowledgements
This data was obtained with the support of grant EP/I028099/1 for the University of Manchester Centre for Doctoral Training in Computer Science, from the UK Engineering and Physical Sciences Research Council (EPSRC). The raw observational data was collected by the High Time Resolution Universe Collaboration using the Parkes Observatory, funded by the Commonwealth of Australia and managed by the CSIRO.
Dr Robert Lyon, University of Manchester, School of Physics and Astronomy, Alan Turing Building, Manchester M13 9PL, United Kingdom, robert.lyon '@' manchester.ac.uk
帕依提提提温馨提示
该数据集正在整理中,为您准备了其他渠道,请您使用
- 分享你的想法
全部内容
数据使用声明:
- 1、该数据来自于互联网数据采集或服务商的提供,本平台为用户提供数据集的展示与浏览。
- 2、本平台仅作为数据集的基本信息展示、包括但不限于图像、文本、视频、音频等文件类型。
- 3、数据集基本信息来自数据原地址或数据提供方提供的信息,如数据集描述中有描述差异,请以数据原地址或服务商原地址为准。
- 1、本站中的所有数据集的版权都归属于原数据发布者或数据提供方所有。
- 1、如您需要转载本站数据,请保留原数据地址及相关版权声明。
- 1、如本站中的部分数据涉及侵权展示,请及时联系本站,我们会安排进行数据下线。