深度学习中罕用的开源数据集

  • 电脑网络维修
  • 2024-11-15

图像分类

MNIST 数据集是机器学习和计算机视觉畛域中最驰名的数据集之一,罕用于训练各种图像处置系统。

MNIST 数据集蕴含了 70,000 张小型的黑色图像,每张图像的大小是 28x28 像素。每个图像都是手写数字(0到9)的一个实例。

它十分适宜初学者练习图像分类技术和卷积神经网络(CNN)等算法。

2.CIFAR-10

CIFAR-10 数据集是另一种在机器学习和计算机视觉钻研畛域宽泛经常使用的规范数据集。

~kriz/cifar.html

它由加拿大初级钻研院(Canadian Institute For Advanced Research, CIFAR)颁布,因此得名 CIFAR。CIFAR-10 特意实用于开发和测试图像识别算法。

CIFAR-10 蕴含 60,000 张 32x32 像素的黑色图像,这些图像被分为 10 个类别,每个类别各 6,000 张图像。这些类别包括:飞机、汽车、鸟、猫、鹿、狗、青蛙、马、船和卡车。

3.ImageNet

ImageNet数据集是一个大规模的图像数据集,宽泛用于计算机视觉钻研和各种图像处置算法的训练和测试。

这个数据集由斯坦福大学的钻研人员启动和保养,蕴含超越 1 万张图片和超越 20,000 个类别。

它用于大规模视觉识别应战和训练深度学习模型。

4.fashion-mnist

Fashion-MNIST 数据集是由 Zalando(一家德国的时兴科技公司)颁布的一个图像数据集,旨在作为机器学习钻研中经典的 MNIST 手写数字数据集的间接代替品。

Fashion-MNIST 蕴含 70,000 张 28x28 像素的灰度图像,这些图像分为 10 个类别,每个类别有 7,000 张图像,这些类别包括:T恤/上衣、裤子、套头衫、连衣裙、外套、凉鞋、衬衫、静止鞋、包和踝靴。

CelebA 数据集是一个大型的人脸属性数据集,宽泛用于计算机视觉钻研中,特意是在面部识别、面部属性识别和面部编辑等畛域。

这个数据集由香港中文大学的钻研者开发和保养,CelebA 蕴含超越 200,000 张名人面部的图像,笼罩了大概 10,000 名不同的名人,每张图像都标有 40 种不同的属性(如发型、帽子、眼镜、愁容等),以及 5 个关键点位置(眼睛、鼻子、嘴巴)的标志。

人造言语处置

6.IMDB 评论

~amaas/data/sentiment/)

IMDB 评论数据集(Internet Movie>

7.20个资讯组

20 个资讯组数据集由 Ken Lang 编制,蕴含约 18000 个资讯组文档,散布在 20 个不同的资讯组。

它罕用于文本分类和聚类义务。

斯坦福问答数据集 (SQuAD) 是一个浏览了解数据集,由众包上班者针对一系列维基百科文章提出的疑问组成,其中每个疑问的答案都是来自相应段落的一段文本。斯坦福问答数据集蕴含 100,000 多个用于机器了解的疑问。

GLUE (General Language Understanding Evaluation) 是一个用于评价人造言语处置(NLP)模型在宽泛言语了解义务上的功能的基准数据集。

GLUE 旨在提供一个综合性的评价框架,经过多个不同的NLP义务来测试模型的宽泛性和鲁棒性。

COCO 数据集是一个用于对象检测、宰割和图像字幕生成的宽泛经常使用的基准数据集。

它由微软钻研院颁布,旨在提供丰盛的标注数据,用于训练和评预计算机视觉模型。

11.Sentiment140

Sentiment140 数据集蕴含来自Twitter的160万条标注推文。这些推文被标注为侧面或负面情感,关键用于训练和评价情感分类模型。

12.Yelp 放开数据集

Yelp数据集蕴含了用户对不同业务的评论、评分、用户消息、业务消息等。它罕用于钻研和开发介绍系统、情感剖析、文本分类和其余NLP义务。

语音识别

13.LibriSpeech

LibriSpeech 数据集蕴含约1000小时的英语语音数据,关键用于训练和评价语音识别系统。

该数据集中的音频文件经过高品质的预处置,并且都带有准确的文字转录。

14.VoxCeleb

~vgg/data/voxceleb/

VoxCeleb 数据集蕴含少量名人的音频片段,这些片段从 YouTube 视频中提取,并经过细心的过滤和标注,以确保数据的品质和多样性。

卫生保健

15.Breast Cancer Wisconsin

Breast Cancer Wisconsin 数据集是一个宽泛用于机器学习和数据开掘畛域的医学数据集,关键用于训练和评价分类模型,以区分良性和恶性乳腺肿瘤。

该数据集蕴含569个样本,每个样本有30个特色,这些特色从细胞核的图像中提取。

介绍系统

16.MovieLens

MovieLens数据集是一个宽泛用于介绍系统钻研和开发的电影评分数据集。该数据集由明尼苏达大学的GroupLens钻研小组创立,蕴含用户对电影的评分消息。

17.Amazon Product Reviews

~jmcauley/datasets.html#amazon_reviews

Amazon Product Reviews 数据集是一个宽泛用于情感剖析、介绍系统和其余人造言语处置(NLP)义务的大规模数据集。该数据集蕴含了来自 Amazon 网站的用户对各种产品的评论和评分消息。

  • 关注微信

本网站的文章部分内容可能来源于网络和网友发布,仅供大家学习与参考,如有侵权,请联系站长进行删除处理,不代表本网站立场,转载联系作者并注明出处:https://duobeib.com/diannaowangluoweixiu/8163.html

猜你喜欢

热门标签

洗手盆如何疏浚梗塞 洗手盆为何梗塞 iPhone提价霸占4G市场等于原价8折 明码箱怎样设置明码锁 苏泊尔电饭锅保修多久 长城画龙G8253YN彩电输入指令画面变暗疑问检修 彩星彩电解除童锁方法大全 三星笔记本培修点上海 液晶显示器花屏培修视频 燃气热水器不热水要素 热水器不上班经常出现3种处置方法 无氟空调跟有氟空调有什么区别 norltz燃气热水器售后电话 大连站和大连北站哪个离周水子机场近 热水器显示屏亮显示温度不加热 铁猫牌保险箱高效开锁技巧 科技助力安保无忧 创维8R80 汽修 a1265和c3182是什么管 为什么电热水器不能即热 标致空调为什么不冷 神舟培修笔记本培修 dell1420内存更新 青岛自来水公司培修热线电话 包头美的洗衣机全国各市售后服务预定热线号码2024年修缮点降级 创维42k08rd更新 空调为什么运转异响 热水器为何会漏水 该如何处置 什么是可以自己处置的 重庆华帝售后电话 波轮洗衣机荡涤价格 鼎新热水器 留意了!不是水平疑问! 马桶产生了这5个现象 方便 极速 邢台空调移机电话上门服务 扬子空调缺点代码e4是什么疑问 宏基4736zG可以装置W11吗 奥克斯空调培修官方 为什么突然空调滴水很多 乐视s40air刷机包 未联络视的提高方向 官网培修 格力空调售后电话 皇明太阳能电话 看尚X55液晶电视进入工厂形式和软件更新方法 燃气热水器缺点代码

热门资讯

关注我们

微信公众号