实验课程

THIS NAME

实验课程

当前位置: 首页 >> 实验课程 >> 正文

数据标注-语音数据标注

发布日期:2024-03-06    作者:井睿勍     来源:     点击:

 

语音数据标注

 

一、实验目的

1语音标注的工具,利用标注工具进行数据标注。

二、实验设备与器件

PC机、Tempo大数据成长平台。

三、实验内容

相关知识

语音标注简介,语音标注方法,以及利用标注工具进行语音数据的标注。

1 语音标注方法

语音标注是数据标注行业中一种常见的标注类型,是由标注员对语音信息进行不断标注转写,让人工系统进行进一步学习,标注后的数据主要用于人工智能机器学习,相当于给计算机系统装上了耳朵,使其具备了能听的功能,使计算机可以拥有精准的语音识别能力。

语音标注主要包含了ASR语音转写、语音切割、语音清洗、清洗判定、声纹识别、音素标注、韵律标注、发音校对这八种常见的标注方式。语音标注和人工智能有着密切的联系,当前,语音识别技术已经在日常生活中多方面普及,如语音助手、智能音箱、智能客服等。

随着人工智能的发展,人机语音交互场景将向更多的方向延伸,在辨认精度、场景优化等层面、对语音辨认技术提出了更高的要求。近些年,人工智能不断发展,赋能人工智能的工具链却并不完善。数据作为人工智能迭代创新的核心要素之一,优化训练数据成为AI模型进一步提升准确率的重要方式。为推进AI应用高质量落地,人工智能基础数据服务商需要对数据采集、清洗、信息抽取、标注、质检、管理等环节进行更加精细的把控,以提供出更高质量的数据。

2 语音标注工具

Praat是目前已经成为比较流行也比较专业的语音处理的软件,可以进行语音数据标注、语音录制、语音合成、语音分析等等,具有免费、占用空间小、通用性强、可移植性好等特点。

Linux安装praat

1、安装prraat 使用如下代码直接安装。

sudo apt-get install praat

 

 

1

2、安装过程中出现如下问题,输入“y”,回车,继续安装。

      IMG_256

3、在命令窗口输入praat,打开praat

      IMG_257

Praat的使用

1、点击Praat Objects,在上方的菜单栏中点击“Open”,选择Read from file…

      IMG_258

2、选择路径“/data/workspace/data_set/”下的“Starter Unit 2 3c.mp3”文件,点击Open

      IMG_259

得到如图所示。

      IMG_260

3、点击标注(Annotate),转换为TextGrid文件。如下图所示,进行文本层和角色层的标注。

      IMG_261

4、按住Ctrl,将音频文件和TextGrid文件都选上,点击查看&编辑(View & Edit),开始进行标注。

      IMG_262

      IMG_263

5、在text中,进行文本的标注;在name中进行角色的标注。如下图所示(仅标注了部分)。

      IMG_264

6、完成标注后,点击菜单栏“Flie”中的“Save selected sound as WAV file…”,将文件储存为.WAV的格式。如下图所示。

      IMG_265

      IMG_266

编程要求

大家可以在平台上安装Praat,利用Praat进行语音数据的标注。

上一条:网络爬虫技术与应用-​XPath路径表达式 下一条:数据标注-视频标注

关闭