IEEE TASLP文章

你来了

今天加入SPS的首要原因!

1.IEEE信号处理杂志
2.信号处理数字图书馆*
3.内部信号处理通讯
4.SPS资源中心
5.职业发展和认可
6.会议和出版物的折扣
7.专业的网络
8.面向学生、年轻专业人士和妇女的社区
9.志愿服务机会
10.快到了!PDH / CEU学分
点击这里了解更多.

IEEE TASLP文章

口语多项选择问答(SMCQA)要求机器通过参考文章选择正确的选项来回答问题,其中文章、问题和多项选择都是以语音的形式出现的。虽然音频可能包含SMCQA的有用提示,但在模型开发中通常只使用自动转录的文本。由于大规模的预训练语言表示模型,例如来自Transformers(BERT)的双向编码器表示,只有自动转录文本的系统仍然可以达到一定的性能水平。

讽刺常用于当今的社交媒体平台,如Twitter和Reddit。讽刺检测对于分析人们的真实情绪是必要的,因为人们通常使用讽刺来表达与字面意思相反的情绪。然而,目前的研究忽略了一个事实,即常识知识对于讽刺识别至关重要。

基于注意力的端到端(E2E)自动语音识别(ASR)体系结构是目前识别性能最先进的体系结构。然而,尽管它们很有效,但在关键字搜索(KWS)任务中还没有被广泛应用。在本文中,我们提出了Att-E2E-KWS体系结构,一个基于注意的KWS端到端ASR框架,可以提供准确可靠的关键字检索结果。

在过去的几十年中,自动语音识别(ASR)技术取得了显著的进步。然而,到目前为止,重叠语音的识别仍然是一项极具挑战性的任务。为此,当前ASR系统中广泛使用多通道麦克风阵列数据。

在音乐音源分离中,每个乐曲的音源数量可能不同,有些音源可能属于同一乐器家族,因此音源具有相同的音质特征,使得音源之间的相关性更强。这给源分离问题带来了额外的挑战。

语音识别系统的一个关键任务是减少训练和评估数据之间的不匹配,这通常是由于说话人的差异造成的。说话人自适应技术在减少失配方面起着至关重要的作用。基于模型的说话人自适应方法通常需要足够数量的目标说话人数据以确保鲁棒性。

大多数欺骗干扰对策的现有特征表示都考虑了来自幅度谱或相位谱的信息。我们假设幅度谱和相位谱都可以有利于欺骗检测(SD),当共同使用来捕获信号伪影。在这项工作中,我们提出了一种新的特征称为修正幅度-相位谱(MMPS),以捕获语音信号的幅度和相位信息。

语音和人脸是两种最常用的人验证生物特征,通常用于说话人验证和人脸验证任务。已经观察到,简单地结合来自这两种方式的信息可以导致一个更强大和健壮的人验证系统。

几何校正是分布式声传感器网络面临的一个固有挑战。为了缓解这一问题,提出了一种基于分布式阻尼牛顿优化的无源几何校正方法。具体而言,该方法采用了一种结合到达方向(DOA)和到达时差(TDOA)的几何代价函数首先给出了它的表达式,然后给出了它的可辨识性条件。

发言人日记是一个重要的问题,是一个重要的话题,特别是作为一个预处理程序的会话语音相关的应用。本文的目标有两个方面:(i)通过在初始段中均匀分布说话人信息来初始化段,(ii)在无监督的日记框架中合并说话人的区别特征。在第一部分的工作中,提出了一种基于音素率作为边信息的基于信息瓶颈(IB)的说话人日记系统的变长段初始化技术。这个初始化将speaker信息统一分发到各个段,为基于IB的集群提供了一个更好的起点。

页面

SPS在推特上

  • SPACE系列网络研讨会将于11月16日(周二)继续进行,届时,Bihan Wen教授将发表题为“Divide and Conquer: Dee…https://t.co/sii9OXGmWt
  • 截止日期延长:《IEEE信号处理精选主题杂志》正在接受一期特刊的论文…https://t.co/kPemaUGhjv
  • IEEE量子工程学报正在寻找下一任主编,从2022年1月开始!兴趣……https://t.co/eKCgQQa9wJ
  • 11月10日星期三,本杰明·B·利克斯博士将继续进行“大脑空间倡议”系列讲座,届时“数据…https://t.co/EauapKJOFe
  • 大脑空间倡议系列讲座将于11月5日星期五继续,届时普赛克·路易博士将展示“使用启发……https://t.co/1IFa65x0mM

SPS视频


家庭助理的信号处理


多媒体取证


信号处理职业


暗中