情感分析工具用来分析世界文学文本中的人物

每日动态2021-03-11 11:10:15
最佳答案阿瑟·雅各布斯,柏林自由大学的教授和研究员,最近开发了SentiArt,这是一种新的机器学习技术,用于对文学文本以及虚构和非虚构人物进行情

阿瑟·雅各布斯,柏林自由大学的教授和研究员,最近开发了SentiArt,这是一种新的机器学习技术,用于对文学文本以及虚构和非虚构人物进行情感分析。 在他的论文中,他将由机器人和人工智能前沿出版,他将这个工具应用于哈利波特书籍的段落和人物。

雅各布斯有神经语言学的背景,这是语言学的一个分支,探讨与语言习得、理解和表达相关的神经机制。 在他以前的工作中,他经常研究如何使用机器学习工具来分析和更好地理解人类语言。 他对他所说的计算诗学特别感兴趣,这是一个研究领域,重点是使用计算工具来理解文学内容。

“2011年,我和奥地利诗人劳尔·施洛特一起写了一本名为《诗与雨》的书,我们在书中推测,这将有助于开发文学文本和诗歌的情感分析工具,而不仅仅是电影评论或特推特的情感分析工具,这似乎是古典情感分析的金本位。” “我们还想开发一种工具来预测人类的神经元和行为数据,而不仅仅是通过亚马逊土耳其收集的自我报告。”

在他的新研究中,雅各布斯试图通过开发一种工具来分析文学文本中的情感,将他以前工作中引入的一些想法付诸实践。 他提出的技术,称为SentiArt,使用向量空间模型和理论指导,经验验证的标签列表来计算文本中单个单词的价态。 向量空间模型是文本文档作为标识符向量的表示,通常用于筛选、检索或组织信息。

雅各布解释说:“SentiArt是一个非常简单的工具,非专家可以用它来简单地比较测试文本中的单词(即他们想对其进行情感分析的文本)和一张Excel表格,他们可以从我的主页免费下载。” “原则上,该工具应该使用任何你可以在快速文本网页上下载Face book所谓的矢量空间模型的语言。 虽然我的研究重点是英语和德语,但你也可以用马来西亚语、波斯语或汉语方言以及其他多种语言来使用,因为快速文本有290多种语言的矢量空间模型。

雅各布斯强调,森蒂艺术是相当容易使用的,并补充说,他能够教30名德国文学学生如何使用它在一个小时的课。 在他最近的工作中,他使用神经认知研究中收集的数据来测试该工具的准确性,然后用它来计算哈利波特的一些主要人物的情感和个性特征,包括伏地魔、斯内普、赫敏、海格、哈利、邓博多和多比。

有趣的是,他根据心理学研究中建立的“五大人格理论”来计算这些人物的情感人物和人格特征。 “五大”理论一般是根据开放、认真、外向、随和和情绪稳定五个关键维度来粗略衡量人们的人格特征的。

雅各布进行了一系列的分析,比较他开发的工具与其他机器学习分类器的情感分析,如维德和胡柳。 辛蒂艺术在预测哈利波特书籍中的文本段落的情感潜力方面表现得非常好,同时也对虚构人物的情感和个性进行了合理的预测。 最后,该工具在将100个虚构人物归类为“好”或“坏”人物时获得了一个很有前途的交叉验证精度。

Jacobs解释说:“这篇论文涉及一些有限的应用程序和两种语言(德语/英语),所以在我推测应用潜力之前,作为一名实验科学家,我希望有更多的交叉验证研究使用人类数据。 “这正是我接受培训的方式,虽然通常是在自然语言处理(NLP)或机器学习社区,但这些并不是主要的优先事项。 但是,作为一名神经语言学家,我们总是试图用人类数据来测试一种算法的预测,然后再推测它到底对什么有用。”

虽然雅各布斯强调需要进一步的研究来确定辛提艺术的有效性和通用性,但他开发的工具最终可能有许多有趣的应用。 例如,它可以应用于计算语言学、人格心理学、数字人文学科等领域,甚至可以应用于临床环境。 原则上,它也可以应用于维基百科或维基新闻中出现的非虚构人物,例如。 温斯顿·丘吉尔,玛丽莲·梦露或安吉拉·默克尔。

Jacobs补充说:“该模型与第一组实证数据《哈利·波特》(Harry Potter)的评级相吻合,绝对令人鼓舞。 同时,我比较的两种最流行的情感分析工具在这方面没有更好的表现,所以我认为这是一个值得发表的成就。 我认为,展示伏地魔或哈利波特的情感人物形象是一个很好的噱头,但当然,该工具也可以应用于非虚构人物。”

雅各布现在正计划进行进一步的交叉验证研究,用人类数据测试他的模型的预测。 他希望其他大学的团队也会这样做,要么使用通过亚马逊特克收集的数据,要么使用神经成像数据,就像在他的实验室中进行的“哈利波特”研究一样。 此外,他还想探索如何提高情感分析工具在使用机器学习回归器而不是分类器的任务中的性能。

雅各布解释说:“机器学习方法一般分为两种不同的类型。 “第一种是分类方法,将数据分为正或负等类别。 这就是我的算法做得很好的地方。 困难的测试不是分类,而是回归,这需要将算法的预测与连续的人类数据进行拟合,例如从1到10的评分。 很少有人在情感分析中使用回归者,特别是在文学文本中,因为准确性往往会从90%以上下降到30%到50%。 我希望看到更多的工作来测试这一点,一旦再次发布经验数据,我将努力改进算法的部分内容,以符合这一新数据。”

除了他的研究努力,雅各布斯将很快开始教授自然语言编程(NLP)和机器学习,作为柏林自由大学新的数据科学课程的一部分。 他的希望是训练新一代的数据科学家重视收集与阅读文献和诗歌有关的经验人类数据,就像出版代码或预测特定事物一样。

免责声明:本文由用户上传,如有侵权请联系删除!