您当前的位置:中国移动科技网要闻正文

数据变多工作量却在减少看媒体怎么凭借算法优化内容分析

2020-01-06 13:47:51  阅读:948 作者:责任编辑NO。谢兰花0258

编者按:本文来自微信大众号“全媒派”(ID:quanmeipai),作者腾讯传媒,36氪经授权发布。

信息大爆炸年代,丰厚的数据资源是有待发掘的瑰宝之地,却也很可能变成压力之源。

跟着媒体渐渐的变多地进行内容立异和产品探究,能够反映用户情感心情的数据查询,已成为查验立异作用的重要规范。

Maass Media是《卫报》美国分部的移动立异试验室(the Guardian US Mobile Innovation Lab)引进的数据剖析协作组织,致力于协助《卫报》深化了解用户。

此前,一篇名为《零基准剖析:衡量移动立异项目的测量办法》(Analysis Without Benchmarks: An Approach forMeasuring the Success of Mobile Innovation Projects)的文章介绍了Maass Media和试验室一同协作进行用户查询剖析的具体操作。比方,在2016年,为了测验用户对手机端的不同新闻格局的心情,他们以总统大选为关键,展开了用户对实时成果推送反响的试验。

在用户查询中,Maass Media的一个特征是供给了许多开放式问题,这些开放式问题能协助查询者更好地洞悉用户深层心思,避免了封闭式问题的一些坏处。可是,开放式问题会带来巨量的反应信息,假如经过人工办法来进行剖析,功率会十分低。那该怎么处理这样的一个问题呢?

本期全媒派(ID:quanmeipai)独家编译Medium最新文章,一同来看,怎么凭借算法处理包括很多非规范数据的剖析难题。

答案在此:自然语言算法

为了更精确地衡量新试验的作用,Maass Media和试验室十分重视用户的心情和感觉,想经过对试验目标的反应查询来发现用户反应的心情活跃与否。

因而,除了客观挑选题外,在用户查询表的结束会有一个开放式问题:“关于这次试验,你还有什么想告知咱们的吗?”

经过鼓舞开放式答复,用户都能够为查询供给更多办法的反应,然后弥补封闭式问题的缺乏。能够说,开放式问题为用户查询供给了用户反应的盲点弥补。

前期,在移动端的查询数据搜集时,由于查询数量比较小,Maass Media经过人工阅览和手动分类就能完结剖析。可是,跟着用户人数的添加,开放式问题的回复到达不计其数时,这种办法就显得太低效。一起,由于主观性的存在,每个人对答案的了解和分类也存在很大差异。

Maass Media提出,需求找到一种新的剖析办法,既能加快数据剖析处理进程,也能让处理规范共同。

“咱们的处理方案是用自然语言处理(NLP)开发一个情感剖析算法。” Maass Media高档数字剖析师Lynette Chen说道。

手艺5小时,算法5分钟

自然语言处理是计算机程序剖析定性数据的有用办法之一。有了适宜的模型后,根据很多的文本数据,查询者就可经过算法进行心情剖析,敏捷完结受访者对某个特定主题的心情反响与观念的剖析。

“为内容剖析供给牢靠的NLP处理方案,不光能够削减人工处理的时刻和精力,还能够有用削减以往剖析中存在的主观性误差。” Chen说道。

尽管已有不少老练的模型可供学习,Maass Media和试验室决议从头构建独立的模型,随后,他们根据不同的数据集练习模型来比照剖析模型的成功率。在经过了三次模型迭代后,他们得到了相对完美的处理方案。

模型创立进程

根据自有模型,对自有数据集和揭露数据集进行比照查验后,研究者发现,第一次迭代的算法在揭露数据集上的体现并不抱负,由于表里数据集对情感词汇打标签的办法并不相同,经过第二、三次迭代后,他们学习了VADER算法模型,获得了杰出作用。

“VADER算法由佐治亚理工学院的研究人员创立,并经过众包(Crowdsourcing: 指从一广泛集体,特别是在线社区,获取所需主意、服务或内容奉献的实践。)不断进行再练习。这一模型所练习的数据集愈加广泛,包括了用户对一系列单词、表情符号、俚语和首字母缩略词的评分数据。” Lynette Chen介绍道,“经过剖析,咱们决议改用这一算法结构,而不是运用咱们自己的原始基算法,由于它能够让咱们精确地剖析更大规模的单词。”

在这一算法安稳老练后,经过运用自然语言处理,大幅度削减了符号和计算用户非规范化答复所需的时刻。“假如由咱们自己人工阅览和手动符号一份用户关于大选期间媒体推送的情感心情数据,这项作业可能将花费大约5小时。”Chen表明,但经过自然语言处理算法,能够在不到5分钟的时刻内完结这项作业。

尽管历经了各种“苦楚”的苦难,可是Maass Media以为,开发NLP处理方案是一项赋有价值的出资,这一进程的构建尽管耗时,可是从成果来看,能够明显削减数据剖析所需的时刻。

“不过这需求一支具有适当技术的团队,而且还要对算法进行不断迭代,来进步兼容性和精确率。” Chen说道。

原文链接:

https://medium.com/the-guardian-mobile-innovation-lab/more-data-less-work-experimenting-with-natural-language-processing-for-faster-survey-analysis-d1665200d8e4

您可能感兴趣的文章

Arm 年度技术大会: 预计2025 年底,全球将有超过 1,000 亿台具备 AI 能力的 Arm 设备

小生意大爆发|巨量引擎商家双11全局抢量,生意爆发秘籍

见证5G成长,进博会是高通展示合作成果的重要平台

“如果发现本网站发布的资讯影响到您的版权,可以联系本站!同时欢迎来本站投稿!