呵呵主题 知乎优化AI算法挑战世界难题 构建良性讨论空间
6月23-24日,知识共享平台知乎举办了以“阴阳”为主题的书法展览。现场有阴阳研磨机、“瓦力”实验室等精彩互动,众所周知社区治理团队也首次亮相,分享知乎在识别阴阳方面的探索。
以三大算法模型为先导,突破复杂网络语言分析的困境
知乎成立之初就提倡“认真、专业、友善”,鼓励健康讨论。目前,知乎借助AI技术,辅以人机融合和多元化的产品举措,通过多种手段加强社区氛围的维护。现阶段,知乎对95%以上的违法活动、广告分流、不友好内容实现了主动打击、覆盖和甄别。
一年来,知乎全力探索“阴阳”类评论的解决之道。尹和被称为“八景”,通常用两种常见的说法来表示,即“以批评对方的语气代替说话的内容”和“提出反对意见而不给出或给出很少的论据来支持它们”。这样的评论极大地伤害了创作者和传播者的体验,却难以解决。
解决“阴阳”论的难点核心在于网络语言的复杂性。情感分析不同于普通的文本分析,比如经典的“呵呵”,因为双方关系不同,说话的场景和时间不同,会带来截然不同的表达方式。即使是人工判断也很难标准化,所以算法模型的训练挑战就更难了。
在知乎团队的不懈努力下,我们终于率先找到了技术解决方案的突破点。针对评论往往表达负面情绪的特点,知乎构建了识别内容情感倾向的算法模型和识别用户亲密度的模型,并通过训练进行迭代改进。此外,针对奇怪评论的典型特征,知乎建立了文本识别模型,不断标记训练样本。这三种模型的结合,不仅摆脱了单一算法模型的局限,而且使得“瓦力”的怪癖识别的准确率超过了大多数人工判断。
克服情绪分析前沿问题的连续迭代技术方案
现场,刘兆来详细介绍了“瓦力”的最新技术方案:首先,通过了解社区中举报、反对等负面用户行为,收集培训数据。然后通过各种同义替换和规则模板对训练数据进行扩展,缓解训练数据稀疏的问题。同时,《瓦力》提取了文本、句法、表情符号等特征。,并使用CNN和LSTM带关注度的融合模型进行分类,最终判断内容是否陌生。
优化技术方案后,“瓦力”已经能够识别出“带着暗藏玄机的赞美”、“当好老师”、“强行反驳”等几种奇怪的内容。根据社区治理团队的调查,用户最不喜欢的怪异言论大多属于这些类型,这意味着“瓦力”在应对网络言语暴力方面取得了进步。
刘兆来表示,未来将不断优化“瓦力”的识别能力,提升模型的泛化能力。同时,模型将迭代更新,以跟上学术前沿,适应网络语言的变化趋势。