复旦-港中大 大数据青年学者论坛

Author Avatar
Travon 7月 30, 2017
  • 在其它设备中阅读本文章

主题:深度学习、自然语言处理、知识图谱
主办:复旦大学大数据学院和香港中文大学系统工程与工程管理系

草地大合照

特邀报告

Deep Learning for Text Understanding and Machine Comprehension
这个报告的主讲人是邱锡鹏教授,FudanNLP的作者,首先介绍了NLP相关的一些基本概念,然后聚焦他本人的研究方向—机器阅读与文本推理,讲了一些基本概念、研究进展以及现存的问题等等,主要是一个热场兼承接以下各个session的作用。

Session 1

Better Context-to-Sequence Frameworks and Their Applications
这个报告主要分以下4个部分:

  • Teacher forcing 讲者主要介绍了几种常见的teacher forcing方法,以及最新的进展
  • Adversarial Training
  • Tricks 讲者介绍了摘要生成领域内,几个提高performance的小技巧:Copy Mechanism, Coverage or Diversity, Dual or Reconstruction and CNN based Seq2Seq
  • Application 讲者介绍了自己将以上方法和技巧运用在研究中的一些情况。

Neural Representation Learning in NLP
这个报告主要介绍了NLP里的Representation问题。从word, phrase, sentence, sentence pair 4个层次分别介绍。在word层次讲到了针对不同task可能需要特化embedding的学习,然后有提及x-word2vec,也就是引进外部知识(如:topic等)进行word2vec的训练。接下来是phrase和sentence层次。

这里还有一个亮点,就是台下有人提问说如今NLP领域大家用的方法越来越复杂,但是这些方法的语义可解释性并不强,导致某些人怀疑说NLP是否已经偏离了语言学的初衷?

讲者的回答说很多事物都会经历一个“效果提升–质疑–解释”的过程,比如上文提到的word2vec,可解释性已经慢慢显现,所以我们有理由相信现在的方法在将来也会得到解释。我觉得这个观点是很正确的,正如现阶段的临床NLP,有些任务可能Deep Learning能够完成得很好,但是并不能用医学常识来解释,或许不久的将来,DL在临床NLP上也会得到医学解释。

Jointly Learning Word Embeddings and Latent Topics
这个报告有点以上一个报告为基础,更加深入的介绍了Word Embedding和Topic Model之间的相互应用和相互提高,而且这种提高是反复的、持续的。主要思想是不同Topic中同一个词的意思可能不一样,那么embedding当然就不一样,这样根据Topic得到Embedding会更加准确;然后在文本分类,特别是短文本分类中,由于存在稀疏性较大的问题,引入embedding可以通过embedding相似来降低稀疏性,从而提高performance。

Session 2

Microblog Summarization Using Conversation Structures
这个报告主要做的是微博的总结(摘要式,而非生成式),用到了对话结构,提出了leader和follower的概念,其实就是找出影响比较大的几条微博,作为整个对话的总结。

Who Will Come: Identify Target Users in LocationBased Services Using Hybrid Ranking and Embedding Method
这个报告讲的是根据地理签到信息来为商家进行用户推荐,主要难点是features的异质性和稀疏性问题。

Composite Task-completion Dialogue Policy Learningvia Hierarchical Reinforcement Learning
这个报告主要是讲的对话系统(如chatbot)。用Hierarchical的方式来提高对话系统的训练效率,以及最终效果。

Attention-based Recurrent Generator withGaussian Tolerance for Statistical Parametric Speech Synthesis
这个报告主要讲的是文字到语音生成。

Session 3

Key-phrase extraction using knowledge graphs
这个报告本来是我最关注的一个,因为我自己现阶段的主要工作集中在实体抽取方面,想通过结合不同的知识来提高抽取效果。但是这个其实主要是关键词抽取,以实体识别作为基础,先选出关键词候选,再通过运用知识图谱选出真正的关键词。但是演示中出了点bug,中间一段的PPT没有播放,搞的云里雾里。

Improving Quality of Knowledge Bases
这个报告主要是讲的大型知识图谱的优化,主要有三个方面:补充、修正、更新。首先,补充主要是针对某些关系的缺失,比如is_a关系,可以通过is_a关系的推理来补充知识图谱的内容,这里讲者也说了许多方法来提高补充的准确性,比如环状关系、概念性的entity不可能is_a具体的entity等等,这里其实也涉及到了修正的问题,像前面说的提高准确度的方法,也可以用来修正知识图谱内的知识。更新主要是针对知识过期的问题,我觉得这个比较针对应用,因为应用内需要知识保持最新,比如问“美国总统是谁?”,必须回答是“川普”,如果再回答“奥巴马”就不合适了,讲者提供了一套通过先通过网络热搜找到部分热词,然后再推广到更多热词,然后去更新热词的知识。

CN-DBpedia: A Never-Ending Chinese Knowledge Extraction
最后这个报告讲的是根据百度百科的知识构建了知识图谱,主要有以下4个模块:抽取、归一化、填充、更新。其实每一块的方法都比较传统,更新模块用的是上一个报告说的方法,具体基于这个知识图谱的应用等等,可以参见CN-DBpedia

总结

这次的青年学者论坛虽然是第一届,个人感觉办的还是挺不错的。

首先在讲者内容安排上,内容都是循序渐进,相互关联,比如Session 1里关于embedding的内容。 内容覆盖比较全,比如Session 3关于Knowledge Graph,让我一个从来没有接触过KG的人,可以从KG的构建、优化、应用3个方面,都有一定的了解,虽然不够详尽,但也都覆盖到了。

其次是论坛的环境,高端、大气,虽然有点小。论坛是在复旦大数据学院的一个会议室开的,有点像领导开会的地方。还有论坛的茶歇不错,哈哈。

最后,说实话,有很多知识不懂,比如teacher forcing,Adversarial Training等等。发现自己在这个领域走的还是比较浅,也可能是因为我现在做的大多数的中文医学NLP的原因,我甚至还动了想继续读博的念头,哈哈。也许这可以是一条路吧,我会继续探索。


本文标题: 复旦-港中大 大数据青年学者论坛
原始链接: http://oyeblog.com/2017/fudan_cuhk/
发布时间: 2017年07月30日 - 21时08分
最后更新: 2017年08月10日 - 16时31分
版权声明: 本站文章均采用CC BY-NC-SA 4.0协议进行许可。转载请注明出处!