复旦-港中大大数据青年学者论坛

Trace 8月 10, 2017

主题：深度学习、自然语言处理、知识图谱
主办：复旦大学大数据学院和香港中文大学系统工程与工程管理系

草地大合照

特邀报告

Deep Learning for Text Understanding and Machine Comprehension
这个报告的主讲人是邱锡鹏教授，FudanNLP的作者，首先介绍了NLP相关的一些基本概念，然后聚焦他本人的研究方向—机器阅读与文本推理，讲了一些基本概念、研究进展以及现存的问题等等，主要是一个热场兼承接以下各个session的作用。

Session 1

Better Context-to-Sequence Frameworks and Their Applications
这个报告主要分以下4个部分：

Teacher forcing 讲者主要介绍了几种常见的teacher forcing方法，以及最新的进展
Adversarial Training
Tricks 讲者介绍了摘要生成领域内，几个提高performance的小技巧：Copy Mechanism, Coverage or Diversity, Dual or Reconstruction and CNN based Seq2Seq
Application 讲者介绍了自己将以上方法和技巧运用在研究中的一些情况。

Neural Representation Learning in NLP
这个报告主要介绍了NLP里的Representation问题。从word, phrase, sentence, sentence pair 4个层次分别介绍。在word层次讲到了针对不同task可能需要特化embedding的学习，然后有提及x-word2vec，也就是引进外部知识（如：topic等）进行word2vec的训练。接下来是phrase和sentence层次。

这里还有一个亮点，就是台下有人提问说如今NLP领域大家用的方法越来越复杂，但是这些方法的语义可解释性并不强，导致某些人怀疑说NLP是否已经偏离了语言学的初衷？

讲者的回答说很多事物都会经历一个“效果提升–质疑–解释”的过程，比如上文提到的word2vec，可解释性已经慢慢显现，所以我们有理由相信现在的方法在将来也会得到解释。我觉得这个观点是很正确的，正如现阶段的临床NLP，有些任务可能Deep Learning能够完成得很好，但是并不能用医学常识来解释，或许不久的将来，DL在临床NLP上也会得到医学解释。

Jointly Learning Word Embeddings and Latent Topics
这个报告有点以上一个报告为基础，更加深入的介绍了Word Embedding和Topic Model之间的相互应用和相互提高，而且这种提高是反复的、持续的。主要思想是不同Topic中同一个词的意思可能不一样，那么embedding当然就不一样，这样根据Topic得到Embedding会更加准确；然后在文本分类，特别是短文本分类中，由于存在稀疏性较大的问题，引入embedding可以通过embedding相似来降低稀疏性，从而提高performance。

Session 2

Microblog Summarization Using Conversation Structures
这个报告主要做的是微博的总结（摘要式，而非生成式），用到了对话结构，提出了leader和follower的概念，其实就是找出影响比较大的几条微博，作为整个对话的总结。

Who Will Come: Identify Target Users in LocationBased Services Using Hybrid Ranking and Embedding Method
这个报告讲的是根据地理签到信息来为商家进行用户推荐，主要难点是features的异质性和稀疏性问题。

Composite Task-completion Dialogue Policy Learningvia Hierarchical Reinforcement Learning
这个报告主要是讲的对话系统（如chatbot）。用Hierarchical的方式来提高对话系统的训练效率，以及最终效果。

Attention-based Recurrent Generator withGaussian Tolerance for Statistical Parametric Speech Synthesis
这个报告主要讲的是文字到语音生成。

Session 3

Key-phrase extraction using knowledge graphs
这个报告本来是我最关注的一个，因为我自己现阶段的主要工作集中在实体抽取方面，想通过结合不同的知识来提高抽取效果。但是这个其实主要是关键词抽取，以实体识别作为基础，先选出关键词候选，再通过运用知识图谱选出真正的关键词。但是演示中出了点bug，中间一段的PPT没有播放，搞的云里雾里。

Improving Quality of Knowledge Bases
这个报告主要是讲的大型知识图谱的优化，主要有三个方面：补充、修正、更新。首先，补充主要是针对某些关系的缺失，比如is_a关系，可以通过is_a关系的推理来补充知识图谱的内容，这里讲者也说了许多方法来提高补充的准确性，比如环状关系、概念性的entity不可能is_a具体的entity等等，这里其实也涉及到了修正的问题，像前面说的提高准确度的方法，也可以用来修正知识图谱内的知识。更新主要是针对知识过期的问题，我觉得这个比较针对应用，因为应用内需要知识保持最新，比如问“美国总统是谁？”，必须回答是“川普”，如果再回答“奥巴马”就不合适了，讲者提供了一套通过先通过网络热搜找到部分热词，然后再推广到更多热词，然后去更新热词的知识。

CN-DBpedia: A Never-Ending Chinese Knowledge Extraction
最后这个报告讲的是根据百度百科的知识构建了知识图谱，主要有以下4个模块：抽取、归一化、填充、更新。其实每一块的方法都比较传统，更新模块用的是上一个报告说的方法，具体基于这个知识图谱的应用等等，可以参见CN-DBpedia

总结

这次的青年学者论坛虽然是第一届，个人感觉办的还是挺不错的。

首先在讲者内容安排上，内容都是循序渐进，相互关联，比如Session 1里关于embedding的内容。内容覆盖比较全，比如Session 3关于Knowledge Graph，让我一个从来没有接触过KG的人，可以从KG的构建、优化、应用3个方面，都有一定的了解，虽然不够详尽，但也都覆盖到了。

其次是论坛的环境，高端、大气，虽然有点小。论坛是在复旦大数据学院的一个会议室开的，有点像领导开会的地方。还有论坛的茶歇不错，哈哈。

最后，说实话，有很多知识不懂，比如teacher forcing，Adversarial Training等等。发现自己在这个领域走的还是比较浅，也可能是因为我现在做的大多数的中文医学NLP的原因，我甚至还动了想继续读博的念头，哈哈。也许这可以是一条路吧，我会继续探索。

本文标题: 复旦-港中大大数据青年学者论坛
原始链接: https://oyeblog.com/2017/fudan_cuhk/
发布时间: 2017年08月10日 - 16时31分
最后更新: 2023年10月22日 - 15时17分
版权声明: 本站文章均采用CC BY-NC-SA 4.0协议进行许可。转载请注明出处！