僻静小院

(.· o` ) o O


  • 首页

  • 分类

  • 归档

  • 关于

[论文笔记]BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

发表于 2018-10-30

$\qquad$最近这个模型刚出来,感觉nlp领域的格局大震动,我还是先蹲着看看大家如何讨论以及google会不会又搞什么新花样好了(毕竟这模型也不是谁想跑就能跑起来的……)。持续关注一下,估计几个月内还要更新这篇233

Introduction

$\qquad$目前在nlp领域,pre-trained language model在很多任务中都表现得十分出色。比如,需要对整句分析来判断句子关系的任务:natural language inference(根据前提premise判断假说hypothesis和它的关系:矛盾contradiction or 蕴含entailment)、paraphrasing(复述);token层面需要生成某些特定token的任务:named entity recognition、阅读理解等。

阅读全文 »

[论文笔记]Attention is All You Need

发表于 2018-10-22 | 更新于 2018-11-06

$\qquad$关于Transformer的始祖文章,感觉中文查到的资料鲜有整体讲得比较清(ruo)楚(zhi)的,故记下一篇写写自己的理解。感谢大佬Zack的亲情指导!

INTRODUCTION

$\qquad$ 近年来,句子转换的模型大多数都基于复杂的recurrent或convolutional network(RNN, LSTM, GRU etc.)。为了减少RNN的计算量,很多模型如ConvS2S、ByteNet采用卷积层来计算输入和输出之间的latent space。然而这些方法都是建立在对输入信号的分布有一些假设的基础上的,比如说ConvS2S假设是线性的,ByteNet假设是log的。这种假设对于隔得比较远的点来说误差更大。然而本文模型中的multi-head机制很好得规避了这个问题。google团队单靠attention层实现了一个机器翻译模型Transformer,并且在不同规模的公开数据集上都有良好的表现。

阅读全文 »

[论文笔记]QANet: Combining Local Convolution with Global Self-Attention for Reading Comprehension

发表于 2018-10-13 | 更新于 2018-10-30

$\qquad$本文主要介绍了18年在SQuAD数据集上表现很好的QANet。它主要针对的是在阅读理解中找到答案这一任务,通常原文长数百词,对应多个问题,每个问题的答案十分简短并可以在原文中找到原句。QANet大体上沿用了BiDAF的结构,主要的不同是1. 用了一个新颖的卷积代替了recurrent,用了self-attention。很大程度上加快了运行速度。2. 通过翻译的方法对data augmentation,提升了指标。

阅读全文 »

[课程笔记]cs224: 1. Introduction to NLP

发表于 2018-10-11 | 更新于 2018-10-30

What is NLP?

$\qquad$Human language: sparse; symbolic; categorial(多种形式表达同一意义); continuous.

阅读全文 »

[课程笔记]cs:224 2. Word Embedding: CBOW, skip-gram, fasttext and GloVe.

发表于 2018-10-10 | 更新于 2018-10-30

Natural Language Processing(NLP)

$\qquad$想要让机器理解人类的语言的过程,就像教一个孩子说话一样。

$\qquad$我到底是怎么学会说话的呢?小学的时候,其实没有学过什么语文语法,渐渐得竟也能说出没有语法毛病的话来。大学的时候学法语却不同,短时间内疯狂得掌握了法语语法,后来基于语法,再加上词汇量阅读量加持,也算是能与人交流。学中文,就像是依靠大量信息在脑中形成了统计规律(大力出奇迹),学法语,就像是规则+较少的数据,虽然说得不像中文那样好,但也很大限度上发挥了那一点数据的价值。

阅读全文 »

qqq

records

5 日志
© 2018 qqq
由 Hexo 强力驱动 v3.7.1
|
主题 – NexT.Muse v6.4.2