推荐|自然语言处理系列三十六》词频-逆文档频率TF-IDF算法原理

注：此文章内容均节选自充电了么创始人，CEO兼CTO陈敬雷老师的新书《自然语言处理原理与实战》（人工智能科学与技术丛书）【陈敬雷编著】【清华大学出版社】

文章目录

自然语言处理系列三十六
- 词频-逆文档频率(TF-IDF)概念入门
- - TF-IDF算法原理
  - Java和Python两种代码分别实现TF-IDF
总结

自然语言处理系列三十六

词频-逆文档频率(TF-IDF)概念入门

TF-IDF是Term Frequency - Inverse Document Frequency的缩写，即“词频-逆文档频率”。它由两部分组成，TF和IDF。前面的TF也就是我们前面说到的词频，我们之前做的向量化也就是做了文本中各个词的出现频率统计，并作为文本特征，这个很好理解。关键是后面的这个IDF，即“逆文本频率”如何理解。在上一节中，我们讲到几乎所有文本都会出现的"to"其词频虽然高，但是重要性却应该比词频低的"China"和“Travel”要低。我们的IDF就是来帮助我们来反应这个词的重要性的，进而修正仅仅用词频表示的词特征值。概括来讲， IDF反应了一个词在所有文本中出现的频率，如果一个词在很多的文本中出现，那么它的IDF值应该低，比如上文中的“to”。而反过来如果一个词在比较少的文本中出现，那么它的IDF值应该高。比如一些专业的名词如“Machine Learning”。这样的词IDF值应该高。一个极端的情况，如果一个词在所有的文本中都出现，那么它的IDF值应该为0。

TF-IDF算法原理

TF-IDF（Term Frequency - Inverse Document Frequency）是一种用于资讯检索与文本挖掘的常用加权技术。TF-IDF是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜索引擎应用，作为文件与用户查询之间相关程度的度量或评级。除了TF-IDF以外，互联网上的搜寻引擎还会使用基于连结分析的评级方法，以确定文件在搜寻结果中出现的顺序。
原理
在一份给定的文件里，词频（term frequency，TF）指的是某一个给定的词语在该文件中出现的次数。这个数字通常会被正规化，以防止它偏向长的文件。同一个词语在长文件里可能会比短文件有更高的词频，而不管该词语重要与否。
逆向文件频率（inverse document frequency，IDF）是一个词语普遍重要性的度量。某一特定词语的IDF，可以由总文件数目除以包含该词语之文件的数目，再将得到的商取对数得到。
某一特定文件内的高词语频率，以及该词语在整个文件集合中的低文件频率，可以产生出高权重的TF-IDF。因此，TF-IDF倾向于过滤掉常见的词语，保留重要的词语。
TF-IDF本身是一种思想，除了用在文本数据外，也可以用在用户行为数据的算法上，比如电商网站里的协同过滤算法，不知道协同过滤算法的读者，本书最后一章的推荐算法系统实战会为大家详细讲解协同过滤算法，在协同过滤相似度计算中，TF就是原始相似度的值及购买某个商品的占比， docFreq文档频率就是每个商品的支持度， numDocs总的文档数就是总的用户数，代码如下所示。

public static double calculate(float tf, int df, int numDocs) {
return tf(tf) * idf(df, numDocs);
}
public static float idf(int docFreq, int numDocs) {
return (float) (Math.log(numDocs / (double) (docFreq + 1)) + 1.0);
}

public static float tf(float freq) {
return (float) Math.sqrt(freq);
}。

Java和Python两种代码分别实现TF-IDF

后面分两篇文章分别介绍 Java和Python两种代码来实现TF-IDF，敬请关注。

总结

此文章有对应的配套新书教材和视频：

【配套新书教材】
《自然语言处理原理与实战》（人工智能科学与技术丛书）【陈敬雷编著】【清华大学出版社】
新书特色：本书从自然语言处理基础开始，逐步深入各种NLP热点前沿技术，使用了Java和Python两门语言精心编排了大量代码实例，契合公司实际工作场景技能，侧重实战。
全书共分为19章，详细讲解中文分词、词性标注、命名实体识别、依存句法分析、语义角色标注、文本相似度算法、语义相似度计算、词频-逆文档频率(TF-IDF)、条件随机场、新词发现与短语提取、搜索引擎Solr Cloud和Elasticsearch、Word2vec词向量模型、文本分类、文本聚类、关键词提取和文本摘要、自然语言模型（Language Model）、分布式深度学习实战等内容，同时配套完整实战项目，例如对话机器人实战、搜索引擎项目实战、推荐算法系统实战。
本书理论联系实践，深入浅出，知识点全面，通过阅读本书，读者不仅可以理解自然语言处理的知识，还能通过实战项目案例更好地将理论融入实际工作中。

【配套视频】
自然语言处理NLP原理与实战视频教程【陈敬雷】
视频特色：《自然语言处理NLP原理与实战》包含了互联网公司前沿的热门算法的核心原理，以及源码级别的应用操作实战，直接讲解自然语言处理的核心精髓部分，自然语言处理从业者或者转行自然语言处理者必听视频！

上一篇：自然语言处理系列三十五》语义相似度》基于深度学习的语义相似度算法原理
下一篇：自然语言处理系列三十七》词频-逆文档频率TF-IDF》Java代码实现

文章目录

自然语言处理系列三十六

词频-逆文档频率(TF-IDF)概念入门

TF-IDF算法原理

Java和Python两种代码分别实现TF-IDF

总结

评论记录：