TF-IDF是什么意思 TF-IDF算法和公式的解读

TF-IDF名词解释： TF：英文为：Term Frequency，缩写为TF，中文意思：词频 IDF：英文为：Inverse Document Frequency，缩写为IDF，中文意思：逆文档频率 那词频和逆文档频率该怎么理解呢？ 比如现在我们有一篇文章《亚洲的网络技术》，如果在这篇文章中，某个词很重要，它就应该在文章中多次出现，以便我们进行词频（TF）的统计。当然，如“的”、“地”、“是”这一类常用词叫“停用词”，对结果毫无帮助，是必须过滤掉的词。好了，通过对停用词的过滤和之前介绍的词频，我们会发现“亚洲”、“网络”、“技术”这三个词出现次数差不多一样，是不是意味着，它们的重要性一样呢？所以，我们要在词频的基础上，对每个词分配一个“重要性”权重，最常见的词（"的"、"是"、"在"）给予最小的权重，较常见的词（"亚洲"）给予较小的权重，较少见的词（"网络"、"技术"）给予较大的权重。这个权重就是逆文档频率（IDF）。知道了"词频"（TF）和"逆文档频率"（IDF）以后，将这两个值相乘，就得到了一个词的TF-IDF值。某个词对文章的重要性越高，它的TF-IDF值就越大。所以，排在最前面的几个词，就是这篇文章的关键词。 TF-IDF算法细节： 第一步，计算词频。词频（TF）=某个词在文章中的出现次数考虑到文章有长短之分，为了便于不同文章的比较，进行"词频"标准化。词频（TF）=某个词在文章中的出现次数/文章的总词数或者词频（TF）=某个词在文章中的出现次数/该文出现次数最多的词的出现次数第二步，计算逆文档频率。这时，需要一个语料库（corpus），用来模拟语言的使用环境。逆文档频率（IDF）=log*[语料库的文档总数/(包含该词的文档数+1）] 如果一个词越常见，那么分母就越大，逆文档频率就越小越接近0。分母之所以要加1，是为了避免分母为0（即所有文档都不包含该词）。log表示对得到的值取对数。第三步，计算TF-IDF TF-IDF=词频（TF）*逆文档频率（IDF）可以看到，TF-IDF与一个词在文档中的出现次数成正比，与该词在整个语言中的出现次数成反比。所以，自动提取关键词的算法就很清楚了，就是计算出文档的每个词的TF-IDF值，然后按降序排列，取排在最前面的几个词。 对TF-IDF进行举例说明： 还是以《亚洲的网络技术》为例，假定该文长度为1000个词，"亚洲"、"网络"、"技术"各出现20次，则这三个词的"词频"（TF）都为0.02。然后，搜索Google发现，包含"的"字的网页共有250亿张（假定这就是中文网页总数），包含"亚洲"的网页共有62.3亿张，包含"网络"的网页为0.484亿张，包含"技术"的网页为0.973亿张。则它们的逆文档频率（IDF）和TF-IDF的计算结果如下：

什么叫TF-IDF TF-IDF算法和公式的解读

从上表可见，"网络"的TF-IDF值最高，"技术"其次，"亚洲"最低。（如果还计算"的"字的TF-IDF，那将是一个极其接近0的值。）所以，如果只选择一个词，"网络"就是这篇文章的关键词。除了自动提取关键词，TF-IDF算法还可以用于许多别的地方。比如，信息检索时，对于每个文档，都可以分别计算一组搜索词（"亚洲"、"网络"、"技术"）的TF-IDF，将它们相加，就可以得到整个文档的TF-IDF。这个值最高的文档就是与搜索词最相关的文档。 TF-IDF算法的优点是简单快速，结果比较符合实际情况。缺点是，单纯以"词频"衡量一个词的重要性，不够全面，有时重要的词可能出现次数并不多。而且，这种算法无法体现词的位置信息，出现位置靠前的词与出现位置靠后的词，都被视为重要性相同，这是不正确的。（一种解决方法是，对全文的第一段和每一段的第一句话，给予较大的权重。）

上一篇：nofollow是什么意思下一篇：有效流量是什么意思

关键词排名优化

seo优化软件

TF-IDF是什么意思 TF-IDF算法和公式的解读

更多SEO教程相关文章：

整站优化

单页优化

关键词优化

seo优化软件