联系电话:18858105031
您当前的位置:杭州SEO中心 > SEO教程 >

TF-IDF是什么意思 TF-IDF算法和公式的解读

TF-IDF名词解释: TF:英文为:Term Frequency,缩写为TF,中文意思:词频 IDF:英文为:Inverse Document Frequency,缩写为IDF,中文意思:逆文档频率 那词频和逆文档频率该怎么理解呢? 比如现在我们有一篇文章《亚洲的网络技术》,如果在这篇文章中,某个词很重要,它就应该在文章中多次出现,以便我们进行词频(TF)的统计。 当然,如“的”、“地”、“是”这一类常用词叫“停用词”,对结果毫无帮助,是必须过滤掉的词。 好了,通过对停用词的过滤和之前介绍的词频,我们会发现“亚洲”、“网络”、“技术”这三个词出现次数差不多一样,是不是意味着,它们的重要性一样呢? 所以,我们要在词频的基础上,对每个词分配一个“重要性”权重,最常见的词("的"、"是"、"在")给予最小的权重,较常见的词("亚洲")给予较小的权重,较少见的词("网络"、"技术")给予较大的权重。这个权重就是逆文档频率(IDF)。 知道了"词频"(TF)和"逆文档频率"(IDF)以后,将这两个值相乘,就得到了一个词的TF-IDF值。某个词对文章的重要性越高,它的TF-IDF值就越大。所以,排在最前面的几个词,就是这篇文章的关键词。 TF-IDF算法细节: 第一步,计算词频。 词频(TF)=某个词在文章中的出现次数 考虑到文章有长短之分,为了便于不同文章的比较,进行"词频"标准化。 词频(TF)=某个词在文章中的出现次数/文章的总词数 或者 词频(TF)=某个词在文章中的出现次数/该文出现次数最多的词的出现次数 第二步,计算逆文档频率。 这时,需要一个语料库(corpus),用来模拟语言的使用环境。 逆文档频率(IDF)=log*[语料库的文档总数/(包含该词的文档数+1)] 如果一个词越常见,那么分母就越大,逆文档频率就越小越接近0。分母之所以要加1,是为了避免分母为0(即所有文档都不包含该词)。log表示对得到的值取对数。 第三步,计算TF-IDF TF-IDF=词频(TF)*逆文档频率(IDF) 可以看到,TF-IDF与一个词在文档中的出现次数成正比,与该词在整个语言中的出现次数成反比。所以,自动提取关键词的算法就很清楚了,就是计算出文档的每个词的TF-IDF值,然后按降序排列,取排在最前面的几个词。 对TF-IDF进行举例说明: 还是以《亚洲的网络技术》为例,假定该文长度为1000个词,"亚洲"、"网络"、"技术"各出现20次,则这三个词的"词频"(TF)都为0.02。 然后,搜索Google发现,包含"的"字的网页共有250亿张(假定这就是中文网页总数),包含"亚洲"的网页共有62.3亿张,包含"网络"的网页为0.484亿张,包含"技术"的网页为0.973亿张。则它们的逆文档频率(IDF)和TF-IDF的计算结果如下:

什么叫TF-IDF TF-IDF算法和公式的解读

从上表可见,"网络"的TF-IDF值最高,"技术"其次,"亚洲"最低。(如果还计算"的"字的TF-IDF,那将是一个极其接近0的值。)所以,如果只选择一个词,"网络"就是这篇文章的关键词。 除了自动提取关键词,TF-IDF算法还可以用于许多别的地方。比如,信息检索时,对于每个文档,都可以分别计算一组搜索词("亚洲"、"网络"、"技术")的TF-IDF,将它们相加,就可以得到整个文档的TF-IDF。这个值最高的文档就是与搜索词最相关的文档。 TF-IDF算法的优点是简单快速,结果比较符合实际情况。缺点是,单纯以"词频"衡量一个词的重要性,不够全面,有时重要的词可能出现次数并不多。而且,这种算法无法体现词的位置信息,出现位置靠前的词与出现位置靠后的词,都被视为重要性相同,这是不正确的。(一种解决方法是,对全文的第一段和每一段的第一句话,给予较大的权重。)


如果您需要帮助,可以立即拨打我们的服务热线!
杭州SEO服务
售后服务
Totop