使用不同的方法计算TF-IDF值-白红宇

使用不同的方法计算TF-IDF值

阅读量：7290 次

发布时间：2019-06-30

本文共 651 字，大约阅读时间需要 2 分钟。

摘要

这篇文章主要介绍了计算TF-IDF的不同方法实现，主要有三种方法：

之所以做了这方面的总结是因为最近在研究word2vec，然后涉及到了基于word2vec的文本表示方法。你用word2vec训练好的模型可以得到词的向量，然后我们可以利用这些词向量表示句子向量。

1. 一般处理方法是把句子里涉及到的单词用word2vec模型训练得到词向量，然后把这些向量加起来再除以单词数，就可以得到句子向量。这样处理之后可以拿去给分类算法(比如LogisticRegression)训练，从而对文本进行分类。

2. 还有一种是把句子里的每个单词的向量拼接起来，比如每个单词的维度是1*100

一句话有30个单词，那么如何表示这句话的向量呢？

把单词拼接来，最终得到这句话的向量的维度就是30*100维

3. 我想做的是把句子里所有的单词用word2vec模型训练得到词向量，然后把这些向量乘以我们之前得到的tfidf值，再把它们加起来除以单词数，就可以得到句子向量。也就是结合tfidf给单词加上一个权重，评判一个单词的重要程度。

4. 最后发现gensim和sklearn都不能满足我的需求，用python的方法做了一个。

详情请大家看这里

使用不同工具计算的tf-idf值对比

转载于:https://www.cnblogs.com/lookfor404/p/9307754.html

你可能感兴趣的文章