TF-IDF原理及应用

2017-03-15

你说广州塔，我知道是在广州，你说黄果树瀑布，我知道是在贵州，你说布达拉宫，我知道是在拉萨，你说公交车，我都不知道你在说哪个城市的公交车。这就是TF-IDF。

概念及原理

TF-IDF全称Term Frequency and Inverse Document Frequency，直译过来就是’词频-逆向文件频率’，’TF’是指某一个给定的词语在该文件中出现的频率，’IDF’是指总文件数除以包含该词的文件数，再取对数。TF-IDF一般用来评估在一堆语料库或一堆文件集中，某个字词对于该语料库或该文件的重要程度。怎么理解呢，举个例子，假设现在手上有10篇文章，‘水果’这个词在某一篇文章出现的频率很高，但是在这10篇文章中的仅有2篇文章提到，那么‘水果’这个词的TF-IDF会很高，如果10篇文章中有8篇提到‘水果’这个词，那么这个词的‘TF-IDF’会相对偏低。主要思想就是，一个词越能将一篇文章与其他文章区分开来，那么这个词的权重越高。

计算公式

TF计算：

（markdown编辑数学公式还不怎么熟，先用mathtype搞好再截图吧）比如上面的例子，’水果’，’硬盘’在文章1（共有10个词）中出现的次数分别为2次，4次，那么:

1 2	TF(水果) = 2/10 = 0.2 TF(硬盘) = 4/10 = 0.4

IDF计算：

如果这10篇文章中，有2篇文章包含有’水果’这个词，有5篇包含’硬盘’这个词，那么：

1 2	IDF(水果) = log(10/2) = 1.6094 IDF(硬盘) = log(10/5) = 0.6931

TF-IDF计算

算好TF和IDF之后，就可以计算’水果’和’硬盘’的TF-IDF了，只需要将TF和IDF相乘就ok。

所以’水果’的TF-IDF为：

1	0.2*1.6094

‘硬盘’的TF-IDF为：

1	0.4*0.6931

如果算’水果’和’硬盘’这两个词与文章1的相关性呢，很简单，只要将这两个词的TF-IDF加起来。

1	0.21.6094 + 0.40.6931

python中计算TF-IDF

使用的工具

jieba
scikit-learn

切词

其实切词只是计算TF-IDF的前期准备工作，在对中文文本进行TF-IDF计算的话，切词这一步应该是怎么也逃不过去了。平常工作中基本都是用jieba切词，这里也打算用jieba对文本进行处理。
例如我现在有5个文本：

content = [['萨德系统核心装备X波段雷达'],['美韩当局部署萨德的步伐也在加速进行'],['纵观如今的手机处理器市场已经不是高通一家独大的局面'],['三星的Exynos处理器以及华为的海思麒麟芯片这些年风头正盛'],['魅族每年数以千万计的销量对于芯片厂商的贡献也是不可小看的']]

首先需要对文本进行切词，切词代码及结果如下：

def cut_words(text):
    results = []
    for content in contents:
        seg_list = jieba.cut(content[0],cut_all=False)
        # 实际应用过程中，这里需要去除停用词
        seg = ' '.join(seg_list)
        results.append(seg)
    return results
result = cut_words(contents)
result = ['萨德 系统核心 装备 X 波段 雷达', '美韩 当局 部署 萨德 的 步伐 也 在 加速 进行', '纵观 如今 的 手机 处理器 市场 已经 不是 高通 一家独大 的 局面', '三星 的 Exynos 处理器 以及 华为 的 海思 麒麟 芯片 这些 年 风头 正 盛', '魅族 每年 数以千万计 的 销量 对于 芯片 厂商 的 贡献 也 是 不可 小看 的']

准备工作做好之后，我们就可以进行TF-IDF计算了。

词语转矩阵

词语转矩阵需要用到CountVectorizer这个函数，其作用是统计词汇的数量，并转为矩阵。

#coding:utf-8
from sklearn.feature_extraction.text import CountVectorizer
vectorizer = CountVectorizer()
vector_location = vectorizer.fit_transform(result)

通过type(vector_location)可以看到，函数fit_transform把result二维数组表示成一个稀疏矩阵:

1
2
3

print(type(vector_location))
#输出
<class 'scipy.sparse.csr.csr_matrix'>

同时可以看下，vercot_location的输出结果：

print(vector_location)
#输出
#(0, 27)	1
#(0, 23)	1
#(0, 28)	1
#(0, 21)	1
#(0, 34)	1
#(1, 27)	1
#(1, 25)	1
#(1, 16)	1
#(1, 32)	1
#(1, 19)	1
#(1, 6)	    1
#(1, 31)	1
#(2, 24)	1
#(2, 10)	1
#(2, 17)	1
#(2, 9)	    1
#(2, 15)	1
#(2, 14)	1
#(2, 4)	    1
#(2, 36)	1
#(2, 1)	    1
#(2, 13)	1
#(3, 9)	    1
#(3, 2)	    1
#(3, 0)  	1
#(3, 5) 	1
#(3, 7) 	1
#(3, 22)	1
#(3, 38)	1
#(3, 26)	1
#(3, 30)	1
#(3, 35)	1
#(4, 26)	1
#(4, 37)	1
#(4, 20)	1
#(4, 18)	1
#(4, 33)	1
#(4, 11)	1
#(4, 8) 	1
#(4, 29)	1
#(4, 3)    	1
#(4, 12)	1

输出结果表示的是这个稀疏矩阵的第几行第几列有值，比如(0, 27) 1表示矩阵的第0行第27列有值。
转成矩阵的形式之后，我们就可以很容易地算出每个词对应的TF-IDF了，这里使用TfidfTransformer函数进行计算。

from sklearn.feature_extraction.text import TfidfTransformer
transformer = TfidfTransformer()
tf_idf = transformer.fit_transform(vector_location)
print(type(tf_idf))
#输出，同样是稀疏矩阵的形式
#<class 'scipy.sparse.csr.csr_matrix'>
print(tf_idf)
#输出
#(0, 34)	0.463693222732
#(0, 21)	0.463693222732
#(0, 28)	0.463693222732
#(0, 23)	0.463693222732
#(0, 27)	0.37410477245
#(1, 31)	0.387756660106
#(1, 6) 	0.387756660106
#(1, 19)	0.387756660106
#(1, 32)	0.387756660106
#(1, 16)	0.387756660106
#(1, 25)	0.387756660106
#(1, 27)	0.312839631859
#(2, 13)	0.321896111462
#(2, 1) 	0.321896111462
#(2, 36)	0.321896111462
#(2, 4) 	0.321896111462
#(2, 14)	0.321896111462
#(2, 15)	0.321896111462
#(2, 9) 	0.259703755905
#(2, 17)	0.321896111462
#(2, 10)	0.321896111462
#(2, 24)	0.321896111462
#(3, 35)	0.327880622184
#(3, 30)	0.327880622184
#(3, 26)	0.264532021474
#(3, 38)	0.327880622184
#(3, 22)	0.327880622184
#(3, 7) 	0.327880622184
#(3, 5) 	0.327880622184
#(3, 0) 	0.327880622184
#(3, 2) 	0.327880622184
#(3, 9) 	0.264532021474
#(4, 12)	0.321896111462
#(4, 3) 	0.321896111462
#(4, 29)	0.321896111462
#(4, 8) 	0.321896111462
#(4, 11)	0.321896111462
#(4, 33)	0.321896111462
#(4, 18)	0.321896111462
#(4, 20)	0.321896111462
#(4, 37)	0.321896111462
#(4, 26)	0.259703755905

如果需要把稀疏矩阵转成平常用的行列形式的矩阵的话。这里可以使用todense()或者toarray()函数，前者是将稀疏矩阵转成matrix的形式，后者是将稀疏矩阵转成ndarray的形式

weight = tf_idf.toarray()
#or
weight1 = tf_idf.todense()
print(weight)
#输出
#(5,39)

这里还有一个问题，就是我怎么知道每个权重对应的是哪个词呢？这里可以将词作为列名，将数组转成Dataframe进行查看。

word=vectorizer.get_feature_names()
df = pd.DataFrame(weight)
df.columns = word
print(df)

源代码

最后照例附上本次分析的源代码

#coding:utf-8
#author:linchart
import jieba
import pandas as pd
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction.text import TfidfTransformer
contents = [['萨德系统核心装备X波段雷达'],\
            ['美韩当局部署萨德的步伐也在加速进行'],\
            ['纵观如今的手机处理器市场已经不是高通一家独大的局面'],\
            ['三星的Exynos处理器以及华为的海思麒麟芯片这些年风头正盛'],\
            ['魅族每年数以千万计的销量对于芯片厂商的贡献也是不可小看的']]
def cut_words(text):
    results = []
    for content in contents:
        seg_list = jieba.cut(content[0],cut_all=False)
        # 实际应用过程中，这里需要去除停用词
        seg = ' '.join(seg_list)
        results.append(seg)
    return results
def tf_idf(words):
    vectorizer = CountVectorizer()
    vector_location = vectorizer.fit_transform(result)
    transformer = TfidfTransformer()
    tf_idf = transformer.fit_transform(vector_location)
    weight = tf_idf.toarray()
    word = vectorizer.get_feature_names()
    df = pd.DataFrame(weight)
    df.columns = word
    return df
result = cut_words(contents)
df = tf_idf(result)
print(df)