计算文本相似度

只要形式转化合理,信息不会因为载体的不同而发生改变。这也就是为什么计算机不懂语言却能进行分词,词形标注等等操作。 sklearn 中的 K-Means 是基于欧几里得距离的聚类方法。随机选择 K 个点,称为中心点,空间中其余......

Text Preprocessing in NLTK

发现如果有一段时间不用某个库了,就很容易忘记曾经踩过的一些坑。这次记录一下 NLTK 这个库吧。 分词 因为词干提取和词形还原较费时间,我们自然想提前过滤掉没有价值的词,比如字长过短的词或者停用词。所......

箱型图 & 琴型图

箱型图 箱型图中有许多数值可以描述一个样本集的特征。 Lower quartile 就是该数据在整个样本集中处于 25% 的位置。同理,Upper quartile 则是 75% 的位置。往上往下分别加上 1.5 IQR 的长度 (IQR = Upper quartile - Lower quartile),捕捉最......

Übersicht Widget 1 (Weibo & Twitter Trends)

前不及偶然发现了 Übersicht,它能将许多 Widgets 自定义样式地显示在桌面上。Widget Gallery 里也有了很多优秀的成品。出于折腾,想了想有什么内容自己是想放在桌面上实时关注的,于是就想到了微博热搜榜。 Python 部分 解析网页内容......

Python 绘图包 iGraph

安装 iGraph 在 Anaconda 上安装 cairo 并且通过 pip 命令安装 python-igraph 和 cairocffi,然后运行下列代码 from igraph import * g = Graph.Famous("Zachary") plot(g) 提示错误:OSError: dlopen() failed to load a library: cairo / cairo-2 通过以下命令确认是否安装正确 import cffi cffi.FFI().dlopen('cairo') 比如我就遇到了这样的错误:Library not......

清除 Safari 历史记录并保持网站登录状态

有些时候我们会想要清除 Safari 的历史记录,但点击下图的 Clear History 是清除了所有数据,这样会退出网站的登录状态。 如果想保持登录状态,只需按下神奇的 ⌥ 键,Clear History 就会变成 Clear History and Keep Website Data。

Instagram 爬虫

学习爬虫以来,印象中已经写过四版 Instagram 的爬虫。先是用 lxml 和 BeautifulSoup 分别在网页源码内寻找下一页的链接用递归函数进行图片抓取,然后利用 XHR 请求获取 JSON 数据,前一版是的请求方式是 POST,最新这一版改成了 GET。 首先任意......