python发明小故事

编程入门 行业动态 更新时间:2024-10-15 20:16:20

python发明<a href=https://www.elefans.com/category/jswz/34/1752524.html style=小故事"/>

python发明小故事

这么多天。我都经历了什么。自从来到上海参加工作以后,突然就从python小白变成了一个语音识别的研究者。

今天不讨论语音识别的相关知识,只说python的一些小技巧和一些函数的包,再掺杂一些我个人的一些杂谈。

自从来到公司。首先我是从事爬虫工作,负责从晚上爬去新闻发布的文章内容,说实话这些新闻类的爬虫反爬不是很厉害。基本上都能解决,唯一解决有些麻烦的就是是否能对某条信息的内容有所遗漏。你问我爬取完这些内容干啥?? 我前面也不知道,现在明白了。对这些文本内容进行新词发现。新词发现这个网上说的不多,不如python的函数啊或者是其他的多,可能这些技术太偏科了吧。不过我得做啊。

新词发现技术,就是从我们日常说的一句话或者一段文字中提取出某个词。这我说的不是废话吗,对,就是废话,然后可能就有疑问,这个词既然已经说出来了,这不就发现了。对啊,你从一个1M的文本里面使用分词,或者借助某些模块,比如jieba就能把这些词照出来,然后还要分词干嘛,那么“老铁”成词吗?以前不成词,现在是词了,但是分词技术实现不了。所以次啊会有新词发现,

这些技术,我认为第一步就是从1M的文本里面查找出现频率最高的两个或者三个,或者四个,或者5个。当超出一定限度之后,这个频率最高的“词”就被认为是词。那到底成不成词还需要判断,

比如“越老铁钩越不好使”。那么拿“老铁”举例。如果说老铁,看他左边,链接左边之后就是“越老铁”。在1M文本中出现的情况极其少。那么就不成词。所以不是新词。

再看右临,加上之后就是“老铁钩”。按理说铁钩是个词吧,“老铁钩”说着也能接受。可在这1M文本中出现的次数跟“越老铁”一样少,。所以这个也构成不了新词。还有其他的,我觉得我没说到。下次我再针对这篇文章来个新版本。

更多推荐

python发明小故事

本文发布于:2024-03-08 16:18:54,感谢您对本站的认可!
本文链接:https://www.elefans.com/category/jswz/34/1721427.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
本文标签:小故事   python

发布评论

评论列表 (有 0 条评论)
草根站长

>www.elefans.com

编程频道|电子爱好者 - 技术资讯及电子产品介绍!