数据实验室 | 词云与词频,一个关于基金定期报告的“大项目”

2021-09-16 16:16

最近搞了个“大项目”。


给基金的中期报告和年度报告做了个词频分析


选了全市场上的,470只股票型基金,从2010年至2020年的基金中报和年报


一共一万多份报告,120多万字


本来想用excel处理数据,结果电脑硬生生给跑宕机了。


后来用了3个工具,


第一个是jieba分词,120万字的素材,分解出来5100多个汉语词汇,


“结巴”中文分词,是一个挺好用的中文分词组件,把文字内容拆解成,许多关键词的组合。

               图片


第二个是pandas,做数据处理,


分解出来的词汇,数量加总,倒序,再批量删掉那些出现频率很高的“废话”的语气词、标点符号、空话套话,的在了么,等等。


其实这些功能,Excel也能做,就是数据量太大啦,pandas效率会更高。


图片


最后用WordCloud生成词云,字体越大,代表这个词出现频率越多,权重越高。


图片


其实一点儿也不复杂,但我这个文学系的毕业生,还是掉了不少头发。


先说大的结论吧,在这120万字的基金中报和年报中,出现频率最高的5个关键词是:


经济,8283次,

市场,7603次,

投资,4907次,

行业,4764次,

估值,4600次,


这也好理解,股票市场是国家经济的晴雨表,而我们A股市场的气候在它的成长史中,虽然说显得比较情绪化,但大体上是和市场经济发展的脉络同方向的。


近几年的投资者,会越来越关注价格(估值)和赛道(行业),毕竟在一切都用数据说话的投资市场上,没有什么是真正的无价之宝。


如果我们把这些几乎每个报告都会提到的比较“宏大”的关键词删掉,或许可以更直观地看到每个报告,或者说每个时代,真正关心的东西


同时,我也发现了一些,像我们这样年轻人,并不那么了解的历史情况,


从2010年和2011年的词云中可以看见,2011年的时候,通胀有多严重


图片


图片

来源:上海期货交易所发展研究中心《上海期货交易所发展研究中心》


2012年开始,曾经上演过的,牛股倍出的创业板大行情


2012年年报

图片


我们也看到了市场相对风格极端的年份,市场曾经的机会与风险


图片


从2019年底开始,新冠疫情,和对抗疫情,成为全人类避之不及、但始终挥之不去的主旋律。


图片


科学技术的战略地位,正在越来越得到资金的关注和认可。


图片


而如果我们拆解掉那些,宏大的词汇,重复的叙事


可能会找到更多,权重不断上升的,不断变化的,代表了新生事物、新的时代的关键词。


消费,5G,新能源


以及,一些在更长远的话语体系里,永恒的命题


中国,复苏,增长,机会,长期


最后,我们还是会建议大家,可以再去仔细地阅读一下基金的定期报告,


我们的词频其实更像是把基金经理的市场观点,那些智慧的碎片和片段,


拆解,重组,碰撞出一些火花


其实完整的文字,完整的报告数据,是更加有温度和时代的共振的。


那些基金隐藏在水面下的全部持仓


甚至有的基金经理可能定期会买自己的基金,也会体现在报告中,


在中国的资本市场上,赛道宽阔,产业纵深,不断有行业的消亡与新生,交替往复,


你会看到,有人笃守信仰,有人改变方向,有人打破常规,有人从深渊走向辉煌


也总有一些痕迹,把这一切记录下来。

相关推荐