微博
电脑版
提示:
原网页
已由神马搜索转码, 内容由
weibo.com
提供.
注册
登录
c
+
关注
梁斌penny
23-08-14 11:00
发布于 江苏 来自
微博网页版
Common Crawl中文数据提取出来了,做了去黄等处理,发现简体中文压缩数据只有6TB,解压后30TB左右,繁体压缩数据6TB。中文数据到2019年冲到一个最大值,之后就回落了,不知道2020年具体发生了什么事情。。中文网页数据还是有点凋零。是不是有些网站不维护了?
û
收藏
287
68
ñ
501
转发到微博
转发到私信
全部
热门
关注的人
陌生人
知名互联网博主
4
毕业于
清华大学
查看更多
a
1303
关注
57.9万
粉丝
54415
微博
微关系
他的关注(1298)
粉丝头条官方微博
微博创作者广告共享计划
t0mbkeeper
空空的没剩下什么
他的粉丝(57.9万)
开心20176410523690
小米粥2716
粉红北极熊-威力加强版
手机用户1851129660
查看更多
a
相册
查看更多
a