python处理csv文件中文文本分类数据集,踩坑

综艺节目 浏览(782)

  好久没写了,以后写点日常总结吧,感觉不写下来,会容易忘掉一些。

  

  很喜欢的一张壁纸,希望后面买了相机也可以拍这么好看~

  首先直接把我对数据预处理的一些收获贴出来:

  jieba比清华的好用,不过清华的更注重整体性,比如说在一个《》包含的文件内,不会分割

  清华的: http://thulac.thunlp.org/

  最终还是选择了简单粗暴的只留下汉字,unicode编码真是简单粗暴

  https://www.linuxhub.org/?p=3196 第一个方法,极其爽

  jieba和thulac都无法去掉,。、“”这些符号,很奇怪,所以我才选择的第二种方式

  当然还有另外的方法

  python操作路径: https://www.cnblogs.com/wei-li/p/2502735.html

  python with的用法:

  而使用with的话,能够减少冗长,还能自动处理上下文环境产生的异常。如下面代码:

  上面是对清华的那个文本分类数据集做预处理的时候的一些踩的坑,八十多万个txt文件,真的搞死我。耗时最长的是删除那些零散的txt。。两个小时,我滴妈。。

  下面是我读取txt文件并且转化为csv文件的踩坑:

  超大文本写入CSV文件的时候,可以扩容 _csv.Error: field larger than field limit (131072)

  python open()打开文件之后如果用readlines(),那么会直接到文件底部,再调用这个函数就得不到任何数据了。。这个坑。。我他么,看下面代码的精妙之处:

  要获得文本长度,那么直接开关一次,与后面彻底脱节,这样就OK了

  然后的话,csv的reader内置的line_num貌似会自动迭代。不过我没去测试如果在一次循环体里面没有调用item 是否会跳转到下一行。毕竟你不用,循环个锤子哦。(随机采样表示不关我的事,)

  至于之前把所有的txt文件写到对应分类的csv里面去,我看看,放一部分代码吧~ 全部的丢上来就涉及到一些不能说的秘密了。

  觉得自己的代码真的写的美极了~

  96

  HustWolf

  2019.07.26 22:28*

  字数 611

  好久没写了,以后写点日常总结吧,感觉不写下来,会容易忘掉一些。

  

  很喜欢的一张壁纸,希望后面买了相机也可以拍这么好看~

  首先直接把我对数据预处理的一些收获贴出来:

  jieba比清华的好用,不过清华的更注重整体性,比如说在一个《》包含的文件内,不会分割

  清华的: http://thulac.thunlp.org/

  最终还是选择了简单粗暴的只留下汉字,unicode编码真是简单粗暴

  https://www.linuxhub.org/?p=3196 第一个方法,极其爽

  jieba和thulac都无法去掉,。、“”这些符号,很奇怪,所以我才选择的第二种方式

  当然还有另外的方法

  python操作路径: https://www.cnblogs.com/wei-li/p/2502735.html

  python with的用法:

  而使用with的话,能够减少冗长,还能自动处理上下文环境产生的异常。如下面代码:

  上面是对清华的那个文本分类数据集做预处理的时候的一些踩的坑,八十多万个txt文件,真的搞死我。耗时最长的是删除那些零散的txt。。两个小时,我滴妈。。

  下面是我读取txt文件并且转化为csv文件的踩坑:

  超大文本写入CSV文件的时候,可以扩容 _csv.Error: field larger than field limit (131072)

  python open()打开文件之后如果用readlines(),那么会直接到文件底部,再调用这个函数就得不到任何数据了。。这个坑。。我他么,看下面代码的精妙之处:

  要获得文本长度,那么直接开关一次,与后面彻底脱节,这样就OK了

  然后的话,csv的reader内置的line_num貌似会自动迭代。不过我没去测试如果在一次循环体里面没有调用item 是否会跳转到下一行。毕竟你不用,循环个锤子哦。(随机采样表示不关我的事,)

  至于之前把所有的txt文件写到对应分类的csv里面去,我看看,放一部分代码吧~ 全部的丢上来就涉及到一些不能说的秘密了。

  觉得自己的代码真的写的美极了~

  好久没写了,以后写点日常总结吧,感觉不写下来,会容易忘掉一些。

  

  很喜欢的一张壁纸,希望后面买了相机也可以拍这么好看~

  首先直接把我对数据预处理的一些收获贴出来:

  jieba比清华的好用,不过清华的更注重整体性,比如说在一个《》包含的文件内,不会分割

  清华的: http://thulac.thunlp.org/

  最终还是选择了简单粗暴的只留下汉字,unicode编码真是简单粗暴

  https://www.linuxhub.org/?p=3196 第一个方法,极其爽

  jieba和thulac都无法去掉,。、“”这些符号,很奇怪,所以我才选择的第二种方式

  当然还有另外的方法

  python操作路径: https://www.cnblogs.com/wei-li/p/2502735.html

  python with的用法:

  而使用with的话,能够减少冗长,还能自动处理上下文环境产生的异常。如下面代码:

  上面是对清华的那个文本分类数据集做预处理的时候的一些踩的坑,八十多万个txt文件,真的搞死我。耗时最长的是删除那些零散的txt。。两个小时,我滴妈。。

  下面是我读取txt文件并且转化为csv文件的踩坑:

  超大文本写入CSV文件的时候,可以扩容 _csv.Error: field larger than field limit (131072)

  python open()打开文件之后如果用readlines(),那么会直接到文件底部,再调用这个函数就得不到任何数据了。。这个坑。。我他么,看下面代码的精妙之处:

  要获得文本长度,那么直接开关一次,与后面彻底脱节,这样就OK了

  然后的话,csv的reader内置的line_num貌似会自动迭代。不过我没去测试如果在一次循环体里面没有调用item 是否会跳转到下一行。毕竟你不用,循环个锤子哦。(随机采样表示不关我的事,)

  至于之前把所有的txt文件写到对应分类的csv里面去,我看看,放一部分代码吧~ 全部的丢上来就涉及到一些不能说的秘密了。

  觉得自己的代码真的写的美极了~