学习笔记总结于《生心技能树》马拉松课程
在处理生物识别文件时,会遇到各种文件格式,那么新手应该如何读取这些文件呢?
在阅读文件之前,本文首先了解一些基本概念。 以常见的csv格式文件为例,介绍一下什么是csv格式以及分隔符是什么。
1.了解csv格式
即文件名后缀为csv。对于win10系统,如果文件名不显示后缀,可以进行以下操作:点击“查看”,勾选“文件扩展名”即可显示后缀。
图 12. 如何打开 csv
①默认excel:直接双击csv文件,电脑将通过excel打开该文件
图2
②记事本:右键→打开方式→记事本,通过记事本打开csv文件
图3
③其他文本编辑器(、、等)
例如图4适合打开大文件。 文件一般都比较大,需要这种专业的文本处理工具。而且即使文件名后缀是例如mp4,甚至是不存在的文件,例如“file.txt”。
图4会比图3更清晰:字符和数字,数字和数字之间用逗号分隔。这些逗号相当于excel打开时的竖线(构成的横线和竖线) excel中的表格是由excel软件渲染后得到的,其本质就是像逗号一样的分隔符)来区分每一列; 区分每一行非常简单,直接就能看到。
图4
④R语言阅读
test = read.csv("ex3.csv")
图5
图 63. 了解分隔符
常用分隔符:逗号、空格、制表符(/t,就是word中按tab键输出的内容)
图7
分隔符与文件后缀一一对应。
CSV(逗号,逗号分隔值)
TSV(制表符、制表符分隔值)
所谓后缀,其实是用来帮助系统识别打开文件的最佳方式的。 如果系统认为用excel打开比较合适,就会给它加上csv的后缀; 如果系统认为用word打开更合适,它也会这样做。 会给它加上 doc 的后缀。
然后强行把csv改成doc,即使没有后缀,原来的文件内容也不会改变。比如改成doc后,右键文件→打开方式→excel,文件还是可以打开的,而且内容保持不变。
所以如果你遇到这种情况:使用read.csv()打开csv文件,却发现内容没有使用逗号作为分隔符,不要感到惊讶。 后缀只是一个提醒。
4. 识别后缀
Win10不仅认后缀,而且还认,还有一个新手容易出错的地方。
如图8所示,文件名为ex3.csv,因此编写代码来读取它。
图8
但报错如图9所示,这是为什么呢?
图9
仔细观察,可以发现图8中有的文件有后缀,有的文件没有后缀,这说明我们此时并没有进行“查看”→检查“文件扩展名”的操作,即这里的csv不是后缀。 但文件名的一部分
如图10所示,即使我们在win10中不显示后缀,后缀也会自动显示在界面中。 此时,ex3.csv.csv就是显示后缀的“完整正文”。
图10
此时您应该输入以下代码
read.csv("ex3.csv.csv")
感谢您的观看