首页 > 资讯 > 科技 > 正文
2024-04-05 17:09

新手第一次遇见R——7.csv文件格式和分隔符

学习笔记总结于《生心技能树》马拉松课程

在处理生物识别文件时,会遇到各种文件格式,那么新手应该如何读取这些文件呢?

在阅读文件之前,本文首先了解一些基本概念。 以常见的csv格式文件为例,介绍一下什么是csv格式以及分隔符是什么。

1.了解csv格式

即文件名后缀为csv。对于win10系统,如果文件名不显示后缀,可以进行以下操作:点击“查看”,勾选“文件扩展名”即可显示后缀。

图 12. 如何打开 csv

①默认excel:直接双击csv文件,电脑将通过excel打开该文件

图2

②记事本:右键→打开方式→记事本,通过记事本打开csv文件

图3

③其他文本编辑器(、、等)

例如图4适合打开大文件。 文件一般都比较大,需要这种专业的文本处理工具。而且即使文件名后缀是例如mp4,甚至是不存在的文件,例如“file.txt”。

图4会比图3更清晰:字符和数字,数字和数字之间用逗号分隔。这些逗号相当于excel打开时的竖线(构成的横线和竖线) excel中的表格是由excel软件渲染后得到的,其本质就是像逗号一样的分隔符)来区分每一列; 区分每一行非常简单,直接就能看到。

图4

④R语言阅读

test = read.csv("ex3.csv")

图5

图 63. 了解分隔符

电脑记事本后缀有哪些_记事本文件名后缀_电脑记事本没有后缀

常用分隔符:逗号、空格、制表符(/t,就是word中按tab键输出的内容)

图7

分隔符与文件后缀一一对应。

CSV(逗号,逗号分隔值)

TSV(制表符、制表符分隔值)

所谓后缀,其实是用来帮助系统识别打开文件的最佳方式的。 如果系统认为用excel打开比较合适,就会给它加上csv的后缀; 如果系统认为用word打开更合适,它也会这样做。 会给它加上 doc 的后缀。

然后强行把csv改成doc,即使没有后缀,原来的文件内容也不会改变。比如改成doc后,右键文件→打开方式→excel,文件还是可以打开的,而且内容保持不变。

所以如果你遇到这种情况:使用read.csv()打开csv文件,却发现内容没有使用逗号作为分隔符,不要感到惊讶。 后缀只是一个提醒。

4. 识别后缀

Win10不仅认后缀,而且还认,还有一个新手容易出错的地方。

如图8所示,文件名为ex3.csv,因此编写代码来读取它。

图8

但报错如图9所示,这是为什么呢?

图9

仔细观察,可以发现图8中有的文件有后缀,有的文件没有后缀,这说明我们此时并没有进行“查看”→检查“文件扩展名”的操作,即这里的csv不是后缀。 但文件名的一部分

如图10所示,即使我们在win10中不显示后缀,后缀也会自动显示在界面中。 此时,ex3.csv.csv就是显示后缀的“完整正文”。

图10

此时您应该输入以下代码

read.csv("ex3.csv.csv")

感谢您的观看