?

已尝试加载列之间包含空格的csv文件。

csv的第1行:

058921107                          039128053                          20200701-290640-0             20200701 000000BORGWARNER ITHACA LLC DBA BORGWARNE                         489140-10001                       LDD INVENTORY                                               039128053           1     4359697                                           PACKAGE,CHAIN DRIVE                                                                                 005                 285000492           0                     19691231 185959                              0                     20200101 00000020200630 000000IMMEDIATE                1600                  20200630 000000   

使用的示例脚本:

import org.apache.spark.sql.{SQLContext, SparkSession}
import org.apache.spark.{SparkConf, SparkContext}
import org.apache.spark.sql.{DataFrame, SparkSession}
import org.apache.spark.sql.functions._

var df1: DataFrame = null
df1=spark.read.option("header","true").option("inferSchema","true").option("delimiter"," ").option("ignoreLeadingWhiteSpace","true")
.option("ignoreTrailingWhiteSpace","true").csv("test.csv")

df1.show(2)

转载请注明出处:http://www.syyashida.com/article/20230330/1872652.html

随机推荐

  1. 如何在DataFrame列中将字符串转换为numpy.array?

    我的DataFrame数据库是使用read_csv从csv文件构建的。A列的值如下所示:[1,2,5,6,48,125]复制在每一行上,“向量”可以有不同的长度。但它仍然是一个字符串。我可以剥离和,如下所示:db[A] = db[A].st...

  2. 如何通过Scala在Spark中使用JSON映射文件生成新的DataFrame

    我有两个DataFrame,DF1和DF2,以及一个JSON文件,我需要将其用作创建另一个数据帧(DF3)的映射文件。DF1:+-------+-------+-------+ |column1|column2|column3| +----...

  3. 如何在数据库PySpark中使用在Scala中创建的DataFrame

    我的Databricks笔记本使用的是Python。notebook中的一些代码是用Scala编写的(使用%scala),其中之一是用于创建数据帧。如果我再次使用Python/PySpark (默认模式),我如何使用/访问这个在scala模...

  4. 如何在Spark Scala中使用regex在读取非结构化文本文件后将RDD转换为Dataframe?

    package sparkscala2.test import org.apache.spark.sql.SparkSession import org.apache.spark.sql impor...

  5. 如何在dataframe中查找值并使用python/pandas返回匹配值?

    我有两个大的数据帧,df1和df2。我在df2中缺少一列(colB),我想根据共享列(colA)中的值添加该列。如果我使用的是Excel,我会通过一个标准的vlookup公式来做这件事,但是我正在努力使用pandas合并函数来获得想要的结果...

  6. 如何在dataframe中更改不同的值

    我有一个数据帧,看起来像这样:?每个品牌都有不同的类别。我需要有一个按钮,显示不同的品牌。如果我点击那个品牌,比如宝马,我会看到4个不同的类别显示在一个线形图中。X轴是日期,Y轴是价格,线条的颜色在该品牌中按类别显示。这是数据帧。这些只是许...

  7. 如何在DataFrame中查找具有指定值的行

    由于我是一个更深层次的DataFrame操作的新手,我想问一下,如何找到eg。对于这种DataFrame中的每个客户ID,此DataFrame中的最低活动ID是什么?据我所知,迭代不应该在DataFrame中完成。 orderid ...

  8. 如何在dataframe中添加一列来记录重复数据?

    我有一个这样的数据帧: user_id order_id 0 a 1 1 a 2 2 a 3 3 b 4 4 ...

  9. 如何在spark scala中的spark Dataframe结构中的元素内添加元素

    我需要在一个结构体中添加一个元素,这个结构体本身就是一个结构体。文件:{teamName:{Redbull},info:{drivers:{driver:{Max Verstappen,Alex Albon},carNumbers:{33,...

  10. 如何在Spark-Scala中将DataFrame列名转换为值

    大家好,我需要一些关于这个问题的建议,我有这个DataFrame:+------------------------+--------------------+---+---+----------+---------------------...