二为jupyter notebook 添加标题

Posted 2023-04-02 chen-iii

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了二为jupyter notebook 添加标题相关的知识，希望对你有一定的参考价值。

1、先在“代码框”（绿色）里输入想要设置的标题内容

2、鼠标左键单击箭头的空白处，变成“命令框”（蓝色）

3、有两种方法，我习惯方法一。

方法一：单击键盘上的1，一级标题字样就变成了蓝色（二级标题按2，三级标题按3，四级标题按4......）

方法二：#和*之间放一个空格，然后手动切换“代码”为“Markdown ”

这两种方法都可以把菜单栏中 cell 类型变为Markdown，由代码语句变成了Markdown 语句

4、最后运行

5、单击这里就可以显示目录啦~

注：

#：一级标题
##：二级标题
###：三级标题
以此类推

* 代表斜体
** 代表加粗
***代表斜体+加粗

最后，因为这位博主写的这篇文章已经很详细，很好了，其他的内容就不在此赘述。感谢这位博主写下这么好的文章，我从中学到了不少东西，嘻嘻~

jupyter notebook快捷键及标记的使用（Markdown使用笔记）_咕噜oo的博客-CSDN博客_jupyter markdown快捷键0. jupyter中常用快捷键：0.1 命令模式下快捷键h：查看快捷键Esc：命令模式Enter：转入编辑模式Shift-Enter : 运行本单元，选中下个单元Ctrl-Enter : 运行本单元Alt-Enter : 运行本单元，在其下插入新单元Y : 单元转入代码状态M :单元转入markdown状态R : 单元转入raw状态1：将单元格设置为一级标题2：将单元格设置为二级标题3：将单元格设置为三级标题4：将单元格设置为四级标题5：将单元格设置为五级标题6：将单元https://blog.csdn.net/qq_44081582/article/details/117962462?spm=1001.2014.3001.5506

在 jupyter notebook 中将自定义 jars 添加到 pyspark

【中文标题】在 jupyter notebook 中将自定义 jars 添加到 pyspark【英文标题】：Adding custom jars to pyspark in jupyter notebook 【发布时间】：2016-06-27 02:10:35 【问题描述】：

我正在使用带有 Pyspark 的 Jupyter notebook 和以下 docker 映像：Jupyter all-spark-notebook

现在我想编写一个 pyspark 流应用程序，它使用来自 Kafka 的消息。在Spark-Kafka Integration guide 中，他们描述了如何使用 spark-submit 部署这样的应用程序（它需要链接一个外部 jar - 解释在 3. Deploying 中）。但由于我使用的是 Jupyter 笔记本，我从未真正运行过 spark-submit 命令，我假设如果我按下执行，它会在后面运行。

在spark-submit 命令中，您可以指定一些参数，其中一个是-jars，但我不清楚如何从笔记本设置此参数（或通过环境变量从外部设置？）。我假设我可以通过SparkConf 或SparkContext 对象动态链接这个外部jar。有没有人了解如何从笔记本正确执行链接？

【问题讨论】：

【参考方案1】：

您可以通过设置相关环境变量，使用 pyspark 命令运行您的 jupyter notebook：

export PYSPARK_DRIVER_PYTHON=jupyter
export IPYTHON=1
export PYSPARK_DRIVER_PYTHON_OPTS="notebook --port=XXX --ip=YYY"

其中 XXX 是您要用于访问笔记本的端口，YYY 是 IP 地址。

现在只需运行 pyspark 并添加 --jars 作为开关，就像触发提交一样

【讨论】：

这很有趣。 Docker 可以使用docker run -e 设置环境变量，但它们也可能在某处被破坏。 all-spark-notebook 的 Dockerfile 使用 env SPARK_OPTS 但我注意到 all-spark-notebook Toree (scala) 正在破坏 --driver-memory 设置以及 --master 并在特定内核中使用 local[2]。 json 文件。例如，请参阅我在 github.com/jupyter/docker-stacks/pull/144 中关于一些手动测试的帖子。【参考方案2】：

我已经设法让它在 jupyter notebook 中工作，该 notebook 从 all-spark 容器中运行。

我在 jupyterhub 中启动一个 python3 笔记本并覆盖 PYSPARK_SUBMIT_ARGS 标志，如下所示。 Kafka消费者库是从maven仓库下载的，放到我的主目录/home/jovyan：

import os
os.environ['PYSPARK_SUBMIT_ARGS'] = 
  '--jars /home/jovyan/spark-streaming-kafka-assembly_2.10-1.6.1.jar pyspark-shell'

import pyspark
from pyspark.streaming.kafka import KafkaUtils
from pyspark.streaming import StreamingContext

sc = pyspark.SparkContext()
ssc = StreamingContext(sc,1)

broker = "<my_broker_ip>"
directKafkaStream = KafkaUtils.createDirectStream(ssc, ["test1"],
                        "metadata.broker.list": broker)
directKafkaStream.pprint()
ssc.start()

注意：不要忘记环境变量中的pyspark-shell！

扩展：如果你想包含来自 spark-packages 的代码，你可以使用 --packages 标志。有关如何在 all-spark-notebook 中执行此操作的示例，请参见 here

【讨论】：

谢谢。只想说broker 的格式应该是："localhost:9092"。你是否能够在不下载 jar 并使用 --packages 选项（此处提到：spark.apache.org/docs/latest/submitting-applications.html）的情况下做同样的事情？我很惊讶这实际上对你有用。我必须在容器启动之前在 Dockerfile 中设置 PYSPARK_SUBMIT_ARGS。【参考方案3】：

要使用 spark 处理 jupyter-notebook，您需要在创建 sparkContext 对象之前提供外部 jar 的位置。 pyspark --jars youJar 将创建一个带有外部 jar 位置的 sparkcontext

【讨论】：

【参考方案4】：

确实，有一种方法可以在创建 SparkSession 时通过 SparkConf 对象动态链接它，如this answer 中所述：

spark = SparkSession \
    .builder \
    .appName("My App") \
    .config("spark.jars", "/path/to/jar.jar,/path/to/another/jar.jar") \
    .getOrCreate()

【讨论】：

【参考方案5】：

如果有人和我一样：我尝试了上述所有解决方案，但没有一个适合我。我想做的是在 Jupyter 笔记本中使用Delta Lake。

最后我可以通过先调用SparkContext.addPyFile("/path/to/your/jar.jar") 来使用from delta.tables import *。虽然在 spark 官方文档中只提到了添加 .zip 或 .py 文件，但我尝试了 .jar 并且效果很好。

【讨论】：

gist.github.com/joshuacook/fbda6fdbec7dc6b0fb9bd7ed9953004a

以上是关于二为jupyter notebook 添加标题的主要内容，如果未能解决你的问题，请参考以下文章