初中三角函数的知识点都有哪些，怎么学习

Posted 2023-04-22

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了初中三角函数的知识点都有哪些，怎么学习相关的知识，希望对你有一定的参考价值。

初中数学锐角三角函数通常作为选择题，填空题和应用题压轴题出现，考察同学们灵活运用公式和定理能力，是中考一大难点之一。初中数学锐角三角函数知识点一览：锐角三角函数定义，正弦（sin）,余弦（cos）和正切（tan）介绍，锐角三角函数公式（特殊三角度数的特殊值，两角和公式半角公式，和差化积公式），锐角三角函数图像和性质，锐角三角函数综合应用题。
一、锐角三角函数定义
锐角三角函数是以锐角为自变量，以此值为函数值的函数。如图：我们把锐角∠A的正弦、余弦、正切和余切都叫做∠A的锐角函数。
锐角角A的正弦（sin）,余弦（cos）和正切（tan）,余切（cot）以及正割（sec），余割（csc）都叫做角A的锐角三角函数。初中数学主要考察正弦（sin）,余弦（cos）和正切（tan）。
正弦（sin）等于对边比斜边；sinA=a/c
余弦（cos）等于邻边比斜边；cosA=b/c
正切（tan）等于对边比邻边；tanA=a/b
余切（cot）等于邻边比对边；cotA=b/a
二、锐角三角函数公式
关于初中三角函数公式，在考试中用的最多的就是特殊三角度数的特殊值。如：
sin30°=1/2
sin45°=√2/2
sin60°=√3/2
cos30°=√3/2
cos45°=√2/2
cos60°=1/2
tan30°=√3/3
tan45°=1
tan60°=√3[1]
cot30°=√3
cot45°=1
cot60°=√3/3
其次就是两角和公式，这是在初中数学考试中问答题中容易用到的三角函数公式。两角和公式
sin(A+B)=sinAcosB+cosAsinB
sin(A-B)=sinAcosB-sinBcosA
cos(A+B)=cosAcosB-sinAsinB
cos(A-B)=cosAcosB+sinAsinB
tan(A+B)=(tanA+tanB)/(1-tanAtanB)
tan(A-B)=(tanA-tanB)/(1+tanAtanB)
ctg(A+B)=(ctgActgB-1)/(ctgB+ctgA)
ctg(A-B)=(ctgActgB+1)/(ctgB-ctgA)
除了以上常考的初中三角函数公示之外，还有半角公式和和差化积公式也在选择题中用到。所以同学们还是要好好掌握。
半角公式
sin(A/2)=√((1-cosA)/2) sin(A/2)=-√((1-cosA)/2)
cos(A/2)=√((1+cosA)/2) cos(A/2)=-√((1+cosA)/2)
tan(A/2)=√((1-cosA)/((1+cosA))
tan(A/2)=-√((1-cosA)/((1+cosA))
ctg(A/2)=√((1+cosA)/((1-cosA))
ctg(A/2)=-√((1+cosA)/((1-cosA))
和差化积
2sinAcosB=sin(A+B)+sin(A-B) 2cosAsinB=sin(A+B)-sin(A-B) 2cosAcosB=cos(A+B)-sin(A-B) -2sinAsinB=cos(A+B)-cos(A-B) sinA+sinB=2sin((A+B)/2)cos((A-B)/2 cosA+cosB=2cos((A+B)/2)sin((A-B)/2) tanA+tanB=sin(A+B)/cosAcosB tanA-tanB=sin(A-B)/cosAcosB ctgA+ctgBsin(A+B)/sinAsinB - ctgA+ctgBsin(A+B)/sinAsinB 三、锐角三角函数图像和性质
四、锐角三角函数综合应用题
已知：一次函数y=-2x+10的图象与反比例函数y=k/x（k＞0）的图象相交于A，B两点（A在B的右侧）．
（1）当A（4，2）时，求反比例函数的解析式及B点的坐标；
（2）在（1）的条件下，反比例函数图象的另一支上是否存在一点P，使△PAB是以AB为直角边的直角三角形若存在，求出所有符合条件的点P的坐标；若不存在，请说明理由．
（3）当A（a，-2a+10），B（b，-2b+10）时，直线OA与此反比例函数图象的另一支交于另一点C，连接BC交y轴于点D．若BC/BD=5/2，求△ABC的面积．
考点：
反比例函数综合题；待定系数法求一次函数解析式；反比例函数与一次函数的交点问题；相似三角形的判定与性质．
解答：
解：（1）把A（4，2）代入y=k/x，得k=4×2=8．
∴反比例函数的解析式为y=8/x．
解方程组y＝2x+10
y＝8/x，得x＝1 y＝8
或x＝4 y＝2，
∴点B的坐标为（1，8）；
（2）①若∠BAP=90°，
过点A作AH⊥OE于H，设AP与x轴的交点为M，如图1，
对于y=-2x+10，
当y=0时，-2x+10=0，解得x=5，
∴点E（5，0），OE=5．
∵A（4，2），∴OH=4，AH=2，
∴HE=5-4=1．
∵AH⊥OE，∴∠AHM=∠AHE=90°．
又∵∠BAP=90°，
∴∠AME+∠AEM=90°，∠AME+∠MAH=90°，
∴∠MAH=∠AEM，
∴△AHM∽△EHA，
∴AH/EH=MH/AH，
∴2/1=MH/2，
∴MH=4，
∴M（0，0），
可设直线AP的解析式为y=mx
则有4m=2，解得m=1/2，
∴直线AP的解析式为y=1/2x，
解方程组y＝1/2x，
y＝8/x，得x＝4 y＝2
或x＝?4 y＝?2，
∴点P的坐标为（-4，-2）．
②若∠ABP=90°，
同理可得：点P的坐标为（-16，-1/2）．
综上所述：符合条件的点P的坐标为（-4，-2）、（-16，-1/2）；
（3）过点B作BS⊥y轴于S，过点C作CT⊥y轴于T，连接OB，如图2，
则有BS∥CT，∴△CTD∽△BSD，
∴CD/BD=CT/BS．
∵BC/BD=5/2，
∴CT/BS=CD/BD=3/2．
∵A（a，-2a+10），B（b，-2b+10），
∴C（-a，2a-10），CT=a，BS=b，
∴a/b=3/2
，即b=2/3a．
∵A（a，-2a+10），B（b，-2b+10）都在反比例函数y=k/x的图象上，
∴a（-2a+10）=b（-2b+10），
∴a（-2a+10）=2/3
a（-2×2/3a+10）．
∵a≠0，
∴-2a+10=2/3
（-2×2/3a+10），
解得：a=3．
∴A（3，4），B（2，6），C（-3，-4）．
设直线BC的解析式为y=px+q，
则有2p+q＝6
?3p+q＝?4，
解得：p＝2q＝2，
∴直线BC的解析式为y=2x+2．
当x=0时，y=2，则点D（0，2），OD=2，
∴S△COB=S△ODC+S△ODB=1/2
ODCT+1/2ODBS=1/2×2×3+1/2×2×2=5．
∵OA=OC，
∴S△AOB=S△COB，
∴S△ABC=2S△COB=10．以上就是初中数学锐角三角函数知识点总结，小编推荐同学继续浏览《初中数学知识点专题汇总》。对于想要通过参加初中数学补习班来获得优质的数学学习资源和学习技巧，使自身成绩有所提升的同学，昂立新课程推荐以下课程：

初二数学双师定向尖子班

初二数学名师网络辅导课

初三数学定向尖子班
初三数学名师网络辅导课

中考数学自招名师网课
（以上课程是热门推荐课程，更多相关课程，可登陆官网浏览。）
初中数学学习课程分网络和面授，有小班制，大班制，1对1，1对3形式，授课校区分布在上海各个地域，面授班课时以昂立新课程官网颁布课时为主，具体费用可咨询在线客服或拨打热线4008-770-970。参考技术A

　　我们接触初中三角函数之时，要了解它是高中三角函数的基础，是高中数学的重难点和必考点。三角函数是超越函数一类函数，属于初等函数。任意角的集合与一个比值的集合变量之间的映射就是三角函数的本质。通常用平面直角坐标系来定义三角函数，定义是整个实数域。初中三角函数包含六种基本函数：正切、余切、正弦、余弦、正割、余割。

　　高中三角函数，如一头拦路虎，让很多学生望而却步、畏惧不已。初中三角函数学得好坏，直接影响高中三角函数的学习，因为初中是高中的基础。那么，初中三角函数知识点有哪些？初中三角函数公式有哪些？如何记忆这些公式？初中三角函数怎么学才能为高中打好基础？不用担心，下面为您解答。

1、勾股定理：直角三角形两直角边a、b的平方和等于斜边c的平方a2b2=c2。

　　2、如下图，在Rt△ABC中，∠C为直角，则∠A的锐角三角函数为(∠A可换成∠B)：

　3、任意锐角的正弦值等于它的余角的余弦值；任意锐角的余弦值等于它的余角的正弦值。

4、任意锐角的正切值等于它的余角的余切值；任意锐角的余切值等于它的余角的正切值。

　5、0°、30°、45°、60°、90°特殊角的三角函数值(重要)

　6、正弦、余弦的增减性：

　　当0°≤α≤90°时，sinα随α的增大而增大，cosα随α的增大而减小。

　　7、正切、余切的增减性：当0°<α<90°时，tanα随α的增大而增大，cotα随α的增大而减小。

接下来你要熟悉初中三角函数公式。

　　三角函数恒等变形公式：

　　·初中三角函数两角和与差的三角函数：

　　cos(αβ)=cosα·cosβ-sinα·sinβ

　　cos(α-β)=cosα·cosβsinα·sinβ

　　sin(α±β)=sinα·cosβ±cosα·sinβ

　　tan(αβ)=(tanαtanβ)/(1-tanα·tanβ)

　　tan(α-β)=(tanα-tanβ)/(1tanα·tanβ)

　　·初中三角函数倍角公式：

　　sin(2α)=2sinα·cosα

　　cos(2α)=cos^2(α)-sin^2(α)=2cos^2(α)-1=1-2sin^2(α)

　　tan(2α)=2tanα/[1-tan^2(α)]

　　·初中三角函数三倍角公式：

　　sin3α=3sinα-4sin^3(α)

　　cos3α=4cos^3(α)-3cosα

　　·初中三角函数半角公式：

　　sin^2(α/2)=(1-cosα)/2

　　cos^2(α/2)=(1cosα)/2

　　tan^2(α/2)=(1-cosα)/(1cosα)

　　tan(α/2)=sinα/(1cosα)=(1-cosα)/sinα

　　·初中三角函数万能公式：

　　sinα=2tan(α/2)/[1tan^2(α/2)]

　　cosα=[1-tan^2(α/2)]/[1tan^2(α/2)]

　　tanα=2tan(α/2)/[1-tan^2(α/2)]

　　·初中三角函数积化和差公式：

　　sinα·cosβ=(1/2)[sin(αβ)sin(α-β)]

　　cosα·sinβ=(1/2)[sin(αβ)-sin(α-β)]

　　cosα·cosβ=(1/2)[cos(αβ)cos(α-β)]

　　sinα·sinβ=-(1/2)[cos(αβ)-cos(α-β)]

　　·初中三角函数和差化积公式：

　　sinαsinβ=2sin[(αβ)/2]cos[(α-β)/2]

　　sinα-sinβ=2cos[(αβ)/2]sin[(α-β)/2]

　　cosαcosβ=2cos[(αβ)/2]cos[(α-β)/2]

　　cosα-cosβ=-2sin[(αβ)/2]sin[(α-β)/2]

最后，初中三角函数怎么学才能掌握好，才能为高中三角函数打下扎实基础？

　　既然谈到初中三角函数实为高中三角函数的基础，我给大家举一个高中的例子：

　　我记得有一年，有个高一的学生找到我，说高一数学学得很一般，希望我能给他点拨点拨。他就拿着一套卷子来到我办公室，上面有一道题是：

　　y=sinx23sinxcosx4cosx2

　　求这个函数的最值。

　　我一看高一的学生，连这个题都不会做，可见他的水平太一般了。这个题我几句话就能给他讲明白，但我不能光给他讲这个题，而是考虑这个孩子的问题出在哪儿，否则同样的题他还是不会做。

　　我就问他：“降幂公式会吗？”

　　他说不知道。

　　我心想今天是碰着“高手”了，我继续问：“三角函数的倍角公式你会吗？”

　　他想了想：“没有印象了。”

　　我继续往回推：“两角和与差的三角函数你会吗？”

　　他想了想：“sin（αβ）好像等于sinαsinβcosαcosβ。”

　　我都想跳楼了，一个高一的学生，两角和与差的三角函数都记不住，还有什么可说的？但是我这个人也比较固执，我一般要帮的学生，他再怎么差，我也要把他帮到底。我想今天豁出去了，我非要把他不会的根源挖掘出来，继续往回退，问他：“任意角的三角函数定理，你知道吧？”

　　他说不知道。

　　再往回退，一直退到初二的内容上：“锐角三角函数的定理你知道吧？”

　　他说：“老师，你能不能说得具体一点儿？”

　　我说：“在一个直角三角形里，那个sinα等于什么？”

　　他眼睛一亮：“sinα等于对边比斜边。”

　　我说：“就是它。”又问：“cosα等于什么？”

　　“cosα等于邻边比斜边。”

　　“tanα呢？”

　　“等于对边比邻边。”

　　我总算松了一口气，说：“孩子你太厉害了，你竟然连这个东西都记着，就从它开始。”

　　我为了把这个学生的问题解决，一直给他退到初二的内容了，从初二开始讲起。

　　我说：“跟着我想，我们要把这个直角三角形平移到直角坐标系下边，你看那个斜边成了直角坐标系下的一个角的终边，那么你说，sinα等于什么？cosα等于什么？”

　　他一想，于是就出现了任意角的三角函数定义，然后用任意角的三角函数，我引导着他派生出同角三角函数间的基本关系、平方关系、商数关系、倒数关系，这些都是他自己推导的。我继续引导这个学生往前走，结果在我的引导下，用了两个小时的时间，这个学生竟然从锐角三角函数定义开始，把他高中学过的所有的三角函数的公式全部推导了一遍。我在旁边看着，他的鼻尖上都冒汗了，状态非常投入。

　　我说：“今天这个课就上到这儿吧，我看你这两个小时把三角函数的内容全给搞定了。”

　　他吃了一惊，问：“老师，多长时间了？真的过了两个小时了吗？”

　　我说：“你看看表，咱们从八点开始，你看现在都十点多了。”

　　他说：“老师，原来学习这么好玩！我学了这么多年数学，也没找着一次这样的感觉，这两个小时我怎么把三角函数全给搞定了？”

　　我笑着问：“现在三角函数的公式还需要记忆吗？”

　　他说：“不需要记忆，我现在绝对能记住。因为我都会推导它了，我还怕它吗？”

　　在理解的基础上，加以记忆，这是一个很好的办法。碰到记不住的公式，自己推导一下，就算考试时一时想不起来，现推都来得及。而且你推导过几次，那个公式就逐步成为你永恒的记忆。

　　由此可见，要在理解的基础上加以记忆。其实好多问题，你理解了，就记住了；你不理解它，硬性的记忆，可能用的时间很长，也记不住，就算记住也会忘得很快。

　　数学上的很多定理，你要把它记下来很难，但你要是把这个定理求证一遍，它就活灵活现地展现在你面前，这个定理你不用记就记住了。

希望回答有帮助

顺手采纳一下吧

本回答被提问者和网友采纳参考技术B 　　我们接触初中三角函数之时，要了解它是高中三角函数的基础，是高中数学的重难点和必考点。三角函数是超越函数一类函数，属于初等函数。任意角的集合与一个比值的集合变量之间的映射就是三角函数的本质。通常用平面直角坐标系来定义三角函数，定义是整个实数域。初中三角函数包含六种基本函数：正切、余切、正弦、余弦、正割、余割。
　　高中三角函数，如一头拦路虎，让很多学生望而却步、畏惧不已。初中三角函数学得好坏，直接影响高中三角函数的学习，因为初中是高中的基础。那么，初中三角函数知识点有哪些？初中三角函数公式有哪些？如何记忆这些公式？初中三角函数怎么学才能为高中打好基础？不用担心，下面为您解答。
1、勾股定理：直角三角形两直角边a、b的平方和等于斜边c的平方a2b2=c2。
　　2、如下图，在Rt△ABC中，∠C为直角，则∠A的锐角三角函数为(∠A可换成∠B)：
　3、任意锐角的正弦值等于它的余角的余弦值；任意锐角的余弦值等于它的余角的正弦值。
4、任意锐角的正切值等于它的余角的余切值；任意锐角的余切值等于它的余角的正切值。
　5、0°、30°、45°、60°、90°特殊角的三角函数值(重要)
　6、正弦、余弦的增减性：
　　当0°≤α≤90°时，sinα随α的增大而增大，cosα随α的增大而减小。
　　7、正切、余切的增减性：当0°<α<90°时，tanα随α的增大而增大，cotα随α的增大而减小。
接下来你要熟悉初中三角函数公式。
　　三角函数恒等变形公式：
　　·初中三角函数两角和与差的三角函数：
　　cos(αβ)=cosα·cosβ-sinα·sinβ
　　cos(α-β)=cosα·cosβsinα·sinβ
　　sin(α±β)=sinα·cosβ±cosα·sinβ
　　tan(αβ)=(tanαtanβ)/(1-tanα·tanβ)
　　tan(α-β)=(tanα-tanβ)/(1tanα·tanβ)
　　·初中三角函数倍角公式：
　　sin(2α)=2sinα·cosα
　　cos(2α)=cos^2(α)-sin^2(α)=2cos^2(α)-1=1-2sin^2(α)
　　tan(2α)=2tanα/[1-tan^2(α)]
　　·初中三角函数三倍角公式：
　　sin3α=3sinα-4sin^3(α)
　　cos3α=4cos^3(α)-3cosα
　　·初中三角函数半角公式：
　　sin^2(α/2)=(1-cosα)/2
　　cos^2(α/2)=(1cosα)/2
　　tan^2(α/2)=(1-cosα)/(1cosα)
　　tan(α/2)=sinα/(1cosα)=(1-cosα)/sinα
　　·初中三角函数万能公式：
　　sinα=2tan(α/2)/[1tan^2(α/2)]
　　cosα=[1-tan^2(α/2)]/[1tan^2(α/2)]
　　tanα=2tan(α/2)/[1-tan^2(α/2)]
　　·初中三角函数积化和差公式：
　　sinα·cosβ=(1/2)[sin(αβ)sin(α-β)]
　　cosα·sinβ=(1/2)[sin(αβ)-sin(α-β)]
　　cosα·cosβ=(1/2)[cos(αβ)cos(α-β)]
　　sinα·sinβ=-(1/2)[cos(αβ)-cos(α-β)]
　　·初中三角函数和差化积公式：
　　sinαsinβ=2sin[(αβ)/2]cos[(α-β)/2]
　　sinα-sinβ=2cos[(αβ)/2]sin[(α-β)/2]
　　cosαcosβ=2cos[(αβ)/2]cos[(α-β)/2]
　　cosα-cosβ=-2sin[(αβ)/2]sin[(α-β)/2]
最后，初中三角函数怎么学才能掌握好，才能为高中三角函数打下扎实基础？
　　既然谈到初中三角函数实为高中三角函数的基础，我给大家举一个高中的例子：
　　我记得有一年，有个高一的学生找到我，说高一数学学得很一般，希望我能给他点拨点拨。他就拿着一套卷子来到我办公室，上面有一道题是：
　　y=sinx23sinxcosx4cosx2
　　求这个函数的最值。
　　我一看高一的学生，连这个题都不会做，可见他的水平太一般了。这个题我几句话就能给他讲明白，但我不能光给他讲这个题，而是考虑这个孩子的问题出在哪儿，否则同样的题他还是不会做。
　　我就问他：“降幂公式会吗？”
　　他说不知道。
　　我心想今天是碰着“高手”了，我继续问：“三角函数的倍角公式你会吗？”
　　他想了想：“没有印象了。”
　　我继续往回推：“两角和与差的三角函数你会吗？”
　　他想了想：“sin（αβ）好像等于sinαsinβcosαcosβ。”
　　我都想跳楼了，一个高一的学生，两角和与差的三角函数都记不住，还有什么可说的？但是我这个人也比较固执，我一般要帮的学生，他再怎么差，我也要把他帮到底。我想今天豁出去了，我非要把他不会的根源挖掘出来，继续往回退，问他：“任意角的三角函数定理，你知道吧？”
　　他说不知道。
　　再往回退，一直退到初二的内容上：“锐角三角函数的定理你知道吧？”
　　他说：“老师，你能不能说得具体一点儿？”
　　我说：“在一个直角三角形里，那个sinα等于什么？”
　　他眼睛一亮：“sinα等于对边比斜边。”
　　我说：“就是它。”又问：“cosα等于什么？”
　　“cosα等于邻边比斜边。”
　　“tanα呢？”
　　“等于对边比邻边。”
　　我总算松了一口气，说：“孩子你太厉害了，你竟然连这个东西都记着，就从它开始。”
　　我为了把这个学生的问题解决，一直给他退到初二的内容了，从初二开始讲起。
　　我说：“跟着我想，我们要把这个直角三角形平移到直角坐标系下边，你看那个斜边成了直角坐标系下的一个角的终边，那么你说，sinα等于什么？cosα等于什么？”
　　他一想，于是就出现了任意角的三角函数定义，然后用任意角的三角函数，我引导着他派生出同角三角函数间的基本关系、平方关系、商数关系、倒数关系，这些都是他自己推导的。我继续引导这个学生往前走，结果在我的引导下，用了两个小时的时间，这个学生竟然从锐角三角函数定义开始，把他高中学过的所有的三角函数的公式全部推导了一遍。我在旁边看着，他的鼻尖上都冒汗了，状态非常投入。
　　我说：“今天这个课就上到这儿吧，我看你这两个小时把三角函数的内容全给搞定了。”
　　他吃了一惊，问：“老师，多长时间了？真的过了两个小时了吗？”
　　我说：“你看看表，咱们从八点开始，你看现在都十点多了。”
　　他说：“老师，原来学习这么好玩！我学了这么多年数学，也没找着一次这样的感觉，这两个小时我怎么把三角函数全给搞定了？”
　　我笑着问：“现在三角函数的公式还需要记忆吗？”
　　他说：“不需要记忆，我现在绝对能记住。因为我都会推导它了，我还怕它吗？”
　　在理解的基础上，加以记忆，这是一个很好的办法。碰到记不住的公式，自己推导一下，就算考试时一时想不起来，现推都来得及。而且你推导过几次，那个公式就逐步成为你永恒的记忆。
　　由此可见，要在理解的基础上加以记忆。其实好多问题，你理解了，就记住了；你不理解它，硬性的记忆，可能用的时间很长，也记不住，就算记住也会忘得很快。
　　数学上的很多定理，你要把它记下来很难，但你要是把这个定理求证一遍，它就活灵活现地展现在你面前，这个定理你不用记就记住了。
希望回答有帮助
顺手采纳一下吧

机器学习中都有哪些重要的优化算法？

梯度下降是非常常用的优化算法。作为机器学习的基础知识，这是一个必须要掌握的算法。借助本文，让我们来一起详细了解一下这个算法。

前言

本文的代码可以到我的Github上获取：

https://github.com/paulQuei/gradient_descent

本文的算法示例通过Python语言实现，在实现中使用到了numpy和matplotlib。如果你不熟悉这两个工具，请自行在网上搜索教程。

关于优化

大多数学习算法都涉及某种形式的优化。优化指的是改变x以最小化或者最大化某个函数的任务。

我们通常以最小化指代大多数最优化问题。最大化可经由最小化来实现。

我们把要最小化或最大化的函数成为目标函数（objective function）或准则（criterion）。

我们通常使用一个上标*表示最小化或最大化函数的x值，记做这样：

[x^* = arg; min; f(x)]

优化本身是一个非常大的话题。如果有兴趣，可以通过《数值优化》和《运筹学》的书籍进行学习。

模型与假设函数

所有的模型都是错误的，但其中有些是有用的。– George Edward Pelham Box

模型是我们对要分析的数据的一种假设，它是为解决某个具体问题从数据中学习到的，因此它是机器学习最核心的概念。

针对一个问题，通常有大量的模型可以选择。

本文不会深入讨论这方面的内容，关于各种模型请参阅机器学习的相关书籍。本文仅以最简单的线性模型为基础来讨论梯度下降算法。

这里我们先介绍一下在监督学习（supervised learning）中常见的三个符号：

m，描述训练样本的数量

x，描述输入变量或特征

y，描述输出变量或者叫目标值

训练集会包含很多的样本，我们用表示其中第i个样本。

x是数据样本的特征，y是其目标值。例如，在预测房价的模型中，x是房子的各种信息，例如：面积，楼层，位置等等，y是房子的价格。在图像识别的任务中，x是图形的所有像素点数据，y是图像中包含的目标对象。

我们是希望寻找一个函数，将x映射到y，这个函数要足够的好，以至于能够预测对应的y。由于历史原因，这个函数叫做假设函数（hypothesis function）。

学习的过程如下图所示。即：首先根据已有的数据（称之为训练集）训练我们的算法模型，然后根据模型的假设函数来进行新数据的预测。

线性模型（linear model）正如其名称那样：是希望通过一个直线的形式来描述模式。线性模型的假设函数如下所示：

[h_\\theta(x) = \\theta_0 + \\theta_1 * x]

这个公式对于大家来说应该都是非常简单的。如果把它绘制出来，其实就是一条直线。

下图是一个具体的例子，即：的图形：

在实际的机器学习工程中，你会拥有大量的数据。这些数据会来自于某个数据源。它们存储在csv文件中，或者以其他的形式打包。

但是本文作为演示使用，我们通过一些简单的代码自动生成了需要的数据。为了便于计算，演示的数据量也很小。

import numpy as np

max_x = 10
data_size = 10
theta_0 = 5
theta_1 = 2

def get_data:
x = np.linspace(1, max_x, data_size)
noise = np.random.normal(0, 0.2, len(x))
y = theta_0 + theta_1 * x + noise
return x, y

这段代码很简单，我们生成了x范围是 [1, 10] 整数的10条数据。对应的y是以线性模型的形式计算得到，其函数是：。现实中的数据常常受到各种因素的干扰，所以对于y我们故意加上了一些高斯噪声。因此最终的y值为比原先会有轻微的偏离。

最后我们的数据如下所示：

x = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
y = [6.66, 9.11, 11.08, 12.67, 15.12, 16.76, 18.75, 21.35, 22.77, 24.56]

我们可以把这10条数据绘制出来这样就有一个直观的了解了，如下图所示：

虽然演示用的数据是我们通过公式计算得到的。但在实际的工程中，模型的参数是需要我们通过数据学习到的。所以下文我们假设我们不知道这里线性模式的两个参数是什么，而是通过算法的形式求得。

最后再跟已知的参数进行对比以验证我们的算法是否正确。

有了上面的数据，我们可以尝试画一条直线来描述我们的模型。

例如，像下面这样画一条水平的直线：

很显然，这条水平线离数据太远了，非常的不匹配。

那我们可以再画一条斜线。

我们初次画的斜线可能也不贴切，它可能像下面这样：

最后我们通过不断尝试，找到了最终最合适的那条，如下所示：

梯度下降算法的计算过程，就和这种本能式的试探是类似的，它就是不停的迭代，一步步的接近最终的结果。

代价函数

上面我们尝试了几次通过一条直线来拟合（fitting）已有的数据。

二维平面上的一条直线可以通过两个参数唯一的确定，两个参数的确定也即模型的确定。那如何描述模型与数据的拟合程度呢？答案就是代价函数。

代价函数（cost function）描述了学习到的模型与实际结果的偏差程度。以上面的三幅图为例，最后一幅图中的红线相比第一条水平的绿线，其偏离程度（代价）应该是更小的。

很显然，我们希望我们的假设函数与数据尽可能的贴近，也就是说：希望代价函数的结果尽可能的小。这就涉及到结果的优化，而梯度下降就是寻找最小值的方法之一。

对于每一个样本，假设函数会依据计算出一个估算值，我们常常用来表示。即。

很自然的，我们会想到，通过下面这个公式来描述我们的模型与实际值的偏差程度：

[(h_\\theta(x^i) - y^i)^2 = (\\widehaty^i - y^i)^2 = (\\theta_0 + \\theta_1 * x^i - y^i)^2]

请注意，是实际数据的值，是我们的模型的估算值。前者对应了上图中的离散点的y坐标，后者对应了离散点在直线上投影点的y坐标。

每一条数据都会存在一个偏差值，而代价函数就是对所有样本的偏差求平均值，其计算公式如下所示：

[L(\\theta) = \\frac 1m \\sum_i=1^m(h_\\theta(x^i) - y^i)^2 = \\frac 1m \\sum_i=1^m(\\theta_0 + \\theta_1 * x^i - y^i)^2]

当损失函数的结果越小，则意味着通过我们的假设函数估算出的结果与真实值越接近。这也就是为什么我们要最小化损失函数的原因。

借助上面这个公式，我们可以写一个函数来实现代价函数：

def cost_function(x, y, t0, t1):
cost_sum = 0
for i in range(len(x)):
cost_item = np.power(t0 + t1 * x[i] - y[i], 2)
cost_sum += cost_item
return cost_sum / len(x)

这个函数的代码应该不用多做解释，它就是根据上面的完成计算。

我们可以尝试选取不同的和组合来计算代价函数的值，然后将结果绘制出来：

import numpy as np
import matplotlib.pyplot as plt

from matplotlib import cm
from mpl_toolkits.mplot3d import Axes3D

theta_0 = 5
theta_1 = 2

def draw_cost(x, y):
fig = plt.figure(figsize=(10, 8))
ax = fig.gca(projection='3d')
scatter_count = 100
radius = 1
t0_range = np.linspace(theta_0 - radius, theta_0 + radius, scatter_count)
t1_range = np.linspace(theta_1 - radius, theta_1 + radius, scatter_count)
cost = np.zeros((len(t0_range), len(t1_range)))
for a in range(len(t0_range)):
for b in range(len(t1_range)):
cost[a][b] = cost_function(x, y, t0_range[a], t1_range[b])
t0, t1 = np.meshgrid(t0_range, t1_range)

ax.set_xlabel('theta_0')
ax.set_ylabel('theta_1')
ax.plot_surface(t0, t1, cost, cmap=cm.hsv)

在这段代码中，我们对和各自指定了一个范围进行100次的采样，然后以不同的组合对来计算代价函数的值。

如果我们将所有点的代价函数值绘制出来，其结果如下图所示：

从这个图形中我们可以看出，当越接近 [5, 2]时其结果（偏差）越小。相反，离得越远，结果越大。

直观解释

从上面这幅图中我们可以看出，代价函数在不同的位置结果大小不同。

从三维的角度来看，这就和地面的高低起伏一样。最高的地方就好像是山顶。

而我们的目标就是：从任意一点作为起点，能够快速寻找到一条路径并以此到达图形最低点（代价值最小）的位置。

而梯度下降的算法过程就和我们从山顶想要快速下山的做法是一样的。

在生活中，我们很自然会想到沿着最陡峭的路往下行是下山速度最快的。如下面这幅图所示：

针对这幅图，细心的读者可能很快就会有很多的疑问，例如：

对于一个函数，怎么确定下行的方向？

每一步该往前走多远？

有没有可能停留在半山腰的平台上？

这些问题也就是本文接下来要讨论的内容。

算法描述

梯度下降算法最开始的一点就是需要确定下降的方向，即：梯度。

我们常常用来表示梯度。

对于一个二维空间的曲线来说，梯度就是其切线的方向。如下图所示：

而对于更高维空间的函数来说，梯度由所有变量的偏导数决定。

其表达式如下所示：

[\\nabla f(\\theta) = ( \\frac\\partial f(\\theta)\\partial \\theta_1 , \\frac\\partial f(\\theta)\\partial \\theta_2 , ... , \\frac\\partial f(\\theta)\\partial \\theta_n )]

在机器学习中，我们主要是用梯度下降算法来最小化代价函数，记做：

[\\theta ^* = arg min L(\\theta)]

其中，L是代价函数，是参数。

梯度下降算法的主体逻辑很简单，就是沿着梯度的方向一直下降，直到参数收敛为止。

记做：

[\\theta ^k + 1_i = \\theta^k_i - \\lambda \\nabla f(\\theta^k)]

这里有几点需要说明：

收敛是指函数的变化率很小。具体选择多少合适需要根据具体的项目来确定。在演示项目中我们可以选择0.01或者0.001这样的值。不同的值将影响算法的迭代次数，因为在梯度下降的最后，我们会越来越接近平坦的地方，这个时候函数的变化率也越来越小。如果选择一个很小的值，将可能导致算法迭代次数暴增。

公式中的称作步长，也称作学习率（learning rate）。它决定了每一步往前走多远，关于这个值我们会在下文中详细讲解。你可以暂时人为它是一个类似0.01或0.001的固定值。

在具体的项目，我们不会让算法无休止的运行下去，所以通常会设置一个迭代次数的最大上限。

线性回归的梯度下降

有了上面的知识，我们可以回到线性模型代价函数的梯度下降算法实现了。

首先，根据代价函数我们可以得到梯度向量如下：

[\\nabla f(\\theta) = (\\frac\\partial L(\\theta) \\partial\\theta_0, \\frac \\partial L(\\theta) \\partial\\theta_1) = (\\frac 2m \\sum_i=1^m(\\theta_0 + \\theta_1 * x^i - y^i) , \\frac 2m \\sum_i=1^m(\\theta_0 + \\theta_1 * x^i - y^i) x^i)]

接着，将每个偏导数带入迭代的公式中，得到：

[\\theta_0 := \\theta_0 - \\lambda \\frac\\partial L(\\theta_0) \\partial\\theta_0 = \\theta_0 - \\frac 2 \\lambda m \\sum_i=1^m(\\theta_0 + \\theta_1 * x^i - y^i) \\ \\theta_1 := \\theta_1 - \\lambda \\frac\\partial L(\\theta_1) \\partial\\theta_1 = \\theta_1 - \\frac 2 \\lambda m \\sum_i=1^m(\\theta_0 + \\theta_1 * x^i - y^i) x^i]

由此就可以通过代码实现我们的梯度下降算法了，算法逻辑并不复杂：

learning_rate = 0.01

def gradient_descent(x, y):
t0 = 10
t1 = 10
delta = 0.001
for times in range(1000):
sum1 = 0
sum2 = 0
for i in range(len(x)):
sum1 += (t0 + t1 * x[i] - y[i])
sum2 += (t0 + t1 * x[i] - y[i]) * x[i]
t0_ = t0 - 2 * learning_rate * sum1 / len(x)
t1_ = t1 - 2 * learning_rate * sum2 / len(x)
print('Times: , gradient: [, ]'.format(times, t0_, t1_))
if (abs(t0 - t0_) < delta and abs(t1 - t1_) < delta):
print('Gradient descent finish')
return t0_, t1_
t0 = t0_
t1 = t1_
print('Gradient descent too many times')
return t0, t1

这段代码说明如下：

我们随机选择了都为10作为起点

设置最多迭代1000次

收敛的范围设为0.001

学习步长设为0.01

如果我们将算法迭代过程中求得的线性模式绘制出来，可以得到下面这幅动态图：

最后算法得到的结果如下：

Times: 657, gradient: [5.196562662718697, 1.952931052920264]
Times: 658, gradient: [5.195558390180733, 1.9530753071808193]
Times: 659, gradient: [5.194558335124868, 1.9532189556399233]
Times: 660, gradient: [5.193562479839619, 1.9533620008416623]
Gradient descent finish

从输出中可以看出，算法迭代了660次就收敛了。这时的结果[5.193562479839619, 1.9533620008416623]，这已经比较接近目标值 [5, 2]了。如果需要更高的精度，可以将delta的值调的更小，当然，此时会需要更多的迭代次数。

高维扩展

虽然我们举的例子是二维的，但是对于更高维的情况也是类似的。同样是根据迭代的公式进行运算即可：

[\\theta_i = \\theta_i - \\lambda \\frac \\partial L(\\theta)\\partial \\theta_i = \\theta_i - \\frac2\\lambdam \\sum_i=1^m(h_\\theta(x^k)-y^k)x_i^k]

这里的下标i表示第i个参数，上标k表示第k个数据。

梯度下降家族BGD

在上面的内容中我们看到，算法的每一次迭代都需要把所有样本进行遍历处理。这种做法称为之Batch Gradient Descent，简称BGD。作为演示示例只有10条数据，这是没有问题的。

但在实际的项目中，数据集的数量可能是几百万几千万条，这时候每一步迭代的计算量就会非常的大了。

于是就有了下面两个变种。

SGD

Stochastic Gradient Descent，简称SGD，这种算法是每次从样本集中仅仅选择一个样本来进行计算。很显然，这样做算法在每一步的计算量一下就少了很多。

其算法公式如下：

[\\theta_i = \\theta_i - \\lambda \\frac \\partial L(\\theta)\\partial \\theta_i = \\theta_i - \\lambda(h_\\theta(x^k)-y^k)x_i^k]

当然，减少算法计算量也是有代价的，那就是：算法结果会强依赖于随机取到的数据情况，这可能会导致算法的最终结果不太令人满意。

MBGD

以上两种做法其实是两个极端，一个是每次用到了所有数据，另一个是每次只用一个数据。

我们自然就会想到两者取其中的方法：每次选择一小部分数据进行迭代。这样既避免了数据集过大导致每次迭代计算量过大的问题，也避免了单个数据对算法的影响。

这种算法称之为Mini-batch Gradient Descent，简称MBGD。

其算法公式如下：

[\\theta_i = \\theta_i - \\lambda \\frac \\partial L(\\theta)\\partial \\theta_i = \\theta_i - \\frac2\\lambdam \\sum_i=a^a + b(h_\\theta(x^k)-y^k)x_i^k]

当然，我们可以认为SGD是Mini-batch为1的特例。

针对上面提到的算法变种，该如何选择呢？

下面是Andrew Ng给出的建议：

如果样本数量较小（例如小于等于2000），选择BGD即可。

如果样本数量很大，选择来进行MBGD，例如：64，128，256，512。

下表是 Optimization for Deep Learning 中对三种算法的对比

方法准确性更新速度内存占用在线学习BGD好慢高否SGD好（with annealing）快低是MBGD好中等中等是
算法优化

式7是算法的基本形式，在这个基础上有很多人进行了更多的研究。接下来我们介绍几种梯度下降算法的优化方法。

Momentum

Momentum是动量的意思。这个算法的思想就是借助了动力学的模型：每次算法的迭代会使用到上一次的速度作为依据。

算法的公式如下：

[v^t = \\gamma v^t - 1 + \\lambda \\nabla f(\\theta) \\ \\theta = \\theta - v_t]

对比式7可以看出，这个算法的主要区别就是引入了，并且，每个时刻的受前一个时刻的影响。

从形式上看，动量算法引入了变量 v 充当速度角色——它代表参数在参数空间移动的方向和速率。速度被设为负梯度的指数衰减平均。名称动量来自物理类比，根据牛顿运动定律，负梯度是移动参数空间中粒子的力。动量在物理学上定义为质量乘以速度。在动量学习算法中，我们假设是单位质量，因此速度向量 v 也可以看作是粒子的动量。

对于可以取值0，而是一个常量，设为0.9是一个比较好的选择。

下图是momentum算法的效果对比：

对原来的算法稍加修改就可以增加动量效果：

def gradient_descent_with_momentum(x, y):
t0 = 10
t1 = 10
delta = 0.001
v0 = 0
v1 = 0
gamma = 0.9
for times in range(1000):
sum1 = 0
sum2 = 0
for i in range(len(x)):
sum1 += (t0 + t1 * x[i] - y[i])
sum2 += (t0 + t1 * x[i] - y[i]) * x[i]
v0 = gamma * v0 + 2 * learning_rate * sum1 / len(x)
v1 = gamma * v1 + 2 * learning_rate * sum2 / len(x)
t0_ = t0 - v0
t1_ = t1 - v1
print('Times: , gradient: [, ]'.format(times, t0_, t1_))
if (abs(t0 - t0_) < delta and abs(t1 - t1_) < delta):
print('Gradient descent finish')
return t0_, t1_
t0 = t0_
t1 = t1_
print('Gradient descent too many times')
return t0, t1

以下是该算法的输出：

Times: 125, gradient: [4.955453758569991, 2.000005017897775]
Times: 126, gradient: [4.955309381126545, 1.9956928964532015]
Times: 127, gradient: [4.9542964317327005, 1.9855674828684156]
Times: 128, gradient: [4.9536358220657, 1.9781180992510465]
Times: 129, gradient: [4.95412496254411, 1.9788858350530971]
Gradient descent finish

从结果可以看出，改进的算法只用了129次迭代就收敛了。速度比原来660次快了很多。

同样的，我们可以把算法计算的过程做成动态图：

对比原始的算法过程可以看出，改进算法最大的区别是：在寻找目标值时会在最终结果上下跳动，但是越往后跳动的幅度越小，这也就是动量所产生的效果。

Learning Rate 优化

至此，你可能还是好奇该如何设定学习率的值。

事实上，这个值的选取需要一定的经验或者反复尝试才能确定。

关键在于，这个值的选取不能过大也不能过小。

如果这个值过小，会导致每一次迭代的步长很小，其结果就是算法需要迭代非常多的次数。

那么，如果这个值过大会怎么样呢？其结果就是：算法可能在结果的周围来回震荡，却落不到目标的点上。下面这幅图描述了这个现象：

事实上，学习率的取值未必一定要是一个常数，关于这个值的设定有很多的研究。

下面是比较常见的一些改进算法。

AdaGrad

AdaGrad是Adaptive Gradient的简写，该算法会为每个参数设定不同的学习率。它使用历史梯度的平方和作为基础来进行计算。

其算法公式如下：

[\\theta_i = \\theta_i - \\frac\\lambda\\sqrtG_t + \\epsilon \\nabla f(\\theta)]

对比式7，这里的改动就在于分号下面的根号。

根号中有两个符号，第二个符号比较好理解，它就是为了避免除0而人为引入的一个很小的常数，例如可以设为：0.001。

第一个符号的表达式展开如下：

[G_t = \\sum_i = 1^t \\nabla f(\\theta)i\\nabla f(\\theta)i^T]

这个值其实是历史中每次梯度的平方的累加和。

AdaGrad算法能够在训练中自动的对learning rate进行调整，对于出现频率较低参数采用较大的学习率；相反，对于出现频率较高的参数采用较小的学习率。因此，Adagrad非常适合处理稀疏数据。

但该算法的缺点是它可能导致学习率非常小以至于算法收敛非常的慢。

关于这个算法的直观解释可以看李宏毅教授的视频课程：ML Lecture 3-1: Gradient Descent。

RMSProp

RMS是Root Mean Square的简写。RMSProp是AI教父Geoff Hinton提出的一种自适应学习率方法。AdaGrad会累加之前所有的梯度平方，而RMSProp仅仅是计算对应的平均值，因此可缓解Adagrad算法学习率下降较快的问题。

该算法的公式如下：

[E[\\nabla f(\\theta_i)^2]^t = \\gamma E[\\nabla f(\\theta_i)^2]^t - 1 + (1-\\gamma)(\\nabla f(\\theta_i)^t)^2 \\ \\theta_i = \\theta_i - \\frac\\lambda\\sqrtE[g^2]^t+1 + \\epsilon \\nabla f(\\theta_i)]

类似的，是为了避免除0而引入。是衰退参数，通常设为0.9。

这里的是t时刻梯度平方的平均值。

Adam

Adam是Adaptive Moment Estimation的简写。它利用梯度的一阶矩估计和二阶矩估计动态调整每个参数的学习率。

Adam的优点主要在于经过偏置校正后，每一次迭代学习率都有个确定范围，使得参数比较平稳。

该算法公式如下：

[m^t = \\beta_1 m^t-1 + (1-\\beta_1) \\nabla f(\\theta) \\ v^t = \\beta_2 v^t-1 + (1-\\beta_2) \\nabla f(\\theta)^2 \\ \\widehatm^t = \\fracm^t1 - \\beta^t_1 \\ \\widehatv^t = \\fracv^t1 - \\beta^t_2 \\ \\theta = \\theta - \\frac\\lambda\\sqrt\\widehatv^t + \\epsilon\\widehatm^t]

，分别是对梯度的一阶矩估计和二阶矩估计。，是对，的校正，这样可以近似为对期望的无偏估计。

Adam算法的提出者建议默认值为0.9，默认值为0.999，默认值为。

在实际应用中，Adam较为常用，它可以比较快地得到一个预估结果。

优化小结

这里我们列举了几种优化算法。它们很难说哪种最好，不同的算法适合于不同的场景。在实际的工程中，可能需要逐个尝试一下才能确定选择哪一个，这个过程也是目前现阶段AI项目要经历的工序之一。

实际上，该方面的研究远不止于此，如果有兴趣，可以继续阅读《Sebastian Ruder: An overview of gradient descent optimization algorithms》这篇论文或者 Optimization for Deep Learning 这个Slides进行更多的研究。

由于篇幅所限，这里不再继续展开了。

算法限制

梯度下降算法存在一定的限制。首先，它要求函数必须是可微分的，对于不可微的函数，无法使用这种方法。

除此之外，在某些情况下，使用梯度下降算法在接近极值点的时候可能收敛速度很慢，或者产生Z字形的震荡。这一点需要通过调整学习率来回避。

另外，梯度下降还会遇到下面两类问题。

局部最小值

局部最小值（Local Minima）指的是，我们找到的最小值仅仅是一个区域内的最小值，而并非全局的。由于算法的起点是随意取的，以下面这个图形为例，我们很容易落到局部最小值的点里面。

这就是好像你从上顶往下走，你第一次走到的平台未必是山脚，它有可能只是半山腰的一个平台的而已。

算法的起点决定了算法收敛的速度以及是否会落到局部最小值上。

坏消息是，目前似乎没有特别好的方法来确定选取那个点作为起点是比较好的，这就有一点看运气的成分了。多次尝试不同的随机点或许是一个比较好的方法，这也就是为什么做算法的优化这项工作是特别消耗时间的了。

但好消息是：

对于凸函数或者凹函数来说，不存在局部极值的问题。其局部极值一定是全局极值。

最近的一些研究表明，某些局部极值并没有想象中的那么糟糕，它们已经非常的接近全局极值所带来的结果了。

鞍点

除了Local Minima，在梯度下降的过程中，还有可能遇到另外一种情况，即：鞍点（Saddle Point）。鞍点指的是我们找到点某个点确实是梯度为0，但它却不是函数的极值，它的周围既有比它小的值，也有比它大的值。这就好像马鞍一样。

如下图所示：

多类随机函数表现出以下性质：在低维空间中，局部极值很普遍。但在高维空间中，局部极值比较少见，而鞍点则很常见。

不过对于鞍点，可以通过数学方法Hessian矩阵来确定。关于这点，这里就不再展开了，有兴趣的读者可以以这里提供的几个链接继续探索。

参考资料与推荐读物

Wikipeida: Gradient descent

Sebastian Ruder: An overview of gradient descent optimization algorithms

吴恩达：机器学习

吴恩达：深度学习

Peter Flach：机器学习

李宏毅 - ML Lecture 3-1: Gradient Descent

PDF: 李宏毅 - Gradient Descent

Intro to optimization in deep learning: Gradient Descent

Intro to optimization in deep learning: Momentum, RMSProp and Adam

Stochastic Gradient Descent – Mini-batch and more

刘建平Pinard - 梯度下降（Gradient Descent）小结

多元函数的偏导数、方向导数、梯度以及微分之间的关系思考

[Machine Learning] 梯度下降法的三种形式BGD、SGD以及MBGD

参考技术A

在机器学习中，一些重要的优化算法包括：

梯度下降：一种常见的优化算法，可以最小化损失函数。

随机梯度下降（SGD）：是一种快速但不稳定的优化算法，可以解决大数据集上的优化问题。

动量梯度下降：是一种在SGD算法上的改进，通过引入动量因子来提高优化稳定性。

Adagrad：是一种对于不同特征的学习率动态调整的优化算法。

Adadelta：是一种对Adagrad的改进，不需要记录每个参数的历史梯度平方和。

RProp：是一种基于梯度的优化算法，通过适当的学习率调整来加速优化过程。

Adam：是一种以梯度下降和动量梯度下降为基础的优化算法，通过自适应学习率调整来提高稳定性和效率。

这只是机器学习中一些常见的优化算法，在不同情况下可以选择不同的优化算法来提高模型的性能。

以上是关于初中三角函数的知识点都有哪些，怎么学习的主要内容，如果未能解决你的问题，请参考以下文章

初中数学应掌握的数学家及其巨著都有哪些

怎么样学习熟练win32 api？需要掌握哪些知识点、要点？

python学习，需要都有哪些基础呢？

求初中高中数学中，关于三角函数、圆、弧一系列相关知识点的讲解及公式

想做一个Python工程师，都有哪些技能是必备的？

c++中命名空间std的函数都有哪些