数据结构-概述

数据结构

数据结构是一门研究非数值计算的程序设计问题中的操作对象,以及它们之间的关系和操作等相关问题的学科
在现实世界中,不同数据元素之间不是独立的,而是存在特定的关系,我们将这些关系成为结构
数据结构:是相互之间存在一种或多种特定关系的数据元素的集合
数据结构+算法=程序

基本概念和术语

数据

在这里插入图片描述
数据:是描述客观事物的符号,是计算机中可以操作的对象,是能被计算机识别,并输入给计算机处理的符号集合

数据对象

数据对象:是性质相同的数据元素的集合,是数据的子集

数据元素

数据元素:是组成数据的、有一定意义的基本单位,在计算机中通常作为整体处理。也被称为记录。
比如,在人类中,什么是数据元素,当然是人

数据项

数据项:一个数据元素可以由若干个数据项组成
比如人这样的数据元素,可以有眼、耳朵、手、这些数据项
数据项是数据不可分割的最小单位

数据结构主要分类

  • 线性结构
    数组;栈;队列;链表;哈希表…
  • 树结构
    二叉树;二分搜索树;AVL;红黑树;Treap;Splay;堆;Trie;线段树;K-D树;并查集;哈夫曼树…
  • 图结构
    邻接矩阵;邻接表…

在计算机中的数据结构

  • 数据库:主要用树结构,哈希表制作
  • 操作系统:多任务切换,系统栈,优先队列(堆),文件系统(树)
  • 文件压缩:哈弗曼树(已淘汰)
  • 通讯录:链表→Trie前缀树
  • 游戏中寻路:图论算法,DFS(深度优先遍历)使用栈, BFS(广度优先遍历)使用队列

逻辑结构与物理结构

在这里插入图片描述

逻辑结构

数据结构之逻辑结构是指数据元素之间的相互关系,是我们想象出来的,并没有实质性的将其存储在计算机中,主要分为以下四种:

  • 集合结构
    集合结构中的数据元素除了同属于一个集合外,它们之间没有其他关系。
    在这里插入图片描述
  • 线性结构
    线性结构中的数据元素之间是一对一的关系
    在这里插入图片描述
  • 树形结构
    树形结构中的数据元素之间存在一种一对多的层次关系
    在这里插入图片描述
  • 图形结构
    图形结构的数据元素是多对多的关系
    在这里插入图片描述

物理结构

是指数据的逻辑结构在计算机中的存储形式,主要分为顺序存储结构和链式存储结构

  • 顺序存储结构是把数据元素存放在地址连续的存储单元里,其数据间的逻辑关系和物理关系是一致的
  • 链式存储结构是把数据元素存放在任意的存储单元里,这组存储单元可以是连续的,也可以是不连续的。数据元素的存储关系并不能反映其逻辑关系,因此需要用一个指针存放数据元素的地址,这样通过地址就可以找到相关联数据元素的位置。

抽象数据类型

** 数据类型:是指一组性质相同的值的集合及定义在此集合上的一些操作的总称**
抽象数据类型:是指一个数据模型及定义在该模型上的一组操作
抽象的意义在于数据类型的数学抽象特性
抽象数据类型体现了程序设计中问题分解、抽象和信息隐藏的特性

  • 原子类型:是不可以在分解的基本类型、包括整型、实型、字符型等
  • 结构类型:由若干个类型组合而成,是可以再分解的。例如,整型数组是由若干个整型数据组成的。
    抽象是抽取出事务具有的普遍性的本质

算法

是解决特定问题求解步骤的描述,在计算机最中表现为指令的有序序列,并且每条指令表示一个或多个操作

算法特性

  • 输入输出
    1、算法具有零个或多个输入
    2、至少有一个或多个输出
  • 有穷性
    指算法在执行有限的步骤之后,自动结束而不会出现无限循环,并且每一个步骤在可接受的时间内完成
  • 确定性
    算法的每一个步骤都具有确定的含义,不会出现二义性
  • 可行性
    算法的每一步骤都必须是可行的,也就是说,每一步都能通过执行有限次数完成

算法设计的要求

  • 正确性:是指算法至少应该具有输入、输出和加处理无歧义性、能正确反映问题得需求、能够得到问题的正确答案
  • 可读性:便于阅读、理解和交流
  • 健壮性:当输入数据不合法时,算法也能做出相关处理,而不是产生异常或莫名其妙的结果
  • 时间效率高和存储量低

算法效率度量方法

  • 事后统计方法:通过设计好的测试程序和数据,利用计算机计时器对不同算法编制的程序的运行时间进行比较,从而确定算法效率的高低。
  • 事前分析估算方法
  • 一个高级程序语言编写的程序在计算机上运行时所消耗的时间取决于下列因素:
    1、算法采用的策略、方法
    2、编译产生的代码质量
    3、问题的输入规模
    4、机器执行指令的速度
  • 一个程序的运行时间,依赖于算法的好坏和问题的输入规模。所谓问题输入规模是指输数据入量的多少。
  • 判断一个算法的效率时,函数中的常数和其它次要项可以忽略,更应该关注主项的阶数。

算法时间复杂度

  • 算法时间复杂度定义
    在进行算法分析时,语句总的执行次数T(n)是关于问题规模n的函数,进而分析T(n)随n的变化情况并确定T(n)的数量级。算法的时间复杂度,也就是算法的时间量度,记作:T(n)=O(f(n))。它表示随着问题规模n的增大,算法执行时间的增长率和f(n)的增长率相同,称作算法的渐进时间复杂度。简称时间复杂度。其中f(n)是问题规模n的某个函数
    推到大O阶方法
    1、用常数1取代运行时间中的所有加法常数
    2、在修改后的运行次数函数中,只保留最高阶项
    3、如果最高阶项存在且不是1,则去除与这个项相乘的常数得到的结果就是大O阶。
  • 常数阶 O(1)
  • 线性阶 O(n)
for(int i=1;i<=N;i++){ //执行N+1次
	sum+=i; //执行N次
}

忽略常数,忽略N的系数

  • 对数阶O(logn)
int count=1;
int N=100000;
while(count<N){
	count=count*2;
}
  • 平方阶 O(n^2)
for(int i=0;i<N;i++){
	for(int j=0;j<N;j++){
	}
}
  • 常用时间复杂度从小到大排序:
    在这里插入图片描述

前100相加

在这里插入图片描述