admin管理员组

文章数量:1567045

2024年7月3日发(作者:)

典型系统分析

·齐越 吴玲达 李梦君 段晓鹃(计算机世界2000/9)

---- 构造一个成功的虚拟空间会议(VST)系统需要解决三维虚拟会场的构造、沉浸感显示

系统的设计、“虚拟人”的建模与实时再现等问题。VLNet、FreeWalk等系统分别从不同的侧

面重点研究了一些问题,取得了一定的经验。下面我们重点介绍VLNet、FreeWalk和North

Carolina大学在Multimedia99上推介的虚拟空间会议系统以及我们研制的系统VST1。

VLNet系统

----VLNet(virtual life network)系统是瑞士日内瓦大学 MiraLab实验室和瑞士联邦技术学院(EPLF)

计算机图形实验室1997年研制的分布式协作虚拟环境。该系统把人工智能技术和虚拟现实技术结合起

来,创造了一个真实的虚拟环境。

----1.系统结构

----由于大规模虚拟环境仿真系统比较复杂,VLNet采用多进程的结构,不同进程处理不同的

任务。其进程分为核心进程(core process)和外部驱动程序进程(extern driver process) 两类。核

心进程完成主要的仿真任务,并为外部驱动程序(如显示、数据库操作等)提供底层接口。

核心进程有以下4个引擎(engine),它们把VE的主要功能分成独立的模块,并负责资源管

理。

----对象行为引擎 对改变或查询对象在场景中的定义和行为以及对象之间的碰撞检测请求进

行处理。

----导航引擎 把用户输入和导航、对象选择和操纵连接起来。输入指整个身体位置的相对和

绝对坐标,以及选择或释放对象的请求。

----面部表情引擎 把VLNet和外部的面部驱动程序连接起来,包含来自外部面部驱动程序的

摄像机视频图像,并把它们放到内部共享内存和输出消息队列中。

----身体姿态引擎 为身体姿态提供外部接口,包括关节角度或在整体中的位置,以及激活身

体的高层参数。这个引擎允许定义身体的多层控制,以及把不同外部身体驱动程序的输出融

合到一个最终的姿态。

----2.虚拟人的建模

控制身体姿态需要有与人体骨骼相对应的关节结构。在 VLNet中,人体模型关节的自由

度为75度,另外,每只手又有额外的30度自由度。骨架用 3D关节层表示。不同的身体实

体可以通过缩放肢体来创建。

VLNet把人体分成17个部分,即头、颈、上下躯干、臀、左右上下臂、左右手、左右上

下腿、左右脚。由于头、手和脚的表面十分复杂,所以用三角形片表示。

虚拟人的姿态和面部表情可用各部分的位置、关节角度、面部片状态等参数进行设置。

3.虚拟人的控制

在VLNet中,与会者在虚拟环境中用替身表示,因此,与会者必须能够实时地激活其替身。

但是,虚拟人的表示需要对与会者的很多自由度进行跟踪,所以,控制十分复杂。而与会者

与环境的交互更增加了控制的难度。因此,虚拟人的控制应该使用更高层的机制。VLNet按

照对虚拟人的控制方法,把虚拟人分成三类:

直接控制的虚拟人 虚拟人的关节和面部表示通过几何学方法直接修改。例如,使用传感

器跟踪与会者每个关节的自由度。VLNet使用预先存储的试验数据进行控制,以右手为例,

假定有6个自由度,可通过传感器获取它们。在右臂进行输入时,身体驱动程序控制的手臂

可以计算关节角度。手臂运动使用的试验数据通过传感器获取以及存储在预先计算的手臂关

节表中。

用户指导的虚拟人 通过定义任务,外部驱动程序可以控制虚拟人,但虚拟人不能直接响

应用户的运动。用户在高层次上定义虚拟人的运动,比如只需用方向和速度这两个参数就可

控制虚拟人的行走。

自主的虚拟人 虚拟人具有由目标和传感器信息构造的内部状态。与会者通过定义高层动

机和状态变化,对状态进行修改。在VLNet中,构造了行为动机和适当的交互机制,自主的

虚拟人可以通过提供服务(如帮助导航)改善用户的使用环境。这些虚拟人不需要用户指导,

就能够自主地完成它们的任务。

4.面部表情交互

面部表情可用以下4种表示方法:

面部的视频纹理 把连续的用户面部视频纹理映射到虚拟人的脸上。面部表情驱动程序完

成视频捕获和分析,包括视频抓取、从背景中提取出面部信息。经压缩后传到面部表示引擎,

由它送至通信进程。通信进程通过网络将图像发送到远端的与会者。在接收端,通信进程接

收图像,然后将其传至面部表示引擎,并负责解压缩,最终把图像纹理映射到虚拟人的脸上。

面部表情基于模型的编码 分析面部图像,然后提取表示面部表情的参数,并将这些参数

发送到远端与会者。从视频中准确地分析和识别面部表情需要计算大量的面部特征参数,而

VLNet的实时性要求很高,所以它只分析几个面部特征点。初始时,用户在图像上画一个模

板,交互地调整好面部图像在模板上的位置,并画上标记点。当面部表情变化时,根据标记

点位置的变化,就可以计算出面部表情参数。

讲话时嘴唇运动的合成 为了让与会者知道谁在发言,面部表示引擎需要合成相应的嘴唇

运动,即在说话时控制嘴唇的开和关。

预先定义的表情 预先定义好面部表情,用户可从中选择,然后发给其他与会者。这很像

E-mail中表达感情的方式。

总之,VLNet系统能够构造一个大规模的虚拟环境,用户能以“虚拟人”的方式进入虚拟环

境中,并与远地的其他用户交互。用户除能与虚拟环境实时交互外,还可以相互间感受到彼

此的表情、姿势等。该系统以虚拟人的建模与应用而著名,但系统缺乏对虚拟环境中协作机

制的研究。

FreeWalk系统

FreeWalk系统由日本京都大学研制,其目的是在计算机网络构造的社区中,人们可以在公共的3D

虚拟空间里随时进行交流。

1.交互行为的设计

(1) 3D社区

FreeWalk构造了一个虚拟的3D环境,供人们进行交流。参与者使用鼠标在环境中漫游,

选择不同的人进行交谈。所传输的图像和声音由参与者在空间的位置和视线方向决定。在

FreeWalk中,3D金字塔式的多边形表示每个参与者。系统将参与者的视频实时映射到多边

形的平面上,参与者的视点在这个矩形的中间。在3D环境中,当参与者远离时,3D多边形

变得很小;当靠得很近时,则变得很大。声音的传输也是如此。

(2) 随时接触的仿真

在FreeWalk中,参与者通过导航系统寻找其他参与者,一旦找到就可以进行交谈。由于

参与者的位置和视线方向决定了多边形的方向,所以,每个参与者都可以从远距离观察到其

他参与者的位置和方向以及他们在做什么。参与者还可以通过转头观察其周围的其他参与者。

由于距离会削弱声音的大小,所以,参与者必须靠近其他参与者才能进行交谈。另一方面,

在交谈中不仅参与者能够听到说话者的声音,而且周围其他人也能够听到这个声音。人们可

以根据听到的话题,按照自己的兴趣加入到谈话中。当然还可以离开一个谈话组,退出会谈,

或靠近其他小组,加入他们的会谈。

(3) 会谈组的组织

相互间靠得很近并进行交谈的人构成一个组。由于声音大小的变化与发送者和接收者之间

的距离成比例,所以,要进行秘密会谈就要靠得很近。如果组与组之间距离很远,则不同组

之间的人们就听不到对方的谈话。这样,参与者就可以构成不同的会议组,而相互间互不打

扰。这一特性使FreeWalk适用于社交聚会。

2.系统设计

FreeWalk系统包括传输服务器和客户端,每一侧都包括视频和音频处理器。

当参与者使用鼠标在3D空间中漫游时,相应的客户端将计算其位置和方向,并将其发送

到社区服务器上。服务器把该信息编辑后存入客户端列表中,最终把该表发送到每个客户端。

由于服务器和客户端之间只进行信息传输,因此,社区服务器能够有效地维持社区中正在进

行的各种活动。客户端接收到信息后,其视频系统就向其他客户端发送自己的画面。接收端

一旦接收到来自其他客户端的画面,其视频系统则根据列表中的信息和接收到的画面,重新

进行显示。

由于每个客户端不能看到其他所有的客户端,所以,客户端不必把自己的画面发送给其他

所有客户端。当然,客户端也不必把整幅画面发送到远离他的客户端。根据这些规则,FreeWalk

按下面的方法优化视频通信的带宽:

发送方将发送画面按接收方需要的大小进行调整,然后发送;

客户端把画面发送给能够看到他的那些客户端。

声音传输也是如此。FreeWalk的客户端不把声音发送到那些距离很远且听不到参与者声音

的客户端。

FreeWalk在虚拟环境中交互行为的描述与再现、视音频优化传输等方面表现较为突出。但

它没有构造与会者三维替身的功能,也不能把与会者从背景中提取出来,因而在虚拟会场的

构造与合成方面功能比较弱。

North Carolina大学的研究

目前的视频会议系统由于受到网络带宽的限制,图像的分辨率和帧刷新率都很低。另外,由于受普

通摄像机视域的限制,图像的视域也很小。即使网络带宽提高了,使用这样的技术构造虚拟会议系统

也是无法实现遥现和沉浸感的。针对图像分辨率和视域问题,North Carolina大学计算机科学系的Aditi

Majumder等人提出了一套解决方案,用高分辨率的全景视频(或广视域视频)构造虚拟空间。

1.拍摄系统

----研究人员经常把所有摄像机放在一个点上,使它们具有相同的投影中心,但拍摄的方向相

隔一定的角度。这样,不需要知道场景的深度信息,就可以把拍摄的图像无缝地拼接在一起,

而拼接后的图像的分辨率不变。这种摄像机组称为广视域 (widefieldofview) 摄像机

组。但事实上这是做不到的。为此,North Carolina大学提出一个新的方法,将12个摄像机

分成两组,上下各6个,如下图所示。由于这6个摄像机并不是真正地在同一个位置上,所

以,让每个摄像机对应一个反射镜。将反射镜中的图像进行校正就可以拼接成一个大的全景

图像。这样就可以模拟虚拟摄像机360度视域。摄像机组的构造是比较困难的,需要十分小

心地校正摄像机的位置。

----2.显示系统

----视频会议通常使用平面显示系统,如CRT设备。但这种系统存在两个问题,一是图像大

小总是小于实际景物大小;二是如果使用广视域拍摄设备,则CRT无法显示广视域图像。

North Carolina大学采用投影机显示大范围图像,只要调整好多个投影机的位置,就可以显示

广视域图像。

----North Carolina大学的Aditi majumder教授在1999年的 ACM Multimedia年会上发表了一

系列论文,主要是介绍他们的全景视频采集系统与大视域虚拟会场显示系统,引起了与会者

的广泛关注,为VST系统的研究开拓了一个新的空间。

VST-1系统

VST-1是国防科技大学管理科学与工程系多媒体技术室最近研制成功的VST原型系统。它可以构

造一个三维虚拟会议空间,并可将所有与会者合成到同一个虚拟会场中,实现与会者视频、音频在虚

拟会场中的空间合成;支持与会者之间自然的交互方式,如目光凝视、身体语言等;可为与会者提供

多种三维输入设备(如数据手套、三维鼠标)与虚拟空间对象进行交互的能力。

----1.系统运行环境

----VST-1由多个虚拟会议终端与多点合成服务器(multiparty compositing server,MCS)组成,

虚拟会议终端与MCS之间采用10M交换式以太网相连。虚拟会议终端又分为普通终端与主

席终端。普通终端由单台高性能PC机担任;主席终端由四台高性能PC机担任,三台分别用

于控制三个大屏幕投影机,一台用于控制其他三台机的同步显示。

----2.虚拟会场显示系统

----为实现虚拟会场的宽视域显示,我们设计了使用三个大屏幕投影机组成的显示系统。每个

投影机屏幕宽2米,高1.5米,投影机之间组成160度的夹角。这样,用户在离投影机4米

的位置上观察虚拟会场,具有80度的观察视角。

----每台大屏幕投影机由一台高性能计算机控制显示,主控计算机控制每个显示计算机,使之

在显示视线、显示速度上保持一致,以实现多台计算机的同步显示。VST-1的显示系统能够

提供比较大的观察视角,支持多人共享,并能够将虚拟会场与实际的会场环境进行无缝融合,

实现和谐的人机交互环境。

----3.虚拟会场合成

----虚拟会场合成需要完成视觉空间和听觉空间两个层次的合成。

----视觉空间合成 包括多屏虚拟会场绘制、与会者视频合成以及虚拟对象合成三个组成部分。

VST-1采用Sense8公司的WorldToolKit虚拟现实软件平台实现视觉空间合成,系统在虚拟会

议终端会场合成单元的每一台高性能PC机上,以单独的处理线程运行WTK仿真管理程序,

完成虚拟会场的视觉空间合成。

----听觉空间合成 指当MCS不进行语音合成时,由虚拟会议终端完成各路与会者语音的合

成。VST-1设计实现了基于DirectSound的终端语音合成。

----虚拟会议终端为每一个与会者创建语音缓冲区,缓冲区的三维空间属性与与会者在虚拟会

场中的空间位置和方向相对应,与会者的音频数据以流的形式动态填充到其语音缓冲区中,

由DirectSound完成多路语音合成。

有话要说 打印 保存 关闭

本文标签: 系统虚拟进行与会者参与者