<html><body><div id="zimbraEditorContainer" style="font-family: garamond,new york,times,serif; font-size: 12pt; color: #000000" class="10"><div></div><div data-marker="__QUOTED_TEXT__"><p style="margin-left: 50px;" data-mce-style="margin-left: 50px;">Shuran Song will present her FPO "Data-Driven 3D Scene Understanding" on&nbsp;Tuesday, 10/23/2018 at 10am in CS 402.</p><p style="margin-left: 50px;" data-mce-style="margin-left: 50px;">The members of her committee are as follows:&nbsp; <!--StartFragment--><span style="color: #000000; font-family: garamond, 'new york', times, serif; font-size: 16px; font-style: normal; font-variant-ligatures: normal; font-variant-caps: normal; font-weight: 400; letter-spacing: normal; orphans: 2; text-align: start; text-indent: 0px; text-transform: none; white-space: normal; widows: 2; word-spacing: 0px; -webkit-text-stroke-width: 0px; background-color: #ffffff; text-decoration-style: initial; text-decoration-color: initial; display: inline !important; float: none;" data-mce-style="color: #000000; font-family: garamond, 'new york', times, serif; font-size: 16px; font-style: normal; font-variant-ligatures: normal; font-variant-caps: normal; font-weight: 400; letter-spacing: normal; orphans: 2; text-align: start; text-indent: 0px; text-transform: none; white-space: normal; widows: 2; word-spacing: 0px; -webkit-text-stroke-width: 0px; background-color: #ffffff; text-decoration-style: initial; text-decoration-color: initial; display: inline !important; float: none;">Thomas Funkhouser (adviser); Examiners:&nbsp;</span>Adam Finkelstein,&nbsp;Szymon Rusinkiewicz, and Thomas Funkhouser; Readers:&nbsp;Olga Russakovsky and&nbsp;Alberto Rodriguez (MIT)</p><p style="margin-left: 50px;" data-mce-style="margin-left: 50px;">A copy of her thesis is available upon request.</p><p style="margin-left: 50px;" data-mce-style="margin-left: 50px;">Everyone is invited to attend her talk. The talk title and abstract follow below:</p><div><div>Intelligent robots require advanced vision capabilities to perceive and interact with</div><div>the real physical world. While computer vision has made great strides in recent</div><div>years, its predominant paradigm still focuses on analyzing image pixels to infer two</div><div>dimensional outputs (e.g. 2D bounding boxes, or labeled 2D pixels.), which remain</div><div>far from sufficient for real-world robotics applications.</div><div>This dissertation presents the use of amodal 3D scene representations that enable</div><div>intelligent systems to not only recognize what is seen (e.g. Am I looking at a chair?),</div><div>but also predict contextual information about the complete 3D scene beyond visible</div><div>surfaces (e.g. What could be behind the table? Where should I look to  find an exit?).</div><div>More specifically, it presents a line of work that demonstrates the power of these</div><div>representations: First it shows how 3D amodal scene representation can be used to</div><div>improve the performance of a traditional tasks such as object detection. We present</div><div>SlidingShapes and DeepSlidingShapes for the task of amodal 3D object detection,</div><div>where the system is designed to fully exploit the advantage of 3D information provided</div><div>by depth images. Second, we introduce the task of semantic scene completion and</div><div>our approach SSCNet, whose goal is to produce a complete 3D voxel representation of</div><div>volumetric occupancy and semantic labels for a scene from a single-view depth map</div><div>observation. Third, we introduce the task of semantic-structure view extrapolation</div><div>and our approach Im2Pano3D, which aims to predict the 3D structure and semantic</div><div>labels for a full 360 panoramic view of an indoor scene when given only a partial</div><div>observation. Finally, we present two large-scale datasets (SUN RGB-D and SUNCG)</div><div>that enable the research on data-driven 3D scene understanding.</div><div>This dissertation demonstrates that leveraging a complete 3D scene representations</div><div>not only significantly improves algorithm's performance for traditional computer</div><div>vision tasks, but also paves the way for new scene understanding tasks that have previously</div><div>been considered ill-posed given only 2D representations.</div></div><br><p><br></p><br></div></div></body></html>