<html><body><div id="zimbraEditorContainer" style="font-family: garamond,new york,times,serif; font-size: 12pt; color: #000000" class="22"><div> <!--StartFragment--><p style="margin: 0px;" data-mce-style="margin: 0px;">Yinda Zhang will present his FPO "From Pixels to Scenes: Recovering 3D Geometry and Semantics for Indoor Environments" on Thursday, 10/25/2018 at 3:00 pm in CS 302.</p><p style="margin: 0px;" data-mce-style="margin: 0px;"><br data-mce-bogus="1"></p><p style="margin: 0px;" data-mce-style="margin: 0px;">The members of his committee are as follows:&nbsp;Thomas Funkhouser (adviser); Examiners: Ryan Adams, Olga Russakovsky, and Thomas Funkhouser; Readers: Szymon Rusinkiewicz and James Hays (Georgia Institute of Technology)</p><p style="margin: 0px;" data-mce-style="margin: 0px;"><br></p><p style="margin: 0px;" data-mce-style="margin: 0px;">A copy of his thesis is available upon request.</p><p style="margin: 0px;" data-mce-style="margin: 0px;"><br></p><p style="margin: 0px;" data-mce-style="margin: 0px;">Everyone is invited to attend her talk. The talk title and abstract follow below:</p><p style="margin: 0px;" data-mce-style="margin: 0px;"><br data-mce-bogus="1"></p><!--EndFragment--> </div><div><div>Understanding the 3D geometry and semantics of real environments is in critically</div><div>high demand for many applications, such as autonomous driving, robotics, and augmented</div><div>reality. However, it is extremely challenging due to imperfect and noisy measurements</div><div>from real sensors, limited access to ground truth data, and cluttered scenes</div><div>exhibiting heavy occlusions and intervening objects. To address these issues, this thesis</div><div>introduces a series of works that produce a geometric and semantic understanding</div><div>of the scene in both pixel-wise and holistic 3D representations. Starting from estimating</div><div>a depth map, which is a fundamental task in many approaches for reconstructing</div><div>the 3D geometry of the scene, we introduce a learning-based active stereo system</div><div>that is trained in a self-supervised fashion and reduces the disparity error to 1/10th</div><div>of other canonical stereo systems. To handle a more common case where only one</div><div>input image is available for scene understanding, we create a high-quality synthetic</div><div>dataset facilitating pre-training of data-driven approaches, and demonstrating that</div><div>we can improve the surface normal estimation and improve raw depth measurements</div><div>from commodity RGBD sensors. Lastly, we pursue holistic 3D scene understanding</div><div>by estimating a 3D representation of the scene, in which objects and room layout</div><div>are represented using 3D bounding box and planar surfaces respectively. We propose</div><div>methods to produce such a representation from either a single color panorama or a</div><div>depth image, leveraging scene context. On the whole, these proposed methods produce</div><div>understanding of both 3D geometry and semantics from the most  ne-grained</div><div>pixel level to the holistic scene scale, building foundations that support future work</div><div>in 3D scene understanding.</div></div></div></body></html>