master

分支 (17)

标签 (36)

管理

管理

master

imitation_prep_release

grasp_pytorch0.4+

trial_reward

height_squared

stack_height_classifier_v2

check_stack_rows

z_height_v2

stack_height_classifier

flops_counter

grasp_color_task

experience_replay

first_grasp

combined_model_weights

stack_classification

nouyang_throw_reboot

stack

v0.17.2

v0.17.1

v0.17.0

v0.16.5

v0.16.4

v0.16.2

v0.16.1

v0.16.0

v0.15.0

v0.14.0

v0.13.0

v0.11.0

v0.12.0

v0.2.2-any-stack

v0.10.0

v0.8.-1_rows_spott

0.10.0

0.9.0

v0.7.0-grasp-push-place-train

v0.7.0-grasp-push-train

good_robot
/
image_encoder.py

from typing import Tuple, List, Dict

import torch
import pdb

class ImageEncoder(torch.nn.Module):
    def __init__(self,
                 input_dim: int,
                 n_layers: int,
                 activation: str = "relu",
                 factor: int = 4,
                 dropout: float = 0.2,
                 flatten: bool = False):
        super(ImageEncoder, self).__init__()

        self.input_dim = input_dim
        self.factor = factor
        # will be set later
        self.device = torch.device("cpu")
        self.flatten = flatten

        output_dim = 2

        self.n_layers = n_layers
        self.activation = torch.nn.ReLU() if activation == "relu" else torch.nn.Tanh()
        self.dropout = dropout

        layers = []
        factor = 2
        kernel_size = 3
        maxpool_kernel_size = 3
        stride = 1
        output_wh = 64

        for i in range(self.n_layers):
            layers.append(torch.nn.Conv2d(input_dim, output_dim, kernel_size, stride=stride, padding = 0))
            output_wh = (output_wh - (kernel_size-1))
            layers.append(self.activation)
            layers.append(torch.nn.MaxPool2d(maxpool_kernel_size))
            output_wh = int((output_wh - (maxpool_kernel_size-1) - 1)/ maxpool_kernel_size) + 1

            layers.append(torch.nn.Dropout2d(p = self.dropout))
            #input_dim = output_dim
            #output_dim = max(16, int(input_dim / factor))

        # infer output size
        #self.output_dim = output_dim * output_wh**3
        if self.flatten:
            self.output_dim = output_wh * output_wh * output_dim
        else:
            self.output_dim = output_dim

        self.layers = torch.nn.ModuleList(layers)

    def forward(self, inputs):
        bsz,  width, height, n_labels = inputs.shape
        #outputs = inputs.reshape(bsz, n_labels depth, height, width)
        outputs = inputs.to(self.device)
        for layer in self.layers:
            outputs = layer(outputs)

        # flatten; will error out if shape inference was wrong
        # flatten
        if self.flatten:
            outputs = outputs.reshape((bsz, 1, -1))
        return outputs


def infer_kernel_size(input_dim,
                      output_dim,
                      stride = 1,
                      input_padding = 0,
                      output_padding = 0,
                      dilation = 1,
                      initial_size = 1):
    num = output_dim - (input_dim - 1) * stride + 2 * input_padding - output_padding - 1
    frac = num/dilation + 1
    frac = int(frac) - (initial_size-1)
    return frac

def get_deconv_out_dim(input_dim,
                      kernel,
                      stride = 1,
                      input_padding = 0,
                      output_padding = 0,
                      dilation = 1):
    return (input_dim - 1) * stride - 2 * input_padding + dilation * (kernel - 1) + output_padding + 1

class FinalClassificationLayer(torch.nn.Module):
    def __init__(self,
                 input_channels: int,
                 hidden_dim: int,
                 n_classes: int,
                 depth: int = 4):
        super(FinalClassificationLayer, self).__init__()
        self.input_channels = input_channels
        self.n_classes = n_classes

        self.linear_1 = torch.nn.Linear(input_channels, hidden_dim)
        self.act = torch.nn.ReLU()
        self.linear_2 = torch.nn.Linear(hidden_dim, n_classes)
        self.depth = depth

    def forward(self, encoded_image):
        bsz, n_channels_by_depth, width, height = encoded_image.shape
        n_channels = int(n_channels_by_depth/self.depth)
        encoded_image = encoded_image.reshape(bsz, width, height, self.depth, n_channels)
        encoded_image = self.linear_1(encoded_image)
        encoded_image = self.act(encoded_image)
        encoded_image = self.linear_2(encoded_image)
        encoded_image = encoded_image.reshape(bsz, self.n_classes, width, height, self.depth)
        return encoded_image

class DeconvolutionalNetwork(torch.nn.Module):
    def __init__(self,
                 input_channels: int,
                 num_blocks: int,
                 num_layers: int = 3,
                 dropout: float = 0.2,
                 flatten: bool = False):
        super(DeconvolutionalNetwork, self).__init__()
        self.input_channels = input_channels
        self.num_layers = num_layers
        # will be set later
        self.device = torch.device("cpu")

        self.activation = torch.nn.ReLU()
        self.dropout = torch.nn.Dropout3d(p=dropout)
        layers = []

        #kernel_size = (int(64/(self.num_layers-1)), int(64/(self.num_layers - 1)), 2) #max(1, int(4/self.num_layers)))
        #kernel_size = 4
        xy_input_dim = 1
        z_input_dim = 1
        xy_output_dim = max(1, int(64/self.num_layers))
        z_output_dim = max(1, int(4/self.num_layers))
        output_channels = max(1, int(input_channels/2))

        for i in range(num_layers):
            xy_kernel = infer_kernel_size(xy_input_dim,xy_output_dim)
            z_kernel = infer_kernel_size(z_input_dim, z_output_dim)
            kernel_size = [xy_kernel, xy_kernel, z_kernel]

            layers.append(torch.nn.ConvTranspose3d(input_channels, output_channels, kernel_size, padding=0))
            layers.append(self.activation)
            layers.append(self.dropout)
            xy_input_dim = xy_output_dim
            z_input_dim = z_output_dim
            xy_output_dim += xy_output_dim
            z_output_dim += z_output_dim
            input_channels = output_channels
            output_channels = max(1, int(output_channels/2))

        self.output_dim = xy_output_dim
        # per pixel per class
        #conv_last = torch.nn.ConvTranspose3d(output_channels*2, num_blocks+1, 1, padding=0)
        conv_last = FinalClassificationLayer(output_channels*2, output_channels * 4, num_blocks + 1)

        #block_to_move_classifier = FinalClassificationLayer(output_channels * 2 * 64 * 64 * 4, output_channels * 2, num_blocks + 1)

        layers.append(conv_last)
        self.layers = torch.nn.ModuleList(layers)
        self.flatten = flatten

    def forward(self, encoded):
        encoded = encoded.to(self.device)
        if self.flatten:
            bsz, input_dim = encoded.data.shape
            # reshape [bsz, 4, 4, input_dim/8]
            encoded = encoded.reshape((bsz, -1, 1, 1, 1))

        for layer in self.layers:
            encoded = layer(encoded)
        # output: [batch, width, height]
        output = encoded.reshape((bsz, 21, 64, 64, 4))
        return output


class DecoupledDeconvolutionalNetwork(torch.nn.Module):
    def __init__(self,
                 input_channels: int,
                 num_blocks: int,
                 num_layers: int = 3,
                 dropout: float = 0.2,
                 flatten: bool = False,
                 factor: int = 2,
                 initial_width: int = 1):
        super(DecoupledDeconvolutionalNetwork, self).__init__()

        self.input_channels = input_channels
        self.num_layers = num_layers
        # will be set later
        self.device = torch.device("cpu")

        self.activation = torch.nn.ReLU()
        self.dropout = torch.nn.Dropout2d(p=dropout)
        self.initial_width = initial_width
        self.flatten = flatten

        layers = []

        xy_input_dim = initial_width
        xy_output_dim = max(1, int(64/self.num_layers))
        #output_channels = max(1, int(input_channels/2))
        output_channels = input_channels * factor

        for i in range(num_layers):
            xy_kernel = infer_kernel_size(xy_input_dim,xy_output_dim)
            kernel_size = [xy_kernel, xy_kernel]

            layers.append(torch.nn.ConvTranspose2d(input_channels, output_channels, kernel_size, padding=0))
            layers.append(self.activation)
            layers.append(self.dropout)
            xy_input_dim = xy_output_dim
            xy_output_dim += xy_output_dim
            input_channels = output_channels
            # output_channels = max(1, int(output_channels/2))
            output_channels = output_channels * factor

        # take output and split into 4 channels for height
        final_conv_layer = torch.nn.Conv2d(int(output_channels/factor), output_channels*4, kernel_size = 1)
        layers.append(final_conv_layer)

        self.output_dim = xy_output_dim
        # per pixel per class
        class_layer = FinalClassificationLayer(output_channels, output_channels*2, num_blocks + 1)
        layers.append(class_layer)
        self.layers = torch.nn.ModuleList(layers)

    def forward(self, encoded):
        encoded = encoded.to(self.device)
        # encoded: [batch, seq_len, input_dim]
        bsz = encoded.data.shape[0]
        if self.flatten:
            # reshape [bsz, 4, 4, input_dim/8]
            encoded = encoded.reshape((bsz, -1, 1, 1))

        for layer in self.layers:
            encoded = layer(encoded)
        # output: [batch, width, height]
        output = encoded.reshape((bsz, 21, 64, 64, 4))
        return output